小白入门数据分析
来到传统私企后,发现很多人还停留在明细数据的阶段。相对好一些的,却是被毒害的青年,开局RFM、帕累托,然后解密宇宙。
提起数据分析,很多人容易陷入过于复杂的模型和工具中,为了“打破迷信”也为了有一份相对能看的数据,决定写一篇易于理解的保姆级实践指南。
01 数据科学,不是量子力学
无论多么高大上的语言或工具,数据分析绕不过这3点:获取数据、清洗数据、理解数据。
它的难,难在热搜里充斥着不实用和听不懂。
接下来用一个案例来正式开启这篇文章:
案例背景:你需要为景区设计文创产品,但不清楚哪类文创产品受欢迎。你想通过分析文创产品的类型、价格和销量等数据来获取灵感。比如,哪些类型的文创产品卖得最好?价格与销量之间是否存在相关性?
数据需求:销量排名前100个商品数据,包含名称、分类、价格、销量、用途、人群、材质、风格。
02 获取原始数据,减少无效需求。
我们总觉得平台取数速度太慢,或者研发诸多刁难,其实是要了太多没用的数据。
在提需求时,要再三问自己:是否有必要、是否有替代方法。
其次请要原始数据,要更少的原始数据。
通过控制数据提取的范围,减少处理冗余信息的计算和人工负担。而原始数据便于组合,但结果数据不仅提取复杂,也很难二次加工。
在获取了数据后,先不要着急进行数据分析,因为原始数据往往是杂乱的。
如果不清洗数据,后续的分析结果很可能会失真或者错误。只有数据“干净”了,分析工具和模型才能发挥作用。
接下来,让我们看看如何进行数据清洗,让它变得“可读”和“可用”。
03 清洗到你看得懂,机器才看得懂
工具层面,我建议使用飞书多维表格,后续的图形化也更加方便。
1、数据清洗
首先清理无用的关键词,例如:“故宫”、“文创”、“官方旗舰店”等。
清洗过后,不仅提高了阅读体验,也降低了机器处理数据的算力需求。
必要时,可以增加其他的清理手段,例如:补全空值或统一标签格式,确保数据清晰规范。
2、数据分类
2-1、特征提取
第二步,我们要提取有价值的特征。例如商品标题中的节日、用途、人群。
最简单的方式是使用飞书的字段捷径进行智能标签,但对于这类容易标准化的数据,更好的方法是函数提取。
例如REGEXEXTRACTALL函数:
REGEXEXTRACTALL([商品标题], “教师节礼物|生日礼物|乔迁礼物|儿童节礼物|结婚礼物|创意礼物|伴手礼”)
这个函数从商品标题中提取匹配的礼物类型,将其转换为“用途标签”。
提取标签后要注意再次清除相关关键词。
2-2、数值分类
在分析品类价格分布时,稀疏的价格数据无法帮助我们有效识别问题。
但如果我们将价格收窄为区间,数据就会变得集中,便于我们的分析。
IFS( [商品价格] <= 50,”50以下”,[商品价格]<=100,”100以下”,[商品价格]<=200,”200以下”,[商品价格]<=500,”500以下”,[商品价格]<=10000,”500以上”)
除了AI,更方便的方法是使用IFS函数。它会把价格匹配范围内的数值,归类到对应的区间。
通过清洗和分类,我们和机器都看得懂了,那就能进行下一步分析了。
04 分析好好拧螺丝,不要造火箭
分析常用的图表是:趋势图、饼图、柱状图、条形图还有词云,它们能应对80%的问题,就别再波特五力我了…..
趋势的波动让我们更快发现问题,而占比及变化帮助我们聚焦重要的问题。组合图的交叉、下钻分析则是进一步识别问题了。
回到我们的分析问题上。
1、文创的类型、销量、价格
通过分析饼图可以发现:销量占比与分类占比大致匹配。
但在“其他”分类中,纸袋的销量有2万个,导致数据失真。
因此我剔除了纸袋类商品,重新分析装饰、文具、器皿等主要品类的销售情况。
品类主要集中在装饰(29.4%),文具(22.6%),器皿(20.17%),品类多的也是卖得好的。其中,平均价格最高的是器皿(210元),最低的是文具(76元)。
2、销量与和价格的关系
将商品收窄至分类进行后续分析,注意到右上角的按钮了吗?飞书文档生成的图表能够进行智能分析,帮助我们进一步提效。
洞察:
不同分类商品中,器皿的商品价格最高(210),但销量并非最高(877)。
首饰的商品价格(154)处于中等水平,销量(506)相对较低。
分析:
价格和销量的相关性较弱。以器皿为例,虽价格较高,但销量可观;首饰价格中等,销量却较低。这表明价格并非决定销量的唯一因素,可能受产品特点、市场定位等影响
飞书多维文档
3、用途、人群、材质对价格和销量的影响
洞察:教师节礼物的销量达到 1012,为所有用途中最高。
儿童节礼物的商品价格仅为 35,相对较低。
分析:
用途、价格和销量存在一定相关性。例如,价格较高的中秋礼物销量为 700,而价格较低的儿童节礼物销量为 400。教师节礼物价格并非最高但销量突出,可能因其更符合市场需求或推广更有效。
整体上,价格与销量呈正相关,较高价格商品往往有相对较高的销量。
细分用途后,价格和销量相关性结论不一样了,我们可以用相同的办法去验证人群、材质、创意的影响。
基于标签生成的词云,创意部分非常奇怪,这也说明了非标的数据不适合直接提取。
最后就是输出建议了,分析必须要有观点和建议。
观点:
1)装饰、文具、器皿品类表现优异:生产得多也卖得好,装饰品类销量占比最高,达到29.4%;
2)销量和价格关系较复杂:整体上非强相关,部分高价值的商品如器皿销量可观,但其他类别没有呈现相关的特点;
3)节日影响显著:教师节销量(1012件)明显领先,价格较高的中秋礼物也表现不俗(700件),特定节日对销量有较大推动作用;
4)人群、创意数据参考意义不大:标题由于SEO仅部分有明确目标人群,创意词云较为混乱,建议选择品类Top5销量的产品定向查询。
建议:
1)考虑到定制化成本,建议在装饰、文具品类发力;
2)结合词频,前期建议优先设计泛人群的日常产品,如出行使用的包袋、家居摆放的装饰等,减少季节性和节日波动对销量的影响;
3)此外,可以基于节日主题开发成本低、生产快的产品,如圣诞节冰箱贴。
05 最后
在业务量没有到达一定级别的时,别花太大的力气在高深的名词上,而且很可能名词都找错了,其次站得高不一定看得远。
当到了那个级别,我相信也会请专门的数据分析师来做这件事情,希望不同岗位的同学看了这篇文章后能够快速入门。