新闻动态
NEWS CENTER
NEWS CENTER
2024-07-30
首要是做增长方向的,平常工作中首要依据问题做数据剖析,大部分时候都是怎样快怎样来,很少有各种东西、各种剖析办法全来一遍的;所以本次借剖析“淘宝用户行为数据集”为事例,整理一下自己的数据剖析技术。
本文以“淘宝用户行为数据集”的剖析全过程为例,展现数据剖析的全过程。
目录如下:
当没有明晰的数据看板时咱们需求先清洗凌乱的数据,依据剖析模型做可视化,搭建描绘性的数据看板。
在没有很明确问题或问题很多很杂乱的情况下,直接看凌乱的源数据不仅功率很低,也很难得到有价值的信息。
然后依据描绘性的数据挖掘问题,提出假定做优化,或许依据用户特征数据进行猜测剖析找规则,依据规则规划战略。
简略来说:
在数据剖析中有两个典型的场景:
一种是有数据,没有问题,需求先全体剖析数据,然后再依据初步的描绘剖析,挖掘问题做确诊性剖析,提出假定,规划战略解决问题。
另一种是已经发现了问题,或许已经有了假定,这种做数据剖析更倾向于验证假定。
本次是对“淘宝用户行为数据集”进行剖析,在剖析之前咱们并不知道有什么问题,所以需求先进行描绘性剖析,剖析数据挖掘问题。
咱们首先来看下这个数据集的元数据:
数据集包括了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的一切行为(行为包括四种:点击产品详情页、购买产品、将产品放入购物车、保藏产品)。
数据集的每一行表示一条用户行为,由用户ID、产品ID、产品类目ID、行为类型和时刻戳组成,并以逗号分隔。
本数据集包括:用户数量987994、产品数量4162024、产品类目数量9439;一切行为数量100150807。
依据以上数据字段咱们能够拿用户行为为主轴从纵深方向提出一些问题,然后再从数据中找答案