新闻动态
NEWS CENTER
NEWS CENTER
2019-04-26
算法方式是根据数据特性将数据基于模型处理后量化用户价值,分划分高低维度、量化用户价值两步。
根据数据分布情况将数据分为高低两组,这里区分的方式一般采用四分位数(将一组数据由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。处于正中位置的数字就叫做中位数,如果数组个数为奇数个,则中位数为排序后中间的一个数,如果数组个数为偶数个,则中位数为排序后中间两个数的平均数。),而不是评分制的平均数。
分位数相对于平均数应用场景更广,由于大部分数据都呈现长尾分布,80%甚至90%以上都集中在低频低额区间,少数的用户提供了大部分销售,采用平均数无法很好的体现数组的特性,长尾用户很容易被平均,
下面举个例子:土豪身价2个亿,屌丝产品经理身价20万,两人平均后,平均身价1个亿……
例子并不恰当,但是能看出在数据呈现长尾分布的场景中,平均数在很多场景并不合适,而采用四分位数时,可以根据数据分布情况,选择中位数、四分之一位数或者四分之三位数,然后高于则划分为高纬度,低于则划分为低纬度。
这里有一点需要注意!
由于R值的大小和用户价值呈现反比,所以高于分位数的时候算低纬度,低于分位数时算高纬度。
首先解决R、F、M三值量级不均衡的问题,然后计算RFM总值量化用户价值。可将三组数据分别无量纲化处理映射至0到1的区间在合理放大然后相加。很多同学一听到算法就晕了,我挑选了这个方法中最简单的一种,只用到了我们初中所学的数学,逻辑非常简单,下面我为大家介绍min-max归一化。