特卖场景下的大数据平台和机器学习实践

  • zhoubing
  • 2015-08-30 15:59:00
  • [原创] Doit.com.cn

[导读]8月30日下午,由七牛公司主办的主题为数据重构未来的七牛·数据时代峰会在上海国际时尚中心继续举行。贝贝网大数据负责人周黄玲就电商大数

8月30日下午,由七牛公司主办的主题为“数据重构未来”的“七牛·数据时代峰会”在上海国际时尚中心继续举行。贝贝网大数据负责人周黄玲就电商大数据的应用发表了自己的精彩观点,以下为现场实录:

\
 
主持人:下一个主题大家非常关心的,我们下面有很多是来自创业公司。很多的创业公司,每一个人都要负责非常多的事,技术,开发,运维都要关心,很多的小公司,可能搜集了很多的原始的数据,怎么样把这些价值挖掘出来,相信很多技术的朋友关心的话题。
 
这次我们的这个主题,以数据为源,分析数据的加强,我们也特别的邀请了行业里面非常成熟的案例,参考他们的成熟的案例,快速的建设我们的技术体系,发挥我们技术的价值。第一个分享是来自贝贝网的大数据负责人,和大家分享一下在电商行业里面的典型的案例,大家欢迎。
 
周黄玲:大家下午好。我是周黄玲,来自贝贝网,贝贝网是一家专注母婴特卖的电子网站,很高兴和大家一起分享大数据平台和技术实践。我就读北京邮电大学,2012年加入搜狗,2014年加入天猫,现在是在贝贝网负责大数据相关的工作,我们先看一下。母婴特卖相对一般的电子商务网站有一些什么特点,我这里总结了三个,第一个特点是商品周期短,在我们网站上的商品,在线的时间不会超过5-7天,第二个是用户需求的变化快,在母婴行业,可能是用户的需求变化最快的领域,比如是用户处在怀孕当中,关心的是孕妈的一些问题,几个月以后,随着宝宝的落地,就会准备一些纸尿裤和奶粉,而且随着宝宝的长大,纸尿裤和奶粉的类型也会变化。
 
第三个是移动化,我们有80%的成交是来自移动端的。手机端的屏幕非常的小,可以给客户的信息非常的有限,所以需要我们帮助用户找他有兴趣的东西。我们希望为网站的活动提供大数据的支撑,第二个是个性化的推荐,搜集用户的行为,全面的了解用户的购物意图,推荐用户感兴趣的商品。
 
这是我们的架构图,最下面的是我们的数据搜集,这一部分的话,等一下会有一个介绍。我们用的是离线结果,时时计算,以后搜索引擎,在算法层有协同过滤,分类产生一些用品的商品特征,以后排序的模型。在业务层的话,业务的类型是丰富多彩的,我们会融入一些运营的规则进行调整,包括一些个性化的调整和推荐,以及营销。
 
右边数据报表我们有面向运营的,面向商家的,我们会涉及用户的浏览日志,在PC上的一些行为,比如是用户浏览了一些什么商品,电极了一些什么商品,对消费也有二种方式,一种是实时消费,另外是进行数据的挖掘。一住是基于全面的拉取,这种方式会在每天的凌晨进行一次统计,但是这种方式会有一天的延时,比如是今天上线的活动,可能明天才知道这个活动的效果,因为我们研发了一套实时的数据研发系统,任何需要实时消费的系统,只要订阅三个就可以了。
 
分布式的调度是我们的核心,在我们的大数据平台处于一个指挥的作用,比如是任务管理,任务监控和任务日志,我们研发了一套分布式的系统,里面有二种角色。Master主要是负责任务的管理,任务的分配,任务的执行,任何的Master挂掉,都不会影响我们系统的运营。
 
在我们的整个的平台上,很大一部分是推荐的产品,第一类是个性化的排序,个性化排序的特点是在侯选级的情况下,根据用户的不同的购物的用途,为用户做个性化的排序,用户到达我们网站的时候,我们会推荐所有在线的品牌特卖,比如是一天500个,根据用户的购物的意图,做个性化的数据。
 
第二个是关联推荐,比如是推荐和这个商品相似的商品,购买的商品可以推荐搭配的商品。第三个是个性化推荐,给指定的用户推荐他感兴趣的商品,比如是在用户的资料的页面,我们会直接给用户推荐他感兴趣的商品。
 
除了这三种推荐的形式,包括我们会通过个性化的短信,个性化的推送,引导用户到我们的平台,我们会给用户推荐感兴趣品牌,我们会对商品进行个性化的排序,还会有相似商品的推荐,用户交易的环节,还会推荐和这个商品搭配的商品,包括周期购买预测等。
 
为什么会有这种推荐,可以从二个方面来看,一个是我们网站本身是一个轻搜索重推荐的模式,在我们的网站上搜索的功能是非常的弱化的,我们最近的上线的搜索框也很不明显,这是一个推荐商品非常重要的渠道,从推荐的本身来说,也可以看到它的三个方面价值,提升用户的购物的体验。帮助商家找到感兴趣的用户,也可以提高他的销售额,对整个平台来说,只有服务好用户和商家,才能得到一个比较好的持续的发展。
 
推荐这么的重要,最重要的是用户画像,这是我们的吉祥物贝贝,我们会对它进行二个部分,一个是静态的画像,比如是性别,年龄,宝宝的年龄性别,以及一些动态的画像,比如品牌,购买时间,购买渠道等等,我们的这个行业里面,最重要的一个特征就是用户的性别年龄,不同的宝宝的性别年龄会影响到购物的偏好,很大的一部分的妈妈是填写了一些用户的信息的,比如说宝宝的年龄是0-1岁,可以利用这个用户的行为特征,比如是它的浏览次数,收藏次数,有了这样子的模型,就可以来填写宝宝年龄的预测。
 
第二套很重要的标签是购物偏好,主要是提到的一些动态标签,比如是品牌内部等等,我们会统计用户在我们的平台上的一些行为,根据这些行为的成本给予不同的选中,包括浏览电极,启发式的做法非常的简单,也是非常的容易理解,这些参数不好确定,这个时间的衰减应该做如何的衰减的程度。
 
我们现在正在用机器学习的方式做用户的偏好预测,把用户当前的购物的偏好做特征来进行一些购物的偏好。有一个很重要的推荐的类型是个性化的排序,当用户到了我们的PC首页的时候,会展现每天500个在线的专场,用户很难通过翻页的方式来浏览所有的品牌,我们有一套规则的算法,模型有非常多的特征,可以考虑非常多的因子,规则往往是只有几个关键的因子,比如是会把GMA往前排,规则是靠经验和参数的。已经形成了一个优化的问题。还有模型很方便加入用户的特征做个性化的特征。
 
第一档就提升了6%,至于怎么样做,这个就是一个学习的流程,主要是离线和在线二个部分,在线系统搜集到了排序以后,也会根据用户的ID和品牌的ID,构建同样的特征和模型进行组合,就可以得到用户对每一个平台的分数。
 
那特征是这里面最重要的一部分,有属性特征,主要是各种维度的特性,还有是统计特征,还有偏好特征,偏好特征是我们做个性化推荐的最基本的推荐,这个是和用户有关系的,比如是用户的画像。在这里面,我们做了很多的尝试,刚开始的时候,有点击率,点击率很好做,我们发现点击率的提升和我们的GMA的提升不是完全一致的。我们用过分类和排序的算法,排序的算法会好一点,分线型的模型也会更有优势一点。
 
我们到了电商网站的时候,肯定遇到过这样子的产品,你看过的商品可能是感兴趣的商品,在这个行业里面有很规律的算法,但是在母婴特卖里面,有它自己的特点,它的商品每一行是代表了一个用户,每一列是代表的一个商品,第一周上线的商品第三周上线的时候,另外二个已经是下线了,第二个特点是在线的商品比较少,就会把举证压缩,这样子的话,对这个举证会变的不这么的稀疏。第三个是这个行业的特点,比如是宝宝的性别,宝宝的年龄是否是一致的,如果是一致的话,那是否有一个持续性。1-3岁的话,还可以,但是如果是对一个1-3岁的商品,可能就不大合适的。
 
我们根据这些特点做了一些改进,比如是我们有做时间,热门打压。相同的协同过滤的算法可能会不在线,一种是机遇标题和描述的相似度,还会加上运营的规则,是否匹配,有一些地方可以推荐同品牌,有一些可能推荐其他的品牌。
 
虽然我们刚才说的对算法进行了改进,单一的算法总是有一些局限性,因此我们现在正在做的是把多个算法结合在一起,比如是浏览的CF,购买的CF加上用户的特征,进行一个个性化的重新排序,我们正在研究这么一套新的流程。
 
我们第一档上线以后,可以看到在各个资源上都取得了很大的提高了,部分的资源上甚至是提高了500%的提升,我相信我们新的个性化的排列上线以后,会有更大的提升。
 
如果你购买了一个商品,再推荐一个相似的商品,这是不合理的推荐,用户购买了一个商品以后,比如是够末了C1以后,购买C2是一个简单的记数,比如是买奶嘴的用户里面,39%的用户会买奶瓶,买了纹胸的用户里面,有20%的会买内裤,买了纸尿裤的用户会有30%买湿巾。
 
还有个性化的推荐的工作,但是还不完全一样,主要是有一个很严重的痛点,经常会收到一些短信的推送,可能是一些打扰的工作,但是在我们的平台上,我们的运营也遇到了同样的痛点,他们想搞活动的时候,他们也很难确定目标用户是什么,所以他们确定了精准营销的框架,能够帮助运营,选出他的目标用户,在适合的时间发送感兴趣的商品
 
我们首先是会对用户打上标签,通过投放的请求,动态生成Hive,我们会返回目标用户以及时间。我们在用户的拉新方面也做了一部分的工作,我们平台的业务的发展非常的迅速,我们吸引了一部分的用户以后,我们希望把用户转化成购买用户,一个是根据用户注册时候的静态画像,对用户做个性化的配置,整体的转化率是10%以上。虽然我们在这一方面已经做了一些尝试,但是未来还有更多的可以探索的地方,一个是在数据的方面,刚才提到的个性的推荐是,首先是会更加的全面和精准的把画像做的更准确。第二个是时效性的方面,需要快速的捕捉客户的需求。在模型方面,我们也会投入更多的精力,通过在线的方式更新我们的模型,应用的话,双十一也快到了,我们希望我们的个性化的算法也可以发挥一些作用,以及在商家端做一些尝试,帮商家做一些预测等等。
 
说了这么多,最后介绍一下我们公司,我们是贝贝网,这是我们的妈妈的特卖会,我们是一家专注于母婴特卖的公司,成立于2014的4月,去年4月份上线以来,今年1月份完成了C轮的融资,我们的工作地点在杭州,对杭州兴趣的同学可以联系我,下面是联系方式,谢谢大家。


热点文章

精彩专题

微信公众平台:搜索"doitmedia"
或扫描下面的二维码:


  1. 公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心
  2. Copyright © 2013 DOIT Media, All rights Reserved. 百易传媒 版权所有.
  3. 电信与信息服务业经营许可证:030972号 电信业务审批 [2009]字第572号
  4. 京ICP备13004627号-3   京公网安备: 110105001105