专栏:数据分析侠

原文:http://zhuanlan.zhihu.com/origin/p/20823691?refer=dataman

—————————————禁止转载————————————————————

最近事情实在是比较多,要给几家公司做一下数据化运营的培训,另外还有不少金融投资领域的研究报告要交。有合作的需求可以发邮件到784414374@qq.com邮箱。和BOSS直聘的总监聊了下,了解到现在的BOSS很多对数据部门或者数据岗位的定位都不太清楚,准备策划一期围绕数据化运营的线下活动。

现在有家创业公司想做类似视频搜索的这样idea,所以也是正好有机会在一起交流下这块的内容。主要围绕的就是短视频(新闻热点&秒拍&topic主题分类的短视频)的个性化推荐,之前是用过的视频,优点就是没有广告&同一topic的可以推很多,缺点作为我使用的体验来说就是一些内容质量上不够优质(比如看车展类的,一些主流媒体的推的很少)。

而作为视频类的网站国外有netflix、hulu这些做的比较好的,产品、架构、数据、算法这些思路上都有一些经验总结,13年的时候郑华介绍了hulu的产品、数据、算法、框架,这里没有移动端的数据。

hulu提供的内容都是premium content,数据是和youtube等以UGC内容为主的网站是截然不同。对推荐系统来说,这既是一个挑战同时也是一个机遇。大概提供5000个左右的title,20万个video,4万个小时的内容,大体上可以分为两类,一种是已经下线的叫做library content,包括比较老的一些电视剧比如Prison break, 24, Lost, X档案,Friends等和一些电影比如这个杀手不太冷,战争之王等,另外一种是现在还在电视台上播放的tv show,比如绝望的主妇,Lie to me, House以及火影忍者疾风传等。从统计图表上可以看出来,我们90%都是library show,on air show仅占10%,这个也是可以理解的,所有的正在播的tv show可能也就几百部,在中国这个数目可能更少。但是从流量上看,on air show却占我们总流量的74%,on air show代表了更大的价值,同时library show也代表了我们还有很大的机会。

给用户推荐的第一步是要了解用户。需要收集用户的行为从中了解用户的兴趣.Hulu的用户从总体上来看并不是很活跃,新注册用户会有demographic和他们自己favorite show和movie, 可以用来作为冷启动;一般的用户在hulu上至少会有观看和搜索行为,高级一点的用户会有subscribe和queue行为,再资深一点的用户会vote, 分享和tag,评论他们自己感兴趣的东西,基本上这些就是使用的所有的用户行为,各种行为会有不同的权重。并且从时间上也把这些行为分成长期的行为和短期的行为,短期行为反应了用户最近的兴趣,也会有更高的权重。用户看到我们的推荐结果,也会有不同的显式或隐式反馈,也会使用用户的这些反馈来作为推断他的兴趣。

从算法的角度讲,使用了基于item cf,content,topic model和demographics的混合推荐; 其中在item cf中的一个体会是数据量的大小决定了生成的item 相似度矩阵的质量,拿数据举例子,尽管vote行为可能更能反应用户的喜欢程度,但是他的量远远不如watch行为,watch行为生成的矩阵质量是更高的。(质量高是有manual的测试集测试了coverage能够的和precision)。在介绍item特点的时候也介绍了,很多的on air show是超级popular的,比如SNL, family guy在计算item similarity的时候很容易出现 harry porter现象,hulu也通过refine相似度公式对popular进行了一些惩罚,实际使用的时候效果还不错。Content相关主要使用了item的genre, title, company, tag和年代信息;还从用户的行为中(user – document; show – word; cluster show, extract common tags)用LDA算法聚合了一些topic,代表了不同的纬度,比如有日本武士片,英国喜剧等,在实际使用的时候效果还不错。

最后就是hulu的流量来源50%都是来自推荐系统,还是蛮给力的。多样性和相关性之间需要做一些平衡,多少位置放相关的视频,但也要保障有一些其他的内容来推荐。

先睡了!

有什么问题给我发email:784414374@qq.com

——————————————禁止转载————————————————————