申请专栏作者 参展
投稿发布
您的当前位置:主页 > 机器学习 > 正文

快看漫画个性化推荐探索与实践

来源: 时间:2019-09-16
请支持本站,点击下面的广告后浏览!

 

本次分享的主题是快看漫画个性化推荐探索与实践,主要包括: 可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

  • 业务介绍

    可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

  • 技术挑战 可思数据sykv.com,sykv.cn

  • 技术探索 可思数据sykv.com,sykv.cn

  • 总结与未来规划

    可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

▌业务介绍

可思数据-人工智能资讯平台sykv.com

1. 关于快看漫画

可思数据-www.sykv.cn,sykv.com

可思数据sykv.com,sykv.cn

快看世界创立于 2014 年,旗下快看漫画 app 是中国新生代内容社区和原创 IP 平台,截止 2019 年 7 月总用户量已经突破 2 亿,注册用户量突破 1 亿,月活突破 4000 万,绝大多数用户属于高活跃、高粘性的 95 后、00 后,快看漫画今年被 QuestMobile 等机构评为“最受 00 后欢迎的产品”。

可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

很多人来到快看漫画,可能更多的是想看漫画,实际我们的内容不只是漫画,还有社区的 UGC 内容,从产品属性来讲虽然现在更倾向于漫画,但是我们在逐渐强化社区属性,也是未来重点的战略方向。所以,对于推荐来讲我们是长内容和短内容结合的。 可思数据sykv.com,sykv.cn

2. 快看漫画推荐业务****

可思数据-AI,sykv.com人工智能,深度学习,机器学习,神经网络

可思数据sykv.com,sykv.cn

上图为快看漫画的主要推荐业务场景,包括:首页个性推荐 tab,发现页推荐 tab,世界页推荐 tab,贴底相关推荐。画面会比之前好一些,对于推荐系统来讲,不光是技术、数据、算法,还和 UI/UE、领域知识相关。

可思数据-www.sykv.cn,sykv.com

内容形式包含:长漫画、短漫画、图文帖子、视频帖子等。

可思数据sykv.com,sykv.cn

我们在做的事情就是如何为 4000 万月活用户很好的分发长内容和短内容。 可思数据-www.sykv.cn,sykv.com

▌技术挑战 本文来自可思数据(sykv.com),转载请联系本站及注明出处

1. 内容形式多样**** 本文来自可思数据(sykv.com),转载请联系本站及注明出处

可思数据-www.sykv.cn,sykv.com

短内容(短视频、新闻资讯、用户帖子等)特点: 本文来自可思数据(sykv.com),转载请联系本站及注明出处

  • 占用用户碎片化时间,阅读时间短 可思数据-www.sykv.cn,sykv.com

  • 兴趣点通常单一

    可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

长内容(漫画、小说等)特点: 可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

  • 占用用户大块的时间,阅读周期长 本文来自可思数据(sykv.com),转载请联系本站及注明出处

  • 连续性、周期性、多章节多兴趣点

    可思数据sykv.com

针对多样的内容形式,我们面临的技术挑战:

可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

  • 技术上如何捕捉长内容的连续性、周期性、多兴趣点等特征? 本文来自可思数据(sykv.com),转载请联系本站及注明出处

  • 快看漫画既有长内容又有短内容,如何较好的融合两类内容?

    可思数据-人工智能资讯平台sykv.com

2. 内容风格独特

可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

快看漫画有大量的文本信息(帖子内容、弹幕、评论)和海量的图像信息(漫画图像、帖子图片),其带来的挑战为: 可思数据sykv.com,sykv.cn

  • 如何进行漫画类图像内容理解?图中古风的图片可能比较好理解,但是如何分辨校园和都市,通过图像是很难判别的。

    本文来自可思数据(sykv.com),转载请联系本站及注明出处

  • 独特的社区文化(比如二次元),新生代文化“暗语”(如上图帖子中的内容,对这方面不了解的人都很难理解,对于机器来说更难理解),给文本内容理解带来挑战。 本文来自可思数据(sykv.com),转载请联系本站及注明出处

▌技术探索:算法

可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

1. 推荐算法演进

可思数据-www.sykv.cn,sykv.com

可思数据sykv.com

如果现在界定为深度学习时代,各大公司的产品都已经上了深度学习模型,深度学习的效果是非常好的,但是它的平台搭建周期是非常长的,并且很难被解释,是一个黑盒的东西,看不到摸不到,很难干预。对于前深度学习时代,也就是传统机器学习模型来说,它的可解释性强,训练起来比较容易,并且容易部署。 可思数据sykv.com,sykv.cn

2. 快看推荐算法迭代

可思数据sykv.com

可思数据sykv.com,sykv.cn

快看推荐算法起步相对于推荐领域是比较晚的,但是相对于漫画垂直领域还是比较早的,我们在 2019 年以前更多的是基于内容的推荐,今年的上半年我们引入了协同过滤,同时 19 年到现在排序这块主要用到的是 XGBoost,未来我们会考虑深度学习。

内容来自可思数据sykv.com

3. 基于内容的推荐

可思数据-www.sykv.cn,sykv.com

可思数据-www.sykv.cn,sykv.com

基于内容的推荐,最大的难点在于对内容的理解,我们有比较专业的运营和内容团队,在做推荐之前已经有了一些比较基础和简单的标签,可以快速的应用起来,所以我们最早做的是基于内容的推荐。做内容推荐,我们需要有很好的内容理解,构造好物品的画像,另外,需要很好的理解用户的兴趣偏好,构建用户的用户画像,我们把两者很好的结合就可以得到推荐的结果。对于内容推荐来讲,它的可解释性也是比较强的,对于在内容方面有很深积累的公司,可以很快的构建起来。 内容来自可思数据sykv.com

① 快看漫画标签体系 可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

可思数据sykv.com,sykv.cn

快看漫画的标签体系,分为三个维度:

可思数据-AI,sykv.com人工智能,深度学习,机器学习,神经网络

  • 作品基础维度:搞笑、青春、治愈等

    可思数据sykv.com,sykv.cn

  • 用户分发维度:男性、女性、青少年等 可思数据-www.sykv.cn,sykv.com

  • 内容创作维度:青春成长、兄妹、学生等 内容来自可思数据sykv.com

即使有专业的标签团队来打标签,建立很好的标签体系也需要很长的周期过程,因为人和人之间的感受和认知是有差距的,如何把这些标准制定好,保证每个作品打的标签是无差别的,这是一个专业性很强的问题。(上图为我们去年比较火的作品,被拍成了电影)

可思数据sykv.com,sykv.cn

② 用户兴趣模型 可思数据sykv.com,sykv.cn

可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

做用户兴趣模型,需考虑:

可思数据-AI,sykv.com人工智能,深度学习,机器学习,神经网络

  • 相关行为:关注、点赞、评论、分享等 本文来自可思数据(sykv.com),转载请联系本站及注明出处

  • 行为粒度:会精确到关注的作品或具体某个章节 可思数据-AI,sykv.com人工智能,深度学习,机器学习,神经网络

  • 章节数量:章节数量不等,有的作品很长,有的作品很短,如何判断用户对一个感兴趣,对另一个作品不感兴趣

    本文来自可思数据(sykv.com),转载请联系本站及注明出处

  • 兴趣衰减:用户的兴趣是周期性的,会存在兴趣衰减的情况 可思数据sykv.com,sykv.cn

  • 作品热度:需考虑热门作品,大家都在看的内容

    内容来自可思数据sykv.com

③ 基于内容推荐总结

可思数据-人工智能资讯平台sykv.com

可思数据sykv.com,sykv.cn

基于内容推荐的总结,存在以下缺点:

可思数据sykv.com,sykv.cn

  • 非常依赖标签 可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

  • 推荐粒度较粗,如果用户兴趣单一的话,召回会不足 可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

  • 缺乏新颖性 可思数据sykv.com

但是,这是我们第一次上线基于内容推荐的模型,DAU 人均阅读次数率提升 35%,效果还是很不错的。 可思数据-AI,sykv.com人工智能,深度学习,机器学习,神经网络

4. 基于协同过滤****

可思数据sykv.com

本文来自可思数据(sykv.com),转载请联系本站及注明出处

之后,我们引入了协同过滤,下面为我们实现了的三种算法:

可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

  • 基于物品的协同过滤 (Item-Based),对于漫画来讲,作品数量不是特别大,可以很快的离线计算完成。

    可思数据-人工智能资讯平台sykv.com

  • 基于用户的协同过滤 (User-Based),由于我们有 4000 万的月活用户,做起来还是比较痛苦的,下面将重点介绍。

    可思数据-人工智能资讯平台sykv.com

  • 基于模型的协同过滤 (Model-Based)

    可思数据-人工智能资讯平台sykv.com

由于协同过滤都是基于矩阵来完成的,我们采用的是业界常用的 KNN 近邻算法。

可思数据-www.sykv.cn,sykv.com

① KNN 召回

可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

因为,基于用户的协同算法用户相似度计算量巨大,所以,针对 KNN 近邻算法,我们做了调研,对 Nmslib 和 Faiss 库做了对比: 可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

它们都是开源的,可能 Faiss 会比较知名一点,因为是 Facebook 开源的,它们的实现语言都是 C++,都实现了 Python 绑定,但是 Faiss 会支持 GPU,都实现了目前最快的 HNSW 分层索引算法,右边为网上找的两个算法在单机 CPU 上的 benchmark,训练集大概 100+W,维度是 200,查找的是 100 个近邻。大家可以看到,最外层绿色的线就是 Nmslib 实现的 HNSW 算法,紧接着深绿色的就是 Faiss 实现的 HNSW 算法,对比 Nmslib 会慢一点,再往下一条线是 Faiss 实现的 IVF 算法,它会稍微差一些,但是它可以支持 GPU 并行计算,所以按照 GPU 去考量,那么这个明显是胜出的,所以我们综合考虑,选择了 Faiss 作为近邻计算的基础库。 内容来自可思数据sykv.com

内容来自可思数据sykv.com

这里简单介绍下 Faiss 实现的算法。 可思数据sykv.com,sykv.cn

Faiss IndexIVFFlat 实现过程:

本文来自可思数据(sykv.com),转载请联系本站及注明出处

  • 训练 & 建索引

① 聚类(找到聚类中心存储在量化器 quantizer 中)

本文来自可思数据(sykv.com),转载请联系本站及注明出处

② 找到每个向量最近的聚类中心点 可思数据-AI,sykv.com人工智能,深度学习,机器学习,神经网络

③ 建立倒排 id (id 编号) list 可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

④ 建立倒排 code (真实向量的倒排索引) list 可思数据-AI,sykv.com人工智能,深度学习,机器学习,神经网络

  • 搜索 topK

① 搜出查询向量最近的 n 个聚类中心点 id 及对应的距离 可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

② 构建 k 个元素最大堆 可思数据-人工智能资讯平台sykv.com

③ Id 对应的倒排 list 每个向量计算距离后放入最大堆

可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

④ 堆排序,最后做堆排序就可以得到 TopK

可思数据sykv.com,sykv.cn


  • 本文地址:http://www.6aiq.com/article/1568618505543
  • 本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出
  • 知乎专栏 点击关注

下面的 Faiss IndexIVFPQ,相当于一个升级优化版本,实现更复杂些,会计算残差,通过构建二级索引实现计算的加速。整体来说,我们实现了 User-Based CF 的实时在线召回。

本文来自可思数据(sykv.com),转载请联系本站及注明出处

② 基于协同过滤总结 可思数据sykv.com,sykv.cn

可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

协同过滤上线后,DAU 人均阅读次数提升了 31%,同时协同过滤存在的缺点为: 可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

  • 倾向于推荐热门内容 (当然可以通过一些方法对热门内容进行打压)

    本文来自可思数据(sykv.com),转载请联系本站及注明出处

  • 对新用户和新内容不友好

    可思数据sykv.com,sykv.cn

  • 相似矩阵的计算量大 (可以通过 ANN 的方式来解决) 可思数据-人工智能资讯平台sykv.com

5. 召回排序模型 可思数据-www.sykv.cn,sykv.com

可思数据sykv.com,sykv.cn

我们有了基于内容的召回,基于协同过滤的召回,每个召回都有自己的排序结果,我们会考虑如何把这些结果合并起来,前期是基于规则的,后期我们采用 CTR 预估的方式,使用传统的召回 + 排序的结构。

可思数据-AI,sykv.com人工智能,深度学习,机器学习,神经网络

① 常用 CTR 预估算法 可思数据-www.sykv.cn,sykv.com

可思数据-人工智能资讯平台sykv.com

常用的 CTR 预估算法有:LR、FM & FFM、GBDT (树模型)、DNN (深度神经网络)。 可思数据sykv.com,sykv.cn

LR 模型 可思数据sykv.com,sykv.cn

优势: 可思数据-人工智能资讯平台sykv.com

  • 模型简单,善于处理离散化特征 (包括 id 类特征)

    可思数据-AI,sykv.com人工智能,深度学习,机器学习,神经网络

  • 容易实现分布式,可处理大规模特征和样本集

    可思数据-www.sykv.cn,sykv.com

劣势: 可思数据-www.sykv.cn,sykv.com

  • 特征需要离散化 可思数据sykv.com,sykv.cn

  • 特征之间在模型中是孤立的,需要做大量特征工程来做特征交叉

    可思数据sykv.com,sykv.cn

XGBoost 模型 可思数据-www.sykv.cn,sykv.com

优势:

本文来自可思数据(sykv.com),转载请联系本站及注明出处

  • 树模型具有一定的组合特征能力 可思数据sykv.com

  • 善于处理联系特征,可进行特征筛选,人工特征工程量少 本文来自可思数据(sykv.com),转载请联系本站及注明出处

劣势: 可思数据-www.sykv.cn,sykv.com

  • 具有很强的记忆行为,不利于挖掘长尾特征 可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

  • 组合特征的能力有限

    可思数据sykv.com,sykv.cn

FM & FFM 模型

可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

优势:

可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

  • 可以自动进行特征间的组合

    可思数据-www.sykv.cn,sykv.com

  • 通过引入特征隐向量,加速了训练的复杂度,善于处理稀疏数据

    内容来自可思数据sykv.com

劣势:

本文来自可思数据(sykv.com),转载请联系本站及注明出处

  • 工作量接近深度学习,效果不如深度学习

    可思数据sykv.com,sykv.cn

  • FFM 计算复杂度高

    本文来自可思数据(sykv.com),转载请联系本站及注明出处

DNN 模型

可思数据-人工智能资讯平台sykv.com

优势:

本文来自可思数据(sykv.com),转载请联系本站及注明出处

  • 可直接输入原始特征,减少交叉特征选择

    可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

  • 效果好

    可思数据-AI,sykv.com人工智能,深度学习,机器学习,神经网络

劣势: 可思数据sykv.com,sykv.cn

  • 可解释性差 可思数据-人工智能资讯平台sykv.com

  • 模型可能较大,调参复杂,需要较大的工程支持 可思数据sykv.com,sykv.cn

综上,我们最终选择人工特征工程量较少的 XGBoost 方案。

可思数据sykv.com

② 召回排序模型总结

可思数据-AI,sykv.com人工智能,深度学习,机器学习,神经网络

内容来自可思数据sykv.com

上线召回排序模型之后,DAU 人均阅读次数提升 36.6%,目前的现状和问题:

可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

  • 特征还需要进一步挖掘

    可思数据sykv.com

  • 模型的训练效果有待提升,需要工程上的提升

    可思数据sykv.com

  • 探索尝试新模型提升效果

    本文来自可思数据(sykv.com),转载请联系本站及注明出处

▌技术探索:系统架构

可思数据-www.sykv.cn,sykv.com

1. 架构的重要性

可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

架构的重要性:算法是大脑,架构是骨架,如果没有好的推荐系统架构,算法很难落地。

可思数据-AI,sykv.com人工智能,深度学习,机器学习,神经网络

好的推荐系统需要具备的特质:

可思数据sykv.com,sykv.cn

  • 实时响应请求 内容来自可思数据sykv.com

  • 及时、准确、全面的记录用户反馈 本文来自可思数据(sykv.com),转载请联系本站及注明出处

  • 优雅降级,即使在服务出现问题的时候,也能推荐出个性化的结果 可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

  • 快速迭代推荐策略、算法

    可思数据sykv.com,sykv.cn

2. 经典 Netflix 推荐系统架构****

本文来自可思数据(sykv.com),转载请联系本站及注明出处

可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

这是 Netflix 在 2013 年公布的推荐系统架构,把推荐系统分为了三层: 可思数据-人工智能资讯平台sykv.com

  • 离线层:一个用户产生行为,通过事件分发,分发到离线层和近线层,离线部分是通过 hive 和 pag 这种通过离线的任务把数据分发到模型训练和一些离线计算上。

    本文来自可思数据(sykv.com),转载请联系本站及注明出处

  • 进线层(准实时层):近线层有个组件叫 Manhattan,相当于今天常用的 Flink 和 Strom,把实时计算结果存储到 Cassandra 相当于 HBase,然后还有 EVcache 相当于 redis。

    可思数据sykv.com,sykv.cn

  • 在线层:在线层会用离线计算的模型和近线计算的结果,得出在线的排序结果。 可思数据sykv.com,sykv.cn

这就是当时 Netflix 的推荐系统架构。

可思数据-AI,sykv.com人工智能,深度学习,机器学习,神经网络

3. 快看推荐系统架构 可思数据-人工智能资讯平台sykv.com

可思数据-人工智能资讯平台sykv.com

我们在做快看推荐系统架构的时候,实际上是没有参考 Netflix 的架构,但是,当我们完成之后发现,各个层也可以按照这个方式去划分: 可思数据sykv.com,sykv.cn

  • 近线层(橙色,实时数据流过程):客户端采集的日志数据,通过 Kafka、Flink 传递到实时用户画像和动态文档。

    可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

  • 离线层(红色):业务库数据通过 sqoop 导到 HDFS 后在 Spark 上计算,然后是离线模型,包括特征工程,模型训练,算法模型,向量索引,用户画像等等。

    可思数据-AI,sykv.com人工智能,深度学习,机器学习,神经网络

  • 在线层(绿色):包括在线的召回、排序、推荐、服务端、ios/android 等等。 内容来自可思数据sykv.com

  • 工具(紫色):标签权重模型、推荐结果追踪、数据指标监控和服务监控。

    可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

4. AB 实验平台

可思数据-www.sykv.cn,sykv.com

可思数据-人工智能资讯平台sykv.com

快看的 AB 实验平台在功能上是非常完善的,是从产品各层级自上而下统一的实验标识,方便联动;实现了设备随机、用户随机、流量随机的随机分组方式;通过实验分层支持正交实验,可以在一个层做多组实验;同时支持互斥实验,确保流量调整时用户稳定落在某一分组。

可思数据-AI,sykv.com人工智能,深度学习,机器学习,神经网络

可思数据-www.sykv.cn,sykv.com

对于指标计算,进行了显著性的总结和功效的总结,并且指标可配置,在做实验的时候想关注哪些指标可以进行配置,方便查看算法实验的效果。 可思数据sykv.com,sykv.cn

5. 推荐结果追踪工具 可思数据sykv.com,sykv.cn

可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

推荐往往会有一些 Bad case 暴露出来,如果没有做追踪,就很难查找那块儿出了问题,因此我们做了个性化推荐全链路的跟踪系统,保证了推荐的结果是因为什么推荐的,或者为什么没有被推荐,这样就保证了一个可解释性。如何解决的?我们会把当时的历史画像 Snapshot 和上下文,通过 HBase 记录下来。

内容来自可思数据sykv.com

▌总结与未来规划

本文来自可思数据(sykv.com),转载请联系本站及注明出处

1. 总结**** 内容来自可思数据sykv.com

本次分享主要介绍了快看和快看的推荐业务,从算法和系统两方面介绍了快看推荐技术在起步阶段的一些探索,并且介绍了大规模 k 近邻计算方法、AB 实验平台搭建等常用技术的落地方案。

可思数据sykv.com

2. 未来规划

可思数据sykv.com,sykv.cn

  • 内容理解是推荐业务的基石,目前这块儿还比较欠缺,未来将探索漫画领域的图像和文本内容理解技术。 可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

  • 传统机器学习方法探索充分之后将尝试深度学习推荐算法,以期更好的推荐效果。 可思数据sykv.com

本文来自可思数据(sykv.com),转载请联系本站及注明出处

嘉宾介绍

可思数据sykv.com,sykv.cn

夏博,快看世界推荐研发负责人。清华大学软件学院硕士毕业,从业 8 年,先后就职于微策略 (MicroStrategy)、万维思源 (EverString)、一点资讯、快看世界;前期主要从事后端开发的工作,目前主要从事推荐系统的开发工作,现任快看世界产品研发 - 推荐研发负责人。

可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

  可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据


分享嘉宾:夏博 快看世界
编辑整理:Hoh Xil
内容来源:DataFun AI Talk
出品社区:DataFun

转发量:

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
数据标注服务

关于我们   免责声明   广告合作   版权声明   联系方式   原创投稿   网站地图  

Copyright©2005-2019 Sykv.com 可思数据 版权所有    ICP备案:京ICP备14056871号

人工智能资讯   人工智能资讯   人工智能资讯   人工智能资讯

扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭