手机版 欢迎访问人人都是自媒体网站
继上篇为大家介绍了算法和数据部分后,本篇文章将继续介绍推荐系统的在线服务和评估方法。
在解决了算法和数据层面的问题之后,我们需要构建一个推荐系统的在线服务,用来响应用户的推荐请求。假设企业初期的 DAU 是 10 万,当 DAU 涨到一百万的时候,希望能够通过增加机器的形式,解决服务性能响应的问题。如果每当 DAU 扩大时就要去重构推荐服务的话,代价实在太大,所以我们希望我们的推荐服务具备高可扩展性。
另外一些常见的需求是:如何实现高维向量的查询和计算?如何满足不同场景时效性不同的需求?监控和报警怎么做……
尽管深度学习的模型复杂、效果又好,但哪怕把模型训练出来之后,等过渡到在线服务时还是会遇到很大的挑战。今天我就几个实践问题在这里跟大家做一些分享。
1. 如何做高维的向量查询?
举个例子。假设目前有 10 万个商品,每一个商品拥有一个向量的话,就会有 10 万个向量,当用户来到后,一个用户对应一个向量,这个时候我们需要在这 10 万个项目里面去查找到跟这一个用户向量最匹配的 100 个或者 500 个向量。同时还要保证在足够短的时间之内(10-20 毫秒)将向量找出,所以在响应时间的层面还面临着较大的挑战。
我们的解决方案是运用一个叫做 Faiss 的工具,它可以解决大规模的向量的相似度查找问题,且最大可支持 10 亿规模的内容空间。简而言之,当我们有 10 亿商品的时候,仍可以用此组件去做基于向量的相似度查找。
2. 如何让推荐系统的在线服务具备高可扩展性?
我一直在强调,我希望我们的可扩展性是水平的,流量上来之后,仅通过加机器的方式就能解决服务的压力。我们的思路是,把在线服务分为三组:在线存储、在线服务群、模型服务群。
我们把模型服务和在线服务做一些逻辑上的解耦,从而保证整个架构在可扩展性上是水平的,这样既可去单加模型服务也可以去单加在线服务,解决服务器上的压力。
3. 不同场景下不同的时效性,该如何支持?
我作为一个技术的人员,在做 Feed 流时经常会接到产品经理如下的需求,比如,需要在综合频道推荐最近 3 天的文章,最近 7 天的视频;历史频道的数据量对时效性要求没那么高,需要推荐近 30 天的文章和最近 60 天的视频;相关文章中要求推荐最近 7 天的文章,相关视频中推荐近 30 天的视频。
这些需求严格上来说是非常合理的,因为这是基于产品本身以及用户对于此产品的诉求,但这些需求其实会给推荐系统带来很大的问题。
我们简单来计算一下场景数量:
产品经理需要我们支持文章推荐和视频推荐两种类型,同时还要分成不同的频道,而综合频道和其他小频道所涵盖的内容和范围又不一样,小频道少则十几个,匹配上两种架构类型,大概 2×10=20 份数据,再加上相关文件的推荐,可能会产生 40 份数据。
为了支持不同的时效性,我就需要维护 40 套不同的数据,在推荐系统里面维护 40 套数据意味着维护成本和出错的风险都相当大。40 套数据,可能拥有 40 条逻辑,40 个数据流,一旦发生人员变动,对于接手的人员来说简直噩梦。
所以我们在整体的架构中,会去为不同场景、不同时效性设计一整套的工具和流程来解决诸如此类的问题,这可以使我们的线上管理较为简洁,不会出错但又非常灵活,即使有其他的时效性需求时,也能很容易地加入。
推荐系统之效果评估评估一个推荐系统,会涉及到一些常用指标:点击率、点击人数比、人均点击次数、留存率、转化率等。
1. 点击人数比
指点击的人数除以推荐的曝光人数,这是一个用来衡量推荐系统触达率的一个重要指标。在评估一个模型效果时,可能点击率上涨,但点击人数比并没有变化,这说明推荐结果只对于部分老用户产生比较好的效果,对于触达不到的用户,仍然没有成功吸引他们来使用我们的推荐系统,所以点击人数比与点击率是对推荐系统在不同方面的评估。
2. 人均点击次数
指每个人在推荐系统里面平均每天点击了多少次。人均点击次数是需要大家持续去关注的指标,因为这个指标真正体现出用户在这款产品中的使用深度。
3. 留存率和转化率
留存率和转化率实际上来说对于推荐系统来说,可能并不是一个那么直接的指标,比如推荐对留存的影响到底有多大,很大程度上决定于不同的产品形态,但它仍是我们去评估推荐系统的一个指标,至少我们需要知道此次推荐系统的迭代到底对于留存率的影响有多大,如果迭代后的留存率下降,即使点击率和点击人数比都在上升,可能这一次迭代仍不能上线,因为它影响了留存的指标。
还有一些方面,其实在之前的文章中神策数据 VP 张涛:个性化推荐从入门到精通(附推荐产品经理修炼秘籍)已经跟大家提到过。
时效性。如果我们在做一个新闻产品的推荐系统,那么给用户推荐的内容就应该是实时的,而不是上周发生的事情。
多样性。多样性其实是容易被忽视的一个指标,因为如果不追求多样性的话,点击率的数据会好看一点。
Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP