今日头条首次公布算法原理 曹欢欢谈召回策略
云栖网:1月11日,今日头条召开了一场旨在推动整个行业来问诊算法、建言算法的分享交流会。
资深算法架构师、中国科学技术大学计算机博士曹欢欢,在今日头条总部带来了题为《让算法公开透明》的分享,讲解了今日头条推荐算法的基本原理,并详细介绍了算法模型设计维度与策略,包括如何在线训练大规模推荐模型,典型召回策略的设计方法,多目标如何融合等核心问题。
中央电视台、新华社、人民日报等媒体机构从业者,和阿里、腾讯、百度、美团、新浪、网易等科技公司的算法工程师、产品经理等100多人,参加了本次字节跳动“让算法公开透明”活动。
曹欢欢表示,今日头条有一个世界范围内比较大的在线训练推荐模型,包括几百亿特征和几十亿的向量特征。但因为头条目前的内容量非常大,加上小视频内容有千万级别,推荐系统不可能所有内容全部由模型预估。所以需要设计一些召回策略,从庞大内容中筛选一个模型组成内容库。召回策略最重要的要求是超时不能超过50毫秒。
“召回策略种类有很多,我们主要用的是倒排的思路。离线维护一个倒排,这个倒排的key可以是分类,topic,实体,来源等,排序考虑热度、新鲜度、动作等。线上召回可以迅速从倒排中根据用户兴趣标签对内容做截断,高效的从很大的内容库中筛选比较靠谱的一小部分内容。”曹欢欢解释道,“基于召回策略,把一个海量、无法把握的内容库,变成一个相对小、可以把握的内容库,再进入推荐模型。这样有效平衡了计算成本和效果。”
算法原则历来属于公司行业机密,极少有公司会对外公布。此次今日头条将算法透明化,并接受建言,属于行业首例。
今日头条方面表示,人工智能发展带来的挑战,是人类此前没有遭遇过的。当企业发展壮大时,有责任也有义务,与行业一道积极思考与研究新技术可能带来的机遇和风险。
如今,算法分发已经是包括搜索引擎、浏览器、资讯客户端甚至音乐软件在内的互联网产品的标配。今日头条这一举动,体现出一家平台对技术发展的责任感与诚意,这将对算法应用乃至整个互联网行业起到巨大的积极推动作用。