七牛云AI实验室负责人彭垚：推动大规模视频分类的个性化发展

云栖网 2018-03-27 19:15 来源：网络

云栖网：3月23日，中国国际广播电视信息网络展览会（CCBN）在北京隆重举行。在CCBN展会期间，七牛云AI实验室负责人彭垚接受了CCBN与中国新闻出版传媒集团联合推出的视频专访。

七牛云AI实验室负责人彭垚（左一）

主持人：请您简单介绍一下七牛AI实验室的情况。

彭垚：这个实验室是2016年年初的时候建立的，因为七牛云上有广大富媒体互联网用户的UGC内容，所以我们以内容安全审核为需求建立了AI实验室。后来已经接入了更多创新型的应用和扩展到传统行业，包括公安、政府运营城市规划管理和电视台内容的媒资管理。我们的实验室成长速度非常快，研究团队已超过100人。

主持人：七牛云AI团队在ACM国际多媒体会议的LSVC竞赛中取得第二名的成绩，这个成绩对七牛云来说有什么样的收获？

彭垚：这个竞赛是我们实验室第一次参加学术性的会议，之所以参加是因为我们发布了一篇大规模短视频分类的大规模学习平台的论文，内容包括我们用自己的一套算法框架解决大规模的视频分类的需求问题。这个竞赛我们最后拿了第二名，和第一名差零点几分，但第一名的方法耗费资源非常大，我们的方法相对更轻量一些，我认为这算是中国计算机识别在国际学术方面比较大的突破。今年我们还会在视频分类基础上再投入更多的研究。

主持人：您刚才提到您对大规模视频分类有所研究，您还可以再具体谈谈吗？

彭垚：关于大规模视频分类，大家可以理解为一个图像更多是空间信息，它可能有三通道的图像在空间上表示的信息，但视频内涵内容非常多。首先它有图像空间上的内容，第二，还有时间上的积累和时间序列的内容。空间图像加时间序列，本身就是一个能够得出更多信息的方法。当然两个图片之间有一个变化，就是会计算光流，类似于光走向的方向，这也是非常重要的信息。我们常常用这种信息再通过时间上的变化抓整个光流的变化，以此知道整个行为。

此外，如果视频里因为有背景音乐或者说话声音，我想识别视频到底是聚会还是婚礼，看画面中的人是很难区别的，还需要更多的信息才能识别出来。在这个区别上聚会是非常嘈杂的音乐背景，婚礼则会听到比较正规的结婚进行曲的音乐，通过这样的信息就可以识别出来。当然视频里还有很多信息，比如通过文本的一些识别，看到这个视频里写了“生日快乐”就是在过生日。

视频识别是AI认知整体能力的体现，不是传统的计算机视觉、而是把视觉，语音识别，文字文本的理解都放进去，从而融合起来的识别。

主持人：您如何看待视频分类在实际业务中的应用呢？

彭垚：视频分类在实际业务应用场景还是相对比较多的，比如在互联网的短视频平台上，每天有上万或者几十万的视频，通过这些方法做分类，标注所有视频内容的时候就会知道每个用户喜欢什么，或者每天在拍什么。媒体发展到最后一定是个性化的过程，我看到的东西都是我相对比较喜欢看的，我的平台推给他的内容也是我认为比较好的，所以对视频的理解和分类是非常重要的环节。