百度AI领跑全球 视觉技术让机器更好地看懂真实世界
云栖网:AI“黑科技”来袭,你准备好接招了吗?7月4日,百度举办第二届BaiduCreate2018(百度AI开发者大会),会上同时发布了多个“重磅炸弹”,为开发者带来最强福利。当天下午,在百度大脑论坛上,百度视觉技术部、人脸技术部、增强现实技术部总监吴中勤也带来了让机器能更好地看懂世界的技术——百度视觉语义化。
吴中勤介绍,视觉语义化可以让机器从看清到看懂视频,并提炼出结构化语义知识。视觉语义化技术首先识别人、物体和场景,同时捕捉它们之间的行为和关系,通过时序化、数字化、结构化的方式形成语义知识,最终结合领域和场景进行智慧推理,落地行业应用。
比如在零售领域,它可以准确判断每个人的动作、行为,真正实现顾客拿起商品就走。未来,视觉语义化技术还可进一步延展,它结合新型的传感器和AI芯片,可以在感知层面和计算层面得到大幅提升;结合手机可以带给用户更佳地使用体验。未来,百度视觉语义化技术将在百度AI开放平台中开放给开发者使用。
其实,百度视觉技术一直占据领先优势,为人工智能行业带来了巨大的贡献。日前,百度视觉技术团队凭借领先的图像识别和视频理解技术在全球两大视觉竞赛WebVision和ActivityNet中分别击败100多家参赛单位和队伍,获得多项世界第一,并受邀在全球视觉技术领域顶级学术会议CVPR(IEEE国际计算机视觉与模式识别会议)上做报告分享。
在视频理解领域,百度视觉技术团队在ActivityNet2018中击败众多参赛单位和队伍,获两项任务冠军,相关技术论文已发表于CVPR、AAAI等顶级学术会议。
ActivityNet是目前视频理解领域影响力最大的赛事,与每年的顶级学术会议CVPR一起召开,今年共举办6项比赛。其中,Kinetics视频动作识别任务是业界最权威的视频分类数据集,百度连续两年斩获该项任务冠军,并将平均错误率由12.4%降至10.9%
Kinetics数据集包含40万训练短视频语料,400个类别,今年主办方将数据集由400类扩大到600类,训练数据从40万增加到50万,包含的标签均为人类日常行为,更贴近实际。此外,百度在动作片段判断Proposal任务中获第一名,AUC领先第二名1.6个绝对百分点。
WebVision是2017年以来新的大规模图像识别任务权威挑战赛事,其数据量超过ImageNet。相较于ImageNet竞赛数据,WebVision竞赛的数据集直接从互联网爬取,未经人工标注或筛选,识别难度大,但同时也更贴近实际场景。
本次竞赛中,主办方将数据集合由1000类扩大到5000类,训练数据量由240万张图片扩大到1600万张图片,数据量更庞大,识别难度大幅提高。WebVision今年共吸引了全球100多支团队参加,涵盖众多顶尖科技公司和知名高校,百度以领先第二名3.95个绝对百分点的优异成绩获得WebVision竞赛冠军。
视频理解技术作为重要的计算机视觉技术之一,可以深度解析视频语义内容,进而输出视频相应元素,辅助人工审核编辑,提升精准用户推荐,丰富视频内容生产。百度此次获奖的技术已应用于百度线上Feed视频自动分类系统,提供视频语义化解析,在视频打标签、视频比对和视频推荐等业务上均发挥了重要作用。
此次,百度视觉技术作为开发者大会上发布的重点技术,它将持续为开发者输出创新能力,让机器更好地理解真实世界,让人们的生活变得更加智能便捷。