多场景实时音视频通信激增背后,RTC 技术大爆发
云栖网:音视频社交软件Clubhouse的估值较3个月前又翻了两番。当地时间4月19日,Clubhouse宣布完成C轮融资,估值已达40亿美元。
而这只是实时音视频通信大爆发中的冰山一角。
在马斯克“直播带货”的催化下,越来越多的语聊房产品出现,Facebook也被爆出即将推出Clubhouse同类竞品。不仅如此,在线办公、在线教育、泛娱乐场景中对实时音视频的需求也在激增。
得益于5G、RTC等技术的发展,一间语聊房、或是活动直播间、在线课堂等都可以快速完成搭建并发布,进一步刺激实时音视频市场。以融云实时音视频服务为例,开发者只需三步,就可以在30分钟内快速集成音视频能力:
l第一步,申请开发者注册,官网会发送Appkey等信息,下载SDK。这一步骤通常十分钟内可以完成。
l将下载好的SDK集成到自己的开发工具里,初始化SDK,然后加入房间。初始化SDK可帮助初始化设备、音视频相关参数等。
l发布自己的音视频流和订阅别人的音视频流。
5G时代需要更便捷的RTC技术服务
为何市场需要快速集成实时音视频的能力?
一方面,在5G的作用下,许多传统互联网场景中正在嵌入实时音视频功能。另一方面,专注应用层面的厂商需要以最小的成本,最快的速度上线功能,以支撑产品的发布和运营。
融云CTO任杰认为,5G给RTC市场带来两大方面的变化。
一是5G的宽带和延时有较大提升,所以未来高清的、低延迟的音视频通话将会成为主流。在4G网络之下,实时音视频通话主流的为720p,1080p稳定性略有不足。而在5G来临之后,1080p甚至是更高清的4K、8K通话场景会普遍增加。
二是增加各种物联网设备接入。此前RTC实时音视频领域中,主要是移动端、PC端应用。其他物联网设备如车机、摄像头、大屏设备等接入较少。任杰认为,在5G到来之后,各种物联网设备的接入场景也会增加。从技术层面看,5G解决延迟问题之后,大量设备都可接入,许多实时操作系统ATOS,以及Linux在RTC领域的应用场景也会变得更加主流。
5G的到来孕育了许多新生的实时音视频应用场景,这也意味着,RTC技术服务商需要提供更好的支持。
“我们无论何时何地都要能提供高清、稳定、流畅的音视频体验。”任杰总结,RTC领域相关技术很多,但融云的业务目标仅此一个。当然,在呈现给用户优质的音视频体验背后,融云会去解决网络带宽限制、音视频处理等等技术问题。
RTC技术服务商在做什么?
在高清、稳定、流畅的音视频服务,以及“30分钟快速集成”背后,RTC技术服务商要做的工作很多。
通常,RTC技术栈可以分为两方面:端上的处理和server端的处理。
端上的处理,主要为声音和视频的编解码。编解码完成后会进行系列声音和视频的前处理,前处理包括回声、降噪,啸叫抑制,声音增益,3A算法等。server端类似端上处理技术,如录音录像等,但更侧重传输层面,如网络的优化等。
网络优化又可以分成两大部分:对抗弱网,分布式网络和调度。无论是5G、4G还是WiFi,只要是无线信号,都会遇到信号遮挡、衰减的问题,表现为网络不太稳定,经常在瞬时的丢包会比较大,延迟也可能会突然变大。
另外,端点设备接入网络路由之后,在两个端或是多个端之间进行实时音视频流的传输,需要经过多个网络节点。那么哪一套路径能让端点更好地接入,使传输流更稳定,便是网络路由的策略,也是分布式网络与调度要解决的问题。
对于这些问题,融云从以下三方面做了优化:
第一,弱网对抗相关算法的优化,包括重新定义一些算法,对随机丢包和带宽受限,要严格区分并且能够快速反应等。
第二,动态路由策略方面,融云会做一些提前探测,动态检查链路。大概可在3~4秒之内发现链路变坏的情况,并立即重新调度,包括服务端、负载的一些调度,即分布式部署。
第三,全球网络的部署,融云音视频使用大量IaaS,也和全球的一些机房合作,尽可能多地部署节点。同时对这些节点的状态进行实时监控、扩容、增加节点等。后台也有音视频质量的QoE系统监控整个的网络,实时进行调优。
做开发者的支持方,而非竞争对手
“我们是PaaS提供方,会向上做aPaaS,但不会直接做toc的产品”,任杰表示,只要复用程度较高,融云就会考虑将其向上封装,帮助开发者的使用更加贴近场景化,但融云始终是面向开发者服务,因此不会做toc产品,和开发者客户形成竞争关系。
以语聊房为例,融云为语聊房应用提供的支持集中在技术层面,使其呈现出的声音效果更好。
在开发者花了30分钟快速集成一个语聊房应用之后,融云还会再根据业务场景做SDK调用和开发,以便开发者可以更快速地实现使用混音、添加背景音乐、麦位管理、网络信号展示等各种功能。
一是语聊房中麦位的相关控制。任杰表示,麦位支持依靠信令管理,因为有多年IM领域的积累,信令是融云的传统优势,并且在语聊房方面融云也有一套完整的技术支持,可以更容易、更轻松地完成麦位管理。二是实时音视频中声音的相关处理,包括美声、变声,各种音效,混音之后的声音效果等等。
任杰指出,由于RTC领域涉及到许多具体的音视频概念,以及音视频相关的质量控制,开发环境有一定复杂度。SDK本身越场景化,就会越容易集成,因为这对于开发者来说是隐藏技术细节的,所以大家提出应该往SaaS化方向发展。
“在一定程度上我非常同意。对于我们PaaS能力的提供方,也最希望降低开发者成本,所以我们也在往上做,往SaaS和PaaS之间,做aPaaS能力。比如我们在提供音视频能力之外,也提供MeetingLib整套的控制信令体系,和音视频流的一些操作直接相关。”
此时开发者使用这种SDK,就无需太关注音视频流的一些处理。比如需要禁麦时,就在MeetingLib里通过一个标准接口操作。反之,如果没有MeetingLib,开发者也可以用RTCLib自己做,但是就需要自己在应用侧发禁令,或者调用IM能力去给每个人发禁令,禁掉每个人的麦克风。
“所以我们往上做一层,开发者就不用关注每一道具体流程,每一个用户的状态。”任杰表示,这就是他们目前正在做的。
此外,在客户支持层面,融云也总结出最需要支持的两类问题。
一类是SDK接入,即开发集成相关问题。任杰透露,客户一般会先看文档,或者是融云提供服务的支持体系,工单、支持群,以这种方式去帮助客户完成集成工作。但由于大多数开发者对音视频技术栈较为陌生,在遇到一些非通用的具体开发概念时会有难处。
对此,融云会在相关文档中提供概要性说明,如编码、帧率、码率等基本概念的说明等。此外还有一些程序性说明,详细描述SDK集成流程;提供quickdemo以辅助开发者快速使用和集成。
另一类则是质量相关的支持。因为音视频在实时通话过程中受网络影响相对较大,端点网络可能出现问题。“在这个过程中可能需要排查一系列的问题,我们也有自助平台——北极星。”任杰称,北极星本质上是音视频的一套QoE体系。这套体系会记录每一通通话;全部过程中音视频流的传输情况,包括传输的码率,卡顿率,是否有黑屏等系列数据指标,数据曲线;开发者也可以在平台上自助查询通话质量,统计指标等。
下一代RTC市场
作为RTC市场技术服务商,融云最近正在做更新鲜的尝试。
5G催生了更多VR应用,很快,VR直播应用也会到来。融云已和VR行业多家企业达成合作,目前为其提供远程维修、技术指导等服务。“随着5G的推广,娱乐业真正大规模的toC场景会逐渐出现。”
泛娱乐应用是下一代RTC应用的一大场景,除了正在爆发的语音房之外,还有直播、狼人杀、剧本杀、KTV等等,以及不久的将来与VR融合的新场景。
此外还有办公类应用,包括会议场景,监控场景等。任杰举例,比如在公安、保安,应急指挥工作的监控场景中,也会涉及到一些设备的接入,包括GB28181的支持,SIP的支持等等。在线教育场景中也涉及到许多细分应用,如小班课、大班课、大直播、双师等等。
近期,为了更好的赋能开发者探索更多新鲜应用,融云还发起20万分钟免费音视频通享活动。凡是开通实时音视频功能的用户,立享每月免费200,000分钟,视频最高可支持1080P超高清分辨率。
在RTC应用爆发的当下,融云作为通信云领域引领者,结合多年IM领域能力,已经可提供覆盖全通讯场景的技术服务。
任杰表示,融云的优势来自多方面:融云是公有云的PaaS提供方,IM也做了很多年,而99%以上的RTC场景中都会用到IM相关能力,二者结合,融云会有很大的优势;此外,融云拥有非常专业的大规模团队,并且在音视频技术上大力投入,不断迭代技术。“我们一家服务商可以通过‘RTC+IM+PUSH’的整合通信能力,以一套SDK覆盖所有通信场景,只要找我们融云一家就可以完成这件事。”