杜百川:超低延时IP直播
云栖网:2018年10月24日-26日,第二十六届媒体融合技术研讨会(ICTC2018)将在杭州举行。ICTC由国家广播电视总局批准、中国广播电影电视社会组织联合会技术委员会、浙江省广播电影电视产业协会和华数数字电视传媒集团有限公司等单位共同举办,是广电领域最具影响力的国际研讨会,至今已成功举办25届。云栖网作为本次大会的支持媒体,将为您全面报道本次盛会的精彩和亮点。
国家广播电视总局科技委副主任杜百川
国家广播电视总局科技委副主任杜百川先生带来了题为《超低延时IP直播》的主题演讲,以下是演讲全文:
杜百川:各位嘉宾:大家下午好,现在广播电视已经开始进入IP时代,或者说很多已经开始在有线电视里面用IP的方式来进行广播点播直拨,所以,我觉得有线电视的人应该了解一下IP,尤其是直播时候怎么克服延时的办法,我们先浏览一下关于目前不同流媒体格式的现状。
这是2018年的一个报告,我们可以看到目前最主要是两个,一个是HLS,一个是M,分别在去年增加4%和5%。另外一个新的格式CMNF,一会儿我们会讲,尽管是刚刚建立的标准,已经增长了4%。剩下的大多数都是负的,也就是说,今后可能主要的两个是HLS和M。用什么样的编码写编码,我们可以看到硬件编码器2018年比2017年下降,云软件服务增长,有感觉的预支编码器增长,音频主要是AIC。
什么平台?我们可以看到基本上是浏览器和操作系统这两种格式。最多的还是HTM2.5,在浏览器里面的THM2.5。内容保护方法有各种各样,包括中国HDR,货币化方法有几种,一种以广告支持的VOD,第二种就是定付方式,第三种是现场交易,我交钱就看,就是及时付费,还有混合。定付增长很多,达到51%,从这个方面来看,货币化方面定付仍然是主要的方法。
广告架构大家有三种,一种是客户端广告插入,服务器端广告插入,动态广告的插入,客户单插入最多达到52%。我们参考一般下华为2016年为了针对4K视频的体验保障和承载问题,提出了最佳体验的4K承载网目标架构以及细分的场景演进方案,认为未来80%的网络流量产生视频,所以我们必须进入。系统引进以用户为中心的V-VOMS这种视频体验标准。他把4K分为几个等级,包括入门级,运营级,极致级8K。我们给不同的平均比特率运营数率,包括点播、直拨给出相应的数率,这是最后的结果。
他的评价评价分为三个部分,视频质量,互动体验,观看体验来作为整个的评价指标。最后我把它的结果讲一下,比如说,操作体验如果要达到4分,他要求频道的切换时长要小于500毫秒,下载时间小于1秒钟,像这样的要求对于我们来说也是非常高的,对于有线电视网络来说也是非常高的。
观看体验主要分为花屏和卡顿这两个东西,对于手机来说卡频的要求低一点,平均卡顿的时长2.7秒,卡顿时长占比不大于5%。电视卡顿要求高一点,要达到4分,卡顿的次数在1次,平均卡顿的时长是2.7秒,但是卡顿时间占比不能超过0.1%,因为电视大多数是长视频,手机是短视频,对于花屏来说,下载的分钟数如果是花屏4分钟,里面占了4%,或者说它的花屏面积只是占到35%。花瓶的次数占了1次,就是4分,点播质量他要求进行详细地介绍,HLS的格式是最多的一个,交互交待需要有9个ITT最好解码的缓冲和保温下载阶段,加载阶段,三个阶段最终不能小于1秒,这个要求比较高的。最后自己的计算,如果到电到电的两端的延时,20毫秒TCP的通量要求100M,实际上,他要求在部署的时候,应当满足100M的要求。
如果说U-VMOS大于100M的网络,ITT应当小于20毫米,丢包率小于3.4×105次方,考虑到云端优化,可以达到37.5M,小于20毫秒,直播业务不一样,大于56M,丢包率小于10-6次方,对于整个系统来说不多说。他根据这个要求,建议FTTH和有线4K的接入网的设计,怎么来满足我们刚才所说的情况。
说到这个具体的,不仅仅是上面所说的这些计算,我觉得这些计算相对来说还是要进行一些修改,现在有新的方法,第一个就是组播ABI,组播ABI在2015年提出过,什么是组播ABI,现在用IP最大的问题就是并发的问题,如果是UDP的话,你希望每个人都发一个流,这样要求服务器要达到一定数量的并发流,但是这个无法解决我们的春节晚会,足球世界杯这些情况,无论如何满足不了这个要求。
所以,现在采用的办法可以解决这个问题就是采用组播ABI方式,结合CDN网络,只要在前端发一个流就可以,不存在并发的问题,在底下的节点再复制,这需要在末端组播的接受端里面需要有一个相应的控制,这部分都是在网关里面。也就是说CDN要下沉。我们看到这是它的峰值,他有很多巅峰,组播ABI相对比较平摊,单播的ABI和组播的ABI的价格我们可以看到,蓝色表示用户的数量,红色是单播,他会迅速随着用户数量的增长而增加。但是对于组播来说它的增加量相对比较小。
这是思科的建议,在有线电视网络分发的架构里面的眼镜里面分成三个部分或者说三个阶段。第一个阶段是传统的机顶盒+调制解调器IP来分别进行。一个是过TV,一个是PC或者是其他的互联网接受设备。第二个阶段把这两个东西合在一起,可以用IP的机顶盒完成组播和单播的组合,分发给电视或者是其他的东西。最后,如果用组播ABI,我们可以在调制解调器里面,我们可以把组播转换成单播,再发给相应的设备,所以,这种方式也是我们有线电视网络可以参考的一种架构。
也就是说,我们可以采用单播和组播协同传送的方式,我们通过非组播的公网,用UDB的方式发到每一家,我们用组播的ABI来解决并发流的问题。这是简化的框架图,我们可以看到组播的过程当中,在路由器与路由器之间使用的起义是PIM。这是cablelab架构,这个作为主要的标准化,尤其是今年,是今年4月份做了一个叫做IP组播自信媒体流简化参考方式,刚才这个是cablelab,这个是欧洲的DVB,他包括内容准备,内部主机,组播服务器,组播网关,内容播放和应用,配置和内容控制接口和内容指标获取,主要的部分之间规定详细的接口,每个接口都是干什么用途。大家可以参考这个标准。现在主要欧洲的一种标准。
这里面比较特殊的地方在于什么地方呢,他组播的网关可以自由选择在不同的地方,这个组播网关在网络的边缘设备,第二个他是组播网关处于家庭网关里面,直接在家庭网关里面,第三个组播在终端设备,也就是说他非常灵活可以把CDN或者是组播网关配置在终端设备,家庭网关或者是网络终端上面,可以配置在不同的地方。
我们可以比较一下,在不同的情况下得到的延时,比如说传统的IPTV的时间延时,延时是分大延时,店对店,还有一种延时摄像头的玻璃镜,一直到我们接受电视机的玻璃。从这个角度来说,IP电视的时间大概在3.6秒左右,ABI的互联网电视大概是在41.6秒,也就是说现在互联网电视是非常高的,大概在41.6秒,而我们用组播ABI可以达到5.6秒。已经跟IP电视接近,如果用CMAF,可以做到3.6秒,实际上还可以更低,亚秒级,这是显得一种方法,叫做CMAF。
什么是超低延时IP直播呢,我们编码的时候编成不同的格式,有低有高根据网络的情况发送不同的码率的码流,从格式来讲,我们原来有很多。这些东西基本上已经过时,现在唯一存在两个,里面要做几个事情,第一个需要有一个清单,这个清单是最重要的,实际上就像我们原来的EPG一样,你看什么节目我列在这个清单里面。把所有的内容怎么放到这个表里面的方式。
第二个方面延时最大的部分就是编码器,现在编码的方式有很多,H.264,HEVC,VP9,AV1,我们现在有AVS。目前来说,各种不一样的编码特许费都是不一样的。可得性来说也是不一样的,这个东西我们不多说了。包括编码速度,我们可以看到AVS的编码速度相对比较快。编码速度跟什么东西有关,编码效率越高,越复杂,要求的时间越长,现在最长的就是Google新出来的一种方式,目前还没有硬件,估计马上有硬件,到2020年就会有硬件。
现在最快的还是这个红色,就是H.264,目前这是时间最快的,远高于或者说远快于其他所有的,我们看到的这一大堆都是要慢一点,我们的AVS算是比较快的。多格式解决方案,我们怎么解决现在这么多格式,不同的编码,不同的传送方式,有两种方式,一种方式叫做转换复用,它的意思就是说,我播放或者是直播VOD都是采用单一格式,但是我到终端的时候,我可以根据你不同的终端我转成不同的格式。这个是非常麻烦的。
第二个办法就是现在使用的所谓的使用通用媒体的应用文件格式,也就是说我不管后面,但是前面的文件格式是一样的,这个就是所谓的CMAF格式。2016年6月份由苹果发布,HLS使用H.264和fMP4这两种格式。但是需要原来的HSL设备不支持文件fMP4,但是从现在来说CMAF不支持内容保护格式,现在还有很多不同的内容保护格式,我发送的时候还是不行,也就是说,现在没有内容保护格式的时候,如果要快的话可以采用CFAF。
我们可以看到这一张图,可以非常详细说到目前延时的状态,最早的HLS大概延时30秒,目前的有线电视的延时大概在5秒。现在逐步改进以后,比如说,ITMP可以做到亚秒级,IPS可以做到更好,时间最短。但是目前的CFAF已经可以做到亚秒级的延时。
媒体船分三个主要部分,第一个就是媒体格式,内容清单,递送的方式。CFAF只是定义媒体格式,不规定manifest格式或者递送方式,任何传送方式包括HTTP,ITP组播单播,LTE广播,IOS以上都可以支持这样的格式。
我们可以看到IOS2017年1月2018年5月份新格式采用的情况,已经达到80%左右。所以说,这个的普及率相当高的,这个蓝色是原来的。H.265,为什么H.265不行,就是因为编解码时间太长。现在的通用媒体格式的目标就是想提供HLS和DASH唯一或者是单一的媒体格式,一开始就是苹果和微软,规范草案由苹果,微软,MLBAM,思科,Akamai和Comcast提出。方法是选用现有的技术,他采用IOSBMF格式,就是用文件格式MP4作为文件格式,采用通用格式,采用MP4编码,在IOS/IEC230000-19在2018年1月份成为IEC的标准。
延时分为哪个部分,第一个就是加入延时,主要依赖于发起请求的次数,根据华为的计算最多需要19次,一来一回需要多少延时,第二个就是切换延时,依赖于GOP的结构,你的切换时间会变长,端到端到延时握手,握手主要依赖于分段的长度,对于CFAF来说主要是最后分块的长度可以做到很小。
第二个CFAF怎么来介绍延时,第一个内容准备,低延时编码只是用I和P,不用B。第二个CFAF打包低延时的分块,第二个就是传送,尽量把CDN放到终端,同时直接把这个东西放在硬盘,第三个就是播放,播放器一旦知道马上开始播放,因为时间问题。
第三个如何介绍延时,把原来的段分成块,这个块小到程度程度,我们可以分到毫秒,最低的延时2秒延时,1秒的启动,整个是3秒,再小一点,1秒的缓冲,0秒启动,最后就是1秒,延时只有1秒。
这个规范的对象等等因为时间的关系我们不多说,大家都知道如果是HLS或者是其他的,必须要有关键帧才能启动和编码,或者是切换,这个在CFAF当中同样的媒体打包块,呈块降低解码降低延时,现在是一小段小段,每一小段可以达到几十毫秒,这样来减少他整个编码延时时间。这是它的原型架构,直播,转码和CFAF打包,从原来传送HTTP的块,也就是说HTTP的块跟CFAF前端的这个块要相对应,这样每一块都有一个地址可以找。实际上,原来是一大块一个地址,现在是一小块就会有一个地址,这样抓起来比较快。
低延时的整个流程我们不多说,但是不同段有不同的复杂程度,这个用到了我们前面所说的VBR的办法,随着不同的复杂度用VBR的办法增加它的平滑度,这不是VBR,这是VBR,来改善它的平滑度,而且在现在新的编码方式下,我们可以在网络的架构上面直接来发现你的内容是复杂还是不复杂。对整个网络进行控制,也就是说,现在所谓的用SDN的方式,码率控制有很多种,自适应码率,基于内容标题的编码等等,比如说,体育编码高一点,动画低一点,内容复查一点,编码高一点,内容复杂度低一点,编码低一点,现在过度到CVBR和自定义的码率阶梯,将来可以做到内容感知编码和AR来控制,逐步达到越来越智能的方式。同时,把网络控制层和数据分发层分开就是SDN的架构,再加上智能的客户端,这样形成整体的智能网络。