人工智能缩放技术,将为4K超高清视频带来

沈阳白癜风医院 http://pf.39.net/bdfyy/bdfzd/170126/5212240.html

人工智能缩放技术,是经济高效的4K超高清视频内容交付的关键。

实用的边缘计算人工智能技术,具有紧凑型软件和用于神经网络推理的芯片级硬件加速器,正在颠覆许多网络运营商为用户提供服务的方式。在基于5G无线系统的多频道视频节目分发商(MVPD)、网络运营商和内容交付网络(CDN)架构师中,有关本地个人助理、用户界面认知与预测和一些全新服务的讨论日益激烈。这些想法有助于区分供应商网络,从而增加潜在用户,并减少用户流失。

但近期来看,人工智能可能会在另一个完全不同的方向对视频内容供应商产生最重要的影响。基于人工智能的超清分辨率是一种新兴技术,通过使用深度学习推理来提高观测到的低分辨率图像重建出相应的高分辨率图像,使观众能够从输入的1K分辨率节目获得引人入胜的4K超高清体验。这一结果并非直观体现,但是与用户与运营商可观测到的4K超高清文件相对比,用户对直接重建出的4K超高清体验极为满意,而存储、远程缓存和带宽需求的大幅降低以及由此节省的系统能源对于运营商也非常有利。

4K超高清技术似乎看来过于偏重于理论,可操作性较低。为了实现最优效果,超高清分辨率的接收端必须设于网络最边缘位置,即用户端。但是接收器的深度学习推理任务可能大量的计算,特别是在流媒体视频的实时播放约束下。新突思(Synaptics)已经能够证明神经处理单元——一种集成到我们最新的机顶盒SoC中的紧凑型深度学习推理加速器,可以实时执行超高清分辨率图像扩展,达到令观众满意的效果。

超高清4K视频内容面临的瓶颈

如今,运营商想要向用户提供超高清4K视频内容,那么必须针对每个程序至少保存两种压缩版本,即4K超高清分辨率格式(4KUHD)和1K高清分辨率或全高清分辨率(HD/FHD)格式。更大的4K超高清文件会传输给拥有4K显示器或更高带宽的用户。而高清分辨率或全高清分辨率格式的文件将会传输给拥有较低分辨率显示器或带宽不足的用户。在前端、核心数据中心或远程缓存中,系统必须逐段选择两个文件之间的数据,以满足自适应码率控制的要求。对于使用4K显示器的观众来说,切换过程可能会造成图像质量的剧烈变化。

更严重的问题在于,由于4K文件很大,复制文件程序内容会消耗存储空间和远程缓存空间。对整个4K文件进行流式传输会占用宝贵的网络带宽。这些考虑因素大幅限制了节目供应商愿意提供的4K节目的数量。

基于人工智能的超高清分辨率则完全改变了这种情况。人工智能超高清分辨率不仅允许运营商提供高清分辨率或全高清分辨率格式节目,并且可以令用户从1K分辨率的节目当中获得引人入胜的超高清体验。人工智能高清分辨率技术主要通过将卷积神经网络(CNNs)执行的空间图像压缩与HEVC或AVC编解码器的主要时间压缩相结合,来实现超高清效果。

人工智能缩放技术的奥秘

研究人员发现,在一段内容上训练的一对卷积神经网络(CNN)可以通过压缩或扩大每个单独的帧来压缩文件尺寸,并且最终显示设备上可观测到的图像质量几乎没有损失。实际上,内容供应商会为其提供的每一段4K视频内容创建两个CNN推理模型。对于每一段内容,他们会一帧一帧地使用4K视频文件作为输入数据来训练两个CNN模型:一个模型将内容每一帧的清晰度从4K压缩到1K,而另一个模型将每一帧的清晰度从1K扩大到4K。这个密集的训练过程创建了一个相当紧凑的CNN扩展模型,可恢复边缘锐度、表面纹理以及1K帧的传输过程中没有明确显示的细节。

由于两个模型是在实际视频内容上一起训练的(理想情况下),所以压缩尺寸的模型已经习得(在此使用一个不恰当的拟人化表达方式)如何以这种方式删除细节,以使扩大尺寸的模型可以准确地恢复细节内容。想象一下,如果你愿意,可以根据照片绘制一幅轮廓图,然后请一位技法纯熟的画家根据你的轮廓图创作出写实艺术作品。因为你可以告诉画家这幅画的具体内容,哪些线条应该平滑,哪些锯齿状,哪些表面纹理应该是羽毛,哪些是不锈钢,天空中的小点其实是一只海鸥等等,这样,画家就可以在轮廓图中正确地填充细节。

与采用预定义的启发式方法或纯运算压缩技术实现的缩放效果相比,这种深入学习的培训过程可以显著提升特定内容的缩放质量,同时亦与传统的视频编解码器兼容。

像任何深度学习网络训练一样,产生两个CNN模型的训练过程复杂又漫长,最好在数据中心或云端完成。但实际上,训练有素的模型本身——执行压缩与扩大任务的部分结构紧凑,且运行速度很快。特别是扩大模型可以设计得非常小,方便在智能流媒体设备或机顶盒中执行任务。随着将功能强大的芯片级神经网络推理加速器引入市场,扩大模型可以对帧实现实时处理。

操作流程

实践当中,首先,内容所有者或服务提供商会培训每一个内容的缩放CNN模型。然后,使用压缩模型将视频内容每一帧的分辨率从4K转换为1K。接下来,他们会像往常一样用HEVC或AVC编码器压缩1K视频流,对其进行加密处理,然后将压缩视频流与内容相对较小的CNN扩大模型分发到视频内容存储站点。

如果需要以4K超高清分辨率观看内容,供应商会根据需要首先将CNN扩大模型传输到接收设备。该模型结构紧凑,通常在1MB左右,通常下载速度极快,用户不会感觉到任何延迟。接下来,提供商将开始流式传输压缩后的视频内容。接收设备将对HEVC或AVC视频流进行解密并解码成1K分辨率的帧。然后,接收设备应用CNN扩大模型将每帧恢复到4K超高清分辨率显示。对于大多数观众来说,经过缩放的超高清视频效果与完整的端到端4K超高清传输的视频效果是难以区分的。

还有什么问题?

熟悉机顶盒架构的读者可能已经发现,这种场景存在一个严重问题。受版权保护的视频内容,根据MovieLabs所建议的增强内容保护计划等准则的要求,任何未经加密的视频流只能在所谓的安全媒体管道中处理。任何开放式软件环境(如机顶盒CPU)都不能对未加密视频流进行物理访问。

在如今的机顶盒应用中,这意味着解密、解码和帧缓冲数据路径硬件必须与CPU可访问硬件保持物理隔离状态。但是借助超高清分辨率,我们将在CPU的控制下,向该数据路径添加另一个复杂的功能模块。

这使得必须防止推理加速器中的控制层和数据层之间互相泄露,保持硬件强制分离。下图说明了安全媒体管道系统中可信执行环境与丰富执行环境的分离情况。由于这一要求,在CPU或GPU中实现推理加速器数据路径非常困难。即使在具备可靠的硬件基础和安全的引导过程的前提下,当设备可在RAM中运行代码,并且具有任何一条通往外部世界的路径时,如果视频流穿过这样的设备,很难保证其安全性。但是,可以在这种分离环境中执行硬件神经处理单元,而无须创建数据泄露的路径,如SyKure框图所示。

技术底线

如今,基于人工智能的4K超高清技术已应用于视频供应商的内容制作中。借助此技术,视频供应商可以不再使用4K内容文件,而为用户提供更广泛的4K品质内容,同时节省存储空间、缓存空间和带宽。但要做到这一点,他们必须指定具有神经网络推理加速器硬件的接收端设备:设备必须快速运行,从而保证每帧的实时放大。同时,硬件安全性也要通过版权所有人的严格审查。机会就在眼前。

本文作者是GauravArora,新突思(Synaptics)系统架构及人工智能/机器学习(AI/ML)技术副总裁。

往期回顾:创新30年,新突思如何在万物互联时代重新崛起?TDDI扩大了车载触控显示屏的可能性“在家工作”成为全球新常态,如何让我们与工作设备保持连接?预览时标签不可点收录于话题#个上一篇下一篇



转载请注明地址:http://www.zhanghonghuaa.com/zhfz/8580.html
  • 上一篇文章:
  • 下一篇文章: 没有了
  • 热点文章

    • 没有热点文章

    推荐文章

    • 没有推荐文章