深度学习在手,看视频卡顿不愁

科学
深度学习在手,看视频卡顿不愁
麻省理工科技评论 2018-12-31

2018-12-31

WaveOne 的奥伦·里普尔(Oren Rippel)和他的同事说道,“现有的视频压缩算法的基本原理在过去的 20 年里没有太大的变化。”WaveOne 是一家致力于将视频压缩技术带入 21 世纪的深度学习公司。
深度学习
WaveOne 的奥伦·里普尔(Oren Rippel)和他的同事说道,“现有的视频压缩算法的基本原理在过去的 20 年里没有太大的变化。”WaveOne 是一家致力于将视频压缩技术带入 21 世纪的深度学习公司。

将视频压缩成更小的文件一直不太容易。有了机器学习技术,难度可以降低一些。

视频填满了现今的互联网。所有流量中大概有 75%是视频内容,预计到 2021 年这一数量将增长三倍。

如果我们不想让那些无休无止的宠物视频和流媒体服务一直阻塞着互联网通道的话,那么我们就需要依靠视频压缩。这就是对原视频文件再次编码,使其更小的一个工序。但以现代技术的标准来看,目前的压缩技术太过落后。

WaveOne 的奥伦·里普尔(Oren Rippel)和他的同事说道,“现有的视频压缩算法的基本原理在过去的 20 年里没有太大的变化。”WaveOne 是一家致力于将视频压缩技术带入 21 世纪的深度学习公司。

他们利用深度学习开发了一种新的压缩算法,这个算法的性能显著优于现有的视频编解码器。他们表示:“据我们所知,这是第一种基于机器学习的压缩算法。”

视频压缩的基本原理是从代码中删除冗余数据,并将其替换为更短的描述,且该描述仍然允许稍后对视频进行复制。大多数视频压缩分两步进行。

第一步是运动压缩,它寻找运动的物体,并试图预测它们在下一帧的位置。然后,该算法就不再记录每一帧中与该运动物体相关的像素,而是只对物体的形状和运动方向进行编码。事实上,尽管着眼于压缩后的帧的技术不能用于直播,但还是有一些算法采用这一技术来更准确地判断运动。结果就是,这种压缩视频只是在屏幕上简单地转换了对象。

第二步是删除帧与帧之间的其他冗余。因此,压缩算法可能不会记录蓝天中每个像素的颜色,而是识别这种颜色的区域,并指定它在接下来的几帧中不会改变。所以这些像素保持相同的颜色,直到被告知需要改变。这叫做残余压缩。

里普尔(Rippel)和他的同事率先使用机器学习来改进这两种压缩技术。以运动压缩为例,该团队的机器学习技术发现了传统编解码器从未压缩的基于运动的冗余。

就如同一个人的头从正面转向侧面时一样。里普尔(Rippel)和他的同事表示:“传统的编解码器无法从正面预测一个侧面的脸。”相比之下,新的编解码器学习这些时空模式,并使用它们来预测压缩后的帧。

另一个问题是在运动和残余压缩之间分配可用带宽。在某些场景中,运动压缩更为重要;在其他情况下,残余压缩则更为有利。它们之间的最优权衡因帧而异。

传统的压缩算法很难做到这一点,因为它们的压缩进程是分开的。这意味着想要权衡两者并不容易。

里普尔(Rippel)和他的同事通过同时压缩这两个部分来解决这个问题,并利用帧的复杂度来决定如何以最有效的方式在它们之间分配带宽。

他们的改进和其他人的改进使得研究人员能够创建一种新的压缩算法,其性能显著优于传统的编解码器。压缩高清 (1080p) 视频时,H.265 和 VP9 等普通压缩算法产生的文件比新算法产生的压缩文件要大 20%。

对于标准定义的视频,比如 HEVC/H.265,压缩效果甚至更明显。利用新的压缩方法压缩的视频体积要比传统方式的小 60%。

此次突破意义非凡,大大缩小了在线视频的大小,缩短了下载时间。

然而,这种新的压缩方法并非没有缺点。最大的弊端就是其计算效率——编码和解码视频所花费的时间。在配备了英伟达 Tesla V100 计算卡和 VGA 模式下的视频中,新解码器的平均速度约为每秒 10 帧,编码器的运行速度约为每秒 2 帧。这种速率限制了这一技术在直播领域上的应用。

当然,研究人员希望在原理验证阶段之后能取得重大进展。

他们表示:“目前的压缩速度不足以实现实时部署,但在未来的研究中会对此进行大幅改善。”

这意味着,由于这种机器学习方法,未来的网民们应该能够以前所未有的时间下载《权力的游戏》(Game of Thrones) 或萌宠视频,还能比以往更高效地观看高清足球比赛。

麻省理工科技评论

From Tech to Deeptech