典型的帧插值应用场景是不足以提高帧速率的视频。 一些设备配备了专用硬件,可对输入视频的帧速率进行采样,以确保低帧速率视频也能在高帧速率显示下顺利播放。 不需要“眨眼补帧”。
随着深度学习模型变得越来越强大,帧内插技术可以从正常帧速率的视频中合成慢动作视频,也就是更多的中间图像。
随着智能手机的普及,数码照片对帧插值技术也有新的需求。
通常,我们拍照通常是在几秒钟内继续拍几张照片,然后从这些照片中选择更好的“照片诈骗”。
这样的图像有其特点。 场景基本上是重复的,主体人物只有很少的动作和表情的变化。
在这样的图像下进行帧插值会产生一种奇怪的效果,就是照片移动成为视频,视频通常比照片更有代入感和时间感。
是“现场照片”的感觉吧?
但是,帧插值的一个主要问题是不能有效地处理大场景的运动。
传统的帧插值是对帧速率进行上采样,基本上是对几乎重复的照片进行插值。 如果两幅图像的时间间隔在1秒以上、甚至更长,则需要能够知道物体运动规律的帧插值模型,也是当前帧插值模型的主要研究内容。
最近,谷歌研发团队提出了一种新的帧插值模型FLIM,可以对运动差异较大的两幅图像进行帧插值。
以前的帧插值模型很复杂,需要多个网络来估计光流和深度,还需要专用于帧合成的单独网络。 另一方面,FLIM需要单个统一网络,并且可以使用多尺度特征提取器来共享所有尺度上可训练的权重,并且只在帧中训练而不需要光流或深度数据。
FLIM的实验结果也优于以前的研究成果,证明可以合成高质量的图像,生成的视频也更一致。 代码和预训练模式是开源的。
文/上海蓝盟 IT外包专家