“AI换嘴”了解一下！斯坦福新研究为视频人物随意换口型

【猎云网（微信号：）】6月10日报道（编译：胖虎）

在电视和电影的拍摄中，演员在表演中经常会不小心犯下一些小错误。对于影片的剪辑师而言，如果不想要花费巨资重新拍摄，那么就只能接受这些瑕疵。

那么我们可以想象一下，剪辑师是否能通过文字剧本来重新修改视频。这个过程简单地就像平时处理word文档那样，添加你想要的内容，删除多余的内容，甚至完全重新排列拍摄的影片，让它看起来就像一个全新的视频那样，毫无瑕疵。

一批来自斯坦福大学、马克斯普朗克信息学研究所、普林斯顿大学和Adobe Research的研究人员组织了一个团队，他们创建了一种算法，它能编辑头部特写的对话视频——即视频中的讲话人主要出现肩膀以上的部分。

对于视频剪辑师和发行商而言，这个研究成果会非常有用。但也有人担心这种工具会影响网上视频和图片的可信性。研究人员也针对这些工具提出了一些使用准则，提示观看者这些视频受到过修改。

“不幸的是，这种技术永远会招来不法分子的注意。尽管如此，它能带来更多创造性的视频编辑和内容创作应用，因此也是值得的。”斯坦福大学博士后Ohad Fried说道。

这种应用通过全新的脚本从各种视频片段中提取讲话时的唇部动作，并采用机器学习将它“移植”到目标视频中，让观众看起来更自然。换句话说，它就是让“唇部运动”和文本同步。

“从表面上看，这些视频非常完美，它不再需要重新录制。”Fried说道，他以第一作者的身份发表了一篇相关研究的论文，目前该论文已经上传至论文预印本网站arXiv上。该项目始于两年前，当时Fried还只是普林斯顿大学计算机科学家Adam Finkelstein手下的一名研究生。

一旦演员在表演时讲错了台词，剪辑师只需要重新修改一下剧本台词，这个应用会自动找到视频中对应的片段，并搜索该视频中其他的台词，重新组装这段语音。换句话说，这就是在重写视频的台词，就像我们修改文档中拼错的单词那样。该算法需要原始视频为素材，修改时间约为40分钟。

在此之后，这个算法会从其他视频中寻找人物讲话时的嘴部动作，生成新的视频。

为了让视频看起来更加自然，该算法还能让运动参数的变化更加平滑，并进行3D动画渲染。最后，它会通过一种名为Neural Rendering的机器学习技术提高视频的仿真度。

在138位参与者的测试里，该团队的编辑结果中有60%被评为“逼真”。也就是说加工后的视频和原始视频非常像，但Fried表示还有很大的提升空间。