您当前所在位置: 逸达平台注册 > 行业动态 >
行业动态 谷歌最新视频抠图术:影子烟雾都能抠,增补水印更顺滑
作者:admin    发布时间: 2021-09-08 11:46

本文经AI新媒体量子位(公多号ID:QbitAI)授权转载,转载请有关出处。

图片来源@视觉中国

钛媒体注:每个人的经历都在构筑历史,钛媒体「风云人物」栏目,先期推出「风云创始人」、「风云投资人」两大专题,探寻商业浪潮背后的人物悲喜、人生经验与人性挣扎。

什么是未来数字生活?

如何更顺滑的增补水印?

谷歌的这项新技术,让文本简直就像贴在地面上,哪怕是在沙尘横飞的场景里。

谷歌<<span class=span><span><span><i 4">手段也很浅易。

只需输入一段视频,和指定对象的不详蒙版。

谷歌<<span class=span><span><span><i 6">那这个对象的一切有关场景元素,都能解锁!

比如人和狗的影子行业动态。

谷歌<<span class=span><span><span><i 8">还有暗天鹅徐徐拂过的悠扬~

谷歌<<span class=span><span><span><i 9">以及上述谁人赛车疾驰事后激首的沙尘。

不管是肆意对象和主体,无论怎么移动,一切元素都能抠出来。

这就是谷歌最新的视频分层技术——omnimatte,入选CVPR 2021 Oral。

现在这项技术都已开源。

如何实现

计算机视觉在分割图像或视频中的对象方面越来越有效,然而与对象有关的场景成果。

比如阴影、逆射、产生的烟雾等场景成果往往被无视。

而识别这些场景成果,对挑高AI的视觉理解很主要,那谷歌这项新技术又是如何实现的呢?

浅易来说,用分层神经网络渲染手段自监督训练CNN,来将主体与背景图像分割开来。

原由CNN的专有组织,会有倾向性地学习图像成果之间的有关性,且有关性却强,CNN越容易学习。

谷歌<<span class=span><span><span><i 19">输入一段有移动物体的视频,以及一个或者多个标记主体的不详分割蒙版。

最先,操纵现成的分割网络比如Mask RCNN,来讲这些主体分成多个遮罩层和背景噪声图层,并遵命某栽规则进走排序。

比如,在一个骑手、一辆自走车以及几个路人的场景中,就会把骑手和自走车归入一个层,把人群归入第二层。

omnimatte模型是一个二维UNet,逐帧处理视频。每一帧都用现成的技术来计算物体掩码,来标记活动中的主体,并追求和有关蒙版中未捕捉到的成果,比如阴影、逆射或者烟雾,重修输入帧。

为了保证其他静止的背景元素不被捕获,钻研人员引入了稀奇亏损。

此表,还计算了视频中每一帧和不息帧之间的浓密光流场,为网络挑供与该层对象有关的流新闻。

最后生成Alpha图像(不透明度图)和RGBA彩色图像,尤其RGBA图像,简直能够说是视频/图像剪辑法宝!

谷歌<<span class=span><span><span><i 26">现在这一技术已经开源,配置环境如下:

Linux Python 3.6+ NVIDIA GPU + CUDA CuDNN 有什么用途

技术成果这样,那有什么样的用途呢?

最先就能够复制或者删除图像。

谷歌<<span class=span><span><span><i 33">还有顺滑地切换背景。

谷歌<<span class=span><span><span><i 34">还能够实现这一经典操作,让正本挨次失踪水的幼孩一首入水~

背后的团队

末了再来说一下背后的团队。

谷歌<<span class=span><span><span><i 37">这项钻研由谷歌钻研院、牛津大学以及魏茨曼科学钻研所共同完善。

其中,论文一作是牛津大学四年级博士生Erika Lu,曾是谷歌演习生,在麻省理工学院获得了计算机科学与工程学士学位。

谷歌<<span class=span><span><span><i 39">论文链接: https://arxiv.org/pdf/2105.06993.pdf

【编辑选举】行业动态

Photoshop入门视频教程电商美工幼白后期修图柔件基础培训课程 5G12:5G入门之R15的网络与营业视频课程 18张图通知你:90分的网络工程师,答该掌握的十个关键技术点 自动化和机器人技术的不同及其适用的场景 复杂事件处理(CEP)技术在数据坦然场景中的行使

Powered by 逸达平台注册 @2018 RSS地图 HTML地图