文本生成视频的优化算法出现——Runway技惊四座
2023-04-10 MedSci原创 MedSci原创 发表于上海
文本生成视频并不新鲜,在“文字生成图片”到“文字生成视频(Text-to-Video,T2V)”自然也是AI在相关领域的自然发展,2022年9月,Met
文本生成视频并不新鲜,在“文字生成图片”到“文字生成视频(Text-to-Video,T2V)”自然也是AI在相关领域的自然发展。
Meta公司Make-A-Video让文本变视频成为可能
2022年9月,Meta就公布了旗下最新的T2V工具——“Make-A-Video”,不过整体来说,视频还有些问题。
“Make-A-Video”官网的论文显示,该工具的基础运行逻辑简单来说就是,当用户输入一串文字后,系统会生成16张在时间上有连续性的64X64像素的RGB图片,然后这作品图片将会通过插值模型增加视频的帧数,让前后帧之间的动作更加平滑,之后通过两个超分辨率模型,将图像的像素提升到256×256像素后,再提升到768×768像素,生成高分辨率和帧率的视频。
图:由文本直接生成的视频
几乎同时,Google也发布文本内容生成短视频工具:Imagen Video,这个工具主要功能是把段子自动生成短视频。谷歌项目研发团队希望人工智能模型能够“显着降低高质量内容生成的难度”。Imagen Video建立在Google的Imagen之上,这是一个类似于OpenAI的DALL-E的文本到图像程序。不过,谷歌表示:“我们决定不发布Imagen Video模型或其源代码,直到这些问题得到缓解。
Phenaki可以生成两分钟视频
此后,“Phenaki”的团队更是整了个大活,直接丢出了可以利用一大段文字生成短片的工具,该工具不仅可以生成短片,甚至可以用文字运镜,开发者甚至已经用该工具生成了一个时长两分钟的视频。
阿里低调开放文本生成视频大模型
今年3月22日,阿里达摩院低调地在魔搭社区(ModelScope)放出了“文本生成视频大模型”。
目前这个模型,由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿,仅支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。
Runway模型Gen-2,技惊四座
3月21日, AI 初创公司 Runway宣布了一种新的 AI 视频生成模型Gen-2,这个模型可以实现从文本到视频的转化。Runway的新算法一出现,就技惊四座!这真正可以生成较长的视频,未来可能用于制作电影等!
Runway 提供了一个基于网络的视频编辑器,专门用于背景移除和姿势检测等 AI 工具。该公司帮助开发了开源文本到图像模型Stable Diffusion ,并于 2 月宣布了其首个 AI 视频编辑模型 Gen-1 。Gen-1 专注于转换现有的视频片段,让用户输入粗略的 3D 动画或摇晃的智能手机剪辑并应用 AI 生成的叠加层。例如,在下面的剪辑中,硬纸板包装的镜头与工业工厂的图像配对,制作出可用于故事板或推介更精美的功能的剪辑。
相比之下,Gen-2 似乎更专注于从头开始生成视频,尽管有很多注意事项。首先,Runway 分享的演示片段短小、不稳定,而且肯定不逼真,其次,访问受限。彭博社报道称,用户必须通过 Runway 的 Discord 注册才能加入 Gen-2 的候补名单,该公司发言人 Kelsey Rondenet 告诉 The Verge,Runway将“在未来几周内提供广泛的访问权限”。
换句话说,我们现在要判断 Gen-2的只是一个演示卷轴和一些剪辑(其中大部分已经作为 Gen-1 的一部分进行广告宣传)。
从上面可以看出,目前的AIGC领域有多卷了!
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
3月21日, AI 初创公司 #Runway#宣布了一种新的 AI 视频生成模型#Gen-2#,这个模型可以实现从#文本生成视频#的转化。Runway的新算法一出现,就技惊四座!#人工智能#
95