文本生成视频的优化算法出现——Runway技惊四座

2023-04-10 MedSci原创 MedSci原创发表于上海

文本生成视频并不新鲜，在“文字生成图片”到“文字生成视频（Text-to-Video，T2V）”自然也是AI在相关领域的自然发展，2022年9月，Met

文本生成视频并不新鲜，在“文字生成图片”到“文字生成视频（Text-to-Video，T2V）”自然也是AI在相关领域的自然发展。

Meta公司Make-A-Video让文本变视频成为可能

2022年9月，Meta就公布了旗下最新的T2V工具——“Make-A-Video”，不过整体来说，视频还有些问题。

“Make-A-Video”官网的论文显示，该工具的基础运行逻辑简单来说就是，当用户输入一串文字后，系统会生成16张在时间上有连续性的64X64像素的RGB图片，然后这作品图片将会通过插值模型增加视频的帧数，让前后帧之间的动作更加平滑，之后通过两个超分辨率模型，将图像的像素提升到256×256像素后，再提升到768×768像素，生成高分辨率和帧率的视频。

图：由文本直接生成的视频

几乎同时，Google也发布文本内容生成短视频工具：Imagen Video，这个工具主要功能是把段子自动生成短视频。谷歌项目研发团队希望人工智能模型能够“显着降低高质量内容生成的难度”。Imagen Video建立在Google的Imagen之上，这是一个类似于OpenAI的DALL-E的文本到图像程序。不过，谷歌表示：“我们决定不发布Imagen Video模型或其源代码，直到这些问题得到缓解。

Phenaki可以生成两分钟视频

此后，“Phenaki”的团队更是整了个大活，直接丢出了可以利用一大段文字生成短片的工具，该工具不仅可以生成短片，甚至可以用文字运镜，开发者甚至已经用该工具生成了一个时长两分钟的视频。

阿里低调开放文本生成视频大模型

今年3月22日，阿里达摩院低调地在魔搭社区（ModelScope）放出了“文本生成视频大模型”。

目前这个模型，由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成，整体模型参数约17亿，仅支持英文输入。扩散模型采用Unet3D结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现视频生成的功能。

Runway模型Gen-2，技惊四座

3月21日， AI 初创公司 Runway宣布了一种新的 AI 视频生成模型Gen-2，这个模型可以实现从文本到视频的转化。Runway的新算法一出现，就技惊四座！这真正可以生成较长的视频，未来可能用于制作电影等！

Runway 提供了一个基于网络的视频编辑器，专门用于背景移除和姿势检测等 AI 工具。该公司帮助开发了开源文本到图像模型Stable Diffusion ，并于 2 月宣布了其首个 AI 视频编辑模型 Gen-1 。Gen-1 专注于转换现有的视频片段，让用户输入粗略的 3D 动画或摇晃的智能手机剪辑并应用 AI 生成的叠加层。例如，在下面的剪辑中，硬纸板包装的镜头与工业工厂的图像配对，制作出可用于故事板或推介更精美的功能的剪辑。

相比之下，Gen-2 似乎更专注于从头开始生成视频，尽管有很多注意事项。首先，Runway 分享的演示片段短小、不稳定，而且肯定不逼真，其次，访问受限。彭博社报道称，用户必须通过 Runway 的 Discord 注册才能加入 Gen-2 的候补名单，该公司发言人 Kelsey Rondenet 告诉 The Verge，Runway将“在未来几周内提供广泛的访问权限”。

换句话说，我们现在要判断 Gen-2的只是一个演示卷轴和一些剪辑（其中大部分已经作为 Gen-1 的一部分进行广告宣传）。

从上面可以看出，目前的AIGC领域有多卷了！

版权声明：
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有。非经授权，任何媒体、网站或个人不得转载，授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章，或“梅斯号”自媒体发布的文章，仅系出于传递更多信息之目的，本站仅负责审核内容合规，其内容不代表本站立场，本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。
在此留言

评论区 (1)

#插入话题

插入图片

[GetPortalCommentsPageByObjectIdResponse(id=2125388, encodeId=b05a21253886d, content=3月21日， AI 初创公司 <a href='/topic/show?id=e5211058556d' target=_blank style='color:#2F92EE;'>#Runway#</a>宣布了一种新的 AI 视频生成模型<a href='/topic/show?id=9bec1058561c' target=_blank style='color:#2F92EE;'>#Gen-2#</a>，这个模型可以实现从<a href='/topic/show?id=54b010585eb0' target=_blank style='color:#2F92EE;'>#文本生成视频#</a>的转化。Runway的新算法一出现，就技惊四座！<a href='/topic/show?id=d3a024808e0' target=_blank style='color:#2F92EE;'>#人工智能#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=95, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=105855, encryptionId=e5211058556d, topicName=Runway), TopicDto(id=105856, encryptionId=9bec1058561c, topicName=Gen-2), TopicDto(id=105857, encryptionId=54b010585eb0, topicName=文本生成视频), TopicDto(id=24808, encryptionId=d3a024808e0, topicName=人工智能)], attachment=null, authenticateStatus=null, createdAvatar=https://img.medsci.cn/Random/55971dc507c93968175ce7cc1e177b372a83869f.jpg, createdBy=f63e4754896, createdName=侠胆医心, createdTime=Wed Apr 12 09:43:49 CST 2023, time=2023-04-12, status=1, ipAttribution=上海)]
2023-04-12 侠胆医心来自上海

3月21日， AI 初创公司 #Runway#宣布了一种新的 AI 视频生成模型#Gen-2#，这个模型可以实现从#文本生成视频#的转化。Runway的新算法一出现，就技惊四座！#人工智能#

95 0

内科

外科

专科科室

热点

按科室浏览

临床工具

科研工具

其他工具

科研数智化

真实世界研究解决方案

数字化学术传播解决方案

其它

人工智能

文本生成视频的优化算法出现——Runway技惊四座

相关资讯

科室

工具

服务