Baidu
map

文本生成视频的优化算法出现——Runway技惊四座

2023-04-10 MedSci原创 MedSci原创 发表于上海

文本生成视频并不新鲜,在“文字生成图片”到“文字生成视频(Text-to-Video,T2V)”自然也是AI在相关领域的自然发展,2022年9月,Met

文本生成视频并不新鲜,在“文字生成图片”到“文字生成视频(Text-to-Video,T2V)”自然也是AI在相关领域的自然发展。

Meta公司Make-A-Video让文本变视频成为可能

2022年9月,Meta就公布了旗下最新的T2V工具——“Make-A-Video”,不过整体来说,视频还有些问题。

“Make-A-Video”官网的论文显示,该工具的基础运行逻辑简单来说就是,当用户输入一串文字后,系统会生成16张在时间上有连续性的64X64像素的RGB图片,然后这作品图片将会通过插值模型增加视频的帧数,让前后帧之间的动作更加平滑,之后通过两个超分辨率模型,将图像的像素提升到256×256像素后,再提升到768×768像素,生成高分辨率和帧率的视频。

图:由文本直接生成的视频

几乎同时,Google也发布文本内容生成短视频工具:Imagen Video,这个工具主要功能是把段子自动生成短视频。谷歌项目研发团队希望人工智能模型能够“显着降低高质量内容生成的难度”。Imagen Video建立在Google的Imagen之上,这是一个类似于OpenAI的DALL-E的文本到图像程序。不过,谷歌表示:“我们决定不发布Imagen Video模型或其源代码,直到这些问题得到缓解。

Phenaki可以生成两分钟视频

此后,“Phenaki”的团队更是整了个大活,直接丢出了可以利用一大段文字生成短片的工具,该工具不仅可以生成短片,甚至可以用文字运镜,开发者甚至已经用该工具生成了一个时长两分钟的视频。

阿里低调开放文本生成视频大模型

今年3月22日,阿里达摩院低调地在魔搭社区(ModelScope)放出了“文本生成视频大模型”。

目前这个模型,由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成,整体模型参数约17亿,仅支持英文输入。扩散模型采用Unet3D结构,通过从纯高斯噪声视频中,迭代去噪的过程,实现视频生成的功能。

Runway模型Gen-2,技惊四座

3月21日, AI 初创公司 Runway宣布了一种新的 AI 视频生成模型Gen-2,这个模型可以实现从文本到视频的转化。Runway的新算法一出现,就技惊四座!这真正可以生成较长的视频,未来可能用于制作电影等!

Runway 提供了一个基于网络的视频编辑器,专门用于背景移除和姿势检测等 AI 工具。该公司帮助开发了开源文本到图像模型Stable Diffusion ,并于 2 月宣布了其首个 AI 视频编辑模型 Gen-1 。Gen-1 专注于转换现有的视频片段,让用户输入粗略的 3D 动画或摇晃的智能手机剪辑并应用 AI 生成的叠加层。例如,在下面的剪辑中,硬纸板包装的镜头与工业工厂的图像配对,制作出可用于故事板或推介更精美的功能的剪辑。

相比之下,Gen-2 似乎更专注于从头开始生成视频,尽管有很多注意事项。首先,Runway 分享的演示片段短小、不稳定,而且肯定不逼真,其次,访问受限。彭博社报道称,用户必须通过 Runway 的 Discord 注册才能加入 Gen-2 的候补名单,该公司发言人 Kelsey Rondenet 告诉 The Verge,Runway将“在未来几周内提供广泛的访问权限”。

换句话说,我们现在要判断 Gen-2的只是一个演示卷轴和一些剪辑(其中大部分已经作为 Gen-1 的一部分进行广告宣传)。

从上面可以看出,目前的AIGC领域有多卷了!

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2125388, encodeId=b05a21253886d, content=3月21日, AI 初创公司 <a href='/topic/show?id=e5211058556d' target=_blank style='color:#2F92EE;'>#Runway#</a>宣布了一种新的 AI 视频生成模型<a href='/topic/show?id=9bec1058561c' target=_blank style='color:#2F92EE;'>#Gen-2#</a>,这个模型可以实现从<a href='/topic/show?id=54b010585eb0' target=_blank style='color:#2F92EE;'>#文本生成视频#</a>的转化。Runway的新算法一出现,就技惊四座!<a href='/topic/show?id=d3a024808e0' target=_blank style='color:#2F92EE;'>#人工智能#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=95, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=105855, encryptionId=e5211058556d, topicName=Runway), TopicDto(id=105856, encryptionId=9bec1058561c, topicName=Gen-2), TopicDto(id=105857, encryptionId=54b010585eb0, topicName=文本生成视频), TopicDto(id=24808, encryptionId=d3a024808e0, topicName=人工智能)], attachment=null, authenticateStatus=null, createdAvatar=https://img.medsci.cn/Random/55971dc507c93968175ce7cc1e177b372a83869f.jpg, createdBy=f63e4754896, createdName=侠胆医心, createdTime=Wed Apr 12 09:43:49 CST 2023, time=2023-04-12, status=1, ipAttribution=上海)]
    2023-04-12 侠胆医心 来自上海

    3月21日, AI 初创公司 #Runway#宣布了一种新的 AI 视频生成模型#Gen-2#,这个模型可以实现从#文本生成视频#的转化。Runway的新算法一出现,就技惊四座!#人工智能#

    0

相关资讯

新英格兰医学杂志推出NEJM AI,追逐人工智能

ChatGPT以强劲势头在医疗领域崭露头角,现有各种探索也为行业带来了更多想象。近日,医学顶刊《新英格兰医学杂志》(NEJM)正式宣布将于2024年出版新杂志NEJM AI,并从今年夏天开始接收投稿。

Radiology:乳腺癌MRI动态增强分类对分子亚型的影响

临床实践中,人们已经了解到了早期识别乳腺癌分子亚型对于早期的特殊治疗的重要性。

分割一切的视觉算法出现,病理和影像的人工智能可能会被颠覆!

Meta研究部门发布了一篇名为其“Segment Anything(分割一切)”的论文,文中介绍了一个全新的Segment Anything Model(即SAM),可以用于识

European Radiology:人工智能在甲状腺超声中的临床价值

根据目前的实践指南推荐,超声检查(US)是区分甲状腺癌和良性结节以及选择细针抽吸(FNA)活检对象的一线和最准确的影像检查。

European Radiology:人工智能实现PET/CT的肺癌全自动评估!

使用人工智能(AI)算法的自动肺部肿瘤检测已经在高分辨率CT上显示出重要的价值。然而,特别是在层厚为3毫米、以自由呼吸技术采集的PET/CTs的CT部分在检测晚期肿瘤方面对算法来说是个挑战。

2023年斯坦福AI Index公布:工业界或将领先于学术界

新报告显示了 2022 年 AI 行业的重要趋势!

Baidu
map
Baidu
map
Baidu
map