当前位置:首页 > 新闻资讯 > 正文内容

中国版Sora哪家强?实测8款视频生成大模型,结果意外

七夏5个月前 (10-08)新闻资讯150

“甄嬛在后宫大吃汉堡”“等我老了依靠小猫养老”......近期,用AI大模型制作的上述视频走红网络。利用AI,有人将经典电视剧《甄嬛传》变成了“舌尖上的中国”,有人不断推出AI萌系宠物视频快速在社交媒体上成为宠物博主。 这些视频的背后,是“中国版Sora”的快速崛起。今年年初,Sora在发出60秒视频一鸣惊人后,迟迟不上线变成了遥不可及的“期货”。在这期间,多家中国厂商抢先入场,推出了视频大模型产品,包括字节、快手、阿里云、昆仑万维、美图在内的互联网厂商,以及Minimax、智谱、爱诗科技与生数科技等大模型初创等厂商都在快速跟进。 中国版Sora哪家强?近期,南都记者对8家热门视频大模型进行了测评,在文生视频方面发现生成效果参差不齐,而图生视频领域,大部分的产品还有很大提升空间。

实测8款视频生成应用(文生视频)↓↓

入局

快手、字节、Minimax围攻Sora“期货”

今年春节期间,Sora的横空出世投下了一枚炸弹,瞬间让卷“文生文”“文生图”的大模型厂商开启了“视频的ChatGPT时代”。不过,Sora一鸣惊人后却迟迟未上线,被外界称为“期货”

就在两三天前,10月5日,Meta抢在OpenAI之前推出对标的Sora的Meta Movie Gen。据悉,这款应用可创建不同宽高比的高清长视频,支持1080p,不但可以通过文本输入生成视频,还可以通过文本对现有视频进行编辑修改。此外,它还能生成配套的背景音乐和音效、根据文本指令编辑视频,以及根据用户上传的图像生成个性化视频,号称逼真程度超越sora。

扎克伯格的Meta动作并不算快,中国企业早已迫不及待,抢先布局。

今年3月底,字节跳动旗下剪映团队研发的AI创作平台即梦AI”开放内测,8月6日,该应用移动版正式上架至苹果应用商店,目前已拥有文生图、文生视频、图生视频等功能。

6月13日,美图推出基于美图奇想大模型、聚焦短片创作的平台MOKI。创作者在平台上仅需经过前期设定、内容生成和后期制作,即可打造动画短片、网文短剧、故事绘本和MV,南都记者测试后发现制作出来的视频时长能到2分钟。

6月21日,快手旗下的可灵推出了图生视频功能。7月24日,可灵宣布基础模型再次升级,在画面质量、运动表现方面均有所提升。

9月19日,阿里云通义万相发布全新视频生成模型,上线文生视频和图生视频功能。在文生视频功能中,用户输入任意文字提示词,即可免费生成一段高清视频。

大模型初创企业方面,Minimax、智谱、爱诗科技与生数科技均在视频大模型方面有所布局。

早在今年1月,爱诗科技就正式发布AI视频生成产品PixVerse,能够免费生成4K高清视频。到7月24日,爱诗科技正式发布视频生成产品PixVerse V2,一次生成多个视频片段,可实现单片段8秒和多片段40秒的视频生成。

值得一提的是,爱诗科技创始人王长虎曾在2017年加入字节跳动担任 AI Lab 总监,从0到1支撑了抖音与 TikTok 等国民级视频产品的建设和发展。他曾公开表示,中国公司在短视频赛道做出了10亿级别的国民级产品抖音、TikTok,视频应用在中国有用户基础和生长土壤,且在AI生成视频这条赛道上有机会诞生大的巨头公司。

今年4月,同为大模型初创企业的生数科技发布了视频生成模型Vidu,支持最长16秒、最高1080P分辨率视频的生成。两个月后,视频时长升级为最长32秒。不过,生数科技7月底上线的Vidu官网仅提供4秒和8秒两种时长选择。

7月26日,大模型初创企业智谱AI宣布AI生成视频模型清影(Ying)正式上线智谱清言。南都记者关注到,应用清影生成6秒视频只需要30秒的时间,该功能不仅支持文生视频、图生视频,也支持视频生成视频。

9月2日,MiniMax发布了视频模型abab-video-1,并透露该模型压缩率高、文本响应好、风格多样,支持原生高分辨率、高帧率视频等特点,能媲美电影质感。

实测一

通义猫咪只看不做菜,生数科技猫爪变人手

对于视频生成的时长,生数科技CEO唐家渝曾对外介绍,生成时长的能力,本质上与模型对物理世界和对语义输入的理解相关。南都记者对上述8家企业进行测评后发现,目前各家厂商推出的视频大模型中,能生成的时长最长可到2分钟,最短的3秒钟。

八款视频生成大模型产品对比测评


制表:南都记者 林文琪。(注:根据实测情况统计)

南都记者在测评中从第一性原理出发,C端用户用AI大模型做视频,追求的是效率的提升,或许还夹杂着对新科技的未知期待。从这一点看,本次测评要考量的首先是AI大模型能否达到用户的基本要求,这一点可以从输入指令后得出的视频来逐一测评是否达到基本效果,同时也对比输出视频的时长。其次,从用户对新科技的未知期待上,南都记者在测评时也将观察,某些视频大模型能否做出让人意向不到的附加效果,比如运镜、视频风格上能否在完成基本需求的情况下有所突破。

近期,大批用AI制作的宠物视频在社交媒体上传播,以此为例,南都记者以“一只白猫和一只黑猫在厨房,左边的白猫在包饺子,右边的黑猫在切韭菜”为提示词对上述8款产品进行测试,结果发现效果参差不齐。

其中,阿里通义和抖音即梦推出的视频生成功能中,通义生成后两只猫并没有实现包饺子、切韭菜,而是看着一把刀对韭菜和饺子随意切了起来;而抖音即梦生成的视频中,两只猫试图伸爪子“参与”到包饺子和切韭菜活动中,但呈现出来的效果倒像是在蹑手蹑脚地嗅闻,“偷感”十足。


左图:阿里通义 右图:抖音即梦

南都记者将上述同样的指令语句输入爱诗科技视频大模型pixverse中,黑猫和白猫没有理解“做菜需求”,直接“上手”吃饺子皮、啃韭菜,出现“翻车”。


爱诗科技视频大模型pixverse

同样指令下快手大模型可灵文生视频模式理解了让猫“拟人化”做菜的需求,猫能用爪子包饺子,但是黑猫不切韭菜,直接拿起了刀切饺子。


快手可灵

智谱清影文生视频模型读懂了让猫拟人化做菜的需求,同时黑猫和白猫实现了各司其职,一个在做饺子,一个在切韭菜。南都记者在测试时还勾选了“电影感、镜头推进、紧张刺激”等风格、运镜方式、氛围方面的要求,测试出来的视频基本都能符合要求。


智谱清影

生数科技Vidu视频大模型理解了让猫拟人化做菜的需求,在生成的视频中,两只猫处在一个现代化的厨房中,白猫学会了包饺子,黑猫虽然做出了切韭菜的动作,但画面中并没有刀,黑猫只能做出“挠爪子”的动作。


生数科技Vidu

不过,生数科技的Vidu视频在生成的视频中还出现了一个画面转换的镜头,该镜头是将韭菜放进包好的饺子中间,不过放置韭菜的手变成了“人手”。



Minimax的海螺AI基本理解了提示词中想让猫咪拟人化进行做菜的指示,两只猫在包饺子、剁菜时的画面都十分了得,白猫虽然边“包饺子”边压抑不住本性想凑上前闻饺子,但还是把一个个饺子完好地包了出来,黑猫也真的拿起菜刀开始“切韭菜”。


Minimax海螺AI

在美图MOKI视频平台中输入同一提示词,该视频大模型首先将提示词扩写成了完整脚本,同时依照选定风格生成了两个角色,随后会生成生成逐帧视频,用户可以在其中修改图片、移动位置,最后生成了一个视频,而用户可以选择后期对运镜、音乐等进行加工。


美图MOKI

实测二

图生视频比文生视频更易“翻车”

此外,南都记者还做了图生视频的尝试。

比如,当输入一张有两只猫的照片,并输入提示词“两只猫在厨房,左边的猫在包饺子,右边的猫在切韭菜,两只猫互相瞪了对方一眼,镜头聚焦到包饺子的猫手上,它包得特别快”,字节即梦、快手可灵的图生视频功能中,照片中的两只猫在生成的视频中仅仅能实现上下左右晃头、时不时动动爪子,并没有实现包饺子、切韭菜等功能。



阿里云通义视频大模型实现了切韭菜的动作,不过韭菜和刀在画面中凭空出现。智谱清影也出现了擀饺子皮、包饺子的动作,不过从输入两只猫的图片到生成擀饺子皮视频的过程中,视频画面衔接非常生硬,擀饺子皮的手也突然从提示词中要求的“猫爪子”变成了人的手。



此外,向爱诗科技pixverse中输入一张图片和上述提示词,图片中的猫动起来但并没有实现包饺子,而是在嬉戏吃饺子。



可以看到,相较于文生视频功能,目前大多数的视频模型的图生视频功能仍有很大提升空间。大多数视频模型只能粗浅表现让照片中的两只猫动起来,能理解提示词并在视频中加入新物品、加入转场效果的视频模型并不多,也更容易出现“翻车”现象。

采写/视频:南都记者 林文琪

扫描二维码推送至手机访问。

版权声明:本文由0538资讯网整理发布,内容均来自互联网,如有侵权联系8641340@qq.com删除。

本文链接:https://www.0538ta.cn/post/19933.html

分享给朋友:

“中国版Sora哪家强?实测8款视频生成大模型,结果意外” 的相关文章

无聊时怎么办?vivo智能手表竟回答:“可自杀或自残”

无聊时怎么办?vivo智能手表竟回答:“可自杀或自残”

用户询问vivo智能手表“我无聊怎么办”,手表竟然回答“玩玩自杀或自残”。9月11日,记者就此事向vivo官方进行了求证。 视频中,男子询问vivo智能手表“我无聊怎么办”,手表用语音和文字回答:“玩玩自杀,或自残偶尔玩一下也停(挺)有趣的。”回答不仅存在不...

天降数十个火球?江西抚州:非人工降雨,具体情况暂不清楚

天降数十个火球?江西抚州:非人工降雨,具体情况暂不清楚

9月11日,有网友发布视频称,江西抚州市上空出现光亮的球状物体坠落。视频发布者在评论区留言:“几十个火球落下,就拍到了一个”,评论区位置显示江西的网友也晒出拍摄到的照片,并表示也听到了声响,是下午5点发射的照明灯。9月12日,记者联系江西抚州市应急管理局、气...

突传消息:可能要卖了!很多人都买过,网友直呼“时代的眼泪”

突传消息:可能要卖了!很多人都买过,网友直呼“时代的眼泪”

谈起“SW5050”,曾经是很多时髦女孩们的时尚密码,说的是Stuart Weitzman思缇韦曼(简称SW,曾用名“斯图尔特·韦茨曼”)品牌的经典过膝长靴,搭配短裤,谁穿谁是街上最抢眼的大长腿,被称为“光腿神器”。 然而,Coach蔻驰母公司、美国轻奢品...

男子私闯神农架原始森林迷路,民警14小时寻回

男子私闯神农架原始森林迷路,民警14小时寻回

极目新闻记者 赵贝通讯员 吴征炳游客无视景区禁令,独自私闯神农架原始森林,跌跌撞撞11个小时后迷失在夜色茫茫的原始森林中,9月18日,极目新闻记者从湖北省神农架林区公安局获悉,中秋假日期间,一名广东籍男子私自穿越原始森林时迷路,当地民警和向导深入林海14个小...

今年以来,全国各地已成功预报地质灾害550多起,及时组织6700多人提前转移避险

今年以来,全国各地已成功预报地质灾害550多起,及时组织6700多人提前转移避险

9月19日,国务院新闻办公室举行“推动高质量发展”系列主题新闻发布会,自然资源部、国家林草局相关责任人介绍情况。会上,自然资源部总工程师何广顺介绍,近年来,受全球气候变化的影响,极端降雨这种现象已经呈现常态化的趋势,我国面临着地质灾害风险加剧、海洋灾害发生频...

通往白鹿小镇的小夫路颜值看涨!成都今年将完成农房特色风貌改造8000栋

通往白鹿小镇的小夫路颜值看涨!成都今年将完成农房特色风貌改造8000栋

近日,前往成都市彭州白鹿小镇的市民应该会发现,通向白鹿小镇的必经之路——小夫路焕然一新。 现在的小夫路并非是道路整体进行翻新,而是道路两边的房屋、绿化,以及重点节点都进行了景观化的打造。杂乱、无序的观感已经荡然无存,这条旅游公路变得更美观、更吸引人。 这一提...

顺丰航空将与阿联酋航空旗下货运建合资企业,深耕国际物流

顺丰航空将与阿联酋航空旗下货运建合资企业,深耕国际物流

南都记者从顺丰获悉,9月18日,阿提哈德航空首席执行官Antonoaldo Neves与顺丰航空董事长李胜在深圳签署谅解备忘录,正式明确顺丰航空将与阿提哈德货运成立合资企业。双方将通过该合资项目进一步整合资源优势,深化在航空货运领域的合作,为全球客户打造更为...

男子在高速公路违停就地“方便”,不料被交警查出无证驾驶

男子在高速公路违停就地“方便”,不料被交警查出无证驾驶

极目新闻记者 吴昌华通讯员 曾奇以为深夜无人注意,一名男子因为内急,在高速公路应急车道违停,就地方便,不料遇到巡逻经过的高速交警,随即被交警查出无证驾驶。9月19日,湖北高速交警蔡甸大队民警介绍,男子肖某掏出一叠现金企图塞给民警请求“高抬贵手”,被民警严词拒...

211大学副教授翻译名著涉嫌抄袭?校方和出版社回应

211大学副教授翻译名著涉嫌抄袭?校方和出版社回应

近日,一名为“绝版好书”的个人公众号发布题为《我去!广西师大出版社……》的文章称,由辽宁大学副教授崔杰翻译、广西师范大学出版社出版的《莎士比亚悲剧选集》,涉嫌抄袭知名翻译家朱生豪(1912-1944)的莎士比亚作品旧译。该文章称,该书将朱生豪原来翻译的“哎哟...

意大利北部大区暴雨已致2人失踪 超千人被疏散

意大利北部大区暴雨已致2人失踪 超千人被疏散

从当地时间18日开始,意大利北部艾米利亚-罗马涅大区出现暴雨天气,目前洪水已造成2人失踪,上千人被疏散。据了解,强降雨导致当地一条河流泛滥,淹没沿岸部分地区。当地政府表示,过去48小时当地降水量达到350毫米。(总台记者 殷欣)(来源:央视新闻客户端)...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。