当前位置:首页 > 新闻资讯 > 正文内容

突破主体互动难关!豆包发布视频生成模型,有多镜头语言能力

七夏5个月前 (09-25)新闻资讯160

字节跳动正式宣告进军AI视频生成。9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,面向企业市场开启邀测。 火山引擎总裁谭待表示,“视频生成有很多难关亟待突破。豆包两款模型会持续演进,在解决关键问题上探索更多可能性,加速拓展AI视频的创作空间和应用落地。”


火山引擎总裁谭待。

视频生成大模型破解多主体互动和一致性难题

在大会上,谭待宣布豆包正式推出视频生成模型,包括豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,面向企业市场开启邀测。

此前,视频生成模型大多只能完成简单指令,豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。有创作者在体验豆包视频生成模型时发现,其生成的视频不仅能够遵循复杂指令,让不同人物完成多个动作指令的互动,人物样貌、服装细节甚至头饰在不同运镜下也保持一致,接近实拍效果。

大会上展示了很多视频生成的案例,比如输入“一个侧对镜头的白人女人,摘掉墨镜,转身看向靠近她的杀手们”。这个描述包括了人的动作变化、镜头的变化,以及新人物的出现,模型则是根据这个指令生成一段完整的视频。


豆包视频生成模型根据指令完成的视频。

据火山引擎介绍,豆包视频生成模型基于 DiT 架构,通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法更是攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性。

据介绍,经过剪映、即梦AI等业务场景打磨和持续迭代,豆包视频生成模型具备专业级光影布局和色彩调和,画面视觉极具美感和真实感。深度优化的Transformer结构,则大幅提升了豆包视频生成的泛化能力,支持3D动画、2D动画、国画、黑白、厚涂等多种风格,适配电影、电视、电脑、手机等各种设备的比例,不仅适用于电商营销、动画教育、城市文旅、微剧本等企业场景,也能为专业创作者和艺术家们提供创作辅助。

目前,新款豆包视频生成模型正在即梦AI内测版小范围测试,未来将逐步开放给所有用户。即梦AI及剪映市场和运营负责人陈欣然认为,AI能够和创作者深度互动,共同创作,带来很多惊喜和启发,即梦AI希望成为用户最亲密和有智慧的创作伙伴。

同传模型采用端到端的模型架构

此次活动中,豆包大模型不仅新增视频生成模型,还发布了豆包音乐模型和同声传译模型,已全面覆盖语言、语音、图像、视频等全模态,全方位满足不同行业和领域的业务场景需求。

对于豆包音乐模型,谭待介绍称,音乐是一个复杂的综合体,涉及到词、曲、音调唱法,“豆包的音乐模型我们采用了全新的方案,实现了音乐生成的框架,从词、曲、唱三个方面来生成高质量的音乐。我们只需要输入一个prompt就可以得到一个情感表达准确的歌词。有了歌词,我们可以通过11种不同风格和情绪表达的选择进一步创作出歌曲。同时,得益于强大的豆包语音能力,我们在整个唱的方面其实会变得非常真实,包括对气口,还有真假音转化这些技巧的模拟,去媲美真人的演唱效果。”

南都记者在实测中发现,定制音乐分为灵感创作和自定义创作,在自定义创作下,用户可以输入歌词或者一键生词;而在灵感创作下,用户只要输入灵感,就可以生成几首不同风格的人声音乐。



而豆包的同声传译模型则是采用了全新的端到端的模型架构。谭待表示,传统的AI同声传译模型常用的是级联的模型方式,首先进行语音识别,然后再进行机器翻译,“这个准确率低有一个很大的问题,它有可能在语音识别那一块就没有听清楚,它没听有清楚,翻译的时候就开始瞎翻了。”

而端到端的方式可以让翻译更加精准、质量更高、时延更低,“我们迭代豆包语音克隆的能力,让它模拟一个真人的发音,这样去媲美一个真人的同传效果,而且在很多专业的场景里面可能会更好,因为它不会疲惫,它不会听漏。”

从效果展示来看,无论是语速超快、发音复杂的绕口令,还是文言文,又或是充满即兴和灵感的随意聊天,模型都能流畅地给出翻译结果。


豆包的同声传译模型展示。

豆包大模型日均Tokens调用量超过1.3万亿

在今年7月的巡展上,火山引擎曾披露,豆包大模型的日均Tokens调用量已经有5000亿。而在9月24日,谭待透露,截至9月,这个数据还在持续增长,现在已经超过1.3万亿,“我们在4个月的时间里,Tokens整体增长超过了10倍。”

除了在语言模型上,豆包大模型在多模态方面也披露了其进展。据大会披露,目前豆包文生图模型日均生成图片5000万张,此外,豆包目前还日均处理语音85 万小时,这个数字相当于7万天的广播节目播出总时长的总和。

此前,豆包大模型公布低于行业99%的定价,引领国内大模型开启降价潮。谭待认为,大模型价格已不再是阻碍创新的门槛,随着企业大规模应用,大模型支持更大的并发流量正在成为行业发展的关键因素。

据谭待介绍,业内多家大模型目前最高仅支持300K甚至100K的TPM(每分钟token数),难以承载企业生产环境流量。例如某科研机构的文献翻译场景,TPM峰值为360K,某汽车智能座舱的TPM峰值为420K,某AI教育公司的TPM峰值更是达到630K。为此,豆包大模型默认支持800K的初始TPM,远超行业平均水平,客户还可根据需求灵活扩容。

“在我们努力下,大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能,卷更好的模型能力和服务。”谭待表示。

此次豆包 pro 还宣布上下文窗口也进行了升级。原来的豆包 pro 4K版本将直接升级到 32K,同时对长文本的128K窗口也进行了升级,现在豆包最长支持 256K的窗口。“给予最新升级的窗口,能同时处理约40万汉字,相当于一口气把《三体》第一部和第二部全部读一遍,而且我们所有的升级都是加量不加价,和原来128K完全同样的价格。” 谭待表示。

采写:南都记者 汪陈晨

扫描二维码推送至手机访问。

版权声明:本文由0538资讯网整理发布,内容均来自互联网,如有侵权联系8641340@qq.com删除。

本文链接:https://www.0538ta.cn/post/8182.html

分享给朋友:

“突破主体互动难关!豆包发布视频生成模型,有多镜头语言能力” 的相关文章

夺冠!深圳高校教师参加世界技能大赛,获光电技术项目金牌

夺冠!深圳高校教师参加世界技能大赛,获光电技术项目金牌

南都讯 记者伍曼娜 记者今日从深圳信息职业技术学院(以下简称“深信院”)了解到,该校教师陈骏安代表中国参加第47届世界技能大赛光电技术项目,喜获金牌,为祖国赢得荣誉。比赛4个模块总时长20.5个小时手动焊接超200根0.4mm导线据介绍,当地时间9月15日晚...

中央气象台9月19日06时继续发布台风黄色预警

中央气象台9月19日06时继续发布台风黄色预警

中央气象台9月19日06时继续发布台风黄色预警:今年第14号台风“普拉桑”(热带风暴级)的中心今天(19日)早晨5点钟位于浙江象山县东偏南方向约445公里的东海海面上,就是北纬27.4度、东经125.8度,中心附近最大风力有9级(23米/秒),中心最低气压为...

和他们“健”面后 我决定在龙岗养老

和他们“健”面后 我决定在龙岗养老

  护士在照料老人。  开栏语  春夏秋冬是四季的规律,生老病死是人生的规律。  当你老了,希望拥有什么样的生活状态?也许是:能走能跳,约上广场舞搭子,每天去跳舞;耳聪目明,背上心爱的相机,去公园“打鸟”;牙齿没掉能吃能喝,约上老闺蜜喝早茶……在脑海里畅想这...

因工作调动,建行副行长李民辞任,现年53岁

因工作调动,建行副行长李民辞任,现年53岁

9月18日晚间,建设银行(601939)发布公告显示,该行副行长李民因工作调动已向建设银行董事会提出辞呈,辞去本行副行长职务。李民于2023年9月正式就任建行副行长,至辞任近一年。公开资料显示,李民1971年5月出生,现年53岁。高级会计师,1993 年 7...

江苏泗洪一学校门口发生车祸 警方:2人死亡4人受伤,驾驶员已被控制

江苏泗洪一学校门口发生车祸 警方:2人死亡4人受伤,驾驶员已被控制

9月19日,网传江苏宿迁市泗洪县泗州学校门口发生车祸,疑似有学生受伤。当日中午,泗洪县公安局发布通报称,9月19日7时26分,许某某(男,31岁)驾驶轿车送其妹妹上学,行至泗洪县青阳街道山河东路泗州学校东侧,突发疾病,车辆失控,先后与2辆轿车、3辆非机动车相...

祝贺!北斗三号系统最后两颗备份卫星发射成功

祝贺!北斗三号系统最后两颗备份卫星发射成功

今天,我国在西昌卫星发射中心用长征三号乙运载火箭与远征一号上面级,成功发射第五十九颗、六十颗北斗导航卫星。(来源:央视新闻)...

最高35℃!孝感未来三天持续多云,温差大

最高35℃!孝感未来三天持续多云,温差大

今天是2024年9月19日,孝感天气以多云为主,气温较高,白天最高气温预计34℃,最低气温26℃,微风,空气湿度78%,体感温度28.6℃。市民朋友请注意补水防晒,户外活动时做好防暑降温。明日孝感天气将继续维持多云状态,最高气温35℃,最低气温21℃,微风。...

两日内第二起,缅甸超百人集体食物中毒

两日内第二起,缅甸超百人集体食物中毒

当地时间18日晚间,缅甸勃固省东吁地区一村庄发生集体食物中毒事件,共有130余人出现腹泻、呕吐等症状。据了解,该地聚集着部分受洪灾影响的灾民。一些民众食用了捐赠的食物后出现食物中毒症状。目前食物中毒人员均已送往医院救治,暂未有人员死亡情况。9月17日晚间,缅...

黄晓明官宣和网红叶珂恋情,叶珂晒聊天截图回应“黄晓明 没结婚”:有点莫名奇妙

黄晓明官宣和网红叶珂恋情,叶珂晒聊天截图回应“黄晓明 没结婚”:有点莫名奇妙

9月19日下午14时许,黄晓明在个人社交账号发文称,“抱歉占用公共资源,大家别猜啦,我们在一起了”,并@出新恋人叶珂。图源:当事人社交账号黄晓明发文半小时前,叶珂也在个人社交账号发布一张黄晓明和团队的聊天记录截图,称“有点莫名其妙了吧”,并带上了#黄晓明 没...

40批次牙膏测评:丽齿健氟化物不达标,皓乐齿样品存在玻片

40批次牙膏测评:丽齿健氟化物不达标,皓乐齿样品存在玻片

随着消费理念的升级以及对于口腔保健重视程度的提高,牙膏已是日常生活中必备的口腔保健产品。然而,市面上五花八门的品牌和不同功效的牙膏却让消费者选择时无从下手。那么,这些牙膏上标注的不同功效代表着什么?又是否有效?近日,江苏省消保委公布了40批次牙膏产品的比较试...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。