字节用AI卷起老本行:进军视频生成大模型,可自由切换镜头、接近实拍效果

豆包视频生成大模型诞生并在即梦和剪映中使用,意味着字节跳动在用AI卷起视频“老本行”的道路上往前更近了一步。

视频生成大模型领域迎来重要玩家。

9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,现场发布豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,同时面向企业市场开启邀测。

对于视频生成大模型而言,生成视频的时长十分重要。目前,PixelDanc视频生成时长为5秒或10秒,Seaweed为5秒。火山引擎总裁谭待对时代周报等媒体表示:“视频生成有很多难关亟待突破。火山引擎的优势包含指令遵循能力、运镜(多镜头下主体一致性)等,背后有技术突破和全栈能力等优势。此外,抖音、剪映对视频的理解也是优势。”

谭待认为,视频生成大模型不应只讨论时长,要考虑应用场景,不同场景对时长要求不同,火山更关注针对不同行业的解决方案。”

值得注意的是,新款豆包视频生成模型正在即梦AI小范围内测,未来将逐步开放给所有用户。

今年2月,抖音集团原CEO张楠突然宣布转战剪映,要在剪映推动AI应用。宣布负责剪映仅一周后,2月16日,OpenAI推出可生成1分钟视频的Sora,让文生视频功能再次火爆全球。与此同时,张楠作为剪映业务负责人在朋友圈宣布即梦上线,即梦也成为张楠调任后第一次重要的产品更新。

在AI创新巡展上,剪映和即梦AI市场负责人陈欣然介绍了两款APP“AI化”的最新情况。她表示,过去制作类似质量内容需要5-10人团队,包括制作故事线、打磨特效、包装剪辑等,协作流程复杂,制作周期长达1-2个月,还需大量金钱和资源投入。但在AI帮助下,大部分创作者一人就能完成创作,制作时长也缩减至1-2周。

谭待也在演讲中提到:“视频生成有很多难关亟待突破。豆包两款模型会持续演进,在解决关键问题上探索更多可能性,加速拓展AI视频的创作空间和应用落地。”

无论如何,豆包视频生成大模型诞生并在即梦和剪映中使用,意味着字节跳动在用AI卷起视频“老本行”的道路上往前更近了一步。

图源:时代周报记者现场摄

可自由切换镜头

据火山引擎现场介绍,豆包大模型的使用量在急速增长。

截至9月,豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首发时增长十倍,多模态数据处理量也分别达到每天5000万张图片和85万小时语音。

在庞大的用户使用量下,豆包大模型再次带来新变化。不仅新增视频生成模型,还发布了豆包音乐模型和同声传译模型,已全面覆盖语言、语音、图像、视频等全模态。

此前,视频生成模型大多只能完成简单指令,豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互——不仅能够遵循复杂指令,让不同人物完成多个动作指令的互动,人物样貌、服装细节甚至头饰在不同运镜下也保持一致,接近实拍效果。

豆包视频生成模型基于DiT架构,通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。“这意味着豆包生成的视频攻克了多景别切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性,这也是豆包视频生成模型独树一帜的技术创新。”谭待表示。

关于模型未来的方向,谭待表示火山引擎更关注基于现有模型更好地落地和加速创新,“技术要满足用户需求,新老技术要不断调整适配。大模型的成熟标准是孵化后用户体验过且有一定体量的真实且较好的反馈,而不是实验室里的反馈。比如即梦、豆包都有大量内测,用户反馈是重要评测标准。”

此前,豆包大模型定下低于行业99%的token定价,率先卷起降价潮的火山引擎。目前,豆包视频大模型的使用定价尚未公布。谭待对时代周报等媒体表示,视频模型和语言模型应用场景不同,定价逻辑也不同,要考虑“新体验-老体验-迁移成本”,最终能否广泛应用取决于比以前的生产力ROI提升多少。

图源:即梦官网

探索AI原生产品

此前,即梦的普通用户已可以生成3秒的AI短视频,VIP用户则可以延长3秒。

今年3月开始,剪映密集更新AI功能,如智能字幕、视频翻译等功能。并且还与抖音打通,对使用剪映AI功能的短视频进行流量和现金奖励扶持,例如优秀作品可获得DOU+500元/条的流量扶持。当前,剪映的VIP会员定价为1年218元,平均每月18.17元,即梦的VIP会员月费则为69元。

在AI创新巡展上,陈欣然提到“已将豆包大模型的相关技术应用在剪映、即梦AI和醒图”,并介绍了AI技术应用下的新功能。

如数字分身应用,可基于音色克隆技术在剪映上线定制数字人音色克隆功能。制作数字人只需录制或上传一段3分钟的高清正面视频,音色克隆只需5秒声音输入,就能生成自然流畅、毫无违和感的声音,还能做各种语言的翻译。“我们很关注隐私和安全问题,在产品设计和技术层面要求用户本人确认,也会关注行业新规,提升服务安全性和可靠性。”陈欣然说道。

此外,还有针对电商商家的“内容营销”创作神器。过去,商家可能要花几个小时刷抖音和TikTok分析爆款带货视频套路,拆解套路、仿写文案,还要花几个小时剪辑,现在只需几分钟,只要填写商品名、上传素材或者粘贴商品页链接,就能一键生成多个不同风格的带货视频。

陈欣然特别提到,除了在已有产品上应用AI,剪映也在探索GenA(生成式人工智能)I时代下AI native(AI原生)产品的可能性,“即梦ai就是这个方向的探索产品,目前正在接入两款视频生成大模型,进行内测的场景打磨和效果打磨。我们认为,创作不应受制作成本、风格或者文化背景的限制,它应该是有趣的、快乐的、自由的。”

谭待也表示,大模型的应用成本已经得到很好解决,“大模型要从卷价格走向卷性能,卷更好的模型能力和服务。”

特别声明:以上文章内容仅代表作者本人观点,不代表菜鸟理财观点或立场。发布者:菜鸟理财,转转请注明出处:https://www.citui.cn/2024/09/26/15278.html

(0)
菜鸟理财的头像菜鸟理财
上一篇 2024年9月26日 下午7:51
下一篇 2024年9月26日 下午7:51

相关推荐

  • 美联储鸽派转向!暗示降息将至,全球资产“狂欢”,对A股有什么影响?

    据央视财经,当地时间23日上午10时,美联储主席鲍威尔在美国怀俄明州小镇杰克逊霍尔举行的“全球央行年会”上发表讲话。 鲍威尔明确表示,他对美国整体通胀回落至2%的目标有了更多信心,他认为是时候调整货币政策了。这样的表述被外界视为是美联储将在9月开启降息的直接暗示。 鲍威尔强调,美联储非常关注双重使命面临的风险。当前通胀的上行风险已经减弱,就业的下行风险则有所…

    2024年8月26日
    7400
  • AI手机混战!安卓机集体“上车”,中国厂商怎么办?

    升级AI能力后的安卓系统短期内不会登陆中国。 属于手机厂商的AI竞赛已然开跑。 北京时间8月14日凌晨,谷歌(GOOGL.O)发布了集成谷歌人工智能技术的Pixel 9系列手机。 对比往年,这场发布会足足提前了近两个月,又特地抢在了苹果(AAPL.O)秋季新品发布会之前,谷歌与苹果竞争叫板意味极浓。 具体来看,谷歌发布的新设备包括Pixel 9、9 Pro、…

    2024年8月16日
    8900
  • 业绩扭亏失败 华润渠道难救金种子酒

    聚焦中高端、发力餐饮渠道,对于安徽金种子酒业股份有限公司(以下简称“金种子酒”)而言都未挽回亏损业绩。10月30日,金种子酒举办2024年三季度业绩说明会。在此次业绩说明会上,金种子酒管理层针对业绩表现、渠道布局等投资者关心的问题进行了解答。 就在此次业绩说明会举办的五天前,金种子酒发布了2024年三季报,-24.9%营收增幅以及持续扩大的亏损面揭开了华润系…

    2024年10月31日
    3100
  • 品郎酒、吃火锅、赴“英雄会”:向消费者再贴紧一点点,郎酒掀起狂欢热潮

    在这个寒风渐起的季节,如果说有哪种美食能让人瞬间暖身又暖心,火锅认第二,就没有敢认第一了。当成都的火锅遇上热情如火的“中国郎”,一场红火盛宴就此拉开了序幕。 10月30日,由封面新闻携手郎酒共同打造的“中国郎·火锅英雄会”启动仪式在成都举行。中国郎携手近60个火锅品牌、超500家门店,以多重福利掀起狂欢盛宴,邀约火锅和白酒爱好者在成都一同品味最地道“川味”、…

    2024年10月31日
    4800
  • 上半年业绩双增长,新乳业“以促换量”

    近日,新乳业交出了上半年成绩单,在消费相对疲软、供给严重过剩的市场环境下,营收微增1.25%至53.64亿元,净利润增长25.26%至2.96亿元,显示出相当强的韧性。仔细看财报可以发现,新乳业一季度营收增速只有3.66%,二季度营收下滑0.94%。这是自2020年二季度以来,新乳业首次出现营收下滑。上半年,新乳业将促销费用增加了18.69%至4.74亿元,…

    2024年9月2日
    5400

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信