全球最大开源视频模型,现在也 Created in China了,阶跃出品

2025-02-20 10:21:38

作者:衡宇 发自 凹非寺

图片来源:由无界AI生成

刚刚,阶跃星辰联合吉利汽车集团,开源了两款多模态大模型!

新模型共2款:

  • 全球范围内参数量最大的开源视频生成模型Step-Video-T2V

  • 行业内首款产品级开源语音交互大模型Step-Audio

多模态卷王开始开源多模态模型,其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议,可任意编辑和商业应用。

(老规矩,GitHub、抱抱脸、魔搭直通车可见文末)

在两款大模型的研发过程中,双方在算力算法、场景训练等领域优势互补,“显著增强了多模态大模型的性能表现”。

从官方公布的技术报告来看,这次开源的两款模型在Benchmark中表现优秀,性能超过国内外同类开源模型。

抱抱脸官方也转发了中国区负责人给予的高度评价。

划重点,“The next DeepSeek”、“HUGE SoTA”。

哦,是吗?

那量子位可要在本篇文章中掰开技术报告+一手实测,看看它们是否名副其实。

量子位求证,目前,本次2款新的开源模型都已接入跃问App,人人可以体验。

多模态卷王首次开源多模态模型

Step-Video-T2V和Step-Audio,是阶跃星辰首次开源的多模态模型。

Step-Video-T2V

先来看看视频生成模型Step-Video-T2V。

它的参数量达到30B,是目前已知全球范围内参数量最大的开源视频生成大模型,原生支持中英双语输入。

官方介绍,Step-Video-T2V共有4大技术特点:

第一,可直接生成最长204帧、540P分辨率的视频,确保生成的视频内容具有极高的一致性和信息密度。

第二,针对视频生成任务设计并训练了高压缩比的Video-VAE,在保证视频重构质量的前提下,能够将视频在空间维度压缩16×16倍,时间维度压缩8倍。

当下市面上多数VAE模型压缩比为8x8x4,在相同视频帧数下,Video-VAE能额外压缩8倍,故而训练和生成效率都提升64倍。

第三,针对DiT模型的超参设置、模型结构和训练效率,Step-Video-T2V了进行深入的系统优化,确保训练过程的高效性和稳定性。

第四,详细介绍了预训练和后训练在内的完整训练策略,包括各阶段的训练任务、学习目标以及数据构建和筛选方式。#p#分页标题#e#

此外,Step-Video-T2V在训练最后阶段引入Video-DPO(视频偏好优化)——这是一种针对视频生成的RL优化算法,能进一步提升视频生成质量,强化生成视频的合理性和稳定性。

最终效果,是让所生成视频中的运动更流畅、细节更丰富、指令对齐更准确。

为了全面评测开源视频生成模型的性能,阶跃此次一并发布了针对文生视频质量评测的新基准数据集Step-Video-T2V-Eval。

该数据集也一并开源了~

它包含128条源于真实用户的中文评测问题,旨在评估生成视频在11个内容类别上的质量,包括运动、风景、动物、组合概念、超现实等等。

Step-Video-T2V-Eval在其上的评测结果,见下图:

可以看到,Step-Video-T2V在指令遵循、运动平滑性、物理合理性、美感度等方面,表现均超越此前最佳的开源视频模型。

这意味着,整个视频生成领域,都可以基于这个新的最强基础模型来进行研究与创新。

而实际效果方面,阶跃官方介绍:

生成效果,Step-Video-T2V在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,且语义理解和指令遵循能力突出,能够高效助力视频创作者实现精准创意呈现。

还等什么?实测走起——

按照官方介绍的顺序,第一关,测试Step-Video-T2V能否

声明:投资有风险,入市须谨慎。本资讯不作为投资建议。
本文链接: - 链补手