豆包大模型团队

2024即将过去。无论AI浪潮如何涌动

信仰者依然坚信着，以加速度向AGI的目标前行

自5月15日第一次亮相，我们见证了

豆包大模型破土而出、加速生长的230天

从孩童般学语，到懵懂看世界，到为创作者绘出

想象中的奇幻梦境，一切依然处于最早期

But，every step counts

同你分享这一年豆包大模型的8个关键瞬间

7月，豆包大模型能听懂

20种以上方言夹杂的对话，也能边听边思考

豆包大模型还学会在说话中表达情感

可以随时被打断，也能在交互中“插话”

还能保留吞音、口音等人类习惯

*使用豆包、剪映、Ola Friend等产品可体验

背后是全新的豆包语音识别模型Seed-ASR

和语音生成基座模型Seed-TTS

与传统语音小模型不同

豆包语音大模型引入更多样更广泛的数据

融合推理链，具备极强泛化性

*Overviews of Seed-ASR framework and Seed-TTS inference pipeline

9月，豆包大模型实现了

“一个AI也可以是一个乐队”

从词曲编辑、演奏生成到人声演唱

豆包大模型习得10多项音乐技能

可以为音乐创作提供意想不到的灵感

背后融入音乐生成模型框架Seed-Music

结合语言模型与扩散模型的优势

Seed-Music实现了音乐生成的通用框架

并实现极高的编辑可控性

*Overview of Seed-Music framework

同时，在9月，豆包大模型还学会了

遵从复杂的提示词

精准生成包含多个交互主体的高清视频

还可以灵活控制镜头视角

为创作者带来真实与梦幻交织的视觉体验

*使用即梦、豆包可辅助创作奇幻短片

背后是同时推出的两款豆包视频生成模型

PixelDance与Seaweed

全新设计的扩散模型训练方法带来镜头一致性能力

优化的Transformer结构大幅提升视频生成泛化性

视频-音效同步生成技术还可激发丰富的创作灵感

* Doubao team's research towards long narrative video generation with synchronized foley

无论中国风、电影质感还是超现实风

豆包大模型都能轻松驾驭

11月还学会了“一句话P图”和“一键海报生成”

根据任意指令进行图像编辑和精准文字生成

‍*使用即梦、豆包可体验

背后是不断迭代的豆包文生图模型

实现精准呈现复杂场景的图文匹配关系

并构建高质量文字渲染能力

通用图像编辑模型SeedEdit

实现自然语言驱动编辑任意图像

*Overview of SeedEdit framework and its optimization pipeline

12月上旬

豆包大模型模型代码能力大幅提升

是AI程序员，也是数据分析师

支持自由画布预览代码、人机协同编程

还可一键完成数据处理和可视化分析

*使用豆包MarsCode可体验，豆包即将可体验

背后是豆包代码大模型Doubao-coder

由海量现实编程数据及领域专家强化训练而成

深度支持超16种编程语言、11类真实应用场景

满足前后端开发、机器学习等全栈编程开发需求

同时，豆包大模型上下文窗口

提升至300万字的业界极限

一次可轻松阅读上百篇学术报告

每百万tokens处理延迟仅需15秒

*使用豆包可体验超长文本理解

背后是多种突破性的数据算法和模型加速优化

包括STRING等上下文关联数据算法

大幅提升LLM利用海量外部知识的能力

稀疏化及分布式方案将时延降到十秒级

*Detailed pseudocode of STRING incorporating FlashAttention

12月中旬

豆包大模型学会通过视觉感知世界

还能融合多感官进行深度思考和创作

拍下一道微积分数学题

不仅能准确理解，更能快速运算

*通过火山方舟可体验模型效果

背后是全新推出的豆包视觉理解模型

单一模型结构融合视觉语言理解与文本生成

拥有极强的内容识别能力

更具备出色的推理能力和细腻的表达能力

*Doubao-vision's performance on different benchmarks

同样是12月中旬

豆包通用模型Doubao-pro全面升级

能力全方位对齐GPT-4o

推理能力强化

还学会在回答过程中“反思”

*豆包通用模型pro各项能力全面升级

背后是海量数据优化与模型架构创新

包括提升模型稀疏度、引入强化学习等

Doubao-pro理解精度、生成质量大幅跃升

还是平衡性能与效率的“六边形战士”

*Doubao-pro's performance on different benchmarks

这一年

豆包大模型团队深入AI基础研究

57篇论文中选ICLR、CVPR、NeurIPS等顶会

包括下载量超百万的开源项目及GitHub万星爆款

豆包大模型团队还同近20所高校深入合作

与清华、北大分别成立联合实验室

豆包大模型基金支持了超过40位顶尖学者

参与攻坚关键AI技术

2024年，豆包大模型还支撑超过50个应用场景

其中豆包成为国内最受欢迎的AI产品

通过火山引擎，豆包大模型服务了30多个行业

日均tokens调用量超4万亿

较5月时发布增长33倍

230天，豆包大模型的历险才刚刚开始

通用智能的远岸，属于步履不停的行动者

为寻找最具潜力的研究人才

这一年，团队启动了“Top Seed人才计划”

在全球范围招募顶尖博士毕业生加入

共同挑战世界级AI课题

新的一年，豆包大模型团队

将继续探索基础模型课题

通过科技改变世界

长期欢迎有同样愿景的顶尖人才加入！

如果你也对智能体协作、数据科学、大模型对复杂问题的解决感兴趣，有志于探索前沿课题，欢迎前往招聘页面，了解岗位详情。

豆包大模型2024年的8个关键瞬间