Speech
豆包大模型语音团队的使命是利用多模态语音技术丰富交互和创作方式。团队专注于语音和音频、音乐、自然语言理解和多模态深度学习等领域的前沿研究和产品创新
研究领域
AI 系统技术
我们基于 GPU 构建 AI 训练和推理系统,并推进 AI 系统技术的最先进水平,以加速大型音频/音乐语言模型
语音/音频多模态/音乐大模型
团队还负责语音/音频多模态/音乐大模型的完整工程周期的开发,包括数据准备/处理、模型训练/评估/部署等工作
探索课题
与语音界知名技术大牛共事,探索最具挑战性的课题,工作中践行高标准和创新性,收获高质量的成长
课题方向
音频及音乐理解生成基座大模型
音频理解和生成基座大模型,探索语音识别、合成、转换、音乐生成、音效生成的统一建模方式
AI foundation
Audio
多模态模型设计和优化
多模态模型网络结构设计和优化、扩散模型的设计和优化
Multimodal
Optimization
强化学习在音频场景下的应用
强化学习在语音/音频多模态大模型场景下的应用,以及 RL 系统方案设计和优化
Reinforcement learning
Application
大规模分布式训练推理系统
探索高效的大规模分布式训练和推理系统
Large-scale
System
语音场景下的机器学习平台建设
高可用、可扩展、分布式机器学习平台的建设,支撑语音/音频相关算法生产与高效迭代
Machine learning
Audio
技术能力展示
Seed-TTS
豆包·语音生成模型具备出色的上下文学习能力和自然度,能深度理解故事情节和人物角色,正确表达情绪,还能保留吞音、口音等发音习惯,媲美真人音色。
Speech
Generation
Seed-ASR
豆包·语音识别模型可基于更强的上下文感知能力,推理得出更准确的识别结果,并支持一个模型识别普通话和粤语、上海话、四川话、西安话、闽南语等多种中国方言。
Speech
Recognition
Seed-Music
Seed-Music 是一个具有灵活控制能力的音乐生成模型家族,提供了可控音乐生成、谱转曲、词曲编辑、零样本人声克隆四大核心功能,融合了语言模型和扩散模型优势,融入作曲工作流。
Music
Generation