Multimodal Interaction & World Model
豆包大模型多模态交互与世界模型团队致力于研发具备人类水平的多模态理解与交互能力的模型,并推动多模态助手类产品的探索和研发

课题方向

多模态理解基础模型与应用
构建融合视听、语言的理解模型,提升图像与视频中文字、layout、定位、空间关系等基础理解能力,并强化多模态推理能力。提升模型训练与推理效率;实现用户长期记忆,优化模型在各类终端设备上的使用体验
Multimodal
Foundation

多模态 Agent 与推理
突破包括多模态 RAG,视觉 COT 与 Agent 等在内的多模态模型进阶能力,构建GUI/游戏等虚拟世界的通用多模态Agent
Multimodal
Foundation
Agent

生成与理解统一模型
探索连续与离散信号统一的表示与训练方法,建设交织生成与理解的模型
Multimodal
World Model

世界模型
利用预训练、仿真等技术对虚拟/现实世界的各类环境进行建模,提供多模态交互探索的基本能力
Multimodal
World Model
技术应用

Seed-VLM
Seed-VLM 围绕豆包相关场景打造体验前沿的视觉助手。通过用户偏好对齐的后链路训练,确保了高可用性的响应,并结合视觉链条思维(Visual CoT)提供了更丰富的功能体验。
Visual-Language Model