Vision
豆包大模型视觉团队致力于视觉生成的基础模型、多模态生成模型、以及基于生成式 AI 视觉基础问题的前沿科研和应用研发

研究领域
研究方向
团队专注于视觉生成模型,多模态架构,以及人工智能视觉相关领域的技术研究
探索课题
包括 AIGC、扩散模型、自回归模型、多模态模型、3D/4D 生成、视觉自监督学习、模型优化加速等
课题方向

视觉生成基础模型
研发视觉生成(图像和视频)的基座模型,提供视觉生成高交互性和高可控性,理解视频中的视觉规律,探索基于生成基座模型的各种视觉任务
Multimodal
Diffusion Model
Auto Regression Model
Foundation

多模态生成模型
融合多种模态的统一生成模型,生成和理解联合建模,支持多模态的交织生成和同时生成(E.g. 数字人),提升生成模型上下文能力和一致性
Multimodel
Diffusion Model
Auto Regression Model
Foundation

3D/4D 生成模型
3D/4D 生成基础模型,从视频数据和 3D 数据学习视觉世界知识,理解物理世界 3D 空间和物理规律,构建视觉的空间智能和世界模型,探索基于生成模型的物理和渲染引擎
3D
4D
World Model

多模态模型设计和优化
多模态模型网络架构设计和优化、扩散模型的优化、高效的大规模分布式训练和推理、模型加速和优化
Multimodal
Optimization
Distillation
Quantization
技术应用

豆包·文生图模型
豆包·文生图模型现已应用于抖音、剪映、豆包、星绘等产品。在豆包 App 中输入提示词,即可生成兼具光影明暗、氛围色彩和人物美感的高质量图像,同时支持中英文双语输入,对复杂 prompt 的理解同样精准。
Text-to-Image
Model

即梦
即梦是一款由字节跳动自主研发的 AI 创作产品,支持通过自然语言及图片输入,生成高质量的图像及视频。平台提供智能画布、故事创作模式及各种 AI 编辑能力,为用户的创作提效。
AI-powered
Creative