Doubao Team

6 月 19 日傍晚，字节跳动在 CVPR 2024 主会场附近举办晚宴活动，上百位计算机视觉领域的从业者、学者与学生应邀参加。

他们中，既有远赴西雅图参会的高校学生及学者，也有产业界相关负责人。在开放、轻松的氛围下，大家齐聚一堂，畅谈生成式 AI 浪潮下，计算机视觉技术发展。

在活动现场，字节跳动智能创作团队负责人、豆包大模型视觉多模态负责人杨建朝进行了发言。

杨建朝不仅介绍了字节跳动公司概况、主要产品及全球化布局，也谈及公司在近些年保持的较好增长趋势。身处其中，他感到，“加入字节六年，跟随公司和产品一起成长，这是一段非常精彩的旅程”。

随后，杨建朝介绍了团队情况。他表示，智能创作团队为抖音等业务线提供了内容创作技术支持。豆包大模型视觉多模态团队则专注于视觉大模型、图像生成、视频生成，以及相关基础研究。

在发言最后，杨建朝分享了一段视频，让参会者直观感受到了字节跳动目前在生成式 AI 方面的能力。

大模型浪潮助推下，本次 CVPR 2024 热度颇高。活动现场能看到，越来越多中选论文是校企合作的产物。这当中，学研圈提供了更年轻、高潜的人才与思考，而产业界则贡献了真实的场景、需求以及数据计算资源。有同学在参会后感慨，过去学术和产业之间的界限清晰得多，生成式 AI 正让两个圈子进一步融合。

字节跳动一直高度重视技术研究探索和应用，今年 CVPR ，公司共有超过 30 篇论文中选，部分成果在业内已获得一定关注。

其中包括 MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model ，该成果是一个基于扩散技术的人体图像动画框架，旨在增强时间一致性，忠实地保持参考图像中人物状态，并且提升了动画保真度。

在深度估计方面成果有 Depth Anything: Unleashing the Power of LargeScale Unlabeled Data ，该论文提出一种稳健单目深度估计解决方案，追求简单但强大的功能，旨在处理任何图像，还能被应用于视频领域。

视频生成领域，成果代表之一是 Make Pixels Dance: High-Dynamic Video Generation 。PixelDance 是一款 AI 视频生成产品，它能生成动作更丰富、更符合文本输入、稳定性更强、自由度更高的视频，还支持稳定的连续片段生成。

此次 CVPR 期间，豆包大模型团队的同学们也来到西雅图，同圈内研究者们进行大量技术交流。在主会场的展区，团队安排了讲解环节，现场介绍并展示了部分成果。

今年中选成果中，部分成果出自豆包大模型团队同学之手，有的论文一作还是实习生。

一直以来，字节跳动豆包大模型团队都非常重视年轻高潜人才，鼓励他们敢想敢做，相信并支持他们取得成果。为此，团队在不久前启动了面向 25 届博士毕业生的 Top Seed 人才计划。

这是一个面向校园优秀人才推出的专项。我们希望在全球范围内持续吸引和招募目标远大、有志于“用科技改变世界”的顶尖人才。项目启动至今，我们已收到数百份投递简历。

目前，字节跳动还在持续加大对顶尖人才和前沿技术的投入力度，点击链接，即可投递简历。加入我们，一起探索并解决计算机视觉及大模型技术前沿课题。

字节跳动CVPR 2024线下活动回顾：上百位研究者齐聚，畅谈生成式AI浪潮