字节跳动CVPR 2024线下活动回顾:上百位研究者齐聚,畅谈生成式AI浪潮

字节跳动CVPR 2024线下活动回顾:上百位研究者齐聚,畅谈生成式AI浪潮

Date

2024-06-25

Category

Events

6 月 19 日傍晚,字节跳动在 CVPR 2024 主会场附近举办晚宴活动,上百位计算机视觉领域的从业者、学者与学生应邀参加。


image


他们中,既有远赴西雅图参会的高校学生及学者,也有产业界相关负责人。在开放、轻松的氛围下,大家齐聚一堂,畅谈生成式 AI 浪潮下,计算机视觉技术发展。


image


在活动现场,字节跳动智能创作团队负责人、豆包大模型视觉多模态负责人杨建朝进行了发言。


杨建朝不仅介绍了字节跳动公司概况、主要产品及全球化布局,也谈及公司在近些年保持的较好增长趋势。身处其中,他感到,“加入字节六年,跟随公司和产品一起成长,这是一段非常精彩的旅程”。


随后,杨建朝介绍了团队情况。他表示,智能创作团队为抖音等业务线提供了内容创作技术支持。豆包大模型视觉多模态团队则专注于视觉大模型、图像生成、视频生成,以及相关基础研究。


image


在发言最后,杨建朝分享了一段视频,让参会者直观感受到了字节跳动目前在生成式 AI 方面的能力。



大模型浪潮助推下,本次 CVPR 2024 热度颇高。活动现场能看到,越来越多中选论文是校企合作的产物。这当中,学研圈提供了更年轻、高潜的人才与思考,而产业界则贡献了真实的场景、需求以及数据计算资源。有同学在参会后感慨,过去学术和产业之间的界限清晰得多,生成式 AI 正让两个圈子进一步融合。


image


字节跳动一直高度重视技术研究探索和应用,今年 CVPR ,公司共有超过 30 篇论文中选,部分成果在业内已获得一定关注。


其中包括 MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model ,该成果是一个基于扩散技术的人体图像动画框架,旨在增强时间一致性,忠实地保持参考图像中人物状态,并且提升了动画保真度。


image


在深度估计方面成果有 Depth Anything: Unleashing the Power of LargeScale Unlabeled Data ,该论文提出一种稳健单目深度估计解决方案,追求简单但强大的功能,旨在处理任何图像,还能被应用于视频领域。


image


视频生成领域,成果代表之一是 Make Pixels Dance: High-Dynamic Video Generation 。PixelDance 是一款 AI 视频生成产品,它能生成动作更丰富、更符合文本输入、稳定性更强、自由度更高的视频,还支持稳定的连续片段生成。


image


此次 CVPR 期间,豆包大模型团队的同学们也来到西雅图,同圈内研究者们进行大量技术交流。在主会场的展区,团队安排了讲解环节,现场介绍并展示了部分成果。

image


今年中选成果中,部分成果出自豆包大模型团队同学之手,有的论文一作还是实习生。


一直以来,字节跳动豆包大模型团队都非常重视年轻高潜人才,鼓励他们敢想敢做,相信并支持他们取得成果。为此,团队在不久前启动了面向 25 届博士毕业生的 Top Seed 人才计划。


这是一个面向校园优秀人才推出的专项。我们希望在全球范围内持续吸引和招募目标远大、有志于“用科技改变世界”的顶尖人才。项目启动至今,我们已收到数百份投递简历。


目前,字节跳动还在持续加大对顶尖人才和前沿技术的投入力度,点击链接,即可投递简历。加入我们,一起探索并解决计算机视觉及大模型技术前沿课题。