世界模型（World Models），即通过预测未来的范式对数字世界和物理世界进行理解，一直以来被认为是通往通用人工智能（AGI）的关键路径之一。欢迎加入字节跳动 7 月 19 日在新加坡举办的 AI 技术菁英论坛（ByteDance AI Luminary Talks），与字节跳动豆包大模型视觉基础研究团队，以及来自南洋理工大学和新加坡国立大学的研究科学家共同探讨“世界模型探索：视频和 3D 生成与理解模型”的相关话题和最新的技术进展。

本次活动将配有中文同声传译，并将在豆包大模型团队、机器之心、量子位、字节跳动技术团队、稀土掘金和 InfoQ微信视频号同步直播，7 月 19 日下午 4:00-8:30 我们不见不散！

活动日程

3:30-4:00 PM 签到入场

4:00-4:10 PM 欢迎致辞

冯佳时，字节跳动豆包大模型视觉基础研究团队负责人

4:10-4:30 PM

多模态生成式 AI 与基础模型

刘子纬（Ziwei Liu），南洋理工大学计算与数据科学学院助理教授

演讲摘要

在更广泛的现实世界的应用中生成逼真且可控的视觉内容一直是人工智能（AI）长期追求的目标。它也是具身智能的核心。在本次演讲中，我将讨论我们在 AI 驱动的人类、物体和场景的视觉上下文生成方面的工作，重点是结合神经渲染的强大功能与大型多模态基础模型。我们的生成式 AI 框架已在广泛的任务上展示了其有效性和泛化能力。

4:30-5:00 PM

Depth Anything: 单目深度估计的基础模型

Bingyi Kang, TikTok 研究科学家

演讲摘要

Depth Aything 提出了一种单目深度估计技术，能更有效地从 2D 图像中识别出深度信息图。基于这些深度信息图，普通的 2D 影像便可转化为 3D 影像。相比此前已有技术，DepthAnything 在提升深度图的质量方面取得重大突破。此技术的应用将使得 TikTok 平台上现有的海量 2D 影像能够轻松转化为 3D 影像，让普通手机拍摄的 2D 影像“一键转 3D”，或将大幅推进 XR 产业的发展。

5:00-5:30 PM

Magic-Boost: 通过多视图条件扩散提升 3D 生成

张健锋，字节跳动研究科学家

演讲摘要

得益于二维扩散模型的快速发展，近期三维内容创作取得了显著进展。一个有前景的解决方案是利用预训练的二维扩散模型来生成多视角图像，然后将这些图像转化为精确的三维模型。然而，由于存在一定的不一致性，这类方法生成的结果仍然缺乏复杂的纹理和几何结构。为了解决这个问题，我们提出了 Magic-Boost，这是一个多视角条件扩散模型，它能够通过短暂的优化期（约 15 分钟）显著改善粗糙的生成结果。与之前的方法相比，Magic-Boost 展现出了强大的能力，能从伪合成的多视角图像中生成高度一致的图像。它提供了精确的指导，与输入图像的身份对齐，从而丰富了初始生成结果的局部几何和纹理细节。

5:30-6:40 PM 晚餐 & 交流

6:40-7:10 PM

模态视频理解与生成

寿政（Mike Shou Zheng），新加坡国立大学助理教授

演讲摘要

在这次演讲中，我将介绍我们在视频理解和生成方面的最新研究，并分享我对未来发展的思考。在理解方面，我将介绍多智能体系统 AssistGUI，它通过学习教学视频就可以在桌面上自动化完成复杂的图形用户界面（GUI）任务。为了构建以视觉为中心的多模态大型语言模型（MLLMs），我们开发了 VisInContext，它将文本标记转换为视觉标记，显著增加了 MLLMs 的上下文长度和效率。对于视频生成的逆问题，我将介绍我们在长视频生成方面的工作 MagicAnimate，MagicAnimate 在人类图像动画方面表现出色，具有改进的时间一致性和保真度。

7:10-7:40 PM

连续高动态的长视频生成方案

周大权，字节跳动研究科学家

演讲摘要

生成真实、连续、大幅度的长视频目前仍为业界存在的挑战性问题。本报告从数据集生成，视频生成模型算法设计以及计算开销三个角度，探讨如何设计高效，时序连续并且具备完整故事表达能力的视频生成架构。

7:40-8:10 PM

InstaDrag: 从视频数据中学习快且精准的拖拽式编辑

廖俊豪（Liew Jun Hao），字节跳动研究科学家

演讲摘要

近年来，基于生成模型的图像编辑方法收到了广泛的关注。然而，大多现有方法缺乏进行精细空间控制的能力。本报告提出 InstaDrag，一种能在～1 秒内完成高质量拖拽式编辑的图像编辑方案，并探讨如何利用自然视频中丰富的运动信息去学习拖拽式编辑。

8:10-8:30 PM 合影 + 交流

讲师简介

冯佳时

字节跳动豆包大模型视觉基础研究团队负责人

冯佳时博士是字节跳动视觉研究的负责人。他曾在新加坡国立大学的电气与计算机工程系担任助理教授，并在加州大学伯克利分校的电子工程与计算机科学系（EECS）和国际计算机科学研究所（ICSI）担任博士后研究员。他的研究领域包括深度学习及其在计算机视觉中的应用。他曾获得 2012 年 ACM 多媒体会议最佳技术演示奖、2015 年计算机视觉任务挑战赛（TASK-CV）在国际计算机视觉会议（ICCV）上的最佳论文奖、2018 年 ACM 多媒体会议的最佳学生论文奖。他还是 2018 年 MIT 技术评论“35 岁以下创新者”亚洲区的获奖者。他曾担任 NeurIPS、ICML、CVPR、ICLR、WACV、ACM MM 的领域主席，以及 2017 年国际计算机视觉会议（ICMR）的程序主席。

刘子纬

南洋理工大学计算与数据科学学院助理教授

刘子纬教授是南洋理工大学计算与数据科学学院助理教授 (2020-), 并入驻 MMLab@NTU。此前, 他曾在香港中文大学担任研究员 (2018-2020), 导师是林达华教授, 并在加州大学伯克利分校担任博士后研究员 (2017-2018), 导师是 Stella Yu 教授。他的研究领域包括计算机视觉、机器学习和计算机图形学。

刘子纬博士于 2013-2017 年获得香港中文大学多媒体实验室博士学位, 导师为汤晓鸥教授和王晓刚教授，并在微软研究院和谷歌研究院进行实习。刘子纬教授获得了 MIT Technology Review "亚太 35 岁以下创新人物"奖、ICBS 前沿科学奖、CVPR 最佳论文奖候选人和 WAIC 云帆奖。他的研究成果已转化为多款产品, 包括 Microsoft Pix、SenseGo 和 Google Clips。

Bingyi Kang

TikTok 研究科学家

Dr. Bingyi Kang 是 TikTok 的研究科学家。此前，他曾在 Facebook AI Research (FAIR) 担任研究实习生，与 Saining Xie 合作，并在加州大学伯克利分校担任访问学者，与 Trevor Darrell 教授合作。他在新加坡国立大学获得了博士学位，导师是 Jiashi Feng 教授。他的主要研究兴趣是计算机视觉、多模态模型和决策制定。他的目标是开发能够从各种观察中获取知识并与物理世界互动的智能体。

张健锋

字节跳动研究科学家

张健锋博士于 2023 年加入字节跳动担任研究科学家。他于 2019-2023 年获得新加坡国立大学的博士学位，导师是冯佳时博士，并在字节跳动 AI 研究院和 Meta Reality Lab 进行实习。他的研究重点是计算机视觉和深度学习，特别是 3D 内容理解和创作。他曾在 2021 年 IEEE 计算机视觉与模式识别会议（CVPR’21）上获得了最佳论文提名。

寿政（Mike Shou Zheng）

新加坡国立大学助理教授

寿政（Mike Shou Zheng）博士于 2021 年 5 月加入新加坡国立大学（NUS）电气与计算机工程系（ECE），是 2021 年新加坡国家研究基金会（NRF）奖学金获得者。加入 NUS 之前，寿政曾经在在哥伦比亚大学获得了电气工程博士学位，并 Facebook AI 担任研究科学家。

寿政的研究重点是计算机视觉和深度学习，特别是开发用于视频理解和创作的智能系统。寿政在 2014 年至 2017 年间获得了魏氏家族私人基金会奖学金。他在 2017 年 IEEE 计算机视觉与模式识别会议（CVPR’17）上获得了最佳学生论文提名。他的团队在 2017 年国际活动识别挑战赛（ActivityNet）中获得了第一名。

周大权

字节跳动研究科学家

周大权博士毕业于新加坡国立大学，于 2022 年十月加入字节跳动，担任研究科学家职位。新加坡 2021 年数据与科学协会（SDSC）博士论文奖获得者。此前曾参与研发新加坡第一个商业人造卫星（2016-2018）。其论文 “Coordinate attention for efficient mobile network design” 目前排在 CVPR2021 年最具影响力榜单第五名。其鲁棒性工作“Fully Attentional Network”曾被使用为 2022 年视觉鲁棒性大赛五个分割赛道的冠军方案基模。并作为基础模型集成到 Nvidia Developer TAO Toolkit。

廖俊豪（Liew Jun Hao）

字节跳动研究科学家

廖俊豪（Liew Jun Hao）博士于 2021 年加入字节跳动担任研究科学家。此前，他在新加坡国立大学担任博士后研究员（2019-2021），导师是冯佳时博士。廖俊豪博士于 2014-2019 年获得新加坡国立大学（NUS）的博士学位，导师是 Prof. Sim-Heng Ong 和 Dr. Wei Xiong (A*STAR)，并在 Adobe Research 进行实习，mentor 是 Dr. Scott Cohen, Dr. Brian Price 和 Dr. Mai Long。

本次活动将在豆包大模型团队、机器之心、量子位、字节跳动技术团队、稀土掘金和 InfoQ 微信视频号同步直播，请关注媒体合作伙伴微信视频号相关信息。

字节跳动 AI 技术菁英论坛——世界模型探索：视频和3D 生成与理解模型

活动日程

3:30-4:00 PM 签到入场

4:00-4:10 PM 欢迎致辞

4:10-4:30 PM

4:30-5:00 PM

5:00-5:30 PM

5:30-6:40 PM 晚餐 & 交流

6:40-7:10 PM

7:10-7:40 PM

7:40-8:10 PM

8:10-8:30 PM 合影 + 交流

讲师简介