精选· 重要性 4/5

苹果在CVPR 2026展示多项计算机视觉与多模态AI研究

Apple Machine Learning Research·14 天前·约 6 分钟阅读

中文导读

苹果在CVPR 2026上展示多项研究成果，涵盖视频生成、多模态LLM、图像压缩、手语识别等方向，并赞助该顶级会议。

2026年IEEE/CVF计算机视觉与模式识别会议（CVPR）苹果将在6月3日至7日于丹佛科罗拉多会议中心举行的IEEE/CVF计算机视觉与模式识别会议（CVPR）上展示新研究。我们很自豪能够赞助这次会议，它汇集了计算机视觉和模式识别领域的科学和工业研究界。

以下是苹果参与CVPR 2026的概述。跳转到某部分：日程展览时间内欢迎光临苹果展位（#231）。

以下时间均为MDT（当地时间）：- 6月5日星期五：上午10:00 – 下午6:00- 6月6日星期六：上午10:00 – 下午6:00- 6月7日星期日：上午10:00 – 下午3:00日程6月3日星期三- 手语生成式AI（GenSign）研讨会- 上午9:

00 – 下午1:00，112室- Colin Lea将在研讨会期间发表主题演讲。- 计算机视觉高效深度学习（ECV）研讨会2026- 上午9:00 – 下午6:00，502室- Oncel Tuzel将在研讨会期间发表特邀演讲。

- 高效设备端生成（EDGE）研讨会2026- 下午1:00 – 下午6:00，210/212室- Oncel Tuzel和Lu Jiang将在研讨会期间发表特邀演讲。

- 计算机视觉女性（WiCV）- 下午6:00 – 晚上8:00，105 B室，场外导师晚宴- Hsin-Ping (Cindy) Huang和Maggie Xiao将代表苹果出席WiCV导师晚宴。

6月4日星期四- 视频大语言模型（VidLLMs）研讨会2026- 上午8:30 – 下午5:00，3A-3D室- Afshin Dehghan将在研讨会期间发表特邀演讲。

6月5日星期五- STARFlow-V：基于归一化流的端到端视频生成建模- 下午4:00 – 下午6:00，A & F展厅，海报环节2，#178- Jiatao Gu,Ying Shen (伊利诺伊大学厄巴纳-香槟分校),Tianrong Chen,

Laurent Dinh,

Yuyang Wang,Miguel Angel Bautista,David Berthelot,Josh Susskind,Shuangfei Zhai- 从物体位置到功能：多模态大语言模型的空间-功能智能基准- 下午4:00 – 下午6:00，A & F展厅，

海报环节3，

#453- Le Zhang (Mila - 魁北克人工智能研究所，蒙特利尔大学),Jihan Yang (纽约大学),Soundarya Krishnan,Jimit Majmudar,Hugh Ge,Prasoon Puri,Prathamesh Saraf,

Shruti Bhargava,

Dhivya Piraviperumal,Yinan Ling,Cindy Pan,Hong Yu,Aishwarya Agrawal (Mila - 魁北克人工智能研究所，蒙特利尔大学),Andy Tseng- 实用学习图像压缩中的关键因素- 下午4:00 – 下午6:

00，A & F展厅，海报环节3，#457- Kedar Tatwawadi,Parisa Rahimzadeh,Zhanghao Sun,Zhiqi Chen,Ziyun Yang,Sanjay Nair,Divija Hasteer,

Oren Rippel6月6日星期六- 利用手语模型引导手语标注- 上午7:

30 – 上午9:00，A展厅，发现海报，#035- Colin Lea,Vassilis Baltatzis,Raja Kushalnagar (加劳德特大学),Lorna Quandt (加劳德特大学),Leah Findlater,

Connor Gillis- Velox：

学习4D几何与外观的表示- 上午11:45 – 下午1:45，F展厅，海报环节4，#527- Anagh Malik (多伦多大学),Xiaoming Zhao,Dorian Chan,David Lindell (多伦多大学),Oncel Tuzel,

Rick Chang- AMUSE：面向多说话者理解的视听基准与对齐框架- 下午4:45 – 下午6:45，A展厅，海报环节4，#146- Sanjoy Chowdhury,Karren D.

Yang (Nuance Labs),Chun-Liang Li,Xudong Liu,Fartash Faghri,Pavan Kumar Anasosalu Vasu,Oncel Tuzel,Dinesh Manocha (马里兰大学帕克分校),

Raviteja Vemulapalli6月7日星期日- AToken：

统一的视觉分词器- 上午9:00 – 上午10:15，四季宴会厅，口头报告5B：泛化与适应- Jiasen Lu,Liangchen Song,Mingze Xu,Byeongjoo Ahn,Yanjun Wang,Chen Chen,Afshin Dehghan,

Yinfei Yang- AToken：

统一的视觉分词器- 上午11:45 – 下午1:45，F展厅，海报环节5，#007- Jiasen Lu,Liangchen Song,Mingze Xu,Byeongjoo Ahn,Yanjun Wang,Chen Chen,Afshin Dehghan,

Yinfei Yang- UniGen-1.

5：通过强化学习中的奖励统一增强图像生成与编辑- 上午11:45 – 下午1:45，F展厅，海报环节5，#069- Rui Tian (复旦大学),Mingfei Gao,Haiming Gang,Jiasen Lu,Zhe Gan,Yinfei Yang,

Zuxuan Wu (复旦大学),

Afshin Dehghan- TrajTok：学习轨迹令牌以提升视频理解- 上午11:45 – 下午1:45，F展厅，海报环节5，#240- Chenhao Zheng (华盛顿大学),Jieyu Zhang (华盛顿大学),Oncel Tuzel,

Chun-Liang Li,

Ranjay Krishna (华盛顿大学)- DSO：用于偏差缓解的直接导向优化- 上午11:45 – 下午1:45，F展厅，海报环节6，#288- Lucas Monteiro Paes,Niv Sivakumar,Yinong Wang (卡内基梅隆大学),

Masha Fedzechkina Donaldson,

Barry Theobald,Luca Zappella,Nick Apostoloff- VSAS-Bench：视觉流式助手模型的实时评估- 下午3:30 – 下午5:30，A展厅，海报环节3，#298- Pavan Kumar Anasosalu Vasu,

Cem Koc,Fartash Faghri,Chun-Liang Li,Brian Feng,Jeff Lai,Meng Cao,Oncel Tuzel,Hadi Pour Ansari- Pico-Banana-400K：用于文本引导图像编辑的大规模数据集- 下午3:

30 – 下午5:30，A展厅，海报环节6，#098- Yusu Qian,Eli Bocek-Rivele,Liangchen Song,Jiasen Lu,Ashley Tong,Yinfei Yang,Wenze Hu,Zhe Gan- SO-Bench：

多模态大语言模型的结构化输出评估- 下午3:

30 – 下午5:30，A展厅，海报环节6，#141- Di Feng,Kaixin Ma,Feng Nan,Haofeng Chen,Bohan Zhai,David Griffiths,Mingfei Gao,Zhe Gan,Eshan Verma,

Yinfei Yang,Zhifeng Chen,Afshin Dehghan- 学习长期运动嵌入以实现高效运动生成- 下午3:30 – 下午5:30，A展厅，海报环节6，#595- Nick Stracke (慕尼黑路德维希-马克西米利安大学),

Kolja Bauer (慕尼黑路德维希-马克西米利安大学),

Stefan Andreas Baumann (慕尼黑路德维希-马克西米利安大学),Joshua Susskind,Miguel Angel Bautista,Björn Ommer (慕尼黑路德维希-马克西米利安大学)苹果展位海报展示6月5日星期五，上午10:

00 – 下午12:00Pavan Kumar Anasosalu Vasu将展示VSAS-Bench：视觉流式助手模型的实时评估。

6月5日星期五，下午2:00 – 下午4:00Byeongjoo Ahn和Jiasen Lu将展示AToken：统一的视觉分词器。6月6日星期六，上午10:00 – 下午12:00Jiatao Gu将展示STARFlow-V：基于归一化流的端到端视频生成建模。

6月6日星期六，下午2:00 – 下午4:00Rick Chang将展示Velox：学习4D几何与外观的表示。Di Feng将展示SO-Bench：多模态大语言模型的结构化输出评估。录用论文致谢Alex Colburn和Qi Shan被评为杰出领域主席。

Byeongjoo Ahn, Chen Chen, Fartash Faghri, Oncel Tuzel和Xiaoming Zhao担任领域主席。

Jeffrey Bigham是“VizWiz Grand Challenge Workshop 2026”的研讨会联合组织者。

Sanjoy Chowdhury, Barry-John Theobald, Santhosh Kumar Ramakrishnan和Raviteja Vemulapalli被评为杰出审稿人。

Vassilis Baltatzis,Honor Chen,Rick Chang,Haiming Gang,Mingfei Gao,Pavan Kumar Anasosalu Vasu,Colin Lea,Xianhang Li,Xudong Liu,

Yongxi Lu和Huangjie Zheng担任审稿人。相关阅读与更新。苹果将在12月10日至15日于加拿大温哥华举行的年度神经信息处理系统大会（NeurIPS）上展示新研究。我们很自豪再次赞助这个多轨跨学科会议，它汇集了机器学习领域的科学和工业研究界。

以下是苹果参与NeurIPS 2024的概述。

自然语言处理实证方法（EMNLP）20242024年11月4日，研究领域：语音与自然语言处理苹果将在自然语言处理实证方法会议上展示新研究。

原文出处

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2026

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

苹果在CVPR 2026展示多项计算机视觉与多模态AI研究

相关阅读

Claude Desktop每次启动强制创建1.8GB虚拟机，即使仅用于聊天

Apache Burr：构建可靠AI代理与应用的Python框架

0.01欧元转账可攻陷银行AI助手：间接提示注入漏洞分析