李飞飞：多模态交互

"人工智能系统在1956年的达特茅斯会议上被定义为可以从环境中收集信息并以有用的方式与之交互的人工生命形式。"

andyyah

1180人浏览 · 2025-07-12 13:40:13

andyyah · 2025-07-12 13:40:13 发布

李飞飞：多模态交互
🤖 多轴相互作用的水平测量

引言
1.1 动机
“人工智能系统在1956年的达特茅斯会议上被定义为可以从环境中收集信息并以有用的方式与之交互的人工生命形式。”

历史背景: 明斯基的麻省理工学院团队在1970年建立了一个机器人系统，称为“复制演示”，该系统观察“块世界”场景并重建多面体块结构。
挑战: 人工智能领域被分割成多个子领域，虽然各自取得了独立进展，但过度简化论模糊了总体目标。
目标: 重新审视人工智能的基本原理，特别是通过大型语言模型（LLMs）和视觉语言模型（VLM）整合语言能力与视觉认知。
1.2 背景
大型基础模型的作用: LLMs和VLM推动了通用智能机器的发展，能够解决复杂任务，如数学推理和专业法律问题。
交互式学习: AI代理使用机器学习技术和用户交互，能够从与用户的实时交互中学习。
2. 智能体AI集成
2.1 无限AI智能体
能力: AI代理根据训练和输入数据进行解释、预测和响应，具有预测建模、决策和处理歧义的能力。
局限性: 大多数大型语言模型在训练后不会持续更新知识库，推断基于最后一次训练更新时可用的数据。
2.2 Agent AI与大型基础模型
生成条件化人类动作: AI系统生成适应特定语言指令的运动和动作，强调生成模型在增强AI代理适应性方面的能力。
2.2.1 幻觉
定义: 生成的文本可能是无意义或与源内容不忠实的情况。
类型:
内在幻觉: 与原始材料相矛盾。
外在幻觉: 生成的文本包含原始材料中未包含的额外信息。
降低幻觉的途径: 使用检索增强生成的方法，检索附加源材料以增强响应的准确性。
2.2.2 偏见和包容性
培训数据的偏见: 模型可能无意中学习和复制社会偏见，尤其是与种族、性别和其他个人属性相关的偏见。
历史和文化偏见: 训练数据可能包含代表特定社会文化规范的冒犯性语言。
语言和上下文限制: 语言模型可能难以理解语言中的细微差别，导致潜在的误解或偏见。
3. Agent AI应用程序任务
3.1 游戏代理
NPC行为: 在游戏中，AI代理能够模拟复杂的NPC行为。
人机互动: AI代理与用户进行有效的交互。
3.2 机器人
LLM/VLM机器人代理: 结合语言模型和视觉模型来增强机器人性能和智能。
3.3 医疗保健
当前能力: AI代理在医疗保健中的应用展示了其潜力。
4. 伦理考量
道德领导委员会: 在部署Agent AI时必须考虑社会影响和道德责任。
5. 未来趋势
新兴趋势: 讨论每个领域的最新发展，展望未来的发展方向。
概念内容
Agent AI 定义为一类交互系统，能够感知多模态输入并产生有意义的行动。
多模态智能体AI 基于多模态感官输入的理解，在给定环境中生成有效的动作。
大语言模型（LLMs）在自然语言处理和复杂任务规划中发挥重要作用，展示出强大的推理能力。
视觉语言模型（VLM）用于增强AI代理的视觉理解和生成能力。
通过对上述内容的理解，学生可以深入掌握Agent AI的基本原理、应用和未来发展，促进研究的进一步推进。

🤖 人工智能的刻板印象与包容性
刻板印象与过度泛化
刻板印象：

指对某些群体的广泛假设或简化看法，可能导致对个体的误解。

过度泛化：

人工智能（AI）模型常常根据训练数据中识别的模式生成响应。
这可能导致产生刻板印象，模型可能对某些群体做出广泛假设的反应。
持续监测与更新
监测与更新：
人工智能系统需要持续监测和更新，以解决新出现的偏见或包容性问题。
用户反馈和人工智能道德的持续研究在这一过程中起着重要作用。
扩大主导观点
主流文化偏向：
由于训练数据通常偏向主流文化，模型可能低估或歪曲少数群体的观点。
道德与包容性设计
设计原则：
人工智能工具的设计应将道德考虑和包容性作为核心原则。
需要尊重文化差异，促进多样性，确保AI不会使有害的陈规定型观念永久化。
用户指南
与AI交互的指南：
指导用户如何以促进包容性和尊重的方式与人工智能进行交互。
包括避免提出可能导致有偏见或不适当的要求，以及减轻模型从用户交互中学习有害材料的风险。
减轻偏见的努力
努力方向具体措施
多样化和包容性的培训数据在培训数据中纳入更具多样性和包容性的来源，减少偏见。
偏差检测和纠正研究重点是检测和纠正模型响应中的偏差。
道德准则和政策制定道德准则，确保尊重和包容性互动。
多样化的代表性确保AI代理生成的内容代表广泛的人类经验、文化和身份。
偏见缓解减少AI反应中的偏见，提供公平和平衡的反应。
文化敏感度设计人工智能时考虑文化规范和价值观的多样性。
可访问性确保AI代理可供不同能力的用户访问，包括残疾人。
基于存储的包容性支持多种语言和方言，满足全球用户需求。
道德和尊重的互动编程代理与所有用户进行道德和尊重的互动，避免冒犯性反应。
用户反馈和自适应收集用户反馈以提高AI代理的包容性和有效性。
遵守包容性准则遵守行业标准和道德委员会制定的包容性准则。
数据隐私与使用
数据收集、使用和目的
数据透明性：
用户应了解AI代理收集的数据类型，包括文本输入、使用模式和个人偏好。
用户应获知如何使用和纠正不正确信息。
存储与安全性
安全措施：
开发者应了解用户数据的存储位置及其安全措施，包括加密和数据保护协议。
数据删除与保留
用户权利：
用户有权请求删除其数据，AI代理应遵循GDPR或CCPA等数据保护法律。
数据可移植性与隐私政策
隐私政策：
开发者需创建隐私政策，详细说明数据处理方式，并确保用户同意。
反病毒化
匿名处理：
理想情况下，使用的数据应进行匿名处理，以保护个人身份。
可解释性与推理增强
模仿学习与解耦
模仿学习：
代理通过模仿专家行为来学习策略，但直接学习专家策略可能不适用于所有情况。
泛化与涌现行为
泛化：
通过识别控制系统行为的基本元素，产生复杂行为。
推理增强
推理能力：
AI代理根据训练和输入数据进行解释与预测，推理增强是通过额外工具和技术提高其能力。
来源描述
数据丰富整合外部数据源提供更多上下文，帮助AI做出更明智的推断。
算法增强改进底层算法以提高推断能力。
人在回路（HITL）在道德和创造性任务中引入人类输入增强推理。
实时反馈集成使用来自用户的实时反馈来增强推理性能。
跨领域知识转移将一个领域的知识应用于另一个领域的推理。
针对特定用例的自定义为特定行业定制AI推理能力以适应特定任务。
道德与偏见的考虑确保推理增强过程中不引入新的偏见或伦理问题。
不断学习与适应定期更新AI功能以跟上新的发展和用户需求。
法规与智能体AI的进展
人机协作系统：
结合LLM和VLM进行人机协作，要求对操作的输出进行审查与验证。
代理Transformer定义与创建
代理Transformer：
结合视觉令牌和语言令牌的输入，提升代理的表现，允许其学习特定任务。
策略与机制
强化学习：
采用奖励机制训练智能行为，面临设计奖励函数和数据收集效率的挑战。
🤖 代理系统与学习模型
4.1 代理系统中的学习与优化
4.1.1 高级功能与低级控制
低级控制利用基于强化学习（RL）的策略解决问题。
大型语言模型（LLMs）的高级功能能够有效地将抽象指令分解为子目标，增强机器人系统中的语言理解能力。
4.1.2 模仿学习（IL）
模仿学习旨在基于专家数据模仿有经验的代理或专家的行为。
行为克隆（BC）是基于IL的主要框架之一，记录专家在特定任务中的动作并训练机器人重复这些动作。
结合LLM/VLM技术的BC方法，如RT-1和RT-2模型，展现出高泛化性能。
4.1.3 传统RGB学习
使用图像输入的智能代理行为是研究的热点，面临维度灾难的挑战。
解决方法包括使用更多数据或在模型设计中引入感应偏置。
结合3D结构的模型架构提升样本效率，使用地图作为导航表示。
研究者使用图形模拟器合成数据以解决数据稀缺问题，并进行数据扩增技术的研究。
4.1.4 情境学习
大型语言模型如GPT-3在NLP任务中的有效性证明了情境学习的重要性。
少镜头提示符通过提供任务示例提高模型输出质量。
多模态基础模型如Flamingo和BLIP-2在视觉理解任务中表现出色。
4.1.5 代理系统中的优化
空间优化关注代理在物理空间内的操作，包括协调和资源分配。
时间优化关注任务调度和执行效率，例如优化机器人手臂的轨迹。
使用大批量强化学习和自我强化学习提升智能体的性能和互动能力。
4.2 代理系统（零次和少次水平）
4.2.1 代理模块
使用LLMs或VLM开发交互式多模态代理AI模块。
包含环境感知、任务规划、代理学习、记忆和代理动作预测等模块。
4.2.2 代理基础设施
代理AI在娱乐、研究和工业领域的广泛应用。
高质量数据集的创建和使用先进硬件的基础设施推动代理技术的进步。
4.3 学习基础模型（预训练和微调级别）
预先训练的基础模型在不同用例中具有广泛适用性。
LM-Nav系统利用GPT-3和CLIP提升机器人导航能力。
5 智能体AI分类
5.1 通才代理区域
多模态代理AI（MMA）为研究和行业社区提供交流平台。
GA的功能包括任务规划和用户交互。
5.2 代理商
5.2.1 行动代理
行动代理在物理环境中执行任务，分为游戏AI和机器人。
5.2.2 交互代理
交互代理能够与用户沟通或修改环境，广泛应用于诊断和知识检索。
5.3 仿真和环境代理
通过与环境交互的试错经验学习策略，许多仿真平台被提出用于嵌入式AI研究。
5.4 生成剂
生成式人工智能模型能够降低交互式内容的制作成本，允许用户创造自己的体验。
5.5 知识与逻辑推理Agent
5.5.1 知识代理
知识代理结合隐式和显性知识，以增强人工智能的理解和应用能力。
5.5.2 逻辑代理
逻辑代理处理逻辑推理任务，通常不遵循正式逻辑规则。
5.5.3 情感推理代理
情感理解在智能体与人类交互中至关重要，旨在增强代理的同理心。
5.5.4 神经象征剂
解决自然语言表述的问题，混合神经元和符号的系统提高性能。
5.6 LLMs和VLM代理
使用LLMs作为代理执行任务规划，展示出强大的多模态任务处理能力。
🤖 代理人工智能应用任务
6.1 游戏代理
游戏为测试大语言模型（LLMs）和视觉语言模型（VLM）的代理行为提供了一个独特的沙盒，推动了它们的协作和决策能力的界限。

6.1.1 NPC行为
现代游戏中，非玩家角色（NPC）的行为主要由预定义脚本决定。这些脚本基于游戏环境中的各种触发器和玩家动作。然而，这种脚本化的性质常导致可预测或重复的NPC行为，限制了动态游戏环境中的沉浸体验。

解决方案：

利用LLMs来增强NPC的自主性和适应性，以提供更具挑战性的游戏体验。
AI驱动的NPC可以从玩家行为中学习，适应不同策略。
6.1.2 人-NPC交互
人类玩家和NPC之间的互动是游戏体验的重要方面。传统的互动模式往往一维，NPC以预设方式响应玩家输入，阻碍了更丰富的互动。

改进方向：

LLM和VLM技术的使用可以分析和学习人类行为，以提供更人性化的交互。
增强游戏真实感和参与度，为探索人机交互提供平台。
6.1.3 基于Agent的博弈分析
现代游戏吸引了大量玩家，但许多游戏仍然依赖于开发者手工制作的交互行为，缺乏适应性。

改进需求：

开发新的AI系统以分析玩家行为，提供适当支持。
智能交互系统可以改变玩家与游戏的交互方式，提升游戏体验。
6.1.4 游戏场景合成
场景合成对于创建沉浸式游戏环境至关重要，包括自动生成三维场景、放置对象和创建动态天气系统。

关键技术：

利用程序或AI驱动技术生成复杂景观。
LLM和VLM可制定规则以生成视觉上令人印象深刻的非重复景观，确保资产的语义一致性。
6.1.5 实验和结果
使用LLM或VLM进行零次/少次学习，展示代理视觉语言架构在游戏代理广泛应用中的潜力。

实验示例：

使用GPT-4V生成和编辑动作描述，提高场景自然度。
🤖 机器人
机器人是需与环境有效交互的代表性代理。以下是高效机器人操作所需的关键要素及相关LLM/VLM技术的应用。

视觉运动控制
视觉运动控制是指视觉感知与运动动作的整合，以有效执行机器人任务。

重要性：

使机器人能够解释环境视觉数据，并调整运动以与环境精确交互。
在动态环境中，确保机器人稳健可靠运行。
语言条件操纵
语言条件化操作要求机器人根据语言指令解释和执行任务。

核心挑战：

开发强大的自然语言处理算法，准确解释各种指令。
确保机器人能够在不同任务和环境中推广指令。
技能优化
任务的最佳执行，尤其是涉及物理交互的任务，需要对环境的深入理解。

研究方向：

集中于收集增强数据集或开发从人类演示中直接获得技能的方法。
从示范中学习和模仿学习框架促进技能优化。
6.2.1 LLM/VLM机器人代理
LLM/VLM在机器人代理中展示了与人类交互的潜力。

研究主题：

开发端到端系统，结合LLM和VLM技术处理多模态信息。
基于任务的系统通过高级计划和低级控制实现任务。
6.2.2 实验和结果
使用LLM进行任务规划并通过示能信息增强计划，促进有效执行。

实验过程：

任务规划模块接收语言指令和环境描述，生成任务序列。
允许用户根据需要检查和调整结果，以确保安全操作。
🤖 机器人多模态交互的视野
🌐 引言
该部分讨论了通过多模态交互，机器人如何理解人类的动作及其应用。

🎥 视频分析器与任务规划器
视频分析器：旨在理解人类在视频中执行的动作，利用GPT-4V生成与人类交流风格的文本指令。
任务规划器：处理视频和文本指令，为机器人执行生成任务计划。
视频分析器的工作原理
输入：提取固定间隔的视频帧，并输入GPT-4V进行分析。
输出：提供对象名称、可抓取属性及对象之间的空间关系信息。
场景分析器
功能：基于指令和视频数据将工作环境编译成文本信息。
输出示例：在重新定位垃圾邮件容器时，成功选择相关对象。
🌍 视觉语言导航（VLN）
定义：在三维环境中导航的任务，基于自然语言指令。
发展历程：
基于注意力的序列模型：用于解决VLN任务。
混合方法：结合无模型和基于模型的强化学习，提升泛化能力。
说话者跟随模型：采用数据增强和改进搜索策略，提升性能。
方法描述
基于注意力的模型解决VLN任务的基础模型。
混合方法提升模型的泛化能力。
说话者跟随模型结合数据增强与改进搜索策略。
🏥 在医疗保健中的应用
诊断剂
功能：利用LLMs（大型语言模型）作为医疗聊天机器人，帮助分流和诊断患者。
潜力与风险：能为边缘化群体提供公平的医疗服务，但也有滥用风险。
知识检索代理
风险：模型幻觉可能导致严重的患者伤害。
解决方案：使用更可靠的知识检索方法以减少幻觉，提升诊断准确性。
远程医疗与监控
优势：提高医疗服务可及性与沟通效率，降低医患互动成本。
潜力：支持代理能分类重要消息，提升医疗服务的效率。
🔍 多模态代理
视觉语言理解与生成
任务：用语言解释图像中的视觉内容，并生成相关描述。
重要性：有助于开发更人性化的人工智能代理。
视频理解
定义：对视频帧序列的解释和推理，结合音频或文本信息。
任务类型：视频字幕、视频问答、活动识别等。
📊 研究与实验结果
知识密集型模型：如INK（强化神经知识）和KAT（知识增强的Transformer），用于处理知识密集型检索任务。
多模态代理：对多模态语言模型的研究正在增多，探索其在视觉语言任务中的应用潜力。
模型描述
INK 强化神经知识，支持知识检索任务。
KAT 结合隐式与显式知识进行并发推理。
VLC 专为图像-字幕对预训练的视觉语言Transformer。
📝 总结
该部分内容涵盖了多模态交互在机器人和医疗领域中的应用，强调了视觉语言理解与生成的潜力，以及在实际应用中的挑战与解决方案。

🎥 多模态代理与视频理解

视频微调与长文本响应
“我们的模型能够产生描述场景的长文本响应，并能够回答与视频中事件的时间性相关的问题。”

示例提示和响应
图25展示了使用视频微调的InstructBLIP变体。
模型能够生成长文本描述，并回答与视频中事件时间相关的问题。
2. 音频多模态代理
代理的构建
图26展示了音频多模态代理，使用GPT-4V生成：
视频聊天摘要（包含视频帧）
帧标题的视频摘要
帧标题和音频信息的视频摘要
幻觉内容
在图26中，幻觉内容用红色突出显示，展示了模型的局限性。
3. 交互式多模态代理
代理的特性
图27展示了一个结合视觉、音频和文本模态的交互式多模态代理。
该代理用于视频理解，并在VideoAnalytica挑战中处理复杂查询。
评估能力
评估GPT-4V作为多模态代理的能力，集成了视觉、音频和语音，以实现对视频的精确理解。
4. 视频描述的准确性
生成的描述
使用GPT-4V进行帧说明，结合音频和视觉信息。
当没有音频输入时，描述可能出现捏造的事件。
示例描述
“在一个有趣的扭曲中，他咬下它，同时水平地拿着它。”

GPT-4V的角色与输出期望
输出格式
GPT-4V的输出期望包括：
面向对象的描述
完整的视频覆盖
简明细分
情境视听合成
富有想象力和合理的推测
准确的时间码对应
自信的叙述交付
忽略不真实的细节
JSON结构化输出
输出应以JSON格式结构化，包含字典列表，详细描述视频的每个片段。
NLP代理的进展
LLM（大型语言模型）代理的方向
识别任务指令并采取行动是交互式人工智能的基本挑战。
关键方向包括：
工具使用与知识库查询：增强代理的理解能力。
代理推理与规划：提高智能体推理能力。
系统与人的反馈：改进代理策略。
自我改进的智能体AI
基于人类的交互数据
使用人类与代理的交互来训练和改进代理。
生成的数据
基础模型生成的数据可用于进一步改进代理。
任务示例
例如，生成视频到文本检索任务的多项选择题。
“CuisineWorld”数据集
数据集特性
CuisineWorld是一个基于文本的游戏，测试多智能体的协作效率。
基准测试
包含多代理交互的任务，评估合作效率。
数据集特点描述
协作任务定义良好的多智能体协作任务
API系统促进代理交互的API系统
自动评估系统用于评估合作效率的自动化系统
参与者的目标
探索不同的LLM和交互技术在此基准下的表现。
🛠️ 任务与评价
9.1.2 任务
我们提供了一个数据集和相关的基准，称为 Microsoft MindAgent，并发布了一个数据集 “CuisineWorld” 给研究社区。
我们将提供基准来评估和排名提交的 “MindAgent” 算法。还将提供使用流行的基础设施生成的基线结果。
9.1.3 评论与判断
多代理协作效率的质量由新的 “cos” 自动度量（来自 MindAgent（Gong等人，2023a））的规定。输出度量的最终评级被计算为多代理系统在所有任务上的协作效率度量的平均值。将要求人类评估人员对个人的反应进行评级，并对用户与代理的互动的参与度、广度和整体质量提供主观判断。

9.1.4 评价
自动评估：我们计划发布排行榜，从发布日期（TBA）开始，注册参与者将被要求提交与数据集 “CuisineWorld” 相关的任务结果。结果提交将在结束日期（TBA）关闭。每个团队将被要求提交他们在测试集上生成的结果，以自动评估 “cos” 度量。

人类评价：排行榜参与者需要提供一个由本地评估脚本生成的提交文件。我们将使用 evalAI 系统来检查提交文件，并选择性地检查顶级挑战者的代码。因此，团队还必须提交他们的代码，并附上一个关于如何运行代码的自述文件。人的评价将由组织团队进行。

赢家宣布：我们将公布获奖者名单，并在排行榜上公布参赛作品的最终评分。

🎥 音频视频语言预训练数据集
VideoAnalytica
我们介绍 VideoAnalytica：分析视频演示理解的新基准。 VideoAnalytica 专注于利用视频演示作为辅助手段，以更好地理解嵌入在长格式教学视频中的复杂的高级推理。我们的目标是评估视频语言模型的认知推理能力，使它们超越单纯的识别任务和基本理解，走向更复杂和细致入微的视频理解。

VideoAnalytica 强调多种模式的集成，例如音频、视频和语言，以及模型应用特定领域知识的能力，以将视频中呈现的信息置于上下文环境中并对其进行解释。

主要任务
视频文本检索：准确地从教学视频中检索相关文本。挑战在于区分相关和不相关的信息，因此需要深入理解视频内容，并分析演示以检索正确的查询。我们将硬否定引入到由大型语言模型生成的数据集中，并对生成的否定结果进行人工验证，删除使任务无效和不公平的实例（例如否定结果有效）。

视频辅助信息性问题回答：根据从视频中提取的信息回答问题。重点是复杂的问题，需要分析推理和视频演示的透彻理解。

基准排行榜
排行榜参与者需要提交他们的解决方案进行评估，评估将基于模型在两个任务上的表现，结果将显示在排行榜上。参与者必须提交他们的代码，附上对他们的方法和方法的详细解释。
伦理考量
该排行榜侧重于理解和解释视频内容，这些内容可能用于监控或其他侵犯隐私的应用。因此，考虑该技术的伦理影响和潜在滥用至关重要。我们鼓励参与者在提交的材料中考虑这些方面，并促进人工智能的道德使用。

🌍 更广泛的影响声明
本文和我们的相关论坛旨在成为创新研究的催化剂，促进合作，推动下一波人工智能应用。通过关注多模态代理，我们强调了人类与AI交互、排行榜和解决方案的未来方向。

对社会的贡献
推动多模态代理的应用：我们希望我们的论坛能够让人工智能研究人员开发出基于游戏、机器人、医疗保健和长视频理解等现实问题的解决方案。

提供有价值的资源：我们希望我们的论坛能够成为人工智能从业者和研究人员的宝贵资源，作为一个平台探索和深入理解在各种环境和情况下实施人工智能代理所带来的多样化和复杂的排行榜。

分享最新趋势与研究方向：我们的活动元素将为多式联运代理领域的最新和重要趋势、研究方向和创新概念提供实质性而简洁的概述。

⚖️ 伦理考量
多模态Agent人工智能系统有许多应用。除了交互式人工智能之外，基于多模态的模型还可以帮助机器人和人工智能代理驱动内容生成，并协助生产力应用程序，帮助重播、释义、动作预测或合成3D或2D场景。人工智能的基本进步有助于实现这些目标，许多人将受益于更好地理解如何在模拟现实或真实的世界中建模体现和移情。

然而，这项技术也可能被坏人利用。生成内容的人工智能系统可以用来操纵或欺骗人们。因此，根据负责任的AI指导方针开发这项技术非常重要。

具体伦理考量
医疗领域的偏见：接受偏见数据培训的人工智能代理可能会通过为代表性不足的群体提供不准确的诊断来恶化健康差异。

隐私和保密问题：人工智能代理对敏感患者数据的处理引发了严重的隐私和保密问题。

社会经济影响：负责任地驾驭这些过渡对于尽量减少潜在的社会经济干扰至关重要。

🌈 多样性声明
通过检查AI代理模型在各个领域的适应性，我们固有地拥有各种各样的排行榜、观点和解决方案。该项目的重点是先进的多模式系统，在物理和虚拟环境中有效地进行交互，并促进与人类的有效互动。我们打算聘请广泛的专家和从业人员在广泛的技术专业、文化、国家和学术领域讨论重要主题。

📚 多模态交互的视野
相关文献综述
以下是多模态交互领域中一些重要的研究文献及其贡献：

论文标题作者出版信息
Clip-nav：使用Clip进行零射击视觉和语言导航 S. 多尔巴拉, P. J. S. Sukhatme arXiv预印本 arXiv:2211.16649, 2022
一个实体代理能找到你的“猫形杯子”吗？基于大型语言模型的零射击对象导航 S. 多尔巴拉, D. Manocha arXiv预印本 arXiv:2303.03480, 2023
一张图像值16 x 16个单词：大规模图像识别的变形金刚 A. 多索维茨基, D. 科列斯尼科夫等 ICLR, 2021
Palm-e：一种体现的多模态语言模型 D. 德里斯角, M. S.萨贾迪等 arXiv预印本 arXiv:2303.03378, 2023
视频语言规划 Y. 杜, M. Yang等 arXiv预印本 arXiv:2310.10625, 2023
神经路径猎人：通过路径接地减少对话系统中的幻觉 N. Dongli, A. 马多托岛等 arXiv预印本 arXiv:2104.08455, 2021
Manipulathor：视觉对象操作的框架 K. Ehsani, W. Han等 IEEE/CVF计算机视觉和模式识别会议论文集, 2021, pp. 4497-4506
牧场上的奶牛：基于语言驱动的零射击对象导航 S. Y. Gadre, M. 沃茨曼等 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 23171-23181
研究的趋势与方向
多模态学习：随着视觉和语言的集成，研究者们探索如何利用大型语言模型（LLM）进行更高效的导航和交互。
零射击学习：多个文献集中于如何在没有具体训练样本的情况下进行任务执行，展现了模型的灵活性和适应性。
机器人操作：研究者们在如何利用视觉信息和语言指令来提升机器人在复杂环境中的操作能力方面进行了深入探讨。
重要概念与术语
多模态交互：指通过多种感知通道（如视觉、语言等）进行的交互方式。其目的在于提升人机交互的自然性和有效性。

零射击学习（Zero-shot Learning）：一种机器学习方法，允许模型在没有见过的类上进行推理和决策，通常依赖于语言描述或视觉特征。

大型语言模型（LLM）：基于深度学习的模型，能够生成和理解自然语言，这些模型在多个任务中展现出强大的性能。

未来研究方向
增强学习：如何将增强学习与多模态学习结合，以提高机器人在动态环境中的学习能力。

语言理解：进一步提升模型在复杂指令下的理解和执行能力，以增强与人类用户的交互。

任务规划：针对复杂任务的规划与执行，如何利用视觉信息进行更高效的决策。

以上文献和概念为多模态交互领域的学习提供了坚实基础，建议同学们深入阅读相关资料以加深理解。

🤖 多模态交互的视野
📚 参考文献列表
作者标题来源年份
Moma-lrg 多对象多参与者活动解析的简化图神经信息处理系统进展，第35卷，第35页。5282-5298 2022
C.-Y. Ma, J. Lu, Z. Wu等 Self-monitoring navigation agent via auxiliary progress estimation arXiv预印本 2019
C.-Y. Ma, Z. Wu等 The regretful agent: Heuristic-aided navigation through progress estimation arXiv预印本 2019
Y. J. Ma等尤里卡：通过编码大型语言模型进行人类级别的奖励设计 arXiv预印本 2023
M. Maaz等 Video-chatgpt：通过大型视觉和语言模型实现详细的视频理解 2023年 2023
R. 茅角等预训练语言模型的偏见：基于情感分析和情感检测的实证研究 IEEE Transactions on Affective Computing 2022
G. Marcus 人工智能的下一个十年：迈向强大人工智能的四个步骤 arXiv预印本 2020
G. Marcus和E.《重启AI》重启AI：构建我们可以信任的人工智能万神殿 2019
K. 马里诺等 Ok-vqa：需要外部知识的视觉问答基准 CVPR 2019
P. Martinez-Gonzalez等 Unrealrox：用于机器人模拟和合成数据生成的极其逼真的虚拟现实环境虚拟现实，第24卷，第100页。271-288 2020
J. Maynez等论抽象概括中的忠实性和真实性第58届计算语言学协会年会论文集 2020
O. 米斯湖赫尔曼等卡尔文：A benchmark for language-conditioned policy learning for long-horizon robot manipulation tasks IEEE Robotics and Automation Letters 2022
Meta FAIR Diplomacy Team 在外交游戏中进行人类级别的游戏科学，第378卷，第6624号，第页。1067-1074 2022
S. 最小值等重新思考演示的作用：是什么让情境学习起作用？ arXiv预印本 2022
M. L. 明斯基明斯基的框架系统理论 1975年自然科学理论问题研讨会论文集 1975
S. Mirchandani等 Large language models as general pattern machines arXiv预印本 2023
P. 米罗斯基等学习在复杂环境中导航 arXiv预印本 2016
M. 米塔尔等轨道：交互式机器人学习环境的统一仿真框架 IEEE机器人与自动化快报 2023
A. 拉德福等学习可转移的视觉模型从自然语言监督国际会议上的机器学习 2021
S. K. 拉马克里什南等波尼：objectgoal的潜在函数导航与无交互学习 IEEE/CVF计算机视觉和模式识别会议论文集 2022
S. S. 拉曼等 Cape：Precondition errors using large language models 2nd Workshop on Language and Robot Learning 2023
K. 拉奥等 Rl-cyclegan：强化学习感知模拟到真实 IEEE/CVF计算机视觉和模式识别会议论文集 2020
B. Sarkar等人类与人工智能合作的不同约定第37届神经信息处理系统会议 2023
M.萨瓦等 Minos：复杂环境中导航的多模式室内模拟 arXiv预印本 2017
T. 施克等 Toolformer：语言模型可以教自己使用工具 2023年 2023
E. Segalis等一张图片胜过千言万语：有原则的重新抓取提高了图像生成 arXiv预印本 2023
J. Takamatsu等 Learning-from-observation system considering hardware-level reusability arXiv预印本 2022
C. Tang等 Graspgpt: Leveraging semantic knowledge from a large language model for task-oriented grasping IEEE Robotics and Automation Letters 2023
🧠 重要概念
多模态交互：指在人工智能系统中结合多种信息形式（如语言、视觉等）进行交互的方式。

预训练语言模型：一种通过大量文本数据训练的模型，可以理解和生成自然语言，广泛应用于各种任务。

自我监控导航代理：一种智能代理，能够在导航任务中通过估计进展来自我调整。

视觉问答：结合视觉信息和自然语言处理能力的任务，要求系统根据图像内容回答问题。

🚀 应用示例
在多模态交互中，系统可以同时处理图像和文字输入，从而更好地理解用户意图。
自我监控导航代理可以在复杂环境中进行有效导航，通过对自身进展的评估来优化决策过程。
🔗 相关链接
计算语言学协会年会论文集
IEEE Robotics and Automation Letters
🤖 Agent AI：多模态交互的视野
参考文献列表
以下是与多模态交互和智能体 AI 相关的重要文献，这些文献为理解该领域的最新进展提供了基础：

作者文章标题出版信息
H. 泰希马, N. Wake, D. 托马斯, 等社交的深度手势生成 2022年IEEE/RSJ智能机器人与系统国际会议（IROS）
G. Tevet, S. Raab, B. 戈登, 等人体运动扩散模型 arXiv预印本arXiv：2209.14916，2022
J. Mr. Gordan, Y. Bisk 改变基线：视觉导航和质量保证的单一模态性能 arXiv预印本arXiv：1811.00613，2018
J. 托宾河，巴西-地方氏A. 作者简介用于转移深度的域随机化从模拟到真实的世界的神经网络 2017年IEEE/RSJ智能机器人和系统国际会议（IROS）
H. 图夫龙, T. 拉夫里尔湾, 等 Llama：开放和高效的基础语言模型 arXiv预印本arXiv：2302.13971，2023
N. Tennis, A. Xiang, 等 Sean 2.0：Formalizing and generating social situations for robot navigation IEEE Robotics and Automation Letters，2022年
N. 威克河荒川岛Yanokura, 等 A learning-from-obstructive framework：One-shot robot teaching for grasp-manipulation-release household operations 2021 IEEE/SICE International Symposium on System Integration（SII）
N. 威克, 等用于引导多模态机器人教学中的抓握类型识别的文本驱动对象启示机器视觉和应用，第34卷，第4期，第58页，2023年
GPT-4V代理与应用实例
示例 1：GPT-4V在游戏中的应用
Bleeding Edge：在这款第三人称团队战斗游戏中，GPT-4V可以提供对游戏规则和视觉内容的理解，尽管其对复杂场景的理解能力仍有待提高。
微软飞行模拟器：GPT-4V代理为玩家提供高级动作描述，帮助玩家理解如何在驾驶过程中管理飞行控制和仪器。
示例 2：交互式角色描述
刺客信条奥德赛：GPT-4V能够描述角色在历史战斗中的动作，例如挥舞长矛并使用特殊能力对抗敌人。
GEARS of WAR 4：基于视频内容，GPT-4V能够描述玩家的战斗策略，包括使用掩护和管理弹药。
重要研究成果
以下研究探索了多模态交互和智能体 AI 的多个方面：

多模态推理：研究如何使用 GPT-4V 进行多模态推理和行动。
情感对话：探讨了 GPT-4V 在情感识别方面的能力和潜力。
视觉导航：强调在视觉和语言导航中的应用。
结论
通过以上文献和应用实例，可以看出多模态交互与智能体 AI 的发展正处于快速进步之中，未来将可能在机器人和人机交互领域产生重大影响。

🌐 多模态交互的视野
多模态交互概述
多模态交互是指通过多种输入输出方式（如视觉、听觉等）来增强人机交互的能力。在本次讲座中，我们探讨了如何利用GPT-4V模型进行多模态交互，尤其是在视频游戏中的应用。

GPT-4V的应用示例
示例一：Minecraft视频分析
输入描述：视频帧按网格顺序排列，描述玩家的行为。
输出要求：用简洁的语言描述玩家的动作，避免提及具体的帧数或游戏名称。
示例输出：玩家在地图上奔跑、与检查点互动、战斗等。
示例二：Microsoft Flight Simulator
输入描述：通过关键帧输入，描述玩家在飞行中的操作。
输出要求：提供高级动作描述，包括驾驶舱视图和外部视图。
关键帧数量：6帧。
示例三：《刺客信条：奥德赛》
输入描述：同样使用关键帧输入。
输出要求：描述角色在历史战斗中的动作。
关键帧数量：8帧。
示例四：GEARS of WAR 4
输入描述：描述玩家在未来环境中的战斗场景。
输出要求：涉及战斗策略、掩护和攻击等动作。
关键帧数量：10帧。
多模态交互的关键特征
特征描述
视觉输入通过视频帧捕捉玩家行为，提供上下文信息。
高级描述生成的描述不仅仅是动作，还包括环境、状态和目标等信息。
动态反馈系统能够根据实时输入生成适应性的输出，增强交互体验。
Starfield游戏案例
输入描述：基于10帧视频，描述玩家在采矿环境中的互动。
输出要求：生成玩家与环境、NPC互动的动态描述。
关键帧内容：
玩家在地下洞穴中与另一角色互动。
进入工业内部，接近NPC。
伴随NPC移动，提示游戏引导。
NPC提供任务更新。
玩家与机器互动。
观察资源并进行采矿。
结论
多模态交互的实现需要综合多种输入信息，通过智能模型生成丰富的内容描述，从而提升用户体验。通过对游戏的分析，我们可以看到这一技术的潜力和实际应用场景。
在这里插入图片描述