Dialogue, Conversation, and Interaction
本课件从形式语义学延伸至语用学 (Pragmatics),探讨了语言在具体情境中的使用、多智能体互动的基本原理、以及互动过程中的动态变化,最终展望了交互式语言系统的应用。
Part 1: 语用学 - 情境中使用的语言 (Language use in context)
1.1 语义学 (Semantics) vs. 语用学 (Pragmatics)
- 语义学: 负责将语言的表层形式(如 token 序列)映射到一个形式化的、可执行的逻辑表示。
- 示例: 问题 "What color is Pepper?" 对应的语义表示是
λf.(Color(f) ∧ f(Pepper))
。 - 语用学: 负责将这个形式化的逻辑表示,在一个具体的上下文或“世界”中进行执行或求值,以获得其指称义 (denotation)。
- 示例: 将
λf.(Color(f) ∧ f(Pepper))
在一个包含 Pepper 图像的世界i
中求值[[...]]^i
,最终得到的结果是{black}
(即满足条件的颜色集合是“黑色”)。
1.2 言语行为 (Speech Acts)
- 核心思想: 我们对一句话的解释,往往超越其字面(形式化)意义。通过将言语视为一种行动,我们可以赋予话语一种在其形式化表示中不明显的意图 (intent)。
- 示例: "Do you mind if I sit next to you?"
- 字面意义: 询问对方是否介意。
- 实际意图: 请求允许坐下。
- 可能的回应: "Yeah (go ahead)", "No (I don't mind)", "Sorry, someone is coming" 都可能被理解为对请求的回应,而非对问题的直接回答。
1.3 预设 (Presupposition)
- 定义: 为了计算一个特定句子的指称义,某个世界中必须为真的命题。换言之,是话语做出的隐性假设。
- 示例:
- "Pepper owns a house." -> 这是一个可以直接判断真伪的命题。
- "Pepper's house is big." -> 要判断这句话的真伪,必须预设在我们的世界中存在一个实体
x
,满足house(x)
并且owns(Pepper, x)
。 - 应用: 意识到语音中的预设对于批判性地分析有说服力的言论(如政治演讲)非常有用。
1.4 隐含义 (Implicature)
- 定义: 话语所暗示的、但未被明确表达的命题。其意义是通过对备选话语 (alternatives) 进行推理来确定的。
- 示例:
- Q: "Do you know what the weather will be like today?"
- A: "You should bring your umbrella."
- 隐含义: (在旧金山的语境下)今天可能会下大雨。这个回答比直接说 "yes", "no" 或报告具体天气数据提供了更具指导性的信息。
1.5 格莱斯会话准则 (Gricean Maxims)
这是支撑“隐含义”推理背后的一套我们共同遵守的原则,指导我们在对话中应如何发言。 1. 数量准则 (Quantity): 提供恰到好处的信息量,不多也不少。 2. 真实准则 (Truth): 不说假话。 3. 关系准则 (Relation): 话语应与上下文相关。 4. 方式准则 (Manner): 话语的形式和意义应清晰明了。 - 违反准则: - 蔑视 (Flouting): 在听者知道说话者是故意违反准则的假设下“打破”准则。这通常是为了产生特殊的隐含意义。 - 示例: Q: "Do you know what the weather will be like?" A: "My dog ate my homework." (故意违反关系准则,可能暗示不想回答)。 - 违背 (Violating): 在听者不会相信准则被打破的假设下“打破”准则(例如,撒谎)。
1.6 共同基础 (Common Ground)
- 定义: 在互动中,我们维护着一个关于我们相信是所有参与者共同知晓 (mutually known) 的信息的表征。
- 共同知晓: 我知道,我相信你知道,我相信你相信我知道... 如此无限递归。
- 内容:
- 互动指导原则(如格莱斯准则、共享词汇)。
- 关于世界的命题、价值观和信念。
- 共享环境中的事物,包括我们共同关注的对象。
- 作用:
- 让我们能推理什么是不在共同基础中的(即对方不知道的)。
- 通过对他人的信念建模,我们可以推理他们会如何解释我们的言语。
- 当我们想弥合信念差距时,可以依赖共同基础中的语言使用和解释规则。
Part 2: 互动的多智能体基础 (Multi-Agent Foundations of Interaction)
2.1 从单智能体到多智能体
- 单智能体: 在一个世界中行动,行动会影响世界状态,但环境中的其他因素是随机的(stochasticity),行为相对可预测。
- 多智能体: 当另一个玩家(智能体)进入游戏,他们的行为并非完全随机,而是有其内在逻辑。
2.2 对其他智能体建模
为了更好地预测和与其他智能体互动,我们需要对其进行建模: - 信念 (Beliefs): 他们用什么信息做决策?他们如何感知世界并构建内心模型? - 目标 (Goals): 他们想完成什么?目标是否与我一致、无关或冲突? - 意图 (Intentions): 他们将如何尝试实现目标?他们有什么技能和策略? - 对我的模型 (Model of me): 他们可能也在对我进行建模,这如何影响他们的行为?
2.3 合作式互动 (Cooperative Interaction)
- 前提: 假设双方共享一个高层目标,且这个目标在共同基础中(例如,一起建房子)。
- 协调: 我的行动会依赖于伙伴的行动,以避免冗余、提高效率(例如,我伐木,你搭建)。
- 问题:
- 如何更成功地协调,尤其是在环境不确定的情况下?
- 如何更好地对伙伴建模(他们知道什么、想做什么、计划做什么)?
- 如何影响我的伙伴(分享信息、下达指令、进行教学)?
2.4 语言作为协调工具
- 如果语言在共同基础中,我就可以通过语言来实现高效协调。
- 陈述: 分享信息。
- 提问: 询问伙伴。
- 教学/学习: 教授或向伙伴学习。
- 指令: 告诉伙伴该做什么。
- 协调: 商议实现共同目标的步骤。
Part 3: 互动动力学 (Interaction Dynamics)
3.1 互动中的推理:心智理论 (Theory of Mind)
- 场景: 我想拿一个够不到的行李箱,而另一个人(Green person)能够到。
- 问题: 我相信 Green person 不知道我的目标。我该怎么做?
- 心智理论推理: 我与 Green person 共享一个词汇表(在共同基础中)。我应该选择一个能让听者唯一地推断出我目标的行动(即语言)。
- 示例: 说 "please hand me the yellow suitcase"。
- 递归推理: 我也可以推理 Green person 对我的信念。
- RSA (理性言语行为模型): 这是一个用于模拟这种递归推理的认知科学模型。
3.2 互动中的适应与学习
- 智能体视角: 动作空间现在包含了生成话语的能力,观察空间包含了其他智能体的话语。
- 动态变化:
- 互动开始时,我们对其他智能体有很大的不确定性。
- 随着时间推移,我们通过观察行为和使用语言解决不确定性,逐渐趋同于更相似的表征 (converge to more similar representations)。
- 这会优化我们对彼此的