Skip to content

Dialogue, Conversation, and Interaction

本课件从形式语义学延伸至语用学 (Pragmatics),探讨了语言在具体情境中的使用、多智能体互动的基本原理、以及互动过程中的动态变化,最终展望了交互式语言系统的应用。

Part 1: 语用学 - 情境中使用的语言 (Language use in context)

1.1 语义学 (Semantics) vs. 语用学 (Pragmatics)

  • 语义学: 负责将语言的表层形式(如 token 序列)映射到一个形式化的、可执行的逻辑表示。
  • 示例: 问题 "What color is Pepper?" 对应的语义表示是 λf.(Color(f) ∧ f(Pepper))
  • 语用学: 负责将这个形式化的逻辑表示,在一个具体的上下文或“世界”中进行执行或求值,以获得其指称义 (denotation)
  • 示例: 将 λf.(Color(f) ∧ f(Pepper)) 在一个包含 Pepper 图像的世界 i 中求值 [[...]]^i,最终得到的结果是 {black}(即满足条件的颜色集合是“黑色”)。

1.2 言语行为 (Speech Acts)

  • 核心思想: 我们对一句话的解释,往往超越其字面(形式化)意义。通过将言语视为一种行动,我们可以赋予话语一种在其形式化表示中不明显的意图 (intent)
  • 示例: "Do you mind if I sit next to you?"
  • 字面意义: 询问对方是否介意。
  • 实际意图: 请求允许坐下。
  • 可能的回应: "Yeah (go ahead)", "No (I don't mind)", "Sorry, someone is coming" 都可能被理解为对请求的回应,而非对问题的直接回答。

1.3 预设 (Presupposition)

  • 定义: 为了计算一个特定句子的指称义,某个世界中必须为真的命题。换言之,是话语做出的隐性假设
  • 示例:
  • "Pepper owns a house." -> 这是一个可以直接判断真伪的命题。
  • "Pepper's house is big." -> 要判断这句话的真伪,必须预设在我们的世界中存在一个实体 x,满足 house(x) 并且 owns(Pepper, x)
  • 应用: 意识到语音中的预设对于批判性地分析有说服力的言论(如政治演讲)非常有用。

1.4 隐含义 (Implicature)

  • 定义: 话语所暗示的、但未被明确表达的命题。其意义是通过对备选话语 (alternatives) 进行推理来确定的。
  • 示例:
  • Q: "Do you know what the weather will be like today?"
  • A: "You should bring your umbrella."
  • 隐含义: (在旧金山的语境下)今天可能会下大雨。这个回答比直接说 "yes", "no" 或报告具体天气数据提供了更具指导性的信息。

1.5 格莱斯会话准则 (Gricean Maxims)

这是支撑“隐含义”推理背后的一套我们共同遵守的原则,指导我们在对话中应如何发言。 1. 数量准则 (Quantity): 提供恰到好处的信息量,不多也不少。 2. 真实准则 (Truth): 不说假话。 3. 关系准则 (Relation): 话语应与上下文相关。 4. 方式准则 (Manner): 话语的形式和意义应清晰明了。 - 违反准则: - 蔑视 (Flouting): 在听者知道说话者是故意违反准则的假设下“打破”准则。这通常是为了产生特殊的隐含意义。 - 示例: Q: "Do you know what the weather will be like?" A: "My dog ate my homework." (故意违反关系准则,可能暗示不想回答)。 - 违背 (Violating): 在听者不会相信准则被打破的假设下“打破”准则(例如,撒谎)。

1.6 共同基础 (Common Ground)

  • 定义: 在互动中,我们维护着一个关于我们相信是所有参与者共同知晓 (mutually known) 的信息的表征。
  • 共同知晓: 我知道,我相信你知道,我相信你相信我知道... 如此无限递归。
  • 内容:
  • 互动指导原则(如格莱斯准则、共享词汇)。
  • 关于世界的命题、价值观和信念。
  • 共享环境中的事物,包括我们共同关注的对象。
  • 作用:
  • 让我们能推理什么是在共同基础中的(即对方不知道的)。
  • 通过对他人的信念建模,我们可以推理他们会如何解释我们的言语。
  • 当我们想弥合信念差距时,可以依赖共同基础中的语言使用和解释规则。

Part 2: 互动的多智能体基础 (Multi-Agent Foundations of Interaction)

2.1 从单智能体到多智能体

  • 单智能体: 在一个世界中行动,行动会影响世界状态,但环境中的其他因素是随机的(stochasticity),行为相对可预测。
  • 多智能体: 当另一个玩家(智能体)进入游戏,他们的行为并非完全随机,而是有其内在逻辑。

2.2 对其他智能体建模

为了更好地预测和与其他智能体互动,我们需要对其进行建模: - 信念 (Beliefs): 他们用什么信息做决策?他们如何感知世界并构建内心模型? - 目标 (Goals): 他们想完成什么?目标是否与我一致、无关或冲突? - 意图 (Intentions): 他们将如何尝试实现目标?他们有什么技能和策略? - 对我的模型 (Model of me): 他们可能也在对我进行建模,这如何影响他们的行为?

2.3 合作式互动 (Cooperative Interaction)

  • 前提: 假设双方共享一个高层目标,且这个目标在共同基础中(例如,一起建房子)。
  • 协调: 我的行动会依赖于伙伴的行动,以避免冗余、提高效率(例如,我伐木,你搭建)。
  • 问题:
  • 如何更成功地协调,尤其是在环境不确定的情况下?
  • 如何更好地对伙伴建模(他们知道什么、想做什么、计划做什么)?
  • 如何影响我的伙伴(分享信息、下达指令、进行教学)?

2.4 语言作为协调工具

  • 如果语言在共同基础中,我就可以通过语言来实现高效协调。
  • 陈述: 分享信息。
  • 提问: 询问伙伴。
  • 教学/学习: 教授或向伙伴学习。
  • 指令: 告诉伙伴该做什么。
  • 协调: 商议实现共同目标的步骤。

Part 3: 互动动力学 (Interaction Dynamics)

3.1 互动中的推理:心智理论 (Theory of Mind)

  • 场景: 我想拿一个够不到的行李箱,而另一个人(Green person)能够到。
  • 问题: 我相信 Green person 不知道我的目标。我该怎么做?
  • 心智理论推理: 我与 Green person 共享一个词汇表(在共同基础中)。我应该选择一个能让听者唯一地推断出我目标的行动(即语言)。
  • 示例: 说 "please hand me the yellow suitcase"。
  • 递归推理: 我也可以推理 Green person 对我的信念。
  • RSA (理性言语行为模型): 这是一个用于模拟这种递归推理的认知科学模型。

3.2 互动中的适应与学习

  • 智能体视角: 动作空间现在包含了生成话语的能力,观察空间包含了其他智能体的话语。
  • 动态变化:
  • 互动开始时,我们对其他智能体有很大的不确定性。
  • 随着时间推移,我们通过观察行为和使用语言解决不确定性,逐渐趋同于更相似的表征 (converge to more similar representations)
  • 这会优化我们对彼此的