Dialogue, Conversation, and Interaction

本课件从形式语义学延伸至语用学 (Pragmatics)，探讨了语言在具体情境中的使用、多智能体互动的基本原理、以及互动过程中的动态变化，最终展望了交互式语言系统的应用。

Part 1: 语用学 - 情境中使用的语言 (Language use in context)

1.1 语义学 (Semantics) vs. 语用学 (Pragmatics)

语义学: 负责将语言的表层形式（如 token 序列）映射到一个形式化的、可执行的逻辑表示。
示例: 问题 "What color is Pepper?" 对应的语义表示是 λf.(Color(f) ∧ f(Pepper))。
语用学: 负责将这个形式化的逻辑表示，在一个具体的上下文或“世界”中进行执行或求值，以获得其指称义 (denotation)。
示例: 将 λf.(Color(f) ∧ f(Pepper)) 在一个包含 Pepper 图像的世界 i 中求值 [[...]]^i，最终得到的结果是 {black}（即满足条件的颜色集合是“黑色”）。

1.2 言语行为 (Speech Acts)

核心思想: 我们对一句话的解释，往往超越其字面（形式化）意义。通过将言语视为一种行动，我们可以赋予话语一种在其形式化表示中不明显的意图 (intent)。
示例: "Do you mind if I sit next to you?"
字面意义: 询问对方是否介意。
实际意图: 请求允许坐下。
可能的回应: "Yeah (go ahead)", "No (I don't mind)", "Sorry, someone is coming" 都可能被理解为对请求的回应，而非对问题的直接回答。

1.3 预设 (Presupposition)

定义: 为了计算一个特定句子的指称义，某个世界中必须为真的命题。换言之，是话语做出的隐性假设。
示例:
"Pepper owns a house." -> 这是一个可以直接判断真伪的命题。
"Pepper's house is big." -> 要判断这句话的真伪，必须预设在我们的世界中存在一个实体 x，满足 house(x) 并且 owns(Pepper, x)。
应用: 意识到语音中的预设对于批判性地分析有说服力的言论（如政治演讲）非常有用。

1.4 隐含义 (Implicature)

定义: 话语所暗示的、但未被明确表达的命题。其意义是通过对备选话语 (alternatives) 进行推理来确定的。
示例:
Q: "Do you know what the weather will be like today?"
A: "You should bring your umbrella."
隐含义: （在旧金山的语境下）今天可能会下大雨。这个回答比直接说 "yes", "no" 或报告具体天气数据提供了更具指导性的信息。

1.5 格莱斯会话准则 (Gricean Maxims)

这是支撑“隐含义”推理背后的一套我们共同遵守的原则，指导我们在对话中应如何发言。 1. 数量准则 (Quantity): 提供恰到好处的信息量，不多也不少。 2. 真实准则 (Truth): 不说假话。 3. 关系准则 (Relation): 话语应与上下文相关。 4. 方式准则 (Manner): 话语的形式和意义应清晰明了。 - 违反准则: - 蔑视 (Flouting): 在听者知道说话者是故意违反准则的假设下“打破”准则。这通常是为了产生特殊的隐含意义。 - 示例: Q: "Do you know what the weather will be like?" A: "My dog ate my homework." (故意违反关系准则，可能暗示不想回答)。 - 违背 (Violating): 在听者不会相信准则被打破的假设下“打破”准则（例如，撒谎）。

1.6 共同基础 (Common Ground)

定义: 在互动中，我们维护着一个关于我们相信是所有参与者共同知晓 (mutually known) 的信息的表征。
共同知晓: 我知道，我相信你知道，我相信你相信我知道... 如此无限递归。
内容:
互动指导原则（如格莱斯准则、共享词汇）。
关于世界的命题、价值观和信念。
共享环境中的事物，包括我们共同关注的对象。
作用:
让我们能推理什么是不在共同基础中的（即对方不知道的）。
通过对他人的信念建模，我们可以推理他们会如何解释我们的言语。
当我们想弥合信念差距时，可以依赖共同基础中的语言使用和解释规则。

Part 2: 互动的多智能体基础 (Multi-Agent Foundations of Interaction)

2.1 从单智能体到多智能体

单智能体: 在一个世界中行动，行动会影响世界状态，但环境中的其他因素是随机的（stochasticity），行为相对可预测。
多智能体: 当另一个玩家（智能体）进入游戏，他们的行为并非完全随机，而是有其内在逻辑。

2.2 对其他智能体建模

为了更好地预测和与其他智能体互动，我们需要对其进行建模： - 信念 (Beliefs): 他们用什么信息做决策？他们如何感知世界并构建内心模型？ - 目标 (Goals): 他们想完成什么？目标是否与我一致、无关或冲突？ - 意图 (Intentions): 他们将如何尝试实现目标？他们有什么技能和策略？ - 对我的模型 (Model of me): 他们可能也在对我进行建模，这如何影响他们的行为？

2.3 合作式互动 (Cooperative Interaction)

前提: 假设双方共享一个高层目标，且这个目标在共同基础中（例如，一起建房子）。
协调: 我的行动会依赖于伙伴的行动，以避免冗余、提高效率（例如，我伐木，你搭建）。
问题:
如何更成功地协调，尤其是在环境不确定的情况下？
如何更好地对伙伴建模（他们知道什么、想做什么、计划做什么）？
如何影响我的伙伴（分享信息、下达指令、进行教学）？

2.4 语言作为协调工具

如果语言在共同基础中，我就可以通过语言来实现高效协调。
陈述: 分享信息。
提问: 询问伙伴。
教学/学习: 教授或向伙伴学习。
指令: 告诉伙伴该做什么。
协调: 商议实现共同目标的步骤。

Part 3: 互动动力学 (Interaction Dynamics)

3.1 互动中的推理：心智理论 (Theory of Mind)

场景: 我想拿一个够不到的行李箱，而另一个人（Green person）能够到。
问题: 我相信 Green person 不知道我的目标。我该怎么做？
心智理论推理: 我与 Green person 共享一个词汇表（在共同基础中）。我应该选择一个能让听者唯一地推断出我目标的行动（即语言）。
示例: 说 "please hand me the yellow suitcase"。
递归推理: 我也可以推理 Green person 对我的信念。
RSA (理性言语行为模型): 这是一个用于模拟这种递归推理的认知科学模型。

3.2 互动中的适应与学习

智能体视角: 动作空间现在包含了生成话语的能力，观察空间包含了其他智能体的话语。
动态变化:
互动开始时，我们对其他智能体有很大的不确定性。
随着时间推移，我们通过观察行为和使用语言解决不确定性，逐渐趋同于更相似的表征 (converge to more similar representations)。
这会优化我们对彼此的