Text-Social Benchmark¶

Tools¶

StoryEval¶

code: https://github.com/ypwang61/StoryEval

贡献：一个专门用于评估文本到视频(T2V)模型的“故事完成能力”的benchmark，专注于评估生成视频中连续事件的完成。

细节：会筛掉以面部表情作为事件的 prompt 数据，但 social 推理是需要面部表情的。

结果：Kling1.5和Hailuo 表现较好（闭源），Vchitect-2.0 也不错（开源）。（虽然没有考虑面部表情生成，但是结果仍有一定参考价值）

GPT-Image-1¶

链接：https://platform.openai.com/docs/models/gpt-image-1

价格有点小贵，只有Text2Image，无法生成视频（虽然现在多模态模型采样也是一帧一帧采，和读图片没有区别）。

BigToM¶

BigToM这个数据集比较有名气，24年出的现在引用量有130，而且论文里图画得很好看。

Causal Template¶

因果模型变量：

Desires：“Noor wants to make a latte“
Percepts/actions：“Noor fills a pitcher with oat milk“
Belief：“Noor believes that the pitcher has oat milk“
Causal Event：“oat milk“ → “almond milk”

如下是几种推理情况：

Initial Percept to Initial Belief ：检验模型是否理解 Percepts（以及action）会引发Belief，即“Noor grabs a pitcher and fills it with oat milk“ → “Noor believes that the milk pitcher contains oat milk“

With vs. Without Initial Belief : 在 “without initial belief” 场景下，不明确揭示主体的 Initial Belief；在“with initial belief” 场景下则纳入主体的 Initial Belief，这会使推理变得更加容易，可跳过Initial Percept to Initial Belief 阶段。

Forward Belief ：model 必须根据 agent 的 percepts of the causal event 来推断 agent 的 belief，推理可表示成 P (Belief | Percept)

Forward Action ：model 必须根据 agent 的 percepts of the causal event 来推断 agent 的 action，这要求模型在根据 percepts 和 desire 来预测主体的行动之前，首先要推断出主体的belief。

Backward Belief ：从观察到的 action 中推断 agent's belief . 这一情况非常困难，因为需要从观察到的行为中对未知的信念和感知进行联合推断。

Populating Causal Templates With Language Models¶

从 causal template 中创建 prompt 模板，并使用一个语言模型（GPT-4-0314，温度设置为 0.5 且采用默认参数）来填充模板变量。对于给定 prompt，利用3 few-shot examples 来生成3个new completions. 限制模型为模板中的每个变量准确生成一个句子。在此做一个假设 -- 该模型擅长进行 forward prediction，能够根据 context、 the belief and desire of the agen 想出合理的行动。

Composing Test Items from Template Variables¶

总体流程：

生成格式：

FANToM¶

目前很多 ToM 相关 benchmark 都缺乏人与人之间的交互，FANToM 旨在通过问答方式，在信息不对称的对话情境中对心理理论进行压力测试。

Information-Asymmetric Conversations ：每段对话围绕一个主题展开，每个主题都有几个子主题。一开始，对话由两三个角色开启。随着对话的推进，有角色加入或离开讨论，并且对话的子主题也会随时间而变化。在某个角色不在场期间，对话会继续进行，其余参与者会分享信息，从而形成一种自然的信息不对称，这反映了现实生活中的互动情况。在一系列对话之后，之前缺席的角色（重新）加入对话，此时该角色并不知道之前其他参与者所分享的信息。

Factual Question-Answer (QA) Pairs ：factual question-answer pairs (FACTQ) about the inaccessible information。对于每个 FACTQ，有两种不同类型答案：FULL FACT A & LIMITED FACT A

FULL FACT A：包含了在 PersonX 缺席期间对话中的全部信息，X无法获取
LIMITED FACT A : 仅依赖于Person X 参与的对话内容

ToM QAs based on Fact QAs ：对于每个 FACTQ，构建了六种类型的 ToM 问答对

\(BELIEFQ [DIST.]\) & \(BELIEFQ [CHOICE]\) ：通过对 FACTQ 进行重新措辞来询问对话中角色的Belief 而产生的。特别关注 Person X 对于其未参与的先前对话中无法获取的信息的 Belief。BELIEFQ [DIST.]）要求 freez-form response。BELIEFQ [CHOICE] 针对同一个问题提供了多项选择选项，选项通过对 FULL FACT A(生成 Omniscient-view Belief) and LIMITED FACT A（生成 PersonX-centric Belief）重新措辞生成

ANSWERABILITY Q[LIST] ： Given the FACTQ, we ask models “ List all the characters who know the correct answer to this question”。关注模型是否能够识别出参与者中哪些人能够正确回答该 FACTQ。分两步：确定FACTQ答案，再找出能够获取的角色
INFOACCESS Q[LIST] ：将 FULL FACT A 与 FACTQ 一同提供给模型，并询问模型 “List all the characters who know this information”。旨在找出知晓或能够获取这条信息的角色。由于该信息已明确提供给了模型，所以只需要找出能够获取的角色。
ANSWERABILITY Q[Y/N] and INFOACCESS Q[Y/N] ：要求模型通过简单二选一（Y/N）回答判断每个角色是否可以回答该问题，或者是否知晓相关信息

sample：

这个数据集只有对话，感觉不是很好生成视频。

OpenToM¶

Construction¶

每个story由两个主人公、一个目标实体（此后称为 “实体”）以及若干地点和容器组成。一个主人公被设定为 mover 对 entity 执行 action，另一个则为 observer，可能也可能没有目睹这些 action。

数据生成的两个过程：

Character Personification Process ：为每个角色赋予一种个性特征和个人偏好；从ToMi初始化世界状态，再促使GPT-3.5-Turbo 生成移动者的意图和行为。
Narrative and Question Generation Process ：一个 OpenToM plot 由三个段落组成。第一段阐述角色的个人偏好以及他们对彼此偏好的认知。第二段作为序幕，描绘初始的世界状态以及涉及两个角色的一些先前事件。最后一段描述主要事件，其中包括移动者的个性、移动者的意图以及他们随后的行动。明确纳入有关观察者是否察觉到移动者行动的信息，并将观察者的心理活动排除在叙事之外。

有故事线，而且有场景（多模态的话添加一些表情会更好？），个人觉得比较适合AI 生成，再人工/LLM给视频生成注解。

一些对比：

Limitations¶

由大语言模型生成的文本可能存在偏差，并且缺乏词汇多样性
角色情感方面的局限性：现实中，人类的情感往往是复杂且多面的，并且可能取决于一段较长时间内发生的多个事件。
线性叙事；未来的研究可以考虑构建具有非线性顺序的 OpenToM 叙事，以便进一步挑战大语言模型在叙事理解和 N-ToM 方面的能力。

ExploreToM¶

Story：不同角色对当前世界状态和其他人的 beliefs 有不同 beliefs

Question：探究模型理解能力

故事生成流程（一个完整的故事，T2V模型比较好生成？）：

Plausible story context sampling ：使用 LLM zero-shot 来生成连贯合理的故事背景，包括 character names, roles, locations, relevant objects, object containers, and discussion topics .

Theory of Mind-Specific Language Definition : 类似 RL 方法，且有多智能体联合； action set \(A\) , 每个动作会影响故事 state (Story state set \(S\) ) 和人物的 belief。一个故事被定义为一系列的 action 及其影响（\(s=(a_1,...,a_n)\)），每个action 在应用时有前提条件。执行一个动作会自动更新对世界 state 的跟踪和对 belief 的跟踪. 支持的 action 范围有：物理改变世界状态&各种形式的交流。同时引入“Asymmetric belief updates”，对非对称信息场景进行建模（可以引入FANToM数据集，对其进行场景构建）

Generating Questions and Assessing Resulting Story Difficulty ：基于ExploreToM框架自动生成问答对。问题包括对中间状态的询问，拓展记忆类问题的复杂程度。包括二选一判断题和简答题。

A* Search ：给定 Context C 和 actions A，需要找到具有挑战性的故事结构（实际上是actions该如何排列，会使得故事对LLM具有挑战性）。定义一个故事空间，每个结点都是一个story \(s=(a_1,...,a_n)\) , 只有s是s′的前缀，并且s′比s多包含k个动作时，s和s′之间存在一条边。采用 A* 算法，其会选择使 \(f(s)=g(s)+h(s)\) 最小的路径.

\(g(s)\) 是从起始点到节点s的路径代价，量化为目标模型针对故事 s 的所有问题的准确率（越低越有挑战性，路径代价也就越低）
\(h(s)\) 用于估计从节点s到目标节点（可以接受结束搜索的节点之一）的最便宜路径的代价。目标节点是那些满足isDesired(s′)=1的节点。量化为生成一个完整故事 \(s+s'\) 的可能性的近似估计。
所有的 \(s_i'\) 都是对 s 的随机采样延续，原算法要求评估 \(s\) 的所有邻居结点，探索空间巨大，不可行；预先设定固定数量邻居结点。

Story infilling ：将带有故事背景C的完整故事结构 \(s=(a_1,...,a_n)\) 转化为听起来自然的叙述\(infill(a,z,d)\) : 根据某些风格方面的需求d，将每个动作a转化为一个听起来更自然的表述，并以上一步已填充的上下文z为条件. 迭代填充故事内容。

目前读到的最复杂的一个 story 生成算法，生成的故事看起来比较连贯，为了发论文也是不容易。