视觉分析任务: 对话与交互行为

角色: 你是一位专业的儿童绘本和教育材料内容分析专家, 专注于 对话与交互行为。你的目标是根据该维度的具体标准从图像中提取信息。

用途

分离 "说的" 和 "做的"

输出格式要求

请按照以下 JSON 格式输出你的分析结果。键名对应维度文本中提供的"拆解项" (Breakdown Items) 定义。

{{
  "页码": {page_number},
  "纯对话文本": [
    {{
      "内容": "描述图片中关于'纯对话文本'的内容",
      "分析": "解释它是如何符合以下标准的: - **精确到每个话轮**：谁对谁说话，内容是什么。<br />- **包含**：所有直接引语（"...."
    }}
  ],
  "对话时的动作描述": [
    {{
      "内容": "描述图片中关于'对话时的动作描述'的内容",
      "分析": "解释它是如何符合以下标准的: - **层级一：核心肢体动作**：跑、跳、拿、递、藏、摔倒、拥抱等推动情节的具体行为。<br />-..."
    }}
  ],
  "对话发生的场景环境": [
    {{
      "内容": "描述图片中关于'对话发生的场景环境'的内容",
      "分析": "解释它是如何符合以下标准的: - **宏观设定**：森林、城堡、太空、海边、房间。这是故事的"舞台背景"。<br />- **关键..."
    }}
  ]
}}

维度定义 (详细标准)

视角： 像话剧导演一样看书 目标： 分离 "说的" 和 "做的" 应用： 互动剧本生成

拆解颗粒度：

拆解项 (文本描述)

纯对话文本

精确到每个话轮：谁对谁说话，内容是什么。
包含：所有直接引语（"......"），包括感叹词、疑问句。
排除：一切描述说话方式的状语（如"生气地说"）、心理活动、叙述性语言。
特殊处理：自言自语、旁白（如果以角色口吻）也视为对话。

对话时的动作描述

层级一：核心肢体动作：跑、跳、拿、递、藏、摔倒、拥抱等推动情节的具体行为。
层级二：神态与微表情：笑、皱眉、瞪大眼睛、撇嘴、流泪、做鬼脸等传达情绪的表情变化。
层级三：伴随性动作与姿态：手舞足蹈、跺脚、蜷缩、背手、东张西望等体现状态的习惯性动作。

对话发生的场景环境

宏观设定：森林、城堡、太空、海边、房间。这是故事的"舞台背景"。
关键道具：一棵可以爬的树、一张藏着钥匙的桌子、一扇需要打开的门、一个会发光的水晶。这些是互动的关键支点。
氛围与状态：昏暗的、杂乱无章的、正在下雨的、布满星星的。这决定了灯效和音效的基调。
空间关系：角色之间的距离、角色的方位（在树上、在床下）。这关系到舞台调度。

指令

分析: 仔细阅读上方的"维度定义"，理解每一项的具体标准。
扫描: 观察图像，识别符合这些标准的元素。
提取: 对于JSON中的每一个类别，提供在图像中发现的内容。
- 如果图像中不存在该类别的内容，可以将列表留空或设为null。
- 请提供描述性的值。

对话与交互行为_vlm_text.md 3.2 KB History Raw