Просмотр исходного кода

19维度图书解析流程调整-提示词调整

yingge 3 месяцев назад
Родитель
Сommit
1b10ceafff

+ 3 - 0
doc/prompt/互动任务设计维度_vlm_text.md

@@ -6,6 +6,9 @@
 ## 用途
 提取 / 设计书中可互动的任务(比如 "帮小熊找蜂蜜""数苹果数量")即亲子互动点;
 
+## 你了解图书的以下内容:
+{content}
+
 ## 输出格式要求
 请按照以下 **JSON** 格式输出你的分析结果。
 键名对应维度文本中提供的"拆解项" (Breakdown Items) 定义。

+ 3 - 0
doc/prompt/五大领域分析_vlm_text.md

@@ -6,6 +6,9 @@
 ## 用途
 明确对儿童综合能力的培养
 
+## 你了解图书的以下内容:
+{content}
+
 ## 输出格式要求
 请按照以下 **JSON** 格式输出你的分析结果。
 键名对应维度文本中提供的"拆解项" (Breakdown Items) 定义。

+ 4 - 1
doc/prompt/传播记忆点设计维度_vlm_text.md

@@ -6,6 +6,9 @@
 ## 用途
 提炼内容里能让小朋友 / 家长记住的 "slogan 式短语""标志性动作"(比如 "小熊的'抱抱拳'""'分享最快乐'的口头禅");
 
+## 你了解图书的以下内容:
+{content}
+
 ## 输出格式要求
 请按照以下 **JSON** 格式输出你的分析结果。
 键名对应维度文本中提供的"拆解项" (Breakdown Items) 定义。
@@ -69,4 +72,4 @@
 2. **扫描:** 观察图像,识别符合这些标准的元素。
 3. **提取:** 对于JSON中的每一个类别,提供在图像中发现的内容。
    - 如果图像中不存在该类别的内容,可以将列表留空或设为null。
-   - 请提供描述性的值。
+   - 请提供描述性的值。

+ 3 - 1
doc/prompt/创作背景_vlm_text.md

@@ -6,13 +6,15 @@
 ## 用途
 标注作者背景、获奖信息、创作动机
 
+## 你了解图书的以下内容:
+{content}
+
 ## 输出格式要求
 请按照以下 **JSON** 格式输出你的分析结果。
 键名对应维度文本中提供的"拆解项" (Breakdown Items) 定义。
 
 ```json
 {{
-  "页码": {page_number},
   "作者绘者背景": [
     {{
       "内容": "描述图片中关于'作者 / 绘者背景'的内容",

+ 176 - 0
doc/prompt/叙事流维度.md

@@ -0,0 +1,176 @@
+你是一位专业的故事结构分析专家,擅长像电影编剧一样拆解儿童绘本的叙事脉络。你的任务是提取故事的完整发展弧线,为AI续写改编提供结构化支持。
+
+## 分析目标
+提取并分析绘本故事的完整叙事流程,包括起因、经过、高潮和结局四个核心阶段。
+
+## 你了解图书的以下内容:
+{{content}}
+
+## 输出格式要求
+请按照以下JSON结构输出分析结果:
+
+```json
+{{
+  "故事发展弧线": {{
+    "起因": {{
+      "触发场景": {{
+        "核心画面": "开篇的关键视觉场景描述",
+        "时间设定": "故事发生的时间(早晨/中午/晚上/季节等)",
+        "空间设定": "故事发生的地点(森林/城市/家中/太空等)",
+        "出现页码": "对应页码"
+      }},
+      "核心动机": {{
+        "角色目标": "主角的初始目标是什么",
+        "驱动力": "什么促使角色开始行动",
+        "内在需求": "角色内心深层的需求或渴望",
+        "出现页码": "对应页码"
+      }},
+      "初始矛盾": {{
+        "第一个冲突": "阻碍目标的第一个障碍或问题",
+        "角色初始状态": "角色在故事开始时的状态(情绪/能力/处境)",
+        "出现页码": "对应页码"
+      }},
+      "伏笔线索": [
+        {{
+          "伏笔内容": "暗示后续发展的细节",
+          "暗示方式": "对话/画面细节/道具/环境",
+          "预示内容": "可能预示什么后续发展",
+          "出现页码": "对应页码"
+        }}
+      ]
+    }},
+    "经过": {{
+      "故事推进线": "整体推进节奏描述",
+      "关键节点": [
+        {{
+          "节点序号": "1/2/3/4/5",
+          "事件描述": "推动剧情发展的核心事件",
+          "情节功能": "该事件在故事中的作用",
+          "页码范围": "该节点涉及的页码"
+        }}
+      ],
+      "角色转变": {{
+        "行为变化": "角色在过程中的行为转变",
+        "心理变化": "角色的内心或认知变化",
+        "能力成长": "角色获得的新能力或新认知",
+        "关系变化": "角色与其他角色的关系变化"
+      }},
+      "冲突升级": {{
+        "冲突层次": "列出冲突的层层递进过程",
+        "转折点": "每次冲突升级的转折时刻",
+        "紧张度曲线": "描述整体紧张度的起伏"
+      }},
+      "辅助元素": {{
+        "帮助角色的配角": [
+          {{
+            "配角名称": "配角的名字",
+            "帮助方式": "如何帮助主角",
+            "出现页码": "对应页码"
+          }}
+        ],
+        "阻碍角色的配角": [
+          {{
+            "配角名称": "配角的名字",
+            "阻碍方式": "如何阻碍主角",
+            "出现页码": "对应页码"
+          }}
+        ],
+        "关键道具": [
+          {{
+            "道具名称": "道具的名字",
+            "作用": "在剧情中的关键作用",
+            "出现页码": "对应页码"
+          }}
+        ]
+      }}
+    }},
+    "高潮": {{
+      "故事引爆点": "高潮的核心时刻描述",
+      "核心冲突爆发": {{
+        "冲突场景": "矛盾最激烈的场景描述",
+        "对抗双方": "冲突的主体是谁和谁/什么",
+        "冲突形式": "身体对抗/语言冲突/内心挣扎/环境挑战",
+        "出现页码": "对应页码"
+      }},
+      "角色抉择": {{
+        "选择时刻": "角色面临的关键选择",
+        "选项对比": "角色可以选择的不同路径",
+        "最终决定": "角色做出的选择",
+        "选择代价": "做出这个选择的代价或风险",
+        "出现页码": "对应页码"
+      }},
+      "情绪顶点": {{
+        "情绪类型": "快乐/悲伤/紧张/感动/惊讶等",
+        "情绪强度": "1-10分评分",
+        "情绪触发": "什么场景或事件触发了这个情绪顶点",
+        "视觉表现": "画面如何表现这个情绪顶点"
+      }},
+      "转折点": {{
+        "转折描述": "导致矛盾转向的关键瞬间",
+        "转折原因": "什么导致了这个转折",
+        "转折效果": "转折带来的剧情走向变化"
+      }}
+    }},
+    "结局": {{
+      "故事收束线": "整体结局的收束方式",
+      "结果呈现": {{
+        "目标达成情况": "完全达成/部分达成/未达成/超越预期",
+        "角色最终状态": "角色在故事结束时的状态(情绪/能力/处境)",
+        "外部改变": "外部世界/环境的改变",
+        "内在改变": "角色内心的改变或成长",
+        "出现页码": "对应页码"
+      }},
+      "情绪落点": {{
+        "整体情绪基调": "温暖/快乐/平静/感动/开放性/略带遗憾等",
+        "读者感受": "希望读者产生的情感体验",
+        "情绪收束方式": "渐弱/强烈/开放/回环"
+      }},
+      "主题呼应": {{
+        "核心主题": "故事的核心主题是什么",
+        "呼应方式": "结尾如何呼应开头或主题",
+        "价值观传递": "故事传递的核心价值观或道理"
+      }},
+      "余味细节": [
+        {{
+          "彩蛋内容": "暗示后续或留下思考空间的小细节",
+          "暗示意义": "这个彩蛋可能暗示什么",
+          "出现页码": "对应页码"
+        }}
+      ]
+    }}
+  }},
+  "叙事特色": {{
+    "叙事视角": "第一人称/第三人称全知/第三人称限制/双重视角",
+    "时间线结构": "线性/倒叙/插叙/平行线/循环",
+    "叙事节奏": "快节奏/中速/慢节奏/节奏变化明显",
+    "重复元素": "是否有重复出现的情节、对白或画面"
+  }},
+  "续写改编建议": {{
+    "可续写切入点": "适合续写的故事节点",
+    "可改编方向": "可能的改编角度(视角转换/支线扩展/前传后传等)",
+    "关键保留元素": "改编时必须保留的核心元素",
+    "灵活改编元素": "可以灵活调整的元素"
+  }}
+}}
+```
+
+## 分析步骤
+1. **通读全书**:完整阅读绘本,把握故事整体脉络
+2. **划分阶段**:识别起因、经过、高潮、结局四个阶段的分界点
+3. **提取关键点**:在每个阶段中提取关键事件、转折和情绪点
+4. **分析因果链**:理清事件之间的因果关系和内在逻辑
+5. **识别模式**:发现叙事特色和重复元素
+6. **总结主题**:提炼故事的核心主题和价值观
+7. **续写建议**:基于故事结构,提供续写和改编建议
+
+## 注意事项
+- 关注情节节点的**因果关系**,不仅仅是事件的罗列
+- 识别**伏笔与呼应**的关系,这是优秀叙事的关键
+- 角色的**内在转变**和**外在行动**要分别提取
+- 高潮部分要捕捉**情绪的最高点**,而不仅仅是情节的最激烈点
+- 结局的"余味细节"可能隐藏在画面中,需要细心观察
+
+## 输出示例(关键节点描述)
+> **节点2:小熊在森林深处发现了一棵会说话的蜂蜜树**
+> - 情节功能:这是小熊获得"帮手"的转折点,也为后续解决蜂蜜罐问题提供了可能性
+> - 页码范围:第8-10页

+ 4 - 2
doc/prompt/因果逻辑与世界观_vlm_text.md

@@ -6,13 +6,15 @@
 ## 用途
 提取世界运行规则
 
+## 你了解图书的以下内容:
+{content}
+
 ## 输出格式要求
 请按照以下 **JSON** 格式输出你的分析结果。
 键名对应维度文本中提供的"拆解项" (Breakdown Items) 定义。
 
 ```json
 {{
-  "页码": {page_number},
   "明确的因果链条": [
     {{
       "内容": "描述图片中关于'明确的因果链条'的内容",
@@ -64,4 +66,4 @@ b. 注明**例外情况**(如"除了圣诞夜,魔法全天可用")。
 2. **扫描:** 观察图像,识别符合这些标准的元素。
 3. **提取:** 对于JSON中的每一个类别,提供在图像中发现的内容。
    - 如果图像中不存在该类别的内容,可以将列表留空或设为null。
-   - 请提供描述性的值。
+   - 请提供描述性的值。

+ 0 - 1
doc/prompt/图书基础信息_vlm_text.md

@@ -12,7 +12,6 @@
 
 ```json
 {{
-  "页码": {page_number},
   "书号": [
     {{
       "内容": "描述图片中关于'书号'的内容",

+ 3 - 0
doc/prompt/对话与交互行为_vlm_text.md

@@ -6,6 +6,9 @@
 ## 用途
 分离 "说的" 和 "做的"
 
+## 你了解图书的以下内容:
+{content}
+
 ## 输出格式要求
 请按照以下 **JSON** 格式输出你的分析结果。
 键名对应维度文本中提供的"拆解项" (Breakdown Items) 定义。

+ 3 - 0
doc/prompt/情绪色调分析_vlm_text.md

@@ -6,6 +6,9 @@
 ## 用途
 根据提供的维度定义分析图像。
 
+## 你了解图书的以下内容:
+{content}
+
 ## 输出格式要求
 请按照以下 **JSON** 格式输出你的分析结果。
 键名对应维度文本中提供的"拆解项" (Breakdown Items) 定义。

+ 3 - 0
doc/prompt/成长能力匹配_vlm_text.md

@@ -6,6 +6,9 @@
 ## 用途
 把内容与成长能力对应,标注进阶衔接点
 
+## 你了解图书的以下内容:
+{content}
+
 ## 输出格式要求
 请按照以下 **JSON** 格式输出你的分析结果。
 键名对应维度文本中提供的"拆解项" (Breakdown Items) 定义。

+ 3 - 1
doc/prompt/核心价值观提炼_vlm_text.md

@@ -6,13 +6,15 @@
 ## 用途
 提取书里隐藏的"道理"
 
+## 你了解图书的以下内容:
+{content}
+
 ## 输出格式要求
 请按照以下 **JSON** 格式输出你的分析结果。
 键名对应维度文本中提供的"拆解项" (Breakdown Items) 定义。
 
 ```json
 {{
-  "页码": {page_number},
   "主题标签": [
     {{
       "内容": "描述图片中关于'主题标签'的内容",

+ 102 - 0
doc/prompt/物理版面维度.md

@@ -0,0 +1,102 @@
+你是一位专业的绘本版面分析专家,擅长像排版设计师一样拆解儿童绘本的物理版面结构。你的任务是对绘本页面进行精细化的版面元素识别与定位分析,为点读交互等应用场景提供数据支持。
+
+## 分析目标
+区分并记录绘本页面中各类视觉元素的位置、属性和交互逻辑。
+
+## 你了解图书的以下内容:
+{content}
+
+## 输出格式要求
+请按照以下JSON结构输出分析结果:
+
+```json
+{{
+  "页码": "{page_number}",
+  "正文文本框": [
+    {{
+      "位置分布": "描述文本框在页面中的位置(如:左上角/中央/底部等)",
+      "尺寸特征": "描述文本框的大小比例",
+      "文本类型": "故事类正文 | 科普类知识",
+      "文本内容": "文本框内的具体文字",
+      "边框样式": "有边框 | 无边框,如有则描述边框特征",
+      "交互设计建议": "建议的点读交互逻辑"
+    }}
+  ],
+  "角色": [
+    {{
+      "角色名称": "角色的名字或称呼",
+      "昵称外号": "如有",
+      "位置": "角色在页面中的位置",
+      "核心外观特征": "标志元素、外形、服装、颜色等关键视觉特征",
+      "表情状态": "当前表情或情绪状态",
+      "动作姿态": "当前的动作或姿势"
+    }}
+  ],
+  "场景组件": [
+    {{
+      "组件名称": "组件的名称",
+      "分类": "植物类 | 工具类 | 自然元素类 | 建筑类 | 其他",
+      "位置": "组件在页面中的具体位置",
+      "视觉特征": "颜色、形状、大小等"
+    }}
+  ],
+  "背景": {{
+    "位置与范围": "描述背景覆盖的范围,是否跨页",
+    "前景元素": ["列出前景中的角色、场景组件、文本框"],
+    "主色调": "描述主要色调",
+    "饱和度": "高 | 中 | 低",
+    "细节纹理": "描述纹理、线条绘制风格等"
+  }},
+  "视觉重心": {{
+    "核心位置": "单页视觉重心的位置",
+    "构成元素": ["构成视觉重心的核心角色和场景组件"],
+    "色彩表现": "视觉重心区域的色彩饱和度和对比度"
+  }},
+  "标题文本": {{
+    "位置": "封面 | 内页章节标题",
+    "文字内容": "标题的具体文字",
+    "字体效果": "描述字体风格、大小",
+    "颜色": "字体颜色",
+    "与场景主题的关系": "描述标题与画面的呼应关系"
+  }},
+  "对话气泡框": [
+    {{
+      "位置": "气泡框在页面中的位置",
+      "形状": "圆形 | 椭圆 | 云朵形 | 方形 | 其他",
+      "颜色": "气泡框颜色",
+      "字体": "气泡内文字的字体特征",
+      "对话内容": "气泡内的具体文字",
+      "说话角色": "发出该对话的角色"
+    }}
+  ],
+  "页码信息": {{
+    "页码数值": "当前页码",
+    "位置": "页码在页面中的位置",
+    "视觉特征": "页码的字体、颜色等"
+  }},
+  "点读热区建议": [
+    {{
+      "热区名称": "建议的点读热区名称",
+      "对应元素": "正文文本框 | 角色 | 场景组件 | 视觉重心 | 标题文本 | 对话气泡框 | 页码",
+      "位置坐标": "建议的热区位置范围",
+      "触发内容": "点击后应播放/展示的内容描述",
+      "音频文件编号建议": "建议的音频编号格式"
+    }}
+  ],
+  "年龄适配分析": "根据版面复杂度判断适合的读者年龄段(低龄绘本文字极少,以大幅色块和简单角色为主;高龄绘本则会增加对话气泡的复杂度和文本框的排版密度)"
+}}
+```
+
+## 分析步骤
+1. **整体扫描**:首先观察页面的整体布局和视觉重心
+2. **元素识别**:逐一识别页面中的文本框、角色、场景组件、背景等元素
+3. **位置记录**:记录每个元素的精确位置(可用九宫格定位或百分比坐标)
+4. **属性分析**:分析每个元素的视觉属性(颜色、大小、形状等)
+5. **交互设计**:根据元素特点,建议点读热区的设置和触发内容
+6. **年龄适配**:根据版面复杂度评估适读年龄
+
+## 注意事项
+- 确保所有可交互元素都被识别和记录
+- 角色的核心视觉特征要详细,便于后续AIGC绘图一致性
+- 场景组件的分类要准确,便于建立素材库
+- 点读热区建议要考虑儿童的操作习惯和认知特点

+ 3 - 0
doc/prompt/知识实体与百科拆解_vlm_text.md

@@ -6,6 +6,9 @@
 ## 用途
 提取硬核知识点
 
+## 你了解图书的以下内容:
+{content}
+
 ## 输出格式要求
 请按照以下 **JSON** 格式输出你的分析结果。
 键名对应维度文本中提供的"拆解项" (Breakdown Items) 定义。

+ 3 - 0
doc/prompt/童趣元素提炼维度_vlm_text.md

@@ -6,6 +6,9 @@
 ## 用途
 提取书中适合儿童的趣味点(比如 "动物拟人化动作""重复押韵的台词""夸张的表情")\\叙事结构的韵律性、语气节奏的适配性;
 
+## 你了解图书的以下内容:
+{content}
+
 ## 输出格式要求
 请按照以下 **JSON** 格式输出你的分析结果。
 键名对应维度文本中提供的"拆解项" (Breakdown Items) 定义。

+ 140 - 0
doc/prompt/视觉资产维度.md

@@ -0,0 +1,140 @@
+你是一位专业的动画视觉资产设计师,擅长从儿童绘本中提取和整理可复用的视觉素材。你的任务是像动画师一样"抠图",将书中的图像元素拆解为独立的视觉资产,建立标准化的素材库,为AIGC绘图一致性和动画/游戏制作提供支持。
+
+## 分析目标
+将绘本中的图像元素拆解为可独立复用的视觉资产,包括角色立绘、道具、背景环境等。
+
+## 你了解图书的以下内容:
+{content}
+
+## 输出格式要求
+请按照以下JSON结构输出分析结果:
+
+```json
+{{
+  "页码": {page_number},
+  "角色立绘资产": [
+    {{
+      "角色ID": "唯一标识符,如 char_001",
+      "角色名称": "角色的名字",
+      "基础状态": {{
+        "描述": "标准的、表情中性的正面全身图描述",
+        "姿势": "站立/坐姿/其他",
+        "朝向": "正面/侧面/四分之三侧面",
+        "出现页码": "该状态出现的页码"
+      }},
+      "核心视觉特征": {{
+        "物种类型": "人类/动物/幻想生物/拟人化物品",
+        "整体外形": "身体比例、体型特征",
+        "标志性元素": "最具辨识度的视觉特征",
+        "服装配饰": "穿着、饰品描述",
+        "颜色方案": "主要颜色和配色",
+        "材质质感": "毛茸茸/光滑/粗糙等质感描述",
+        "AIGC提示词": "用于生成该角色的详细英文提示词"
+      }},
+      "表情变化集": [
+        {{
+          "表情名称": "开心/悲伤/惊讶/生气/害怕/疑惑等",
+          "视觉特征": "眼睛、嘴巴、眉毛等面部细节变化",
+          "出现页码": "该表情出现的页码,如为推断则标注'推断'"
+        }}
+      ],
+      "关键动作姿态": [
+        {{
+          "动作名称": "跑/跳/举手/睡觉/拥抱等",
+          "姿态描述": "身体各部位的位置和状态",
+          "视角角度": "描述观看角度",
+          "出现页码": "该动作出现的页码"
+        }}
+      ]
+    }}
+  ],
+  "道具资产": [
+    {{
+      "道具ID": "唯一标识符,如 prop_001",
+      "道具名称": "道具的名称",
+      "分类": "魔法物品/日常用品/食物/交通工具/自然物/其他",
+      "视觉特征": {{
+        "形状": "基本形状描述",
+        "颜色": "颜色方案",
+        "材质": "材质质感",
+        "尺寸参考": "相对于角色的大小比例",
+        "特殊效果": "发光/飘动/其他动态效果"
+      }},
+      "功能用途": "在故事中的作用",
+      "关联角色": "与该道具关联的角色",
+      "出现页码": "出现的页码列表",
+      "AIGC提示词": "用于生成该道具的详细英文提示词"
+    }}
+  ],
+  "背景环境资产": [
+    {{
+      "背景ID": "唯一标识符,如 bg_001",
+      "场景名称": "场景的名称(如:森林/城堡/房间)",
+      "分层结构": {{
+        "远景层": {{
+          "元素列表": ["天空", "远山", "云朵等"],
+          "颜色氛围": "整体色调描述"
+        }},
+        "中景层": {{
+          "元素列表": ["树木群", "建筑主体", "街道等"],
+          "细节程度": "简洁/中等/丰富"
+        }},
+        "近景层": {{
+          "元素列表": ["草丛", "路灯", "小石子路等可移动前景装饰物"],
+          "互动性": "可用于增加景深和互动感的元素"
+        }}
+      }},
+      "时间天气变体": [
+        {{
+          "变体名称": "白天/夜晚/雨天/雾气/黄昏等",
+          "色调变化": "该变体的主要色调变化",
+          "氛围描述": "整体氛围感受"
+        }}
+      ],
+      "出现页码": "出现的页码列表",
+      "AIGC提示词": "用于生成该背景的详细英文提示词"
+    }}
+  ],
+  "资产关联关系": {{
+    "角色-道具关联": [
+      {{
+        "角色ID": "char_001",
+        "道具ID": "prop_001",
+        "关联类型": "持有/穿戴/使用"
+      }}
+    ],
+    "角色-背景关联": [
+      {{
+        "角色ID": "char_001",
+        "背景ID": "bg_001",
+        "出现场景": "该角色在此背景中的典型位置"
+      }}
+    ]
+  }},
+  "风格指南": {{
+    "整体画风": "水彩/油画/扁平化/卡通/写实等",
+    "线条特征": "粗细/流畅度/有无描边",
+    "色彩风格": "明亮/柔和/对比强烈/复古等",
+    "统一性建议": "保持视觉一致性的关键要素"
+  }}
+}}
+```
+
+## 分析步骤
+1. **通览全书**:快速浏览整本绘本,识别所有角色、道具和场景
+2. **角色提取**:为每个角色建立完整的视觉档案,包括基础状态、表情集、动作库
+3. **道具整理**:识别所有独立道具,记录其视觉特征和用途
+4. **背景分层**:将每个场景拆解为远景、中景、近景三层
+5. **变体设计**:分析或推断可能的时间/天气变体
+6. **关联映射**:建立角色、道具、背景之间的关联关系
+7. **风格总结**:提炼整体视觉风格指南
+
+## 注意事项
+- 角色的核心视觉特征描述要足够详细,确保AIGC能生成一致的形象
+- 表情和动作如果书中未直接出现,可以根据剧情合理推断,需标注"推断"
+- 背景分层要考虑动画制作的实际需求,近景层元素尤其重要
+- 每个资产都要提供英文AIGC提示词,便于直接用于AI绘图工具
+- 资产ID要保持唯一性和可追溯性
+
+## 输出示例(角色核心视觉特征描述)
+> "穿着蓝色背带裤的圆耳朵小熊,棕色毛茸茸质感,水汪汪的黑色大眼睛,粉色小鼻子,微微上扬的嘴角,短小的四肢,圆滚滚的肚子"

+ 75 - 60
doc/prompt/角色人设建立_vlm_text.md

@@ -6,71 +6,75 @@
 ## 用途
 建立立体人物档案
 
+## 你了解图书的以下内容:
+{content}
+
 ## 输出格式要求
 请按照以下 **JSON** 格式输出你的分析结果。
 键名对应维度文本中提供的"拆解项" (Breakdown Items) 定义。
+**重要:** 图书/图像中可能有多个角色,你必须为**每一个出场角色**输出一份完整的人设对象。
+输出结构按“角色分块”组织,数组中的每一项即一个可直接写入知识库的分块。
 
 ```json
 {{
-  "页码": {page_number},
-  "角色的口头禅": [
-    {{
-      "内容": "描述图片中关于'角色的口头禅'的内容",
-      "分析": "解释它是如何符合以下标准的: - 高频重复句式(例:"我敢打赌......")<br />- 情绪化感叹词(例:"天哪!又搞砸了!..."
-    }}
-  ],
-  "性格弱点": [
-    {{
-      "内容": "描述图片中关于'性格弱点'的内容",
-      "分析": "解释它是如何符合以下标准的: - **表面弱点**:贪吃、粗心、拖延(例:小熊总弄丢蜂蜜罐)<br />- **深层弱点**:恐惧..."
-    }}
-  ],
-  "爱好": [
-    {{
-      "内容": "描述图片中关于'爱好'的内容",
-      "分析": "解释它是如何符合以下标准的: - **主动技能**:涂鸦、数蚂蚁、收集玻璃珠<br />- **被动倾向**:爱窝在窗边发呆、偷听..."
-    }}
-  ],
-  "角色定位": [
-    {{
-      "内容": "描述图片中关于'角色定位'的内容",
-      "分析": "解释它是如何符合以下标准的: - **功能标签**:<br />催化剂型(推动剧情) / 镜子型(反射主角成长) / 锚定型(代表..."
-    }}
-  ],
-  "性格与行为信息": [
-    {{
-      "内容": "描述图片中关于'性格与行为信息'的内容",
-      "分析": "解释它是如何符合以下标准的: - **行为密码**:<br />- 压力反应:咬指甲/狂吃东西/冷笑话攻击<br />- 决策风格..."
-    }}
-  ],
-  "情绪表达特点": [
+  "分块": [
     {{
-      "内容": "描述图片中关于'情绪表达特点'的内容",
-      "分析": "解释它是如何符合以下标准的: - **外显层**:<br />愤怒时→反话讽刺 / 悲伤时→躲进衣柜讲故事<br />- **内隐..."
-    }}
-  ],
-  "关系与互动信息": [
-    {{
-      "内容": "描述图片中关于'关系与互动信息'的内容",
-      "分析": "解释它是如何符合以下标准的: - **权力动态**:<br />仰视-俯视(如:对强者模仿 vs 对弱者保护)<br />- **..."
-    }}
-  ],
-  "关键事件与转变": [
-    {{
-      "内容": "描述图片中关于'关键事件与转变'的内容",
-      "分析": "解释它是如何符合以下标准的: - **转折三阶**:<br />- 信念动摇事件(例:发现"英雄"也会撒谎)<br />- 主动选..."
-    }}
-  ],
-  "成长轨迹": [
-    {{
-      "内容": "描述图片中关于'成长轨迹'的内容",
-      "分析": "解释它是如何符合以下标准的: - **能力轴**:<br />从"误打误撞成功"到"有策略解决问题"<br />- **认知轴**..."
-    }}
-  ],
-  "主题映射": [
-    {{
-      "内容": "描述图片中关于'主题映射'的内容",
-      "分析": "解释它是如何符合以下标准的: - **显性主题**:友谊、勇气、探索<br />- **隐性主题**:<br />- 残缺与完整(..."
+      "分块信息": {{
+        "分块ID": "使用角色标识或编号,如:角色-01",
+        "分块标题": "角色人设:{角色标识}",
+        "分块摘要": "一句话概括角色人设,便于知识库检索",
+        "分块标签": ["角色人设", "物种/身份", "性格关键词"]
+      }},
+      "角色标识": {{
+        "内容": "为每个出场角色提供唯一标识(如:角色名称/昵称;若无名称则用外观特征短语)"
+      }},
+      "角色名称": {{
+        "内容": "读取图片中的角色名称(若未出现则填null)"
+      }},
+      "角色形象": {{
+          "内容": "描述'角色形象',如一只体型很小、尾部发出微弱但稳定黄绿色光芒的萤火虫,在巨大的黑暗森林中独自缓慢飞行。",
+          "分析": "示例:通过“微弱光芒”与“巨大黑暗”的对比,塑造了一种脆弱但坚韧、带有指引性和希望感的角色形象。"
+      }},
+      "角色的口头禅": {{
+        "内容": "描述图片中关于'角色的口头禅'的内容",
+        "分析": "解释它是如何符合以下标准的: - 高频重复句式(例:"我敢打赌......")<br />- 情绪化感叹词(例:"天哪!又搞砸了!..."
+      }},
+      "性格弱点": {{
+        "内容": "描述图片中关于'性格弱点'的内容",
+        "分析": "解释它是如何符合以下标准的: - **表面弱点**:贪吃、粗心、拖延(例:小熊总弄丢蜂蜜罐)<br />- **深层弱点**:恐惧..."
+      }},
+      "爱好": {{
+        "内容": "描述图片中关于'爱好'的内容",
+        "分析": "解释它是如何符合以下标准的: - **主动技能**:涂鸦、数蚂蚁、收集玻璃珠<br />- **被动倾向**:爱窝在窗边发呆、偷听..."
+      }},
+      "角色定位": {{
+        "内容": "描述图片中关于'角色定位'的内容",
+        "分析": "解释它是如何符合以下标准的: - **功能标签**:<br />催化剂型(推动剧情) / 镜子型(反射主角成长) / 锚定型(代表..."
+      }},
+      "性格与行为信息": {{
+        "内容": "描述图片中关于'性格与行为信息'的内容",
+        "分析": "解释它是如何符合以下标准的: - **行为密码**:<br />- 压力反应:咬指甲/狂吃东西/冷笑话攻击<br />- 决策风格..."
+      }},
+      "情绪表达特点": {{
+        "内容": "描述图片中关于'情绪表达特点'的内容",
+        "分析": "解释它是如何符合以下标准的: - **外显层**:<br />愤怒时→反话讽刺 / 悲伤时→躲进衣柜讲故事<br />- **内隐..."
+      }},
+      "关系与互动信息": {{
+        "内容": "描述图片中关于'关系与互动信息'的内容",
+        "分析": "解释它是如何符合以下标准的: - **权力动态**:<br />仰视-俯视(如:对强者模仿 vs 对弱者保护)<br />- **..."
+      }},
+      "关键事件与转变": {{
+        "内容": "描述图片中关于'关键事件与转变'的内容",
+        "分析": "解释它是如何符合以下标准的: - **转折三阶**:<br />- 信念动摇事件(例:发现"英雄"也会撒谎)<br />- 主动选..."
+      }},
+      "成长轨迹": {{
+        "内容": "描述图片中关于'成长轨迹'的内容",
+        "分析": "解释它是如何符合以下标准的: - **能力轴**:<br />从"误打误撞成功"到"有策略解决问题"<br />- **认知轴**..."
+      }},
+      "主题映射": {{
+        "内容": "描述图片中关于'主题映射'的内容",
+        "分析": "解释它是如何符合以下标准的: - **显性主题**:友谊、勇气、探索<br />- **隐性主题**:<br />- 残缺与完整(..."
+      }}
     }}
   ]
 }}
@@ -86,6 +90,12 @@
 
 ### 拆解项 (文本描述)
 
+#### 角色名称
+- 仅读取书中的角色名称
+
+#### 角色形象
+- 分析角色的形象
+
 #### 角色的口头禅
 - 高频重复句式(例:"我敢打赌......")
 - 情绪化感叹词(例:"天哪!又搞砸了!")
@@ -146,10 +156,15 @@
 - 残缺与完整(例:独腿玩具的自我接纳)
 - 记忆与遗忘(例:祖父失忆促发家族故事传承)
 
+## 注意
+- 先识别图像中所有出场角色,再逐一输出完整对象。
+- 输出必须为"角色分块"数组,每个分块仅对应一个角色。
+- 若未出现角色名称,请用角色形象/外观特征建立"角色标识",并将"角色名称"置为null。
+- 同一图像中同一角色只输出一次,不要混合不同角色的信息。
 
 ## 指令
 1. **分析:** 仔细阅读上方的"维度定义",理解每一项的具体标准。
-2. **扫描:** 观察图像,识别符合这些标准的元素。
-3. **提取:** 对于JSON中的每一个类别,提供在图像中发现的内容。
+2. **扫描:** 观察图像,识别全部出场角色
+3. **提取:** 对每个角色逐项填写JSON中的每一个类别,避免角色之间信息串联,并补充分块信息
    - 如果图像中不存在该类别的内容,可以将列表留空或设为null。
    - 请提供描述性的值。

+ 57 - 66
doc/prompt/语言难度分级_vlm_text.md

@@ -1,80 +1,71 @@
-# 视觉分析任务: 语言难度分级
+你是一位专业的儿童语言发展与阅读分级专家,熟悉3-8岁儿童的认知发展规律和语言习得特点。你的任务是对绘本的文字内容、句式结构及图文关系进行深度分析,精准判定其语言难度等级。
 
-**角色:** 你是一位专业的儿童绘本和教育材料内容分析专家, 专注于 **语言难度分级**。
-你的目标是根据该维度的具体标准从图像中提取信息
+## 分析目标
+基于儿童认知发展标准,评估绘本的语言难度,确定适读年龄段(3-4岁 / 4-5岁 / 5-6岁 / 6-7岁 / 7-8岁),并提供详细的分级依据
 
-## 用途
-量化阅读难度
+## 你了解图书的以下内容:
+{content}
 
 ## 输出格式要求
-请按照以下 **JSON** 格式输出你的分析结果。
-键名对应维度文本中提供的"拆解项" (Breakdown Items) 定义。
+请按照以下JSON结构输出分析结果:
 
 ```json
 {{
-  "页码": {page_number},
-  "图画": [
-    {{
-      "内容": "描述图片中关于'图画'的内容",
-      "分析": "解释它是如何符合以下标准的: 参考3-8岁儿童分集阅读指导文件..."
+  "绘本信息": {{
+    "书名": "绘本名称",
+    "总词数": "预估总词数(如适用)",
+    "平均句长": "平均每句字数"
+  }},
+  "难度分级评估": {{
+    "适读年龄段": "3-4岁 | 4-5岁 | 5-6岁 | 6-7岁 | 7-8岁",
+    "核心判定依据": "一句话概括判定理由(例:句式重复度高,且以口语动词为主,符合3-4岁特征)",
+    "匹配度打分": "1-10分"
+  }},
+  "维度详细分析": {{
+    "字词特征": {{
+      "词汇类型": "口语词 | 书面语 | 专业词汇 | 拟声词等",
+      "识字难度": "无识字要求 | 少量识字 | 基础识字(一年级) | 进阶识字(二年级)",
+      "关键特征": "如:大量使用重叠词、形容词丰富、出现成语等",
+      "典型词汇示例": ["词汇1", "词汇2"]
+    }},
+    "句子特征": {{
+      "句法结构": "简单句 | 并列句 | 复合句 | 韵律句",
+      "句式复杂度": "简短重复 | 逐渐丰富 | 灵活多变 | 结构复杂",
+      "修辞手法": "无 | 比喻 | 拟人 | 排比等",
+      "典型句例": "摘录其代表性句子"
+    }},
+    "图文关系": {{
+      "图文比重": "图画主导 | 图文互补 | 图文融合 | 文字主导",
+      "功能分析": "文字辅助理解 | 互为补充 | 文字推进情节 | 文字独立表意",
+      "对应特征描述": "如:文字仅起标签作用,主要靠画面讲故事"
     }}
-  ],
-  "文字": [
-    {{
-      "内容": "描述图片中关于'文字'的内容",
-      "分析": "解释它是如何符合以下标准的: /..."
-    }}
-  ],
-  "主题": [
-    {{
-      "内容": "描述图片中关于'主题'的内容",
-      "分析": "解释它是如何符合以下标准的: /..."
-    }}
-  ],
-  "角色": [
-    {{
-      "内容": "描述图片中关于'角色'的内容",
-      "分析": "解释它是如何符合以下标准的: /..."
-    }}
-  ],
-  "故事": [
-    {{
-      "内容": "描述图片中关于'故事'的内容",
-      "分析": "解释它是如何符合以下标准的: /..."
-    }}
-  ]
+  }},
+  "改进与优化建议": {{
+    "降维建议": "如果要适配更低龄段,应如何修改(如:简化长句,增加拟声词)",
+    "升维建议": "如果要适配更高龄段,应如何修改(如:增加心理描写,使用复句)"
+  }}
 }}
 ```
 
-## 维度定义 (详细标准)
-**视角:**  像语言老师一样看书
-**目标:**  量化阅读难度
-**应用:**  精准分级阅读
-
-**拆解颗粒度:参考文件**
-
-
-### 拆解项 (文本描述)
-
-#### 图画
-参考3-8岁儿童分集阅读指导文件
-
-#### 文字
-/
-
-#### 主题
-/
-
-#### 角色
-/
+## 参考标准(3-8岁分级特征)
 
-#### 故事
-/
+| 年龄段 | 文字-字词特征 | 文字-句子特征 | 图文关系特征 |
+| :--- | :--- | :--- | :--- |
+| **3-4岁** | 少量/无文字;口语化;突出动词、拟声词 | 句子简短,句式简单;有韵律;重点字词规律反复 | **图画主导**,文字辅助;文字贴合画面核心,帮助理解主体 |
+| **4-5岁** | 少量/无文字;口语化;突出动词、拟声词、形容词、量词 | 句子简短,句式简单;有韵律;重点短语/句子规律反复 | **图画主导**,文字辅助;通过重复句式强化画面关联,帮助理解步骤 |
+| **5-6岁** | 适量/无文字;口语化;突出多类词性;对话增多 | 句式逐渐丰富,出现长句;段落规律反复;灵活运用感叹/疑问句 | **图文互补**,文字补充留白;对话贴合动作,长句配合复杂画面 |
+| **6-7岁** | 适量文字;小学一年级基础识字;字体规范 | 句式丰富,句子变长;韵律减少;运用陈述/感叹/疑问/祈使句;出现简单复句 | **图文融合互补**,合而见义;文字引导想象;分工明确(侧重图 vs 侧重文) |
+| **7-8岁** | 适量文字;小学一二年级识字;含写实/抽象词汇 | 明显韵律较少;句类多样;运用简单复句(并列/承接/递进/因果);逻辑性强 | **图文深度互补**,**文字主导**情节;文字梳理逻辑,图画渲染氛围 |
 
+## 分析步骤
+1.  **文本扫描**:统计字数、句长,识别核心词汇类别(动词/名词/形容词等)。
+2.  **句式拆解**:分析句子结构(简单/复杂)、修辞及重复规律。
+3.  **图文对照**:观察文字与画面的功能分配(是读图懂故事,还是读文懂故事)。
+4.  **特征对位**:将提取的特征与《参考标准》表进行比对,找到最匹配的年龄段。
+5.  **综合定级**:结合三个维度(字词、句子、图文)得出最终适读年龄。
 
-## 指令
-1. **分析:** 仔细阅读上方的"维度定义",理解每一项的具体标准。
-2. **扫描:** 观察图像,识别符合这些标准的元素。
-3. **提取:** 对于JSON中的每一个类别,提供在图像中发现的内容。
-   - 如果图像中不存在该类别的内容,可以将列表留空或设为null。
-   - 请提供描述性的值。
+## 注意事项
+- **口语 vs 书面语**:低龄段(3-6岁)高度依赖口语表达,高龄段(6-8岁)开始向书面语过渡。
+- **韵律与重复**:3-5岁的核心是"重复"和"韵律"(易于记忆模仿),6岁后注重逻辑和因果。
+- **识字门槛**:6岁是识字的分水岭,在此之前不应有强制识字要求。
+- 若特征跨越两个年龄段(如字词简单但意境深远),以**认知理解难度**为最终定级标准。

+ 3 - 0
doc/prompt/适配媒介转化维度_vlm_text.md

@@ -6,6 +6,9 @@
 ## 用途
 标注内容适配的媒介形式(比如 "这段对话适合做动画台词""这个场景适合做 30 秒短视频片段");
 
+## 你了解图书的以下内容:
+{content}
+
 ## 输出格式要求
 请按照以下 **JSON** 格式输出你的分析结果。
 键名对应维度文本中提供的"拆解项" (Breakdown Items) 定义。

+ 3 - 1
doc/prompt/阅读效果反馈_vlm_text.md

@@ -6,13 +6,15 @@
 ## 用途
 标注可检测孩子阅读效果的指标及评估方法
 
+## 你了解图书的以下内容:
+{content}
+
 ## 输出格式要求
 请按照以下 **JSON** 格式输出你的分析结果。
 键名对应维度文本中提供的"拆解项" (Breakdown Items) 定义。
 
 ```json
 {{
-  "页码": {page_number},
   "知识掌握br核心指标": [
     {{
       "内容": "描述图片中关于'知识掌握<br />(核心指标)'的内容",

+ 2 - 2
src/datasets/parser/nodes/image_parse_node.py

@@ -105,9 +105,9 @@ class ImageParseNode(BaseNode):
             parser = QWenVLParser(self.model_name)
             # 对于完整书本图片,page_number设为0或None
             result = parser.parse_image(book_image, 0, prompt_template)
-            
+            parsed_content = parse_json_response(result, expected_type=dict)
             logger.info("完整书本图片解析完成")
-            return result
+            return parsed_content
         except Exception as e:
             logger.error(f"解析完整书本图片时出错: {str(e)}")
             return {