3 luni în urmă · 5c06557683
--- a/src/api/db/services/prompt_service.py
+++ b/src/api/db/services/prompt_service.py
@@ -4,7 +4,7 @@
 
				 提供维度和提示词版本的 CRUD 操作。
			
 
				 服务初始化时会自动检查并创建对应的向量数据库表/索引。
			
 
				 """
			
 
				-
			
 
				+import json
			
 
				 from typing import List, Dict, Any, Optional
			
 
				 from src.utils.mysql import get_global_mysql_client
			
 
				 from src.utils.vector_db import get_vector_db_client
			
@@ -239,6 +239,31 @@ class PromptService:
 
				         result = self._db.fetch_one(sql, [dimension_id])
			
 
				         return result['dataset_id'] if result else None
			
 
				 
			
 
				+    def get_decomposition_method(self) -> Dict[str, Dict[str, Any]]:
			
 
				+        """获取所有维度的decomposition method"""
			
 
				+        sql = "SELECT id, decomposition_method, is_preced, preced_node FROM prompt_dimensions"
			
 
				+        results = self._db.fetch_all(sql)
			
 
				+        return {
			
 
				+            str(row['id']): {
			
 
				+                "decomposition_method": row['decomposition_method'],
			
 
				+                "is_preced": row['is_preced'],
			
 
				+                "preced_node": json.loads(row['preced_node'])
			
 
				+            }
			
 
				+            for row in results
			
 
				+        }
			
 
				+    
			
 
				+    def get_decomposition_method_by_dimension_id(self, dimension_id: int) -> Optional[str]:
			
 
				+        """根据维度ID获取对应的decomposition method"""
			
 
				+        sql = "SELECT decomposition_method FROM prompt_dimensions WHERE id = %s"
			
 
				+        result = self._db.fetch_one(sql, [dimension_id])
			
 
				+        return result['decomposition_method'] if result else None
			
 
				+
			
 
				+    def get_preced_node_name(self, dimension_id: int) -> List[str]:
			
 
				+        """根据维度ID获取前一个节点名称,preced_node为json格式存储的整型数组"""
			
 
				+        sql = "SELECT preced_node FROM prompt_dimensions WHERE id = %s"
			
 
				+        result = self._db.fetch_one(sql, [dimension_id])
			
 
				+        return json.loads(result['preced_node']) if result else []
			
 
				+
			
 
				     def update_dimension(self, dimension_id: int, name: str = None, description: str = None) -> int:
			
 
				         """更新维度信息"""
			
 
				         updates = []
			
--- a/src/datasets/parser/nodes/__init__.py
+++ b/src/datasets/parser/nodes/__init__.py
@@ -25,6 +25,7 @@ from src.datasets.parser.nodes.prompt_retrieval_node import PromptRetrievalNode
 
				 from src.datasets.parser.nodes.table_name_generation_node import TableNameGenerationNode
			
 
				 from src.datasets.parser.nodes.dimension_result_node import DimensionResultNode
			
 
				 from src.datasets.parser.nodes.picture_stitching_node import PictureStitchingNode
			
 
				+from src.datasets.parser.nodes.summary_node import SummaryNode
			
 
				 
			
 
				 __all__ = [
			
 
				     "PDFSplitNode",
			
@@ -44,4 +45,5 @@ __all__ = [
 
				     "TableNameGenerationNode",
			
 
				     "DimensionResultNode",
			
 
				     "PictureStitchingNode",
			
 
				+    "SummaryNode",
			
 
				 ]
			
--- a/src/datasets/parser/nodes/image_parse_node.py
+++ b/src/datasets/parser/nodes/image_parse_node.py
@@ -57,38 +57,6 @@ class ImageParseNode(BaseNode):
 
				     def name(self) -> str:
			
 
				         return "image_parse"
			
 
				     
			
 
				-    def _default_prompt_template(self, is_book_image: bool = False) -> str:
			
 
				-        """
			
 
				-        默认的图像解析提示词模板
			
 
				-        
			
 
				-        Args:
			
 
				-            is_book_image: 是否为完整书本图片模式
			
 
				-        """
			
 
				-        if is_book_image:
			
 
				-            return """
			
 
				-                角色定位：你是一位顶尖的儿童绘本分析师与视觉工程专家，擅长将插画视觉信息转化为高精度的结构化元数据。
			
 
				-                任务描述：请深度解析提供的完整绘本图片（包含所有页面），提取基本要素和特征。
			
 
				-                
			
 
				-                输出格式：JSON
			
 
				-                {{
			
 
				-                    "content": "完整绘本内容描述",
			
 
				-                    "elements": []
			
 
				-                }}
			
 
				-            """
			
 
				-        else:
			
 
				-            return """
			
 
				-                角色定位：你是一位顶尖的儿童绘本分析师与视觉工程专家，擅长将插画视觉信息转化为高精度的结构化元数据。
			
 
				-                任务描述：请深度解析提供的绘本页面，提取基本要素和特征。
			
 
				-                当前提取页码为：{page_number}
			
 
				-                
			
 
				-                输出格式：JSON
			
 
				-                {{
			
 
				-                    "page_number": {page_number},
			
 
				-                    "content": "页面内容描述",
			
 
				-                    "elements": []
			
 
				-                }}
			
 
				-            """
			
 
				-    
			
 
				     def _parse_single_page(self, page: Dict[str, Any], prompt_template: str) -> Dict[str, Any]:
			
 
				         """
			
 
				         解析单个页面
			
@@ -103,20 +71,12 @@ class ImageParseNode(BaseNode):
 
				         image = page.get("image")
			
 
				         
			
 
				         prompt = prompt_template.format(page_number=page_number)
			
 
				-        
			
 
				         logger.debug(f"开始解析第 {page_number} 页")
			
 
				         
			
 
				         try:
			
 
				             parser = QWenVLParser(self.model_name)
			
 
				             result = parser.parse_image(image, page_number, prompt)
			
 
				             parsed_content = parse_json_response(result, expected_type=dict)
			
 
				-            # 处理markdown格式的JSON标签
			
 
				-            # parsed_content = parse_markdown_json(result)
			
 
				-            # if parsed_content:
			
 
				-            #     result = parsed_content
			
 
				-            # else:
			
 
				-            #     # 如果解析失败，保留原始内容
			
 
				-            #     logger.warning(f"解析JSON内容失败，保留原始内容")
			
 
				             
			
 
				             logger.debug(f"第 {page_number} 页解析完成")
			
 
				             return parsed_content
			
@@ -170,15 +130,13 @@ class ImageParseNode(BaseNode):
 
				             包含parsed_results的更新字典
			
 
				         """
			
 
				         # 检查使用哪种模式
			
 
				+        prompt_template = getattr(state, 'dimension_prompt', None)
			
 
				         if self.use_book_image:
			
 
				             # 书本模式：解析完整长图
			
 
				             book_image = getattr(state, 'book_image', None)
			
 
				             if book_image is None:
			
 
				                 logger.warning("book_image为空，无法解析")
			
 
				-                return {"parsed_results": [], "processed_pages": 0}
			
 
				-            
			
 
				-            prompt_template = state.dimension_prompt or self._default_prompt_template(is_book_image=True)
			
 
				-            
			
 
				+                return {"parsed_results": [], "processed_pages": 0}            
			
 
				             logger.info("使用书本模式解析完整长图")
			
 
				             result = self._parse_book_image(book_image, prompt_template)
			
 
				             
			
@@ -195,7 +153,6 @@ class ImageParseNode(BaseNode):
 
				         else:
			
 
				             # 分页模式：解析多张分页图片
			
 
				             pages = getattr(state, 'split_pages', None) or getattr(state, 'image_pages', [])
			
 
				-            prompt_template = state.dimension_prompt or self._default_prompt_template(is_book_image=False)
			
 
				             
			
 
				             if not pages:
			
 
				                 logger.warning("没有待解析的页面")
			
--- a/src/datasets/parser/nodes/pdf_split_node.py
+++ b/src/datasets/parser/nodes/pdf_split_node.py
@@ -66,6 +66,7 @@ class PDFSplitNode(BaseNode):
 
				         logger.info(f"PDF拆分完成，共 {len(split_pages)} 页")
			
 
				         
			
 
				         return {
			
 
				+            "original_filename": original_filename,
			
 
				             "split_pages": split_pages,
			
 
				             "parsed_results": [],
			
 
				             "processed_pages": 0,
			
--- a/src/datasets/parser/nodes/prompt_retrieval_node.py
+++ b/src/datasets/parser/nodes/prompt_retrieval_node.py
@@ -2,13 +2,13 @@
 
				 提示词获取节点
			
 
				 """
			
 
				 
			
 
				+from locale import currency
			
 
				 from typing import Dict, Any, Optional
			
 
				-from unittest import result
			
 
				 from src.datasets.parser.core.base import BaseNode
			
 
				+from src.model.qwen_vl import QWenVLParser
			
 
				 from src.api.db.services.prompt_service import get_prompt_service
			
 
				 from src.common.logging_config import get_logger
			
 
				 
			
 
				-
			
 
				 logger = get_logger(__name__)
			
 
				 
			
 
				 
			
@@ -19,7 +19,7 @@ class PromptRetrievalNode(BaseNode):
 
				     从数据库获取指定维度的激活提示词。
			
 
				     """
			
 
				     
			
 
				-    def __init__(self, dimension_id: int):
			
 
				+    def __init__(self, dimension_id: int, use_book_image: bool = False):
			
 
				         """
			
 
				         初始化提示词获取节点
			
 
				         
			
@@ -27,6 +27,7 @@ class PromptRetrievalNode(BaseNode):
 
				             dimension_id: 维度ID
			
 
				         """
			
 
				         self.dimension_id = dimension_id
			
 
				+        self.use_book_image = False
			
 
				         self._prompt_service = None
			
 
				     
			
 
				     @property
			
@@ -40,6 +41,83 @@ class PromptRetrievalNode(BaseNode):
 
				         if self._prompt_service is None:
			
 
				             self._prompt_service = get_prompt_service()
			
 
				         return self._prompt_service
			
 
				+
			
 
				+    def _default_prompt_template(self, is_book_image: bool = False) -> str:
			
 
				+        """
			
 
				+        默认的图像解析提示词模板
			
 
				+
			
 
				+        Args:
			
 
				+            is_book_image: 是否为完整书本图片模式
			
 
				+        """
			
 
				+        if is_book_image:
			
 
				+            return """
			
 
				+                角色定位：你是一位顶尖的儿童绘本分析师与视觉工程专家，擅长将插画视觉信息转化为高精度的结构化元数据。
			
 
				+                任务描述：请深度解析提供的完整绘本图片（包含所有页面），提取基本要素和特征。
			
 
				+                
			
 
				+                输出格式：JSON
			
 
				+                {{
			
 
				+                    "content": "完整绘本内容描述",
			
 
				+                    "elements": []
			
 
				+                }}
			
 
				+            """
			
 
				+        else:
			
 
				+            return """
			
 
				+                角色定位：你是一位顶尖的儿童绘本分析师与视觉工程专家，擅长将插画视觉信息转化为高精度的结构化元数据。
			
 
				+                任务描述：请深度解析提供的绘本页面，提取基本要素和特征。
			
 
				+                当前提取页码为：{page_number}
			
 
				+                
			
 
				+                输出格式：JSON
			
 
				+                {{
			
 
				+                    "page_number": {page_number},
			
 
				+                    "content": "页面内容描述",
			
 
				+                    "elements": []
			
 
				+                }}
			
 
				+            """
			
 
				+
			
 
				+    # 提示词拼装
			
 
				+    def _assemble_prompt(self, dimension_prompt: str, state: Any) -> str:
			
 
				+        """
			
 
				+        拼装完整提示词
			
 
				+        
			
 
				+        Args:
			
 
				+            preceding_node: 前一节点名称
			
 
				+            dimension_prompt: 维度提示词
			
 
				+            
			
 
				+        Returns:
			
 
				+            完整提示词字符串
			
 
				+        """
			
 
				+
			
 
				+        decomposition_methods = getattr(state, 'decomposition_methods', None)
			
 
				+        original_filename = getattr(state, 'original_filename', None)
			
 
				+        preceding_node = decomposition_methods[self.dimension_id]["preced_node"]
			
 
				+        
			
 
				+        prompt_template = dimension_prompt or self._default_prompt_template(is_book_image=self.use_book_image)
			
 
				+
			
 
				+        # 从temp目录下读取preceding_node中包含的markdown文件获取content列表
			
 
				+        content = []
			
 
				+        for node in preceding_node:
			
 
				+            current_content = ""
			
 
				+            with open(f"temp/{original_filename}_{node}.md", "r", encoding="utf-8") as f:
			
 
				+                current_content = f.read()
			
 
				+            content.append(current_content)
			
 
				+        chat_model = QWenVLParser(self.model_name)
			
 
				+        # 使用大语言模型对content列表中的content进行整合、压缩
			
 
				+        system_prompt = """
			
 
				+        你是一个高级数据处理助手。请对输入的 内容 进行结构化压缩。
			
 
				+
			
 
				+        工作流：
			
 
				+            - 分类： 扫描所有内容，根据主题将其归类。
			
 
				+            - 合并： 将相同主题下的不同描述合并，合并时保留所有独特的细节（如特定的数值、专有名词）。
			
 
				+            - 精简： 使用短语或精炼的句子改写冗长的描述。
			
 
				+
			
 
				+        约束条件：
			
 
				+            - 使用 Markdown 无序列表格式输出。
			
 
				+            - 每个要点必须是独立的知识点。
			
 
				+            - 禁止生成模棱两可的总结，必须保留具体的技术参数或关键事实。  
			
 
				+        """
			
 
				+        # 将content列表中的内容合并为一个字符串
			
 
				+        compressed_content = chat_model.chat("\n".join(content), system_prompt)
			
 
				+        return prompt_template.format(content=compressed_content)
			
 
				     
			
 
				     def execute(self, state: Any) -> Dict[str, Any]:
			
 
				         """
			
@@ -65,9 +143,9 @@ class PromptRetrievalNode(BaseNode):
 
				             }
			
 
				         
			
 
				         logger.info(f"[Prompt-{self.dimension_id}] 提示词获取成功")
			
 
				-        
			
 
				+        prompt_template = self._assemble_prompt(result.get('content'), state)
			
 
				         return {
			
 
				-            "dimension_prompt": result.get('content'),
			
 
				+            "dimension_prompt": prompt_template,
			
 
				             "dataset_id": result.get('dataset_id'),
			
 
				             "dimension_id": self.dimension_id
			
 
				         }
			
--- a/src/datasets/parser/nodes/summary_node.py
+++ b/src/datasets/parser/nodes/summary_node.py
@@ -0,0 +1,144 @@
 
				+"""
			
 
				+总结节点
			
 
				+
			
 
				+对图像解析结果进行总结提要，并保存到文件。
			
 
				+"""
			
 
				+
			
 
				+import os
			
 
				+from typing import Dict, Any, List, Optional
			
 
				+from langchain_core.prompts import ChatPromptTemplate
			
 
				+
			
 
				+from src.datasets.parser.core.base import BaseNode, BaseState
			
 
				+from src.datasets.parser.core.registry import register_node
			
 
				+from src.conf.settings import model_settings
			
 
				+from src.model.qwen_vl import QWenVLParser
			
 
				+from src.common.logging_config import get_logger
			
 
				+
			
 
				+logger = get_logger(__name__)
			
 
				+
			
 
				+
			
 
				+@register_node()
			
 
				+class SummaryNode(BaseNode):
			
 
				+    """
			
 
				+    总结节点
			
 
				+    
			
 
				+    对图像解析结果进行总结提要，并将结果保存到文件。
			
 
				+    """
			
 
				+    
			
 
				+    def __init__(self, dimension_id: int, model_name: Optional[str] = None):
			
 
				+        """
			
 
				+        初始化总结节点
			
 
				+        
			
 
				+        Args:
			
 
				+            dimension_id: 维度ID，用于生成文件名
			
 
				+            model_name: 模型名称
			
 
				+        """
			
 
				+        self.dimension_id = dimension_id
			
 
				+        self.model_name = model_name or model_settings.chat_model_name
			
 
				+        # 总结提示模板
			
 
				+        self.summary_prompt = ChatPromptTemplate.from_template(
			
 
				+            """
			
 
				+            你是一位专业的内容总结专家，擅长从长篇文本中提取核心内容并生成简洁的总结。
			
 
				+            
			
 
				+            请对以下内容进行总结，要求：
			
 
				+            1. 提炼核心观点和关键信息
			
 
				+            2. 保持内容的完整性和准确性
			
 
				+            3. 使用清晰、连贯的语言
			
 
				+            4. 总结长度适中，不要过于冗长
			
 
				+            
			
 
				+            内容：
			
 
				+            {content}
			
 
				+            
			
 
				+            总结：
			
 
				+            """
			
 
				+        )
			
 
				+    
			
 
				+    @property
			
 
				+    def name(self) -> str:
			
 
				+        return f"summary_node"
			
 
				+    
			
 
				+    def _summarize_content(self, content: str) -> str:
			
 
				+        """
			
 
				+        使用模型对内容进行总结
			
 
				+        
			
 
				+        Args:
			
 
				+            content: 待总结的内容
			
 
				+            
			
 
				+        Returns:
			
 
				+            str: 总结结果
			
 
				+        """
			
 
				+        try:
			
 
				+            # 构建提示
			
 
				+            messages = self.summary_prompt.format_messages(content=content)
			
 
				+            # 调用模型生成总结
			
 
				+            chat_model = QWenVLParser(self.model_name)
			
 
				+            response = chat_model.invoke(messages)
			
 
				+            return response.content
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"总结内容时出错: {str(e)}")
			
 
				+            return f"总结失败: {str(e)}"
			
 
				+    
			
 
				+    def execute(self, state: BaseState) -> Dict[str, Any]:
			
 
				+        """
			
 
				+        执行总结操作
			
 
				+        
			
 
				+        Args:
			
 
				+            state: 包含解析结果的状态
			
 
				+            
			
 
				+        Returns:
			
 
				+            包含总结结果的字典
			
 
				+        """
			
 
				+        # 获取解析结果
			
 
				+        parsed_results = getattr(state, 'parsed_results', [])
			
 
				+        
			
 
				+        if not parsed_results:
			
 
				+            logger.warning("没有解析结果可总结")
			
 
				+            return {
			
 
				+                "summary": "",
			
 
				+                "saved_path": "",
			
 
				+                "is_complete": True
			
 
				+            }
			
 
				+        
			
 
				+        # 提取并合并内容
			
 
				+        content_parts = []
			
 
				+        for result in parsed_results:
			
 
				+            if isinstance(result, dict):
			
 
				+                content = result.get('content', '')
			
 
				+                if content:
			
 
				+                    content_parts.append(content)
			
 
				+        
			
 
				+        if not content_parts:
			
 
				+            logger.warning("解析结果中没有内容可总结")
			
 
				+            return {
			
 
				+                "summary": "",
			
 
				+                "saved_path": "",
			
 
				+                "is_complete": True
			
 
				+            }
			
 
				+        
			
 
				+        # 合并内容
			
 
				+        combined_content = "\n".join(content_parts)
			
 
				+        logger.info(f"开始总结内容，长度: {len(combined_content)} 字符")
			
 
				+        
			
 
				+        # 生成总结
			
 
				+        summary = self._summarize_content(combined_content)
			
 
				+        logger.info("内容总结完成")
			
 
				+        
			
 
				+        # 确保temp目录存在
			
 
				+        temp_dir = "temp"
			
 
				+        os.makedirs(temp_dir, exist_ok=True)
			
 
				+        
			
 
				+        # 保存总结到文件
			
 
				+        file_path = os.path.join(temp_dir, f"{state.original_filename}_{self.dimension_id}.md")
			
 
				+        try:
			
 
				+            with open(file_path, 'w', encoding='utf-8') as f:
			
 
				+                f.write(summary)
			
 
				+            logger.info(f"总结已保存到: {file_path}")
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"保存总结文件时出错: {str(e)}")
			
 
				+            file_path = ""
			
 
				+        
			
 
				+        return {
			
 
				+            "summary": summary,
			
 
				+            "saved_path": file_path,
			
 
				+            "is_complete": True
			
 
				+        }
			
--- a/src/datasets/parser/nodes/vectorize_node.py
+++ b/src/datasets/parser/nodes/vectorize_node.py
@@ -75,7 +75,8 @@ class VectorizeNode(BaseNode):
 
				         document_id: str,
			
 
				         dataset_id: str,
			
 
				         file_name: str,
			
 
				-        file_page_count: int
			
 
				+        file_page_count: int,
			
 
				+        original_filename: Optional[str] = None
			
 
				     ) -> Optional[Dict[str, Any]]:
			
 
				         """
			
 
				         向量化单个文档
			
@@ -123,6 +124,7 @@ class VectorizeNode(BaseNode):
 
				                 "chunk_id": chunk_id,
			
 
				                 "metadata": {
			
 
				                     "file_page_count": file_page_count,
			
 
				+                    "book_name": original_filename
			
 
				                 }
			
 
				             }
			
 
				             
			
@@ -148,6 +150,7 @@ class VectorizeNode(BaseNode):
 
				         dataset_id = getattr(state, 'dataset_id', '')
			
 
				         pdf_path = getattr(state, 'pdf_path', '')
			
 
				         table_name = getattr(state, 'table_name', '')
			
 
				+        original_filename = getattr(state, 'original_filename', None)
			
 
				         
			
 
				         if not parsed_results:
			
 
				             logger.warning("没有待向量化的解析结果")
			
@@ -170,7 +173,8 @@ class VectorizeNode(BaseNode):
 
				                 document_id,
			
 
				                 dataset_id,
			
 
				                 file_name,
			
 
				-                file_page_count
			
 
				+                file_page_count,
			
 
				+                original_filename
			
 
				             ): i
			
 
				             for i, parsed_result in enumerate(parsed_results)
			
 
				         }
			
--- a/src/datasets/parser/states/parser_states.py
+++ b/src/datasets/parser/states/parser_states.py
@@ -131,14 +131,15 @@ class DynamicDimensionState(BaseState):
 
				     document_id: str = Field(default="", description="文档ID")
			
 
				     ragflow_id: str = Field(default="", description="RagFlow用户ID")
			
 
				     rag_flow_api_key: str = Field(default="", description="RAGFlow API密钥")
			
 
				-    
			
 
				+    decomposition_methods: Dict[int, Dict[str, Any]] = Field(default_factory=dict, description="维度分解方法")
			
 
				+    use_book_image: bool = Field(default=False, description="是否使用书本模式解析")
			
 
				     # 中间状态
			
 
				     table_name: str = Field(default="", description="向量表名（由 TableNameGenerationNode 生成）")
			
 
				     split_pages: List[Dict[str, Any]] = Field(default_factory=list, description="拆分后的页面列表")
			
 
				     parsed_results: List[Dict[str, Any]] = Field(default_factory=list, description="解析结果列表")
			
 
				     parsed_contents: List[ParsedContent] = Field(default_factory=list, description="解析内容列表")
			
 
				     book_image: Image.Image = Field(default=None, description="书本图片")
			
 
				-
			
 
				+    original_filename: str = Field(default="", description="原始文件名")
			
 
				     # 输出 - 每个维度的结果
			
 
				     dimension_results: Dict[int, Dict[str, Any]] = Field(default_factory=dict, description="每个维度的解析结果")
			
 
				     total_vectorized_pages: int = Field(default=0, description="总向量化页面数")
			
--- a/src/datasets/parser/workflow_nodes/dimension_book_split_node.py
+++ b/src/datasets/parser/workflow_nodes/dimension_book_split_node.py
@@ -13,7 +13,8 @@ from src.datasets.parser.nodes import (
 
				     DimensionResultNode,
			
 
				     RAGFlowDocumentUploadNode,
			
 
				     RAGFlowChunkNode,
			
 
				-    PictureStitchingNode
			
 
				+    PictureStitchingNode,
			
 
				+    SummaryNode
			
 
				 )
			
 
				 from src.datasets.parser.states.parser_states import DynamicDimensionState
			
 
				 from src.common.logging_config import get_logger
			
@@ -66,35 +67,42 @@ class DimensionBookSplitNode(BaseNode):
 
				     def _build_sub_workflow(self, state):
			
 
				         """
			
 
				         构建子工作流
			
 
				-        
			
 
				+
			
 
				         Args:
			
 
				             state: 状态
			
 
				-            
			
 
				+
			
 
				         Returns:
			
 
				             编译后的 LangGraph 工作流
			
 
				         """
			
 
				         logger.info(f"[维度书本拆分-{self.dimension_id}] 开始构建子工作流")
			
 
				         rag_flow_api_key = getattr(state, 'rag_flow_api_key', '')
			
 
				+        decomposition_methods = getattr(state, 'decomposition_methods', None)
			
 
				+        is_preced = decomposition_methods[self.dimension_id]["is_preced"] or 0
			
 
				 
			
 
				         # 创建工作流构建器
			
 
				         builder = WorkflowBuilder(DynamicDimensionState)
			
 
				-        
			
 
				+
			
 
				         # 创建节点
			
 
				-        prompt_node = PromptRetrievalNode(self.dimension_id)
			
 
				+        prompt_node = PromptRetrievalNode(dimension_id=self.dimension_id, use_book_image=True)
			
 
				         document_upload_node = RAGFlowDocumentUploadNode(api_key=rag_flow_api_key)
			
 
				         table_name_node = TableNameGenerationNode(self.dimension_id)
			
 
				         stitching_node = PictureStitchingNode()
			
 
				         parse_node = ImageParseNode(
			
 
				+            dimension_id=self.dimension_id,
			
 
				             model_name=self.model_name,
			
 
				             max_workers=self.max_workers,
			
 
				-            use_book_image=True  # 标记使用book_image模式
			
 
				+            use_book_image=True,  # 标记使用book_image模式
			
 
				         )
			
 
				         chunk_node = RAGFlowChunkNode(api_key=rag_flow_api_key)
			
 
				         vectorize_node = VectorizeNode()
			
 
				         result_node = DimensionResultNode(self.dimension_id)
			
 
				         
			
 
				+        # 条件创建总结节点
			
 
				+        if is_preced == 1:
			
 
				+            summary_node = SummaryNode(dimension_id=self.dimension_id)
			
 
				+
			
 
				         # 添加节点
			
 
				-        builder.add_nodes(
			
 
				+        nodes = [
			
 
				             prompt_node,
			
 
				             document_upload_node,
			
 
				             table_name_node,
			
@@ -103,15 +111,28 @@ class DimensionBookSplitNode(BaseNode):
 
				             chunk_node,
			
 
				             vectorize_node,
			
 
				             result_node
			
 
				-        )
			
 
				+        ]
			
 
				+        
			
 
				+        # 条件添加总结节点
			
 
				+        if is_preced == 1:
			
 
				+            nodes.insert(nodes.index(parse_node) + 1, summary_node)
			
 
				         
			
 
				+        builder.add_nodes(*nodes)
			
 
				+
			
 
				         # 设置边
			
 
				         builder.set_entry(prompt_node.name)
			
 
				         builder.add_edge(prompt_node.name, document_upload_node.name)
			
 
				         builder.add_edge(document_upload_node.name, table_name_node.name)
			
 
				         builder.add_edge(table_name_node.name, stitching_node.name)
			
 
				         builder.add_edge(stitching_node.name, parse_node.name)
			
 
				-        builder.add_edge(parse_node.name, chunk_node.name)
			
 
				+        
			
 
				+        # 条件设置总结节点边
			
 
				+        if is_preced == 1:
			
 
				+            builder.add_edge(parse_node.name, summary_node.name)
			
 
				+            builder.add_edge(summary_node.name, chunk_node.name)
			
 
				+        else:
			
 
				+            builder.add_edge(parse_node.name, chunk_node.name)
			
 
				+        
			
 
				         builder.add_edge(chunk_node.name, vectorize_node.name)
			
 
				         builder.add_edge(vectorize_node.name, result_node.name)
			
 
				         builder.set_finish(result_node.name)
			
--- a/src/datasets/parser/workflow_nodes/dimension_page_split_node.py
+++ b/src/datasets/parser/workflow_nodes/dimension_page_split_node.py
@@ -12,7 +12,8 @@ from src.datasets.parser.nodes import (
 
				     TableNameGenerationNode, 
			
 
				     DimensionResultNode,
			
 
				     RAGFlowDocumentUploadNode,
			
 
				-    RAGFlowChunkNode
			
 
				+    RAGFlowChunkNode,
			
 
				+    SummaryNode
			
 
				 )
			
 
				 from src.datasets.parser.states.parser_states import DynamicDimensionState
			
 
				 from src.common.logging_config import get_logger
			
@@ -60,34 +61,40 @@ class DimensionPageSplitNode(BaseNode):
 
				     def _build_sub_workflow(self, state):
			
 
				         """
			
 
				         构建子工作流
			
 
				-        
			
 
				+
			
 
				         Args:
			
 
				             state: 状态
			
 
				-            
			
 
				+
			
 
				         Returns:
			
 
				             编译后的 LangGraph 工作流
			
 
				         """
			
 
				         logger.info(f"[维度分页拆分-{self.dimension_id}] 开始构建子工作流")
			
 
				         rag_flow_api_key = getattr(state, 'rag_flow_api_key', '')
			
 
				-
			
 
				+        decomposition_methods = getattr(state, 'decomposition_methods', None)
			
 
				+        is_preced = decomposition_methods[self.dimension_id]["is_preced"] or 0
			
 
				 
			
 
				         # 创建工作流构建器
			
 
				         builder = WorkflowBuilder(DynamicDimensionState)
			
 
				-        
			
 
				+
			
 
				         # 创建节点
			
 
				-        prompt_node = PromptRetrievalNode(self.dimension_id)
			
 
				+        prompt_node = PromptRetrievalNode(dimension_id=self.dimension_id)
			
 
				         document_upload_node = RAGFlowDocumentUploadNode(api_key=rag_flow_api_key)
			
 
				         table_name_node = TableNameGenerationNode(self.dimension_id)
			
 
				         parse_node = ImageParseNode(
			
 
				+            dimension_id=self.dimension_id,
			
 
				             model_name=self.model_name,
			
 
				-            max_workers=self.max_workers
			
 
				+            max_workers=self.max_workers,
			
 
				         )
			
 
				         chunk_node = RAGFlowChunkNode(api_key=rag_flow_api_key)
			
 
				         vectorize_node = VectorizeNode()
			
 
				         result_node = DimensionResultNode(self.dimension_id)
			
 
				         
			
 
				+        # 条件创建总结节点
			
 
				+        if is_preced == 1:
			
 
				+            summary_node = SummaryNode(dimension_id=self.dimension_id)
			
 
				+
			
 
				         # 添加节点
			
 
				-        builder.add_nodes(
			
 
				+        nodes = [
			
 
				             prompt_node,
			
 
				             document_upload_node,
			
 
				             table_name_node,
			
@@ -95,14 +102,27 @@ class DimensionPageSplitNode(BaseNode):
 
				             chunk_node,
			
 
				             vectorize_node,
			
 
				             result_node
			
 
				-        )
			
 
				+        ]
			
 
				+        
			
 
				+        # 条件添加总结节点
			
 
				+        if is_preced == 1:
			
 
				+            nodes.insert(nodes.index(parse_node) + 1, summary_node)
			
 
				         
			
 
				+        builder.add_nodes(*nodes)
			
 
				+
			
 
				         # 设置边
			
 
				         builder.set_entry(prompt_node.name)
			
 
				         builder.add_edge(prompt_node.name, document_upload_node.name)
			
 
				         builder.add_edge(document_upload_node.name, table_name_node.name)
			
 
				         builder.add_edge(table_name_node.name, parse_node.name)
			
 
				-        builder.add_edge(parse_node.name, chunk_node.name)
			
 
				+        
			
 
				+        # 条件设置总结节点边
			
 
				+        if is_preced == 1:
			
 
				+            builder.add_edge(parse_node.name, summary_node.name)
			
 
				+            builder.add_edge(summary_node.name, chunk_node.name)
			
 
				+        else:
			
 
				+            builder.add_edge(parse_node.name, chunk_node.name)
			
 
				+        
			
 
				         builder.add_edge(chunk_node.name, vectorize_node.name)
			
 
				         builder.add_edge(vectorize_node.name, result_node.name)
			
 
				         builder.set_finish(result_node.name)
			
--- a/src/datasets/parser/workflows/dynamic_dimension_workflow.py
+++ b/src/datasets/parser/workflows/dynamic_dimension_workflow.py
@@ -18,7 +18,8 @@ from src.datasets.parser.nodes import (
 
				     PDFSplitNode,
			
 
				     CompleteNode
			
 
				 )
			
 
				-from src.datasets.parser.workflow_nodes import DimensionPageSplitNode
			
 
				+from src.datasets.parser.workflow_nodes import DimensionPageSplitNode, DimensionBookSplitNode
			
 
				+from src.api.db.services.prompt_service import get_prompt_service
			
 
				 from src.utils.ragflow.ragflow_user_service import get_ragflow_user_service
			
 
				 from src.common.logging_config import get_logger
			
 
				 
			
@@ -55,6 +56,8 @@ class DynamicDimensionWorkflow:
 
				         self.model_name = model_name
			
 
				         self.max_workers = max_workers
			
 
				         self.langfuse_handler = CallbackHandler()
			
 
				+        # 懒加载维度分解方法（初始化时加载一次）
			
 
				+        self._decomposition_methods = get_prompt_service().get_decomposition_method()
			
 
				     
			
 
				     def _build_workflow_for_dimensions(self, dimension_ids: List[int]):
			
 
				         """
			
@@ -72,7 +75,8 @@ class DynamicDimensionWorkflow:
 
				         split_node = PDFSplitNode()
			
 
				         complete_node = CompleteNode(message_template="动态多维度解析完成")
			
 
				         
			
 
				-        # 查询维度知识库对应的decomposition method
			
 
				+        # 使用预加载的维度分解方法
			
 
				+        decomposition_methods = self._decomposition_methods
			
 
				 
			
 
				         # 使用 WorkflowBuilder 构建
			
 
				         builder = WorkflowBuilder(DynamicDimensionState)
			
@@ -90,13 +94,20 @@ class DynamicDimensionWorkflow:
 
				         prev_node = "pdf_split"
			
 
				         
			
 
				         for dim_id in dimension_ids:
			
 
				-            
			
 
				+            decomposition_method = decomposition_methods[str(dim_id)]["decomposition_method"]
			
 
				             # 为每个维度创建分页拆分节点
			
 
				-            skill_node = DimensionPageSplitNode(
			
 
				-                dimension_id=dim_id,
			
 
				-                model_name=self.model_name,
			
 
				-                max_workers=self.max_workers
			
 
				-            )
			
 
				+            if decomposition_method == 0:
			
 
				+                skill_node = DimensionBookSplitNode(
			
 
				+                    dimension_id=dim_id,
			
 
				+                    model_name=self.model_name,
			
 
				+                    max_workers=self.max_workers
			
 
				+                )
			
 
				+            elif decomposition_method == 1:
			
 
				+                skill_node = DimensionPageSplitNode(
			
 
				+                    dimension_id=dim_id,
			
 
				+                    model_name=self.model_name,
			
 
				+                    max_workers=self.max_workers
			
 
				+                )
			
 
				             builder.add_node(skill_node)
			
 
				             builder.add_edge(prev_node, skill_node.name)
			
 
				             prev_node = skill_node.name
			
@@ -161,6 +172,7 @@ class DynamicDimensionWorkflow:
 
				             dimension_ids=dimension_ids,
			
 
				             ragflow_id=ragflow_id,
			
 
				             rag_flow_api_key=ragflow_api_key,
			
 
				+            decomposition_methods=self._decomposition_methods,
			
 
				             # dataset_name=dataset_name or pdf_path.split("/")[-1].split("\\")[-1].replace(".pdf", ""),
			
 
				             # ragflow_api_url=ragflow_api_url,
			
 
				             # rag_flow_api_key=rag_flow_api_key,
			
--- a/src/utils/vector_db/elasticsearch_adapter.py
+++ b/src/utils/vector_db/elasticsearch_adapter.py
@@ -282,7 +282,7 @@ class ElasticsearchAdapter(VectorDBClient):
 
				         topn = query.get("topn", 10)
			
 
				         
			
 
				         # match 的 query 不能为 None，否则 ES 报 VALUE_NULL。无文案时仅用向量（match_all）
			
 
				-        if matching_text:
			
 
				+        if matching_text and match_field == "content":
			
 
				             # 处理中文文本
			
 
				             text_clause = self._build_chinese_query(match_field, matching_text)
			
 
				         else: