před 3 měsíci · a192ae40cc
--- a/doc/init.sql
+++ b/doc/init.sql
@@ -45,4 +45,16 @@ CREATE TABLE IF NOT EXISTS api_keys (
 
				 ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
			
 
				 
			
 
				 -- 插入一个示例 API 密钥（仅供测试使用）
			
 
				-INSERT IGNORE INTO api_keys (api_key, is_active) VALUES ('sk-test1234567890', TRUE);
			
 
				+INSERT IGNORE INTO api_keys (api_key, is_active) VALUES ('sk-test1234567890', TRUE);
			
 
				+
			
 
				+CREATE TABLE IF NOT EXISTS ragflow_user (
			
 
				+    id INT AUTO_INCREMENT PRIMARY KEY COMMENT "主键ID",
			
 
				+    user_id VARCHAR(64) NOT NULL UNIQUE COMMENT "RagFLow的用户id",
			
 
				+    api_key VARCHAR(255) NOT NULL UNIQUE COMMENT "RagFLow的API密钥",
			
 
				+    created_at DATETIME DEFAULT CURRENT_TIMESTAMP COMMENT "创建时间",
			
 
				+    expired_at DATETIME NULL COMMENT "过期时间",
			
 
				+    is_active BOOLEAN DEFAULT TRUE COMMENT "是否有效",
			
 
				+    INDEX idx_api_key (api_key),
			
 
				+    INDEX idx_is_active (is_active)
			
 
				+) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
			
 
				+
			
--- a/main.py
+++ b/main.py
@@ -52,15 +52,15 @@ async def main_lifespan(app: FastAPI):
 
				     logger.info("✅ 提示词维度向量数据库表/索引已初始化")
			
 
				 
			
 
				     # 5. 启动Chunk更新定时任务
			
 
				-    from src.job.chunk_update_job import start_scheduler, shutdown_scheduler
			
 
				-    start_scheduler()
			
 
				-    logger.info("✅ Chunk update scheduler started")
			
 
				+    # from src.job.chunk_update_job import start_scheduler, shutdown_scheduler
			
 
				+    # start_scheduler()
			
 
				+    # logger.info("✅ Chunk update scheduler started")
			
 
				     
			
 
				     yield
			
 
				 
			
 
				     # 1. 关闭Chunk更新定时任务
			
 
				-    shutdown_scheduler()
			
 
				-    logger.info("✅ Chunk update scheduler shutdown")
			
 
				+    # shutdown_scheduler()
			
 
				+    # logger.info("✅ Chunk update scheduler shutdown")
			
 
				 
			
 
				     # 2. 关闭全局线程池
			
 
				     from src.utils.async_utils import ThreadPoolManager
			
--- a/sql/prompt_schema.sql
+++ b/sql/prompt_schema.sql
@@ -2,11 +2,13 @@
 
				 CREATE TABLE `prompt_dimensions` (
			
 
				   `id` int NOT NULL AUTO_INCREMENT,
			
 
				   `name` varchar(255) NOT NULL COMMENT '维度名称，如：摘要生成、问答生成',
			
 
				+  `dataset_id` varchar(64) NOT NULL COMMENT '数据集id',
			
 
				   `description` text COMMENT '维度描述',
			
 
				   `created_at` datetime DEFAULT CURRENT_TIMESTAMP,
			
 
				   `updated_at` datetime DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
			
 
				   PRIMARY KEY (`id`),
			
 
				   UNIQUE KEY `idx_name` (`name`)
			
 
				+  UNIQUE KEY `idx_dataset_id` (`dataset_id`)
			
 
				 ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci COMMENT='提示词维度表';
			
 
				 
			
 
				 -- 提示词版本表
			
--- a/src/api/db/services/prompt_service.py
+++ b/src/api/db/services/prompt_service.py
@@ -8,7 +8,7 @@
 
				 from typing import List, Dict, Any, Optional
			
 
				 from src.utils.mysql import get_global_mysql_client
			
 
				 from src.utils.vector_db import get_vector_db_client
			
 
				-from src.conf.settings import vector_db_settings
			
 
				+from src.conf.settings import vector_db_settings, ragflow_settings
			
 
				 from src.common.logging_config import get_logger
			
 
				 
			
 
				 logger = get_logger(__name__)
			
@@ -20,12 +20,12 @@ INFINITY_TABLE_COLUMNS = [
 
				     {"name": "file_name", "type": "varchar", "default": ""},
			
 
				     {"name": "page_number", "type": "int", "default": 0},
			
 
				     {"name": "content", "type": "varchar", "default": ""},
			
 
				-    {"name": "doc_content", "type": "varchar", "default": ""},
			
 
				     {"name": "image_path", "type": "varchar", "default": ""},
			
 
				-    {"name": "dataset_id", "type": "varchar", "default": ""},
			
 
				     {"name": "document_id", "type": "varchar", "default": ""},
			
 
				+    {"name": "chunk_id", "type": "varchar", "default": ""},
			
 
				     {"name": "ability_tags", "type": "varchar", "default": ""},
			
 
				     {"name": "content_tag", "type": "varchar", "default": ""},
			
 
				+    {"name": "metadata", "type": "varchar", "default": ""},
			
 
				     {"name": "dense_vector_1024", "type": "vector,1024,float"},
			
 
				 ]
			
 
				 
			
@@ -35,13 +35,13 @@ ES_INDEX_MAPPINGS = {
 
				         "id": {"type": "keyword"},
			
 
				         "file_name": {"type": "keyword"},
			
 
				         "page_number": {"type": "integer"},
			
 
				-        "content": {"type": "text", "analyzer": "standard"},
			
 
				-        "doc_content": {"type": "text", "analyzer": "standard"},
			
 
				+        "content": {"type": "text", "analyzer": "ik_smart"},
			
 
				         "image_path": {"type": "keyword"},
			
 
				-        "dataset_id": {"type": "keyword"},
			
 
				         "document_id": {"type": "keyword"},
			
 
				+        "chunk_id": {"type": "keyword"},
			
 
				         "ability_tags": {"type": "keyword"},
			
 
				         "content_tag": {"type": "keyword"},
			
 
				+        "metadata": {"type": "object"},
			
 
				         "dense_vector_1024": {
			
 
				             "type": "dense_vector",
			
 
				             "dims": 1024,
			
@@ -50,6 +50,13 @@ ES_INDEX_MAPPINGS = {
 
				         }
			
 
				     }
			
 
				 }
			
 
				+# Elasticsearch 索引设置定义
			
 
				+ES_INDEX_SETTINGS = {
			
 
				+    "index": {
			
 
				+        "number_of_shards": 2,
			
 
				+        "number_of_replicas": 0
			
 
				+    }
			
 
				+}
			
 
				 
			
 
				 
			
 
				 class PromptService:
			
@@ -66,9 +73,9 @@ class PromptService:
 
				             self._vector_client = get_vector_db_client()
			
 
				         return self._vector_client
			
 
				     
			
 
				-    def _get_table_name(self, dimension_id: int) -> str:
			
 
				+    def _get_table_name(self, dimension: Dict) -> str:
			
 
				         """获取维度对应的表名/索引名"""
			
 
				-        return f"book_{dimension_id}"
			
 
				+        return f"{ragflow_settings.custom_dataset_prefix}_{dimension['id']}_{dimension['dataset_id']}"
			
 
				     
			
 
				     def init_vector_db_tables(self):
			
 
				         """
			
@@ -115,7 +122,7 @@ class PromptService:
 
				             client = self._get_vector_client()
			
 
				             
			
 
				             for dim in dimensions:
			
 
				-                index_name = self._get_table_name(dim['id'])
			
 
				+                index_name = self._get_table_name(dim)
			
 
				                 if not client.index_exists(index_name):
			
 
				                     self._create_es_index(index_name)
			
 
				                     logger.info(f"✅ 创建 ES 索引: {index_name} (维度: {dim['name']})")
			
@@ -135,27 +142,29 @@ class PromptService:
 
				     def _create_es_index(self, index_name: str):
			
 
				         """创建 Elasticsearch 索引"""
			
 
				         client = self._get_vector_client()
			
 
				-        client.create_index(
			
 
				+        res = client.create_index(
			
 
				             index_name=index_name,
			
 
				-            mappings=ES_INDEX_MAPPINGS
			
 
				+            mappings=ES_INDEX_MAPPINGS,
			
 
				+            settings=ES_INDEX_SETTINGS
			
 
				         )
			
 
				+        logger.info(f"✅ 创建 ES 索引: {index_name} (响应: {res})")
			
 
				     
			
 
				-    def _create_vector_db_table(self, dimension_id: int, dimension_name: str):
			
 
				+    def _create_vector_db_table(self, dimension: Dict):
			
 
				         """
			
 
				         为维度创建向量数据库表/索引
			
 
				         
			
 
				         根据配置自动选择 Infinity 或 Elasticsearch。
			
 
				         """
			
 
				         db_type = vector_db_settings.vector_db_type
			
 
				-        table_name = self._get_table_name(dimension_id)
			
 
				-        
			
 
				+        # table_name = self._get_table_name(dimension_id)
			
 
				+        table_name = self._get_table_name(dimension)
			
 
				         try:
			
 
				             if db_type == "infinity":
			
 
				                 self._create_infinity_table(table_name)
			
 
				-                logger.info(f"✅ 创建 Infinity 表: {table_name} (维度: {dimension_name})")
			
 
				+                logger.info(f"✅ 创建 Infinity 表: {table_name} (维度: {dimension['name']})")
			
 
				             elif db_type == "es":
			
 
				                 self._create_es_index(table_name)
			
 
				-                logger.info(f"✅ 创建 ES 索引: {table_name} (维度: {dimension_name})")
			
 
				+                logger.info(f"✅ 创建 ES 索引: {table_name} (维度: {dimension['name']})")
			
 
				         except Exception as e:
			
 
				             logger.error(f"创建向量数据库表/索引失败: {str(e)}")
			
 
				     
			
@@ -165,7 +174,7 @@ class PromptService:
 
				         """
			
 
				         添加维度
			
 
				         
			
 
				-        创建维度后会自动创建对应的向量数据库表/索引 (book_{dimension_id})。
			
 
				+        创建维度后会自动创建对应的向量数据库表/索引 (book_{dataset_id})。
			
 
				         
			
 
				         Args:
			
 
				             name: 维度名称
			
@@ -174,17 +183,36 @@ class PromptService:
 
				         Returns:
			
 
				             新建的维度信息
			
 
				         """
			
 
				+        # 1. 先创建 RAGFlow 数据集
			
 
				+        from src.utils.ragflow.ragflow_service import RAGFlowService
			
 
				+        from src.conf.rag_parser_config import RagParserDefaults
			
 
				+        
			
 
				+        ragflow_service = RAGFlowService(api_key="ragflow-XelVBvv8Uc6dZLNb1aBIKdbsupucEjESotOPTZZBrG4")
			
 
				+        logger.info(f"开始创建 RAGFlow 数据集: {name}")
			
 
				+        
			
 
				+        dataset = ragflow_service.create_dataset(
			
 
				+            name=name,
			
 
				+            description=description or f"维度: {name}",
			
 
				+            permission=RagParserDefaults.DATASET_PERMISSION,
			
 
				+            chunk_method=RagParserDefaults.DATASET_CHUNK_METHOD,
			
 
				+            parser_config=RagParserDefaults.DATASET_CONFIG_DICT
			
 
				+        )
			
 
				+        
			
 
				+        dataset_id = dataset['id']
			
 
				+        logger.info(f"RAGFlow 数据集创建成功，ID: {dataset_id}")
			
 
				+        
			
 
				+        # 2. 将维度信息存入 MySQL，同时保存 dataset_id
			
 
				         sql = """
			
 
				-            INSERT INTO prompt_dimensions (name, description)
			
 
				-            VALUES (%s, %s)
			
 
				+            INSERT INTO prompt_dimensions (name, description, dataset_id)
			
 
				+            VALUES (%s, %s, %s)
			
 
				         """
			
 
				-        self._db.execute(sql, [name, description])
			
 
				+        self._db.execute(sql, [name, description, dataset_id])
			
 
				         
			
 
				-        # 获取新建的维度
			
 
				+        # 3. 获取新建的维度
			
 
				         dimension = self.get_dimension_by_name(name)
			
 
				-        
			
 
				-        # 创建对应的向量数据库表/索引
			
 
				-        self._create_vector_db_table(dimension['id'], name)
			
 
				+
			
 
				+        # 2. 创建对应的向量数据库表/索引（使用 dataset_id 作为维度ID）
			
 
				+        self._create_vector_db_table(dimension)
			
 
				         
			
 
				         return dimension
			
 
				     
			
@@ -203,6 +231,12 @@ class PromptService:
 
				         sql = "SELECT * FROM prompt_dimensions ORDER BY created_at DESC"
			
 
				         return self._db.fetch_all(sql)
			
 
				     
			
 
				+    def get_dataset_id_by_dimension_id(self, dimension_id: int) -> Optional[str]:
			
 
				+        """根据维度ID获取对应的RAGFlow数据集ID"""
			
 
				+        sql = "SELECT dataset_id FROM prompt_dimensions WHERE id = %s"
			
 
				+        result = self._db.fetch_one(sql, [dimension_id])
			
 
				+        return result['dataset_id'] if result else None
			
 
				+
			
 
				     def update_dimension(self, dimension_id: int, name: str = None, description: str = None) -> int:
			
 
				         """更新维度信息"""
			
 
				         updates = []
			
@@ -323,6 +357,25 @@ class PromptService:
 
				         result = self._db.fetch_one(sql, [dimension_name])
			
 
				         return result['content'] if result else None
			
 
				     
			
 
				+    def get_active_dimension_by_id(self, dimension_id: int) -> Optional[Dict[str, Any]]:
			
 
				+        """
			
 
				+        根据维度ID获取当前激活的提示词内容和数据集ID
			
 
				+        
			
 
				+        Args:
			
 
				+            dimension_id: 维度ID
			
 
				+            
			
 
				+        Returns:
			
 
				+            包含提示词内容和数据集ID的字典，若不存在则返回 None
			
 
				+        """
			
 
				+        sql = """
			
 
				+            SELECT pv.content, pd.dataset_id 
			
 
				+            FROM prompt_versions pv
			
 
				+            JOIN prompt_dimensions pd ON pv.dimension_id = pd.id
			
 
				+            WHERE pv.dimension_id = %s AND pv.is_active = 1
			
 
				+        """
			
 
				+        result = self._db.fetch_one(sql, [dimension_id])
			
 
				+        return result if result else None
			
 
				+    
			
 
				     def get_active_prompt_by_id(self, dimension_id: int) -> Optional[str]:
			
 
				         """
			
 
				         根据维度ID获取当前激活的提示词内容
			
@@ -339,7 +392,7 @@ class PromptService:
 
				         """
			
 
				         result = self._db.fetch_one(sql, [dimension_id])
			
 
				         return result['content'] if result else None
			
 
				-    
			
 
				+
			
 
				     def set_active_version(self, dimension_id: int, version_number: int) -> int:
			
 
				         """设置激活版本"""
			
 
				         # 先取消当前激活版本
			
@@ -372,4 +425,4 @@ def get_prompt_service() -> PromptService:
 
				     global _prompt_service
			
 
				     if _prompt_service is None:
			
 
				         _prompt_service = PromptService()
			
 
				-    return _prompt_service
			
 
				+    return _prompt_service
			
--- a/src/api/sdk/dataset_manage.py
+++ b/src/api/sdk/dataset_manage.py
@@ -8,6 +8,7 @@
 
				 - 数据集创建
			
 
				 """
			
 
				 
			
 
				+import io
			
 
				 import tempfile
			
 
				 import os
			
 
				 from fastapi import FastAPI, UploadFile, File, Form
			
@@ -122,11 +123,11 @@ async def pdf_parse_v2(
 
				         if not file.filename.endswith((".pdf", ".PDF")):
			
 
				             return Result.error(code=400, message="只支持 PDF 格式的文件")
			
 
				         
			
 
				-        # 保存文件到临时目录
			
 
				+        # 读取文件内容到内存
			
 
				         file_content = await file.read()
			
 
				-        with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
			
 
				-            tmp_file.write(file_content)
			
 
				-            pdf_path = tmp_file.name
			
 
				+        original_filename = file.filename
			
 
				+        pdf_content = io.BytesIO(file_content)
			
 
				+        pdf_content.seek(0)
			
 
				         
			
 
				         logger.info(f"开始PDF解析V2: {file.filename}")
			
 
				         
			
@@ -136,15 +137,15 @@ async def pdf_parse_v2(
 
				                 from src.datasets.parser.workflows import PDFParsingWorkflowV2
			
 
				                 workflow = PDFParsingWorkflowV2()
			
 
				                 result = workflow.run(
			
 
				-                    pdf_path=pdf_path,
			
 
				+                    pdf_content=pdf_content,
			
 
				+                    original_filename=original_filename,
			
 
				                     page_dataset_id=page_dataset_id,
			
 
				                     dataset_name=dataset_name
			
 
				                 )
			
 
				                 return result
			
 
				             finally:
			
 
				-                # 清理临时文件
			
 
				-                if os.path.exists(pdf_path):
			
 
				-                    os.unlink(pdf_path)
			
 
				+                # 清理内存
			
 
				+                pdf_content.close()
			
 
				         
			
 
				         # 提交到任务队列
			
 
				         task_queue = get_task_queue()
			
@@ -192,11 +193,13 @@ async def qa_parse_v2(
 
				         if not file.filename.endswith((".pdf", ".PDF")):
			
 
				             return Result.error(code=400, message="只支持 PDF 格式的文件")
			
 
				         
			
 
				-        # 保存文件到临时目录
			
 
				+        # 保存文件到临时目录，使用原始文件名
			
 
				         file_content = await file.read()
			
 
				-        with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
			
 
				+        original_filename = file.filename
			
 
				+        temp_dir = tempfile.gettempdir()
			
 
				+        pdf_path = os.path.join(temp_dir, original_filename)
			
 
				+        with open(pdf_path, 'wb') as tmp_file:
			
 
				             tmp_file.write(file_content)
			
 
				-            pdf_path = tmp_file.name
			
 
				         
			
 
				         logger.info(f"开始QA解析V2: {file.filename}")
			
 
				         
			
@@ -259,11 +262,13 @@ async def image_parse_v2(
 
				         if not file.filename.endswith((".zip", ".ZIP")):
			
 
				             return Result.error(code=400, message="只支持 ZIP 格式的压缩包")
			
 
				         
			
 
				-        # 保存文件到临时目录
			
 
				+        # 保存文件到临时目录，使用原始文件名
			
 
				         file_content = await file.read()
			
 
				-        with tempfile.NamedTemporaryFile(delete=False, suffix=".zip") as tmp_file:
			
 
				+        original_filename = file.filename
			
 
				+        temp_dir = tempfile.gettempdir()
			
 
				+        zip_path = os.path.join(temp_dir, original_filename)
			
 
				+        with open(zip_path, 'wb') as tmp_file:
			
 
				             tmp_file.write(file_content)
			
 
				-            zip_path = tmp_file.name
			
 
				         
			
 
				         logger.info(f"开始图片解析V2: {file.filename}")
			
 
				         
			
@@ -341,11 +346,8 @@ async def clear_completed_tasks():
 
				 
			
 
				 @app.post("/v2/dynamic-parse")
			
 
				 async def dynamic_parse_v2(
			
 
				-    file: UploadFile = File(..., description="图片压缩包(ZIP)"),
			
 
				-    dimension_ids: str = Form(..., description="维度ID列表，逗号分隔，如: 1,2,3"),
			
 
				-    book_name: str = Form(..., description="书名"),
			
 
				-    dataset_id: str = Form(..., description="数据集ID"),
			
 
				-    document_id: str = Form(default="", description="文档ID")
			
 
				+    file: UploadFile = File(..., description="PDF文档"),
			
 
				+    dimension_ids: str = Form(..., description="维度ID列表，逗号分隔，如: 1,2,3")
			
 
				 ):
			
 
				     """
			
 
				     动态多维度解析接口 (V2工作流)
			
@@ -373,11 +375,13 @@ async def dynamic_parse_v2(
 
				         if not dim_ids:
			
 
				             return Result.error(code=400, message="维度ID列表不能为空")
			
 
				         
			
 
				-        # 保存文件到临时目录
			
 
				+        # 保存文件到临时目录，使用原始文件名
			
 
				         file_content = await file.read()
			
 
				-        with tempfile.NamedTemporaryFile(delete=False, suffix=".zip") as tmp_file:
			
 
				+        original_filename = file.filename
			
 
				+        temp_dir = tempfile.gettempdir()
			
 
				+        pdf_path = os.path.join(temp_dir, original_filename)
			
 
				+        with open(pdf_path, 'wb') as tmp_file:
			
 
				             tmp_file.write(file_content)
			
 
				-            zip_path = tmp_file.name
			
 
				         
			
 
				         logger.info(f"开始动态多维度解析: {file.filename}, 维度: {dim_ids}")
			
 
				         
			
@@ -385,30 +389,18 @@ async def dynamic_parse_v2(
 
				         def run_dynamic_workflow():
			
 
				             try:
			
 
				                 from src.datasets.parser.workflows.dynamic_dimension_workflow import DynamicDimensionWorkflow
			
 
				-                from src.utils.file.image_util import image_util
			
 
				-                
			
 
				-                # 解压图片并获取页面列表
			
 
				-                image_urls = image_util.process_image_zip(zip_path, book_name)
			
 
				-                image_pages = [
			
 
				-                    {"page_number": i + 1, "image_url": url}
			
 
				-                    for i, url in enumerate(image_urls)
			
 
				-                ]
			
 
				                 
			
 
				                 # 执行工作流
			
 
				                 workflow = DynamicDimensionWorkflow()
			
 
				                 result = workflow.run(
			
 
				-                    dimension_ids=dim_ids,
			
 
				-                    image_pages=image_pages,
			
 
				-                    split_pages=image_pages,
			
 
				-                    document_id=document_id or f"{book_name}_{dataset_id}",
			
 
				-                    dataset_id=dataset_id,
			
 
				-                    pdf_path=""
			
 
				+                    pdf_path=pdf_path,
			
 
				+                    dimension_ids=dim_ids
			
 
				                 )
			
 
				                 return result
			
 
				             finally:
			
 
				                 # 清理临时文件
			
 
				-                if os.path.exists(zip_path):
			
 
				-                    os.unlink(zip_path)
			
 
				+                if os.path.exists(pdf_path):
			
 
				+                    os.unlink(pdf_path)
			
 
				         
			
 
				         # 提交到任务队列
			
 
				         task_queue = get_task_queue()
			
--- a/src/conf/settings.py
+++ b/src/conf/settings.py
@@ -39,6 +39,8 @@ class RagflowSettings(BaseSettings):
 
				     """RAGFLOW配置类"""
			
 
				     ragflow_api_url: str = Field(default="http://192.168.16.134/", alias="RAGFLOW_API_URL")
			
 
				     ragflow_api_key: str = Field(default="", alias="RAGFLOW_API_KEY")
			
 
				+    ragflow_dataset_prefix: str = Field(default="ragflow_", alias="RAGFLOW_DATASET_PREFIX")
			
 
				+    custom_dataset_prefix: str = Field(default="ragbook_", alias="CUSTOM_DATASET_PREFIX")
			
 
				     dataset_id: str = Field(default="", alias="DATASET_ID")
			
 
				     ragflow_user_name: str = Field(default="", alias="RAGFLOW_USER_NAME")
			
 
				     ragflow_passwd: str = Field(default="", alias="RAGFLOW_PASSWD")
			
@@ -78,7 +80,7 @@ class VectorDBSettings(BaseSettings):
 
				     infinity_page_dataset_id: str = Field(default="", alias="INFINITY_PAGE_DATASET_ID")
			
 
				     infinity_page_table_name: str = Field(default="", alias="INFINITY_PAGE_TABLE_NAME")
			
 
				     infinity_ragflow_database: str = Field(default="default_db", alias="INFINITY_RAGFLOW_DATABASE")
			
 
				-    infinity_dataset_prefix: str = Field(default="ragbook_", alias="INFINITY_DATASET_PREFIX")
			
 
				+    infinity_dataset_prefix: str = Field(default="ragbook", alias="INFINITY_DATASET_PREFIX")
			
 
				     
			
 
				     model_config = SettingsConfigDict(
			
 
				         env_file=".env",
			
--- a/src/datasets/parser/nodes/__init__.py
+++ b/src/datasets/parser/nodes/__init__.py
@@ -18,6 +18,9 @@ from src.datasets.parser.nodes.qa_generate_node import QAGenerateNode
 
				 from src.datasets.parser.nodes.complete_node import CompleteNode
			
 
				 from src.datasets.parser.nodes.pdf_ocr_node import PDFOCRNode
			
 
				 from src.datasets.parser.nodes.export_csv_node import ExportCSVNode
			
 
				+from src.datasets.parser.nodes.prompt_retrieval_node import PromptRetrievalNode
			
 
				+from src.datasets.parser.nodes.table_name_generation_node import TableNameGenerationNode
			
 
				+from src.datasets.parser.nodes.dimension_result_node import DimensionResultNode
			
 
				 
			
 
				 __all__ = [
			
 
				     "PDFSplitNode",
			
@@ -32,4 +35,7 @@ __all__ = [
 
				     "CompleteNode",
			
 
				     "PDFOCRNode",
			
 
				     "ExportCSVNode",
			
 
				+    "PromptRetrievalNode",
			
 
				+    "TableNameGenerationNode",
			
 
				+    "DimensionResultNode",
			
 
				 ]
			
--- a/src/datasets/parser/nodes/dimension_result_node.py
+++ b/src/datasets/parser/nodes/dimension_result_node.py
@@ -0,0 +1,88 @@
 
				+"""
			
 
				+维度结果记录节点
			
 
				+"""
			
 
				+
			
 
				+from typing import Dict, Any
			
 
				+from src.datasets.parser.core.base import BaseNode
			
 
				+from src.common.logging_config import get_logger
			
 
				+
			
 
				+
			
 
				+logger = get_logger(__name__)
			
 
				+
			
 
				+
			
 
				+class DimensionResultNode(BaseNode):
			
 
				+    """
			
 
				+    维度结果记录节点
			
 
				+    
			
 
				+    记录维度处理结果到状态中。
			
 
				+    """
			
 
				+    
			
 
				+    def __init__(self, dimension_id: int):
			
 
				+        """
			
 
				+        初始化维度结果记录节点
			
 
				+        
			
 
				+        Args:
			
 
				+            dimension_id: 维度ID
			
 
				+        """
			
 
				+        self.dimension_id = dimension_id
			
 
				+    
			
 
				+    @property
			
 
				+    def name(self) -> str:
			
 
				+        """节点名称"""
			
 
				+        return f"dimension_result_dim_{self.dimension_id}"
			
 
				+    
			
 
				+    def execute(self, state: Any) -> Dict[str, Any]:
			
 
				+        """
			
 
				+        执行维度结果记录
			
 
				+        
			
 
				+        Args:
			
 
				+            state: 包含状态信息的对象
			
 
				+            
			
 
				+        Returns:
			
 
				+            包含更新后维度结果的字典
			
 
				+        """
			
 
				+        logger.info(f"[Result-{self.dimension_id}] 开始记录维度结果")
			
 
				+        
			
 
				+        # 获取现有维度结果
			
 
				+        dim_results = dict(getattr(state, 'dimension_results', {}) or {})
			
 
				+        
			
 
				+        # 获取处理过程中的信息
			
 
				+        prompt_error = getattr(state, 'prompt_error', None)
			
 
				+        table_error = getattr(state, 'table_error', None)
			
 
				+        parsed_results = getattr(state, 'parsed_results', [])
			
 
				+        vectorized_pages = getattr(state, 'vectorized_pages', 0)
			
 
				+        table_name = getattr(state, 'table_name', None)
			
 
				+        
			
 
				+        # 构建维度结果
			
 
				+        dimension_result = {
			
 
				+            "dimension_id": self.dimension_id,
			
 
				+            "success": not (prompt_error or table_error),
			
 
				+            "skipped": bool(prompt_error or table_error),
			
 
				+            "reason": prompt_error or table_error or None
			
 
				+        }
			
 
				+        
			
 
				+        # 如果成功，添加详细信息
			
 
				+        if not dimension_result["skipped"]:
			
 
				+            dimension_result.update({
			
 
				+                "table_name": table_name,
			
 
				+                "parsed_pages": len(parsed_results),
			
 
				+                "vectorized_pages": vectorized_pages
			
 
				+            })
			
 
				+        
			
 
				+        # 更新维度结果字典
			
 
				+        dim_results[self.dimension_id] = dimension_result
			
 
				+        
			
 
				+        # 计算总向量化页面数
			
 
				+        total_vectorized = sum(
			
 
				+            result.get('vectorized_pages', 0) 
			
 
				+            for result in dim_results.values() 
			
 
				+            if not result.get('skipped')
			
 
				+        )
			
 
				+        
			
 
				+        logger.info(f"[Result-{self.dimension_id}] 维度结果记录完成，成功: {dimension_result['success']}")
			
 
				+        
			
 
				+        return {
			
 
				+            "dimension_results": dim_results,
			
 
				+            "total_vectorized_pages": total_vectorized,
			
 
				+            "dimension_id": self.dimension_id
			
 
				+        }
			
--- a/src/datasets/parser/nodes/export_csv_node.py
+++ b/src/datasets/parser/nodes/export_csv_node.py
@@ -1,8 +1,10 @@
 
				 import tempfile
			
 
				 import csv
			
 
				+import os
			
 
				 from typing import Dict, Any
			
 
				 from src.datasets.parser.core.base import BaseNode
			
 
				 from src.common.logging_config import get_logger
			
 
				+from src.utils.file.file_utils import generate_unique_filename
			
 
				 
			
 
				 logger = get_logger(__name__)
			
 
				 
			
@@ -26,18 +28,24 @@ class ExportCSVNode(BaseNode):
 
				         
			
 
				         logger.info(f"开始导出 {len(qa_pairs)} 个QA对到CSV")
			
 
				         
			
 
				+        # 从状态中获取原始文件名
			
 
				+        pdf_path = getattr(state, 'pdf_path', '')
			
 
				+        if pdf_path:
			
 
				+            # 提取文件名（不含扩展名）
			
 
				+            original_filename = os.path.splitext(os.path.basename(pdf_path))[0]
			
 
				+            csv_filename = f"{original_filename}.csv"
			
 
				+        else:
			
 
				+            csv_filename = f"{generate_unique_filename()}.csv"
			
 
				+        
			
 
				         # 创建临时CSV文件
			
 
				-        with tempfile.NamedTemporaryFile(
			
 
				-            mode='w',
			
 
				-            suffix='.csv',
			
 
				-            delete=False,
			
 
				-            encoding='utf-8',
			
 
				-            newline=''
			
 
				-        ) as f:
			
 
				-            writer = csv.DictWriter(f, fieldnames=['question', 'answer'])
			
 
				-            writer.writeheader()
			
 
				-            writer.writerows(qa_pairs)
			
 
				-            csv_path = f.name
			
 
				+        temp_dir = tempfile.gettempdir()
			
 
				+        csv_path = os.path.join(temp_dir, csv_filename)
			
 
				+        
			
 
				+        with open(csv_path, 'w', encoding='utf-8', newline='') as f:
			
 
				+            writer = csv.writer(f)
			
 
				+            # 不写入表头，直接写入数据
			
 
				+            for qa in qa_pairs:
			
 
				+                writer.writerow([qa.get('question', ''), qa.get('answer', '')])
			
 
				         
			
 
				         logger.info(f"CSV导出完成: {csv_path}")
			
 
				         return {"csv_path": csv_path}
			
--- a/src/datasets/parser/nodes/image_parse_node.py
+++ b/src/datasets/parser/nodes/image_parse_node.py
@@ -12,6 +12,7 @@ from src.model.qwen_vl import QWenVLParser
 
				 from src.conf.settings import model_settings
			
 
				 from src.common.logging_config import get_logger
			
 
				 from src.utils.async_utils import ThreadPoolManager
			
 
				+from src.utils.markdown_utils import parse_markdown_json
			
 
				 
			
 
				 logger = get_logger(__name__)
			
 
				 
			
@@ -34,8 +35,7 @@ class ImageParseNode(BaseNode):
 
				     def __init__(
			
 
				         self,
			
 
				         model_name: Optional[str] = None,
			
 
				-        max_workers: int = 5,
			
 
				-        prompt_template: Optional[str] = None
			
 
				+        max_workers: int = 5
			
 
				     ):
			
 
				         """
			
 
				         初始化图像解析节点
			
@@ -47,7 +47,6 @@ class ImageParseNode(BaseNode):
 
				         """
			
 
				         self.model_name = model_name or model_settings.vl_model_name
			
 
				         self.max_workers = max_workers  # 保留兼容性但不再使用
			
 
				-        self.prompt_template = prompt_template or self._default_prompt_template()
			
 
				     
			
 
				     @property
			
 
				     def name(self) -> str:
			
@@ -68,7 +67,7 @@ class ImageParseNode(BaseNode):
 
				             }}
			
 
				         """
			
 
				     
			
 
				-    def _parse_single_page(self, page: Dict[str, Any]) -> Dict[str, Any]:
			
 
				+    def _parse_single_page(self, page: Dict[str, Any], prompt_template: str) -> Dict[str, Any]:
			
 
				         """
			
 
				         解析单个页面
			
 
				         
			
@@ -81,13 +80,22 @@ class ImageParseNode(BaseNode):
 
				         page_number = page.get("page_number", 0)
			
 
				         image = page.get("image")
			
 
				         
			
 
				-        prompt = self.prompt_template.format(page_number=page_number)
			
 
				+        prompt = prompt_template.format(page_number=page_number)
			
 
				         
			
 
				         logger.debug(f"开始解析第 {page_number} 页")
			
 
				         
			
 
				         try:
			
 
				             parser = QWenVLParser(self.model_name)
			
 
				             result = parser.parse_image(image, page_number, prompt)
			
 
				+            
			
 
				+            # 处理markdown格式的JSON标签
			
 
				+            # parsed_content = parse_markdown_json(result)
			
 
				+            # if parsed_content:
			
 
				+            #     result = parsed_content
			
 
				+            # else:
			
 
				+            #     # 如果解析失败，保留原始内容
			
 
				+            #     logger.warning(f"解析JSON内容失败，保留原始内容")
			
 
				+            
			
 
				             logger.debug(f"第 {page_number} 页解析完成")
			
 
				             return result
			
 
				         except Exception as e:
			
@@ -110,7 +118,7 @@ class ImageParseNode(BaseNode):
 
				         """
			
 
				         # 支持多种状态字段名称
			
 
				         pages = getattr(state, 'split_pages', None) or getattr(state, 'image_pages', [])
			
 
				-        
			
 
				+        prompt_template = state.dimension_prompt or self._default_prompt_template()
			
 
				         if not pages:
			
 
				             logger.warning("没有待解析的页面")
			
 
				             return {"parsed_results": [], "processed_pages": 0}
			
@@ -122,7 +130,7 @@ class ImageParseNode(BaseNode):
 
				         # 使用全局线程池
			
 
				         pool = ThreadPoolManager.get_pool("parser")
			
 
				         future_to_page = {
			
 
				-            pool.submit(self._parse_single_page, page): page
			
 
				+            pool.submit(self._parse_single_page, page, prompt_template): page
			
 
				             for page in pages
			
 
				         }
			
 
				         
			
--- a/src/datasets/parser/nodes/pdf_ocr_node.py
+++ b/src/datasets/parser/nodes/pdf_ocr_node.py
@@ -68,7 +68,7 @@ class PDFOCRNode(BaseNode):
 
				         
			
 
				         # 拆分PDF为图片
			
 
				         splitter = PDFSplitter()
			
 
				-        pages = splitter.split_pdf(pdf_path=pdf_path, is_upload=False)
			
 
				+        pages = splitter.split_pdf(pdf_path=pdf_path, dataset_id=state.dataset_id, is_upload=False)
			
 
				         
			
 
				         if not pages:
			
 
				             logger.warning("PDF拆分后没有页面")
			
--- a/src/datasets/parser/nodes/pdf_split_node.py
+++ b/src/datasets/parser/nodes/pdf_split_node.py
@@ -36,7 +36,7 @@ class PDFSplitNode(BaseNode):
 
				         执行PDF拆分
			
 
				         
			
 
				         Args:
			
 
				-            state: 包含pdf_path的状态
			
 
				+            state: 包含pdf_path或pdf_content的状态
			
 
				             
			
 
				         Returns:
			
 
				             包含split_pages的更新字典
			
@@ -44,14 +44,24 @@ class PDFSplitNode(BaseNode):
 
				         from src.datasets.parser.pdf_parser.pdf_splitter import PDFSplitter
			
 
				         
			
 
				         pdf_path = getattr(state, 'pdf_path', None)
			
 
				-        if not pdf_path:
			
 
				-            raise ValueError("State must contain 'pdf_path' field")
			
 
				+        pdf_content = getattr(state, 'pdf_content', None)
			
 
				+        original_filename = getattr(state, 'original_filename', None)
			
 
				         
			
 
				-        logger.info(f"开始拆分PDF: {pdf_path}")
			
 
				+        if not pdf_path and not pdf_content:
			
 
				+            raise ValueError("State must contain either 'pdf_path' or 'pdf_content' field")
			
 
				+        
			
 
				+        if pdf_content:
			
 
				+            logger.info(f"开始拆分PDF: {original_filename or '内存中的PDF'}")
			
 
				+        else:
			
 
				+            logger.info(f"开始拆分PDF: {pdf_path}")
			
 
				         
			
 
				         # 拆分PDF
			
 
				         splitter = PDFSplitter()
			
 
				-        split_pages = splitter.split_pdf(pdf_path)
			
 
				+        split_pages = splitter.split_pdf(
			
 
				+            pdf_path=pdf_path,
			
 
				+            pdf_content=pdf_content,
			
 
				+            original_filename=original_filename
			
 
				+        )
			
 
				         
			
 
				         logger.info(f"PDF拆分完成，共 {len(split_pages)} 页")
			
 
				         
			
--- a/src/datasets/parser/nodes/prompt_retrieval_node.py
+++ b/src/datasets/parser/nodes/prompt_retrieval_node.py
@@ -0,0 +1,73 @@
 
				+"""
			
 
				+提示词获取节点
			
 
				+"""
			
 
				+
			
 
				+from typing import Dict, Any, Optional
			
 
				+from unittest import result
			
 
				+from src.datasets.parser.core.base import BaseNode
			
 
				+from src.api.db.services.prompt_service import get_prompt_service
			
 
				+from src.common.logging_config import get_logger
			
 
				+
			
 
				+
			
 
				+logger = get_logger(__name__)
			
 
				+
			
 
				+
			
 
				+class PromptRetrievalNode(BaseNode):
			
 
				+    """
			
 
				+    提示词获取节点
			
 
				+    
			
 
				+    从数据库获取指定维度的激活提示词。
			
 
				+    """
			
 
				+    
			
 
				+    def __init__(self, dimension_id: int):
			
 
				+        """
			
 
				+        初始化提示词获取节点
			
 
				+        
			
 
				+        Args:
			
 
				+            dimension_id: 维度ID
			
 
				+        """
			
 
				+        self.dimension_id = dimension_id
			
 
				+        self._prompt_service = None
			
 
				+    
			
 
				+    @property
			
 
				+    def name(self) -> str:
			
 
				+        """节点名称"""
			
 
				+        return f"prompt_retrieval_dim_{self.dimension_id}"
			
 
				+    
			
 
				+    @property
			
 
				+    def prompt_service(self):
			
 
				+        """懒加载提示词服务"""
			
 
				+        if self._prompt_service is None:
			
 
				+            self._prompt_service = get_prompt_service()
			
 
				+        return self._prompt_service
			
 
				+    
			
 
				+    def execute(self, state: Any) -> Dict[str, Any]:
			
 
				+        """
			
 
				+        执行提示词获取
			
 
				+        
			
 
				+        Args:
			
 
				+            state: 包含状态信息的对象
			
 
				+            
			
 
				+        Returns:
			
 
				+            包含提示词信息的字典
			
 
				+        """
			
 
				+        logger.info(f"[Prompt-{self.dimension_id}] 开始获取提示词")
			
 
				+        
			
 
				+        # 获取提示词
			
 
				+        result = self.prompt_service.get_active_dimension_by_id(self.dimension_id)
			
 
				+        
			
 
				+        if not result.get('content'):
			
 
				+            logger.warning(f"[Prompt-{self.dimension_id}] 没有激活的提示词")
			
 
				+            return {
			
 
				+                "dimension_prompt": None,
			
 
				+                "prompt_error": "no_active_prompt",
			
 
				+                "dimension_id": self.dimension_id
			
 
				+            }
			
 
				+        
			
 
				+        logger.info(f"[Prompt-{self.dimension_id}] 提示词获取成功")
			
 
				+        
			
 
				+        return {
			
 
				+            "dimension_prompt": result.get('content'),
			
 
				+            "dataset_id": result.get('dataset_id'),
			
 
				+            "dimension_id": self.dimension_id
			
 
				+        }
			
--- a/src/datasets/parser/nodes/qa_generate_node.py
+++ b/src/datasets/parser/nodes/qa_generate_node.py
@@ -75,7 +75,7 @@ class QAGenerateNode(BaseNode):
 
				             2. 答案应该准确、完整，直接来源于文本
			
 
				             3. 问题应该自然，像真实用户会问的问题
			
 
				             4. 避免过于简单或过于复杂的问题
			
 
				-            5. 如果json不完整，则去除不完整的元素，只返回完整的json数组
			
 
				+            5. 校验必须以完整的JSON数组格式输出
			
 
				 
			
 
				             文本内容：
			
 
				             {chunk}
			
--- a/src/datasets/parser/nodes/ragflow_nodes.py
+++ b/src/datasets/parser/nodes/ragflow_nodes.py
@@ -116,14 +116,13 @@ class RAGFlowDocumentUploadNode(BaseNode):
 
				         - document_id: 文档ID
			
 
				     """
			
 
				     
			
 
				-    def __init__(self, target_field: str = "document_id"):
			
 
				+    def __init__(self):
			
 
				         """
			
 
				         初始化文档上传节点
			
 
				         
			
 
				         Args:
			
 
				             target_field: 存储文档ID的目标字段名
			
 
				         """
			
 
				-        self.target_field = target_field
			
 
				         self.ragflow_service = RAGFlowService()
			
 
				     
			
 
				     @property
			
@@ -141,12 +140,13 @@ class RAGFlowDocumentUploadNode(BaseNode):
 
				             包含document_id的更新字典
			
 
				         """
			
 
				         dataset_id = getattr(state, 'dataset_id', '')
			
 
				-        file_path = getattr(state, 'pdf_path', '') or getattr(state, 'csv_path', '')
			
 
				+        # file_path = getattr(state, 'pdf_path', '') or getattr(state, 'csv_path', '')
			
 
				+        file_path = getattr(state, 'csv_path', '') or getattr(state, 'pdf_path', '')
			
 
				         
			
 
				         if not dataset_id:
			
 
				             raise ValueError("State must contain 'dataset_id' field")
			
 
				         if not file_path:
			
 
				-            raise ValueError("State must contain 'pdf_path' or 'csv_path' field")
			
 
				+            raise ValueError("State must contain 'upload_file' or 'pdf_path' field")
			
 
				         
			
 
				         logger.info(f"开始上传文档到数据集 {dataset_id}: {file_path}")
			
 
				         
			
@@ -158,7 +158,7 @@ class RAGFlowDocumentUploadNode(BaseNode):
 
				         if document_info_list and len(document_info_list) > 0:
			
 
				             document_id = document_info_list[0]["id"]
			
 
				             logger.info(f"文档上传成功，ID: {document_id}")
			
 
				-            return {self.target_field: document_id}
			
 
				+            return {"document_id": document_id}
			
 
				         
			
 
				         raise Exception("文档上传失败: 未返回有效的文档信息")
			
 
				 
			
@@ -246,8 +246,8 @@ class RAGFlowChunkNode(BaseNode):
 
				         from src.conf.settings import vector_db_settings
			
 
				         import os
			
 
				         
			
 
				-        page_dataset_id = getattr(state, 'page_dataset_id', '')
			
 
				-        page_document_id = getattr(state, 'page_document_id', '')
			
 
				+        page_dataset_id = getattr(state, 'dataset_id', '')
			
 
				+        page_document_id = getattr(state, 'document_id', '')
			
 
				         parsed_results = getattr(state, 'parsed_results', [])
			
 
				         split_pages = getattr(state, 'split_pages', [])
			
 
				         
			
@@ -258,7 +258,7 @@ class RAGFlowChunkNode(BaseNode):
 
				             text = parsed_result.get("content", "")
			
 
				             image_path = split_pages[i].get("image_path", "") if i < len(split_pages) else ""
			
 
				             
			
 
				-            img_id = f"{vector_db_settings.infinity_page_dataset_id}-{os.path.basename(image_path).split('.')[0]}.png" if image_path else ""
			
 
				+            # img_id = f"{page_dataset_id}-{os.path.basename(image_path).split('.')[0]}.png" if image_path else ""
			
 
				             
			
 
				             chunk = self.ragflow_service.create_chunk(
			
 
				                 dataset_id=page_dataset_id,
			
@@ -266,17 +266,18 @@ class RAGFlowChunkNode(BaseNode):
 
				                 content=text
			
 
				             )
			
 
				             chunk_id = chunk["chunk"]["id"]
			
 
				+            parsed_result["chunk_id"] = chunk_id
			
 
				             logger.debug(f"创建第 {page_number} 页Chunk，ID: {chunk_id}")
			
 
				             
			
 
				-            # 记录到定时任务表
			
 
				-            if img_id:
			
 
				-                get_chunk_record_service().record_chunk_add(
			
 
				-                    database_name=vector_db_settings.infinity_ragflow_database,
			
 
				-                    table_name=vector_db_settings.infinity_page_table_name,
			
 
				-                    chunk_id=chunk_id,
			
 
				-                    cond=f"id = '{chunk_id}'",
			
 
				-                    data={"img_id": img_id}
			
 
				-                )
			
 
				+            # # 记录到定时任务表
			
 
				+            # if img_id:
			
 
				+            #     get_chunk_record_service().record_chunk_add(
			
 
				+            #         database_name=vector_db_settings.infinity_ragflow_database,
			
 
				+            #         table_name=vector_db_settings.infinity_page_table_name,
			
 
				+            #         chunk_id=chunk_id,
			
 
				+            #         cond=f"id = '{chunk_id}'",
			
 
				+            #         data={"img_id": img_id}
			
 
				+            #     )
			
 
				         
			
 
				         logger.info(f"Chunks创建完成")
			
 
				         return {}
			
--- a/src/datasets/parser/nodes/table_name_generation_node.py
+++ b/src/datasets/parser/nodes/table_name_generation_node.py
@@ -0,0 +1,77 @@
 
				+"""
			
 
				+表名生成节点
			
 
				+"""
			
 
				+
			
 
				+from typing import Dict, Any
			
 
				+from src.datasets.parser.core.base import BaseNode
			
 
				+# from src.api.db.services.prompt_service import get_prompt_service
			
 
				+from src.common.logging_config import get_logger
			
 
				+from src.conf.settings import ragflow_settings
			
 
				+
			
 
				+
			
 
				+logger = get_logger(__name__)
			
 
				+
			
 
				+
			
 
				+class TableNameGenerationNode(BaseNode):
			
 
				+    """
			
 
				+    表名生成节点
			
 
				+    
			
 
				+    根据维度 ID 和数据集 ID 生成向量表名。
			
 
				+    """
			
 
				+    
			
 
				+    def __init__(self, dimension_id: int):
			
 
				+        """
			
 
				+        初始化表名生成节点
			
 
				+        
			
 
				+        Args:
			
 
				+            dimension_id: 维度ID
			
 
				+        """
			
 
				+        self.dimension_id = dimension_id
			
 
				+        # self._prompt_service = None
			
 
				+    
			
 
				+    @property
			
 
				+    def name(self) -> str:
			
 
				+        """节点名称"""
			
 
				+        return f"table_name_generation_dim_{self.dimension_id}"
			
 
				+    
			
 
				+    # @property
			
 
				+    # def prompt_service(self):
			
 
				+    #     """懒加载提示词服务"""
			
 
				+    #     if self._prompt_service is None:
			
 
				+    #         self._prompt_service = get_prompt_service()
			
 
				+    #     return self._prompt_service
			
 
				+    
			
 
				+    def execute(self, state: Any) -> Dict[str, Any]:
			
 
				+        """
			
 
				+        执行表名生成
			
 
				+        
			
 
				+        Args:
			
 
				+            state: 包含状态信息的对象
			
 
				+            
			
 
				+        Returns:
			
 
				+            包含表名信息的字典
			
 
				+        """
			
 
				+        logger.info(f"[Table-{self.dimension_id}] 开始生成表名")
			
 
				+        
			
 
				+        # 查询 dimension_id 对应的 dataset_id
			
 
				+        # dataset_id = self.prompt_service.get_dataset_id_by_dimension_id(self.dimension_id)
			
 
				+        
			
 
				+        if not state.dataset_id:
			
 
				+            logger.warning(f"[Table-{self.dimension_id}] 未找到维度对应的数据集ID")
			
 
				+            return {
			
 
				+                "table_name": None,
			
 
				+                "table_error": "no_dataset_id",
			
 
				+                "dimension_id": self.dimension_id
			
 
				+            }
			
 
				+        
			
 
				+        # 生成表名
			
 
				+        # table_name = f"{vector_db_settings.infinity_dataset_prefix}{self.dimension_id}_{state.dataset_id}"
			
 
				+        table_name = f"{ragflow_settings.custom_dataset_prefix}_{self.dimension_id}_{state.dataset_id}"
			
 
				+        
			
 
				+        logger.info(f"[Table-{self.dimension_id}] 表名生成成功: {table_name}")
			
 
				+        
			
 
				+        return {
			
 
				+            "table_name": table_name,
			
 
				+            # "dataset_id": dataset_id,
			
 
				+            "dimension_id": self.dimension_id
			
 
				+        }
			
--- a/src/datasets/parser/nodes/vectorize_node.py
+++ b/src/datasets/parser/nodes/vectorize_node.py
@@ -37,7 +37,6 @@ class VectorizeNode(BaseNode):
 
				     
			
 
				     def __init__(
			
 
				         self,
			
 
				-        table_name: Optional[str] = None,
			
 
				         database_name: Optional[str] = None,
			
 
				         embedding_model_name: Optional[str] = None
			
 
				     ):
			
@@ -49,7 +48,6 @@ class VectorizeNode(BaseNode):
 
				             database_name: Infinity数据库名
			
 
				             embedding_model_name: 嵌入模型名称
			
 
				         """
			
 
				-        self.table_name = table_name or vector_db_settings.infinity_table_name
			
 
				         self.database_name = database_name or vector_db_settings.infinity_database
			
 
				         self.embedding_model_name = embedding_model_name or model_settings.multimodal_embedding_model_name
			
 
				         self._embedding_model = None
			
@@ -104,6 +102,7 @@ class VectorizeNode(BaseNode):
 
				                 text = parsed_result.get("content", "")
			
 
				                 image = split_pages[i].get("image") if i < len(split_pages) else None
			
 
				                 image_path = split_pages[i].get("image_path", "") if i < len(split_pages) else ""
			
 
				+                chunk_id = parsed_result.get("chunk_id", "")
			
 
				                 
			
 
				                 # 获取多模态嵌入向量
			
 
				                 logger.debug(f"正在生成第 {page_number} 页的多模态嵌入...")
			
@@ -120,13 +119,16 @@ class VectorizeNode(BaseNode):
 
				                 document = {
			
 
				                     "id": f"{document_id}_{page_number}",
			
 
				                     "file_name": file_name,
			
 
				-                    "file_page_count": file_page_count,
			
 
				                     "page_number": page_number,
			
 
				                     "content": text,
			
 
				                     "image_path": image_path,
			
 
				                     "dense_vector_1024": dense_vector_1024,
			
 
				                     "dataset_id": dataset_id,
			
 
				-                    "document_id": document_id
			
 
				+                    "document_id": document_id,
			
 
				+                    "chunk_id": chunk_id,
			
 
				+                    "metadata": {
			
 
				+                        "file_page_count": file_page_count,
			
 
				+                    }
			
 
				                 }
			
 
				                 
			
 
				                 documents_to_store.append(document)
			
@@ -138,7 +140,7 @@ class VectorizeNode(BaseNode):
 
				         if documents_to_store:
			
 
				             logger.info(f"开始入库，共 {len(documents_to_store)} 个文档")
			
 
				             result = get_client().insert(
			
 
				-                table_name=self.table_name,
			
 
				+                table_name=state.table_name,
			
 
				                 documents=documents_to_store,
			
 
				                 database_name=self.database_name
			
 
				             )
			
--- a/src/datasets/parser/pdf_parser/pdf_splitter.py
+++ b/src/datasets/parser/pdf_parser/pdf_splitter.py
@@ -2,20 +2,84 @@ import fitz
 
				 from PIL import Image
			
 
				 import io
			
 
				 import os
			
 
				-from typing import List, Dict, Tuple
			
 
				-from src.conf.settings import vector_db_settings
			
 
				+import concurrent.futures
			
 
				+from typing import List, Dict
			
 
				 from utils.file.minio.minio_util import MinIOUtil
			
 
				+from src.utils.async_utils import ThreadPoolManager
			
 
				 
			
 
				 class PDFSplitter:
			
 
				     """PDF扫描件按页拆分工具"""
			
 
				     
			
 
				     @staticmethod
			
 
				-    def split_pdf(pdf_path: str, is_upload: bool = True) -> List[Dict[str, any]]:
			
 
				+    def _process_page(page_num: int, pdf_document: fitz.Document, pdf_filename: str, dataset_id: int, is_upload: bool) -> Dict[str, any]:
			
 
				+        """
			
 
				+        处理单个PDF页面
			
 
				+        
			
 
				+        Args:
			
 
				+            page_num: 页码索引
			
 
				+            pdf_document: PDF文档对象
			
 
				+            pdf_filename: PDF文件名（不含扩展名）
			
 
				+            dataset_id: 数据集ID
			
 
				+            is_upload: 是否上传到MinIO
			
 
				+            
			
 
				+        Returns:
			
 
				+            Dict: 包含页面信息的字典
			
 
				+        """
			
 
				+        # 获取页面
			
 
				+        page = pdf_document[page_num]
			
 
				+        # 页码从1开始
			
 
				+        page_number = page_num + 1
			
 
				+        
			
 
				+        # 将页面转换为图像
			
 
				+        # 使用较高分辨率，DPI=300
			
 
				+        pix = page.get_pixmap(dpi=300)
			
 
				+        
			
 
				+        # 将fitz pixmap转换为PIL图像
			
 
				+        image = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
			
 
				+        
			
 
				+        if is_upload:
			
 
				+            # 初始化MinioUtil
			
 
				+            minio_util = MinIOUtil()
			
 
				+            # 将图像转换为字节流，便于后续处理
			
 
				+            image_bytes = io.BytesIO()
			
 
				+            image.save(image_bytes, format='PNG')
			
 
				+            image_bytes.seek(0)
			
 
				+            
			
 
				+            # 生成图片文件名
			
 
				+            image_filename = f"{pdf_filename}_{page_number}.png"
			
 
				+            
			
 
				+            # 重置字节流指针
			
 
				+            image_bytes.seek(0)
			
 
				+            
			
 
				+            # 上传图片到MinIO，获取URL
			
 
				+            bucket_name = str(dataset_id) if dataset_id else "bookpage"
			
 
				+            image_url = minio_util.custom_upload_file(file=image_bytes, original_filename=image_filename, bucket_name=bucket_name)
			
 
				+        
			
 
				+            return {
			
 
				+                "page_number": page_number,
			
 
				+                "image": image,
			
 
				+                "image_bytes": image_bytes,
			
 
				+                "image_path": image_url
			
 
				+            }
			
 
				+        else:
			
 
				+            return {
			
 
				+                "page_number": page_number,
			
 
				+                "image": image,
			
 
				+                "image_bytes": None,
			
 
				+                "image_path": None
			
 
				+            }
			
 
				+
			
 
				+    @staticmethod
			
 
				+    def split_pdf(pdf_path: str, dataset_id: int = None, is_upload: bool = True, pdf_content: io.BytesIO = None, original_filename: str = None) -> List[Dict[str, any]]:
			
 
				         """
			
 
				         将PDF按页拆分，转换为图像并记录页码，同时保存图片到MinIO
			
 
				         
			
 
				         Args:
			
 
				             pdf_path: PDF文件路径
			
 
				+            dataset_id: 数据集ID
			
 
				+            is_upload: 是否上传到MinIO
			
 
				+            pdf_content: PDF文件内容（字节流），如果提供则优先使用
			
 
				+            original_filename: 原始文件名，如果提供则优先使用
			
 
				             
			
 
				         Returns:
			
 
				             List[Dict]: 包含每一页信息的列表，每个字典包含:
			
@@ -25,59 +89,47 @@ class PDFSplitter:
 
				                 - image_path: MinIO中保存的图片URL
			
 
				         """
			
 
				 
			
 
				-        
			
 
				+
			
 
				         pdf_document = None
			
 
				         try:            
			
 
				             # 打开PDF文件
			
 
				-            pdf_document = fitz.open(pdf_path)
			
 
				-            
			
 
				-            # 获取PDF文件名（不含扩展名）
			
 
				-            pdf_filename = os.path.splitext(os.path.basename(pdf_path))[0]
			
 
				+            if pdf_content:
			
 
				+                # 使用内存中的PDF内容
			
 
				+                pdf_document = fitz.open(stream=pdf_content, filetype="pdf")
			
 
				+                # 使用提供的原始文件名
			
 
				+                if original_filename:
			
 
				+                    pdf_filename = os.path.splitext(os.path.basename(original_filename))[0]
			
 
				+                else:
			
 
				+                    pdf_filename = "temp_pdf"
			
 
				+            else:
			
 
				+                # 使用文件路径
			
 
				+                pdf_document = fitz.open(pdf_path)
			
 
				+                # 获取PDF文件名（不含扩展名）
			
 
				+                pdf_filename = os.path.splitext(os.path.basename(pdf_path))[0]
			
 
				             
			
 
				+            # 使用全局线程池管理器进行并行处理
			
 
				             result = []
			
 
				-            for page_num in range(len(pdf_document)):
			
 
				-                # 获取页面
			
 
				-                page = pdf_document[page_num]
			
 
				-                # 页码从1开始
			
 
				-                page_number = page_num + 1
			
 
				-                
			
 
				-                # 将页面转换为图像
			
 
				-                # 使用较高分辨率，DPI=300
			
 
				-                pix = page.get_pixmap(dpi=300)
			
 
				-                
			
 
				-                # 将fitz pixmap转换为PIL图像
			
 
				-                image = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
			
 
				-                
			
 
				-                if is_upload:
			
 
				-                    # 初始化MinioUtil
			
 
				-                    minio_util = MinIOUtil()
			
 
				-                    # 将图像转换为字节流，便于后续处理
			
 
				-                    image_bytes = io.BytesIO()
			
 
				-                    image.save(image_bytes, format='PNG')
			
 
				-                    image_bytes.seek(0)
			
 
				-                    
			
 
				-                    # 生成图片文件名
			
 
				-                    image_filename = f"{pdf_filename}_{page_number}.png"
			
 
				-                    
			
 
				-                    # 重置字节流指针
			
 
				-                    image_bytes.seek(0)
			
 
				-                    
			
 
				-                    # 上传图片到MinIO，获取URL
			
 
				-                    image_url = minio_util.custom_upload_file(file=image_bytes, original_filename=image_filename, bucket_name=vector_db_settings.infinity_page_dataset_id)
			
 
				-                
			
 
				-                    result.append({
			
 
				-                        "page_number": page_number,
			
 
				-                        "image": image,
			
 
				-                        "image_bytes": image_bytes,
			
 
				-                        "image_path": image_url
			
 
				-                    })
			
 
				-                else:
			
 
				-                    result.append({
			
 
				-                        "page_number": page_number,
			
 
				-                        "image": image,
			
 
				-                        "image_bytes": None,
			
 
				-                        "image_path": None
			
 
				-                    })
			
 
				+            # 提交所有页面处理任务
			
 
				+            future_to_page = {
			
 
				+                ThreadPoolManager.submit(
			
 
				+                    "parser",
			
 
				+                    PDFSplitter._process_page,
			
 
				+                    page_num,
			
 
				+                    pdf_document,
			
 
				+                    pdf_filename,
			
 
				+                    dataset_id,
			
 
				+                    is_upload
			
 
				+                ): page_num
			
 
				+                for page_num in range(len(pdf_document))
			
 
				+            }
			
 
				+            
			
 
				+            # 收集处理结果
			
 
				+            for future in concurrent.futures.as_completed(future_to_page):
			
 
				+                try:
			
 
				+                    page_result = future.result()
			
 
				+                    result.append(page_result)
			
 
				+                except Exception as e:
			
 
				+                    raise Exception(f"处理页面失败: {str(e)}")
			
 
				             
			
 
				             # 将result根据page_number排序
			
 
				             result.sort(key=lambda x: x["page_number"])
			
@@ -85,6 +137,7 @@ class PDFSplitter:
 
				         except Exception as e:
			
 
				             raise Exception(f"PDF拆分失败: {str(e)}")
			
 
				         finally:
			
 
				+            ThreadPoolManager.shutdown_all()
			
 
				             # 确保PDF文件总是被关闭
			
 
				             if pdf_document is not None:
			
 
				                 try:
			
--- a/src/datasets/parser/states/parser_states.py
+++ b/src/datasets/parser/states/parser_states.py
@@ -4,6 +4,7 @@
 
				 定义各类解析工作流使用的状态类。
			
 
				 """
			
 
				 
			
 
				+import io
			
 
				 from typing import List, Dict, Any, Optional
			
 
				 from pydantic import Field, ConfigDict
			
 
				 from src.datasets.parser.core.base import BaseState
			
@@ -18,7 +19,9 @@ class PDFParsingState(BaseState):
 
				     model_config = ConfigDict(arbitrary_types_allowed=True)
			
 
				     
			
 
				     # 输入参数
			
 
				-    pdf_path: str = Field(..., description="PDF文件路径")
			
 
				+    pdf_path: str = Field(default="", description="PDF文件路径")
			
 
				+    pdf_content: Optional[io.BytesIO] = Field(default=None, description="PDF文件内容（字节流）")
			
 
				+    original_filename: str = Field(default="", description="原始文件名")
			
 
				     dataset_name: str = Field(..., description="数据集名称")
			
 
				     page_dataset_id: str = Field(..., description="页面数据集ID")
			
 
				     
			
@@ -104,3 +107,31 @@ class VectorizationMixin(BaseState):
 
				     """
			
 
				     vectorized_results: List[Dict[str, Any]] = Field(default_factory=list, description="向量化结果列表")
			
 
				     vectorized_count: int = Field(default=0, description="已向量化数量")
			
 
				+
			
 
				+
			
 
				+class DynamicDimensionState(BaseState):
			
 
				+    """
			
 
				+    动态维度解析状态
			
 
				+    
			
 
				+    用于动态多维度解析工作流，支持多个维度的并行处理。
			
 
				+    """
			
 
				+    # 输入参数
			
 
				+    pdf_path: str = Field(default="", description="PDF文件路径")
			
 
				+    dimension_ids: List[int] = Field(default_factory=list, description="维度ID列表")
			
 
				+    dataset_id: str = Field(default="", description="数据集ID")
			
 
				+    dimension_prompt: str = Field(default="", description="维度提示词")
			
 
				+    # dataset_name: str = Field(default="", description="数据集名称")
			
 
				+    document_id: str = Field(default="", description="文档ID")
			
 
				+    
			
 
				+    # # RAGFlow 相关
			
 
				+    # ragflow_api_url: str = Field(default="", description="RAGFlow API URL")
			
 
				+    # rag_flow_api_key: str = Field(default="", description="RAGFlow API密钥")
			
 
				+    
			
 
				+    # 中间状态
			
 
				+    split_pages: List[Dict[str, Any]] = Field(default_factory=list, description="拆分后的页面列表")
			
 
				+    parsed_results: List[Dict[str, Any]] = Field(default_factory=list, description="解析结果列表")
			
 
				+    
			
 
				+    # 输出 - 每个维度的结果
			
 
				+    dimension_results: Dict[int, Dict[str, Any]] = Field(default_factory=dict, description="每个维度的解析结果")
			
 
				+    total_vectorized_pages: int = Field(default=0, description="总向量化页面数")
			
 
				+    is_complete: bool = Field(default=False, description="是否完成")
			
--- a/src/datasets/parser/workflow_nodes/__init__.py
+++ b/src/datasets/parser/workflow_nodes/__init__.py
@@ -0,0 +1,11 @@
 
				+"""
			
 
				+工作流节点模块
			
 
				+
			
 
				+提供工作流特定的节点组件，如维度技能节点等。
			
 
				+"""
			
 
				+
			
 
				+from src.datasets.parser.workflow_nodes.dimension_skill_node import DimensionSkillNode
			
 
				+
			
 
				+__all__ = [
			
 
				+    "DimensionSkillNode",
			
 
				+]
			
--- a/src/datasets/parser/workflow_nodes/dimension_skill_node.py
+++ b/src/datasets/parser/workflow_nodes/dimension_skill_node.py
@@ -0,0 +1,138 @@
 
				+"""
			
 
				+维度技能节点
			
 
				+"""
			
 
				+
			
 
				+from typing import Dict, Any
			
 
				+from src.datasets.parser.core.base import BaseNode
			
 
				+from src.datasets.parser.core.workflow_builder import WorkflowBuilder
			
 
				+from src.datasets.parser.nodes import (
			
 
				+    ImageParseNode, 
			
 
				+    VectorizeNode, 
			
 
				+    PromptRetrievalNode, 
			
 
				+    TableNameGenerationNode, 
			
 
				+    DimensionResultNode,
			
 
				+    RAGFlowDocumentUploadNode,
			
 
				+    RAGFlowChunkNode
			
 
				+)
			
 
				+from src.datasets.parser.states.parser_states import DynamicDimensionState
			
 
				+from src.common.logging_config import get_logger
			
 
				+
			
 
				+logger = get_logger(__name__)
			
 
				+
			
 
				+
			
 
				+class DimensionSkillNode(BaseNode):
			
 
				+    """
			
 
				+    维度技能节点
			
 
				+    
			
 
				+    单个维度的处理节点，作为子工作流的构建器和执行器，包含:
			
 
				+    1. 获取维度提示词
			
 
				+    2. 生成向量表名
			
 
				+    3. 使用提示词解析图片
			
 
				+    4. 向量化入库
			
 
				+    5. 记录维度结果
			
 
				+    
			
 
				+    每个维度都是独立的 LangGraph 节点，可被 Langfuse 追踪。
			
 
				+    """
			
 
				+    
			
 
				+    def __init__(
			
 
				+        self,
			
 
				+        dimension_id: int,
			
 
				+        model_name: str = "Qwen/Qwen3-VL-8B-Instruct",
			
 
				+        max_workers: int = 5
			
 
				+    ):
			
 
				+        """
			
 
				+        初始化维度技能节点
			
 
				+        
			
 
				+        Args:
			
 
				+            dimension_id: 维度ID
			
 
				+            model_name: VL模型名称
			
 
				+            max_workers: 并行处理的最大工作线程数
			
 
				+        """
			
 
				+        self.dimension_id = dimension_id
			
 
				+        self.model_name = model_name
			
 
				+        self.max_workers = max_workers
			
 
				+    
			
 
				+    @property
			
 
				+    def name(self) -> str:
			
 
				+        """节点名称，格式: skill_dim_{id}"""
			
 
				+        return f"skill_dim_{self.dimension_id}"
			
 
				+    
			
 
				+    def _build_sub_workflow(self):
			
 
				+        """
			
 
				+        构建子工作流
			
 
				+        
			
 
				+        Returns:
			
 
				+            编译后的 LangGraph 工作流
			
 
				+        """
			
 
				+        logger.info(f"[Skill-{self.dimension_id}] 开始构建子工作流")
			
 
				+
			
 
				+
			
 
				+        # 创建工作流构建器
			
 
				+        builder = WorkflowBuilder(DynamicDimensionState)
			
 
				+        
			
 
				+        # 创建节点
			
 
				+        prompt_node = PromptRetrievalNode(self.dimension_id)
			
 
				+        document_upload_node = RAGFlowDocumentUploadNode()
			
 
				+        table_name_node = TableNameGenerationNode(self.dimension_id)
			
 
				+        parse_node = ImageParseNode(
			
 
				+            model_name=self.model_name,
			
 
				+            max_workers=self.max_workers
			
 
				+        )
			
 
				+        chunk_node = RAGFlowChunkNode()
			
 
				+        vectorize_node = VectorizeNode()
			
 
				+        result_node = DimensionResultNode(self.dimension_id)
			
 
				+        
			
 
				+        # 添加节点
			
 
				+        builder.add_nodes(
			
 
				+            prompt_node,
			
 
				+            document_upload_node,
			
 
				+            table_name_node,
			
 
				+            parse_node,
			
 
				+            chunk_node,
			
 
				+            vectorize_node,
			
 
				+            result_node
			
 
				+        )
			
 
				+        
			
 
				+        # 设置边
			
 
				+        builder.set_entry(prompt_node.name)
			
 
				+        builder.add_edge(prompt_node.name, document_upload_node.name)
			
 
				+        builder.add_edge(document_upload_node.name, table_name_node.name)
			
 
				+        builder.add_edge(table_name_node.name, parse_node.name)
			
 
				+        builder.add_edge(parse_node.name, chunk_node.name)
			
 
				+        builder.add_edge(chunk_node.name, vectorize_node.name)
			
 
				+        builder.add_edge(vectorize_node.name, result_node.name)
			
 
				+        builder.set_finish(result_node.name)
			
 
				+        
			
 
				+        # 构建并返回工作流
			
 
				+        workflow = builder.build()
			
 
				+        logger.info(f"[Skill-{self.dimension_id}] 子工作流构建完成")
			
 
				+        return workflow
			
 
				+    
			
 
				+    def execute(self, state: DynamicDimensionState) -> Dict[str, Any]:
			
 
				+        """
			
 
				+        执行维度技能
			
 
				+        
			
 
				+        构建并执行子工作流，包含以下步骤:
			
 
				+        1. 获取提示词
			
 
				+        2. 生成向量表名
			
 
				+        3. 解析图片
			
 
				+        4. 向量化入库
			
 
				+        5. 记录维度结果
			
 
				+        """
			
 
				+        logger.info(f"[Skill-{self.dimension_id}] 开始执行维度技能")
			
 
				+        
			
 
				+        # 构建子工作流
			
 
				+        workflow = self._build_sub_workflow()
			
 
				+        
			
 
				+        # 执行子工作流
			
 
				+        result = workflow.invoke(state)
			
 
				+        
			
 
				+        # 处理结果
			
 
				+        if isinstance(result, dict):
			
 
				+            final_result = result
			
 
				+        else:
			
 
				+            final_result = result.dict() if hasattr(result, 'dict') else dict(result)
			
 
				+        
			
 
				+        logger.info(f"[Skill-{self.dimension_id}] 维度技能执行完成")
			
 
				+        
			
 
				+        return final_result
			
--- a/src/datasets/parser/workflows/dynamic_dimension_workflow.py
+++ b/src/datasets/parser/workflows/dynamic_dimension_workflow.py
@@ -9,168 +9,21 @@
 
				           → pdf_split → skill_dim_1 → skill_dim_3 → skill_dim_5 → complete → END
			
 
				 """
			
 
				 
			
 
				-from typing import Dict, Any, List, Optional
			
 
				-from langgraph.graph import START, END
			
 
				+from typing import Dict, Any, List
			
 
				 from langfuse.langchain import CallbackHandler
			
 
				 
			
 
				 from src.datasets.parser.core.workflow_builder import WorkflowBuilder
			
 
				-from src.datasets.parser.core.base import BaseNode, BaseState
			
 
				-from src.datasets.parser.states.parser_states import PDFParsingState
			
 
				+from src.datasets.parser.states.parser_states import DynamicDimensionState
			
 
				 from src.datasets.parser.nodes import (
			
 
				     PDFSplitNode,
			
 
				-    ImageParseNode,
			
 
				-    VectorizeNode,
			
 
				-    CompleteNode,
			
 
				-    RAGFlowDatasetNode,
			
 
				-    RAGFlowDocumentUploadNode,
			
 
				-    RAGFlowDocumentParseNode,
			
 
				+    CompleteNode
			
 
				 )
			
 
				-from src.api.db.services.prompt_service import get_prompt_service
			
 
				+from src.datasets.parser.workflow_nodes import DimensionSkillNode
			
 
				 from src.common.logging_config import get_logger
			
 
				 
			
 
				 logger = get_logger(__name__)
			
 
				 
			
 
				 
			
 
				-class DynamicDimensionState(BaseState):
			
 
				-    """动态维度解析状态"""
			
 
				-    # 输入参数
			
 
				-    pdf_path: str = ""
			
 
				-    dimension_ids: List[int] = []
			
 
				-    dataset_id: str = ""
			
 
				-    dataset_name: str = ""
			
 
				-    document_id: str = ""
			
 
				-    
			
 
				-    # RAGFlow 相关
			
 
				-    ragflow_api_url: str = ""
			
 
				-    rag_flow_api_key: str = ""
			
 
				-    
			
 
				-    # 中间状态
			
 
				-    split_pages: List[Dict[str, Any]] = []
			
 
				-    parsed_results: List[Dict[str, Any]] = []
			
 
				-    
			
 
				-    # 输出 - 每个维度的结果
			
 
				-    dimension_results: Dict[int, Dict[str, Any]] = {}
			
 
				-    total_vectorized_pages: int = 0
			
 
				-    is_complete: bool = False
			
 
				-
			
 
				-
			
 
				-class DimensionSkillNode(BaseNode):
			
 
				-    """
			
 
				-    维度技能节点
			
 
				-    
			
 
				-    单个维度的处理节点，包含:
			
 
				-    1. 获取维度提示词
			
 
				-    2. 使用提示词解析图片
			
 
				-    3. 向量化入库到 book_{dimension_id}
			
 
				-    
			
 
				-    每个维度都是独立的 LangGraph 节点，可被 Langfuse 追踪。
			
 
				-    """
			
 
				-    
			
 
				-    def __init__(
			
 
				-        self,
			
 
				-        dimension_id: int,
			
 
				-        model_name: str = "Qwen/Qwen3-VL-8B-Instruct",
			
 
				-        max_workers: int = 5
			
 
				-    ):
			
 
				-        self.dimension_id = dimension_id
			
 
				-        self.model_name = model_name
			
 
				-        self.max_workers = max_workers
			
 
				-        self._prompt_service = None
			
 
				-        self._prompt = None  # 缓存提示词
			
 
				-    
			
 
				-    @property
			
 
				-    def name(self) -> str:
			
 
				-        """节点名称，格式: skill_dim_{id}"""
			
 
				-        return f"skill_dim_{self.dimension_id}"
			
 
				-    
			
 
				-    @property
			
 
				-    def prompt_service(self):
			
 
				-        """懒加载提示词服务"""
			
 
				-        if self._prompt_service is None:
			
 
				-            self._prompt_service = get_prompt_service()
			
 
				-        return self._prompt_service
			
 
				-    
			
 
				-    def _get_table_name(self) -> str:
			
 
				-        """获取维度对应的表名"""
			
 
				-        return f"book_{self.dimension_id}"
			
 
				-    
			
 
				-    def _get_prompt(self) -> Optional[str]:
			
 
				-        """获取并缓存维度提示词"""
			
 
				-        if self._prompt is None:
			
 
				-            self._prompt = self.prompt_service.get_active_prompt_by_id(self.dimension_id)
			
 
				-        return self._prompt
			
 
				-    
			
 
				-    def execute(self, state: DynamicDimensionState) -> Dict[str, Any]:
			
 
				-        """
			
 
				-        执行维度技能
			
 
				-        
			
 
				-        1. 获取提示词
			
 
				-        2. 解析图片
			
 
				-        3. 向量化入库
			
 
				-        """
			
 
				-        logger.info(f"[Skill-{self.dimension_id}] 开始执行维度技能")
			
 
				-        
			
 
				-        # 1. 获取提示词
			
 
				-        prompt = self._get_prompt()
			
 
				-        if not prompt:
			
 
				-            logger.warning(f"[Skill-{self.dimension_id}] 没有激活的提示词，跳过")
			
 
				-            # 更新状态中的维度结果
			
 
				-            dim_results = dict(getattr(state, 'dimension_results', {}) or {})
			
 
				-            dim_results[self.dimension_id] = {
			
 
				-                "dimension_id": self.dimension_id,
			
 
				-                "skipped": True,
			
 
				-                "reason": "no_active_prompt"
			
 
				-            }
			
 
				-            return {"dimension_results": dim_results}
			
 
				-        
			
 
				-        table_name = self._get_table_name()
			
 
				-        logger.info(f"[Skill-{self.dimension_id}] 表名: {table_name}")
			
 
				-        
			
 
				-        # 2. 创建并执行解析节点
			
 
				-        parse_node = ImageParseNode(
			
 
				-            model_name=self.model_name,
			
 
				-            max_workers=self.max_workers,
			
 
				-            prompt_template=prompt
			
 
				-        )
			
 
				-        parse_result = parse_node.execute(state)
			
 
				-        parsed_results = parse_result.get("parsed_results", [])
			
 
				-        
			
 
				-        logger.info(f"[Skill-{self.dimension_id}] 解析完成，共 {len(parsed_results)} 页")
			
 
				-        
			
 
				-        # 3. 创建临时状态用于向量化
			
 
				-        temp_state = DynamicDimensionState(
			
 
				-            split_pages=getattr(state, 'split_pages', []),
			
 
				-            parsed_results=parsed_results,
			
 
				-            document_id=getattr(state, 'document_id', ''),
			
 
				-            dataset_id=getattr(state, 'dataset_id', ''),
			
 
				-            pdf_path=getattr(state, 'pdf_path', '')
			
 
				-        )
			
 
				-        
			
 
				-        # 4. 执行向量化
			
 
				-        vectorize_node = VectorizeNode(table_name=table_name)
			
 
				-        vectorize_result = vectorize_node.execute(temp_state)
			
 
				-        vectorized_pages = vectorize_result.get('vectorized_pages', 0)
			
 
				-        
			
 
				-        logger.info(f"[Skill-{self.dimension_id}] 入库完成，共 {vectorized_pages} 页到 {table_name}")
			
 
				-        
			
 
				-        # 5. 更新状态
			
 
				-        dim_results = dict(getattr(state, 'dimension_results', {}) or {})
			
 
				-        dim_results[self.dimension_id] = {
			
 
				-            "dimension_id": self.dimension_id,
			
 
				-            "table_name": table_name,
			
 
				-            "parsed_pages": parse_result.get("processed_pages", 0),
			
 
				-            "vectorized_pages": vectorized_pages,
			
 
				-            "success": True
			
 
				-        }
			
 
				-        
			
 
				-        total_vectorized = getattr(state, 'total_vectorized_pages', 0) + vectorized_pages
			
 
				-        
			
 
				-        return {
			
 
				-            "dimension_results": dim_results,
			
 
				-            "total_vectorized_pages": total_vectorized
			
 
				-        }
			
 
				-
			
 
				-
			
 
				 class DynamicDimensionWorkflow:
			
 
				     """
			
 
				     动态多维度解析工作流 (LangGraph 动态构建方案)
			
@@ -215,9 +68,6 @@ class DynamicDimensionWorkflow:
 
				         logger.info(f"动态构建工作流，维度: {dimension_ids}")
			
 
				         
			
 
				         # 创建固定节点
			
 
				-        dataset_node = RAGFlowDatasetNode(create_if_not_exists=True)
			
 
				-        upload_node = RAGFlowDocumentUploadNode(target_field="document_id")
			
 
				-        parse_doc_node = RAGFlowDocumentParseNode()
			
 
				         split_node = PDFSplitNode()
			
 
				         complete_node = CompleteNode(message_template="动态多维度解析完成")
			
 
				         
			
@@ -226,18 +76,12 @@ class DynamicDimensionWorkflow:
 
				         
			
 
				         # 添加固定节点
			
 
				         builder.add_nodes(
			
 
				-            dataset_node,
			
 
				-            upload_node,
			
 
				-            parse_doc_node,
			
 
				             split_node,
			
 
				             complete_node
			
 
				         )
			
 
				         
			
 
				-        # 定义固定边: START → ragflow_dataset → upload → parse → pdf_split
			
 
				-        builder.set_entry("ragflow_dataset")
			
 
				-        builder.add_edge("ragflow_dataset", "ragflow_document_upload")
			
 
				-        builder.add_edge("ragflow_document_upload", "ragflow_document_parse")
			
 
				-        builder.add_edge("ragflow_document_parse", "pdf_split")
			
 
				+        # 定义固定边: START → pdf_split
			
 
				+        builder.set_entry("pdf_split")
			
 
				         
			
 
				         # 动态添加维度技能节点
			
 
				         prev_node = "pdf_split"
			
@@ -266,11 +110,6 @@ class DynamicDimensionWorkflow:
 
				         self,
			
 
				         pdf_path: str,
			
 
				         dimension_ids: List[int],
			
 
				-        dataset_id: str = "",
			
 
				-        dataset_name: str = "",
			
 
				-        document_id: str = "",
			
 
				-        ragflow_api_url: str = "",
			
 
				-        rag_flow_api_key: str = ""
			
 
				     ) -> Dict[str, Any]:
			
 
				         """
			
 
				         运行动态多维度解析工作流
			
@@ -305,11 +144,9 @@ class DynamicDimensionWorkflow:
 
				         initial_state = DynamicDimensionState(
			
 
				             pdf_path=pdf_path,
			
 
				             dimension_ids=dimension_ids,
			
 
				-            dataset_id=dataset_id,
			
 
				-            dataset_name=dataset_name or pdf_path.split("/")[-1].split("\\")[-1].replace(".pdf", ""),
			
 
				-            document_id=document_id,
			
 
				-            ragflow_api_url=ragflow_api_url,
			
 
				-            rag_flow_api_key=rag_flow_api_key,
			
 
				+            # dataset_name=dataset_name or pdf_path.split("/")[-1].split("\\")[-1].replace(".pdf", ""),
			
 
				+            # ragflow_api_url=ragflow_api_url,
			
 
				+            # rag_flow_api_key=rag_flow_api_key,
			
 
				             dimension_results={},
			
 
				             total_vectorized_pages=0
			
 
				         )
			
--- a/src/datasets/parser/workflows/pdf_workflow.py
+++ b/src/datasets/parser/workflows/pdf_workflow.py
@@ -3,8 +3,8 @@ PDF解析工作流V2
 
				 
			
 
				 使用组件化节点构建的PDF解析工作流。
			
 
				 """
			
 
				-
			
 
				-from typing import Dict, Any
			
 
				+import io
			
 
				+from typing import Dict, Any, Optional
			
 
				 from langgraph.graph import START, END
			
 
				 from langfuse.langchain import CallbackHandler
			
 
				 
			
@@ -61,8 +61,8 @@ class PDFParsingWorkflowV2:
 
				         # 创建节点实例
			
 
				         dataset_node = RAGFlowDatasetNode(create_if_not_exists=True)
			
 
				         dataset_condition = DatasetExistsCondition()
			
 
				-        upload_node = RAGFlowDocumentUploadNode(target_field="document_id")
			
 
				-        page_upload_node = RAGFlowDocumentUploadNode(target_field="page_document_id")
			
 
				+        upload_node = RAGFlowDocumentUploadNode()
			
 
				+        page_upload_node = RAGFlowDocumentUploadNode()
			
 
				         parse_doc_node = RAGFlowDocumentParseNode()
			
 
				         split_node = PDFSplitNode()
			
 
				         image_parse_node = ImageParseNode(model_name=self.model_name)
			
@@ -99,22 +99,29 @@ class PDFParsingWorkflowV2:
 
				         
			
 
				         return builder.build()
			
 
				     
			
 
				-    def run(self, pdf_path: str, page_dataset_id: str, dataset_name: str) -> Dict[str, Any]:
			
 
				+    def run(self, pdf_path: str = "", pdf_content: Optional[io.BytesIO] = None, original_filename: str = "", page_dataset_id: str = "", dataset_name: str = "") -> Dict[str, Any]:
			
 
				         """
			
 
				         运行PDF解析工作流
			
 
				         
			
 
				         Args:
			
 
				             pdf_path: PDF文件路径
			
 
				+            pdf_content: PDF文件内容（字节流）
			
 
				+            original_filename: 原始文件名
			
 
				             page_dataset_id: 页面数据集ID
			
 
				             dataset_name: 数据集名称
			
 
				             
			
 
				         Returns:
			
 
				             包含最终状态的字典
			
 
				         """
			
 
				-        logger.info(f"开始运行PDF解析工作流: {pdf_path}")
			
 
				+        if pdf_content:
			
 
				+            logger.info(f"开始运行PDF解析工作流: {original_filename or '内存中的PDF'}")
			
 
				+        else:
			
 
				+            logger.info(f"开始运行PDF解析工作流: {pdf_path}")
			
 
				         
			
 
				         initial_state = PDFParsingState(
			
 
				             pdf_path=pdf_path,
			
 
				+            pdf_content=pdf_content,
			
 
				+            original_filename=original_filename,
			
 
				             page_dataset_id=page_dataset_id,
			
 
				             dataset_name=dataset_name
			
 
				         )
			
--- a/src/utils/http_client.py
+++ b/src/utils/http_client.py
@@ -2,6 +2,7 @@ import requests
 
				 import logging
			
 
				 import os
			
 
				 import json
			
 
				+import io
			
 
				 from typing import Dict, Any, Optional
			
 
				 from urllib3.util.retry import Retry
			
 
				 from requests.adapters import HTTPAdapter
			
@@ -355,7 +356,8 @@ class HTTPClient:
 
				             logger.error(f"Request failed: {str(e)}")
			
 
				             raise
			
 
				     
			
 
				-    def upload_file(self, endpoint: str, file_path: str, file_field_name: str = 'file',
			
 
				+    def upload_file(self, endpoint: str, file_path: str = None, file_content: io.BytesIO = None, 
			
 
				+                   file_field_name: str = 'file', original_filename: str = None,
			
 
				                    data: Optional[Dict] = None, headers: Optional[Dict] = None) -> Dict[str, Any]:
			
 
				         """
			
 
				         上传文件
			
@@ -363,7 +365,9 @@ class HTTPClient:
 
				         Args:
			
 
				             endpoint: API端点路径（以/开头）
			
 
				             file_path: 本地文件路径
			
 
				+            file_content: 文件内容（字节流），如果提供则优先使用
			
 
				             file_field_name: 表单字段名称
			
 
				+            original_filename: 原始文件名，如果提供则优先使用
			
 
				             data: 额外的表单数据
			
 
				             headers: 自定义请求头
			
 
				             
			
@@ -373,11 +377,23 @@ class HTTPClient:
 
				         Raises:
			
 
				             requests.exceptions.RequestException: 请求失败时抛出
			
 
				         """
			
 
				-        # 打开文件并构建files字典
			
 
				-        with open(file_path, 'rb') as f:
			
 
				+        # 构建files字典
			
 
				+        if file_content:
			
 
				+            # 使用字节流上传
			
 
				+            filename = original_filename if original_filename else "uploaded_file.pdf"
			
 
				             files = {
			
 
				-                file_field_name: (os.path.basename(file_path), f)
			
 
				+                file_field_name: (filename, file_content)
			
 
				             }
			
 
				-            
			
 
				-            # 发送POST请求
			
 
				-            return self.post(endpoint, data=data, files=files, headers=headers)
			
 
				+        else:
			
 
				+            # 使用文件路径上传
			
 
				+            with open(file_path, 'rb') as f:
			
 
				+                filename = original_filename if original_filename else os.path.basename(file_path)
			
 
				+                files = {
			
 
				+                    file_field_name: (filename, f)
			
 
				+                }
			
 
				+                
			
 
				+                # 发送POST请求
			
 
				+                return self.post(endpoint, data=data, files=files, headers=headers)
			
 
				+        
			
 
				+        # 发送POST请求（字节流方式）
			
 
				+        return self.post(endpoint, data=data, files=files, headers=headers)
			
--- a/src/utils/markdown_utils.py
+++ b/src/utils/markdown_utils.py
@@ -0,0 +1,70 @@
 
				+"""
			
 
				+Markdown工具类
			
 
				+
			
 
				+提供处理markdown格式内容的工具函数。
			
 
				+"""
			
 
				+
			
 
				+import json
			
 
				+from typing import Any, Dict, Optional
			
 
				+
			
 
				+
			
 
				+def parse_markdown_json(content: str) -> Optional[Dict[str, Any]]:
			
 
				+    """
			
 
				+    解析markdown格式的JSON内容
			
 
				+    
			
 
				+    从markdown格式的字符串中提取并解析JSON内容，去除 ```json 和 ``` 标签。
			
 
				+    
			
 
				+    Args:
			
 
				+        content: 包含markdown格式JSON的字符串
			
 
				+        
			
 
				+    Returns:
			
 
				+        解析后的JSON字典，如果解析失败返回None
			
 
				+    """
			
 
				+    if not content:
			
 
				+        return None
			
 
				+    
			
 
				+    # 去除首尾空白
			
 
				+    stripped_content = content.strip()
			
 
				+    
			
 
				+    # 检查是否以 ```json 开头并以 ``` 结尾
			
 
				+    if stripped_content.startswith("```json") and stripped_content.endswith("```"):
			
 
				+        # 提取 ```json 和 ``` 之间的内容
			
 
				+        json_content = stripped_content.replace("```json", "", 1)
			
 
				+        json_content = json_content.rstrip("```").strip()
			
 
				+        
			
 
				+        try:
			
 
				+            # 解析为JSON
			
 
				+            return json.loads(json_content)
			
 
				+        except json.JSONDecodeError:
			
 
				+            # 解析失败
			
 
				+            return None
			
 
				+    
			
 
				+    return None
			
 
				+
			
 
				+
			
 
				+def extract_json_from_markdown(content: str) -> str:
			
 
				+    """
			
 
				+    从markdown字符串中提取JSON内容
			
 
				+    
			
 
				+    去除 ```json 和 ``` 标签，返回纯JSON字符串。
			
 
				+    
			
 
				+    Args:
			
 
				+        content: 包含markdown格式JSON的字符串
			
 
				+        
			
 
				+    Returns:
			
 
				+        纯JSON字符串，如果没有找到JSON标签返回原始内容
			
 
				+    """
			
 
				+    if not content:
			
 
				+        return content
			
 
				+    
			
 
				+    # 去除首尾空白
			
 
				+    stripped_content = content.strip()
			
 
				+    
			
 
				+    # 检查是否以 ```json 开头并以 ``` 结尾
			
 
				+    if stripped_content.startswith("```json") and stripped_content.endswith("```"):
			
 
				+        # 提取 ```json 和 ``` 之间的内容
			
 
				+        json_content = stripped_content.replace("```json", "", 1)
			
 
				+        json_content = json_content.rstrip("```").strip()
			
 
				+        return json_content
			
 
				+    
			
 
				+    return content
			
--- a/src/utils/ragflow/dataset_service.py
+++ b/src/utils/ragflow/dataset_service.py
@@ -1,3 +1,4 @@
 
				+import io
			
 
				 from typing import Dict, Any, List, Optional
			
 
				 
			
 
				 class DatasetService:
			
@@ -179,3 +180,43 @@ class DatasetService:
 
				             return response.get("data", {})
			
 
				         else:
			
 
				             raise Exception(f"运行RAPTOR失败: {response.get('message', '未知错误')}")
			
 
				+    
			
 
				+    def upload_document(self, dataset_id: str, file_path: str = None, 
			
 
				+                       file_content: io.BytesIO = None, original_filename: str = None,
			
 
				+                       metadata: Dict = None) -> Dict[str, Any]:
			
 
				+        """
			
 
				+        上传文档到数据集
			
 
				+        
			
 
				+        Args:
			
 
				+            dataset_id: 数据集ID
			
 
				+            file_path: 本地文件路径
			
 
				+            file_content: 文件内容（字节流），如果提供则优先使用
			
 
				+            original_filename: 原始文件名，如果提供则优先使用
			
 
				+            metadata: 文档元数据
			
 
				+            
			
 
				+        Returns:
			
 
				+            Dict: 响应JSON数据
			
 
				+        
			
 
				+        Raises:
			
 
				+            Exception: 上传失败时抛出
			
 
				+        """
			
 
				+        endpoint = f"/api/v1/datasets/{dataset_id}/documents"
			
 
				+        
			
 
				+        # 构建表单数据
			
 
				+        data = {}
			
 
				+        if metadata:
			
 
				+            data["metadata"] = metadata
			
 
				+        
			
 
				+        # 使用http_client的upload_file方法上传文件
			
 
				+        response = self.http_client.upload_file(
			
 
				+            endpoint=endpoint,
			
 
				+            file_path=file_path,
			
 
				+            file_content=file_content,
			
 
				+            original_filename=original_filename,
			
 
				+            data=data
			
 
				+        )
			
 
				+        
			
 
				+        if response.get("code") == 0 and response.get("data"):
			
 
				+            return response["data"]
			
 
				+        else:
			
 
				+            raise Exception(f"上传文档失败: {response.get('message', '未知错误')}")