3 bulan lalu · d8499a205e
--- a/requirements.txt
+++ b/requirements.txt
--- a/requirements.txt.bak.1
+++ b/requirements.txt.bak.1
@@ -0,0 +1,180 @@
 
															+aiohappyeyeballs==2.6.1
														
 
															+aiohttp==3.13.3
														
 
															+aiosignal==1.4.0
														
 
															+annotated-doc==0.0.4
														
 
															+annotated-types==0.7.0
														
 
															+anyio==4.12.0
														
 
															+APScheduler==3.11.2
														
 
															+argon2-cffi==25.1.0
														
 
															+argon2-cffi-bindings==25.1.0
														
 
															+attrs==25.4.0
														
 
															+Authlib==1.6.6
														
 
															+backoff==2.2.1
														
 
															+beartype==0.22.9
														
 
															+cachetools==6.2.4
														
 
															+certifi==2026.1.4
														
 
															+cffi==2.0.0
														
 
															+charset-normalizer==3.4.4
														
 
															+click==8.3.1
														
 
															+cloudpickle==3.1.2
														
 
															+colorama==0.4.6
														
 
															+cryptography==46.0.3
														
 
															+cyclopts==4.4.4
														
 
															+dashscope==1.25.5
														
 
															+dataclasses-json==0.6.7
														
 
															+datrie==0.8.3
														
 
															+DBUtils==3.1.2
														
 
															+diskcache==5.6.3
														
 
															+distro==1.9.0
														
 
															+dnspython==2.8.0
														
 
															+docstring_parser==0.17.0
														
 
															+docutils==0.22.4
														
 
															+elastic-transport==8.17.1
														
 
															+elasticsearch==8.11.1
														
 
															+email-validator==2.3.0
														
 
															+et_xmlfile==2.0.0
														
 
															+exceptiongroup==1.3.1
														
 
															+fakeredis==2.33.0
														
 
															+fastapi==0.128.0
														
 
															+fastmcp==2.14.2
														
 
															+filelock==3.20.2
														
 
															+frozenlist==1.8.0
														
 
															+fsspec==2025.12.0
														
 
															+googleapis-common-protos==1.72.0
														
 
															+greenlet==3.3.0
														
 
															+h11==0.16.0
														
 
															+hanziconv==0.3.2
														
 
															+hf-xet==1.2.0
														
 
															+httpcore==1.0.9
														
 
															+httpx==0.28.1
														
 
															+httpx-sse==0.4.3
														
 
															+huggingface_hub==1.2.3
														
 
															+idna==3.11
														
 
															+importlib_metadata==8.7.1
														
 
															+infinity-sdk==0.6.15
														
 
															+infinity_emb==0.0.77
														
 
															+jaraco.classes==3.4.0
														
 
															+jaraco.context==6.0.2
														
 
															+jaraco.functools==4.4.0
														
 
															+jiter==0.12.0
														
 
															+joblib==1.5.3
														
 
															+jsonpatch==1.33
														
 
															+jsonpointer==3.0.0
														
 
															+jsonschema==4.26.0
														
 
															+jsonschema-path==0.3.4
														
 
															+jsonschema-specifications==2025.9.1
														
 
															+keyring==25.7.0
														
 
															+langchain==1.2.0
														
 
															+langchain-classic==1.0.1
														
 
															+langchain-community==0.4.1
														
 
															+langchain-core==1.2.6
														
 
															+langchain-mcp-adapters==0.2.1
														
 
															+langchain-openai==1.1.6
														
 
															+langchain-text-splitters==1.1.0
														
 
															+langfuse==3.12.0
														
 
															+langgraph==1.0.5
														
 
															+langgraph-checkpoint==3.0.1
														
 
															+langgraph-prebuilt==1.0.5
														
 
															+langgraph-sdk==0.3.1
														
 
															+langsmith==0.6.0
														
 
															+lupa==2.6
														
 
															+markdown-it-py==4.0.0
														
 
															+marshmallow==3.26.2
														
 
															+mcp==1.25.0
														
 
															+mdurl==0.1.2
														
 
															+minio==7.2.20
														
 
															+more-itertools==10.8.0
														
 
															+multidict==6.7.0
														
 
															+mypy_extensions==1.1.0
														
 
															+nltk==3.9.2
														
 
															+numpy==1.26.4
														
 
															+ollama==0.6.1
														
 
															+openai==2.14.0
														
 
															+openapi-pydantic==0.5.1
														
 
															+openpyxl==3.1.5
														
 
															+opentelemetry-api==1.39.1
														
 
															+opentelemetry-exporter-otlp-proto-common==1.39.1
														
 
															+opentelemetry-exporter-otlp-proto-http==1.39.1
														
 
															+opentelemetry-exporter-prometheus==0.60b1
														
 
															+opentelemetry-instrumentation==0.60b1
														
 
															+opentelemetry-proto==1.39.1
														
 
															+opentelemetry-sdk==1.39.1
														
 
															+opentelemetry-semantic-conventions==0.60b1
														
 
															+orjson==3.11.5
														
 
															+ormsgpack==1.12.1
														
 
															+packaging==25.0
														
 
															+pandas==2.3.3
														
 
															+pathable==0.4.4
														
 
															+pathvalidate==3.3.1
														
 
															+pdf2image==1.17.0
														
 
															+pillow==12.1.0
														
 
															+platformdirs==4.5.1
														
 
															+polars-lts-cpu==1.33.1
														
 
															+prometheus_client==0.23.1
														
 
															+propcache==0.4.1
														
 
															+protobuf==6.33.4
														
 
															+py-key-value-aio==0.3.0
														
 
															+py-key-value-shared==0.3.0
														
 
															+pyarrow==22.0.0
														
 
															+pycparser==2.23
														
 
															+pycryptodome==3.23.0
														
 
															+pydantic==2.12.5
														
 
															+pydantic-settings==2.12.0
														
 
															+pydantic_core==2.41.5
														
 
															+pydocket==0.16.3
														
 
															+Pygments==2.19.2
														
 
															+PyJWT==2.10.1
														
 
															+PyMuPDF==1.26.7
														
 
															+PyMySQL==1.1.2
														
 
															+pyperclip==1.11.0
														
 
															+python-dateutil==2.9.0.post0
														
 
															+python-dotenv==1.2.1
														
 
															+python-json-logger==4.0.0
														
 
															+python-multipart==0.0.21
														
 
															+pytz==2025.2
														
 
															+pywin32==311
														
 
															+pywin32-ctypes==0.2.3
														
 
															+PyYAML==6.0.3
														
 
															+ragflow-sdk==0.23.1
														
 
															+readerwriterlock==1.0.9
														
 
															+redis==7.1.0
														
 
															+referencing==0.36.2
														
 
															+regex==2025.11.3
														
 
															+requests==2.32.5
														
 
															+requests-toolbelt==1.0.0
														
 
															+rich==14.2.0
														
 
															+rich-rst==1.3.2
														
 
															+rpds-py==0.30.0
														
 
															+setuptools==80.9.0
														
 
															+shellingham==1.5.4
														
 
															+six==1.17.0
														
 
															+sniffio==1.3.1
														
 
															+sortedcontainers==2.4.0
														
 
															+SQLAlchemy==2.0.45
														
 
															+sqlglot==28.5.0
														
 
															+sqlglotrs==0.10.0
														
 
															+sse-starlette==3.1.2
														
 
															+starlette==0.50.0
														
 
															+tenacity==9.1.2
														
 
															+thrift==0.22.0
														
 
															+tiktoken==0.12.0
														
 
															+tqdm==4.67.1
														
 
															+typer==0.21.1
														
 
															+typer-slim==0.21.0
														
 
															+typing-inspect==0.9.0
														
 
															+typing-inspection==0.4.2
														
 
															+typing_extensions==4.15.0
														
 
															+tzdata==2025.3
														
 
															+tzlocal==5.3.1
														
 
															+urllib3==2.6.2
														
 
															+uuid_utils==0.12.0
														
 
															+uvicorn==0.40.0
														
 
															+websocket-client==1.9.0
														
 
															+websockets==15.0.1
														
 
															+wheel==0.45.1
														
 
															+wrapt==1.17.3
														
 
															+xlrd==2.0.2
														
 
															+xxhash==3.6.0
														
 
															+yarl==1.22.0
														
 
															+zipp==3.23.0
														
 
															+zstandard==0.25.0
														
--- a/src/api/db/models/search_request_models.py
+++ b/src/api/db/models/search_request_models.py
@@ -19,7 +19,11 @@ class SearchRequest(BaseModel):
 
															         matching_text: 用于文本匹配搜索的查询文本 (可选)
														
 
															         topn: 返回的最大结果数量，默认为10，范围1-100
														
 
															     """
														
 
															-    
														
 
															+    database_ids: List[str] = Field(
														
 
															+        default=[],
														
 
															+        description="知识库id",
														
 
															+        examples=["database_id1", "database_id2"]
														
 
															+    )
														
 
															     image_url: Optional[str] = Field(
														
 
															         default=None,
														
 
															         description="用于图像搜索的图片URL",
														
@@ -30,12 +34,12 @@ class SearchRequest(BaseModel):
 
															         description="用于文本匹配搜索的查询文本",
														
 
															         examples=["搜索关键词"]
														
 
															     )
														
 
															-    topn: int = Field(
														
 
															+    topk: int = Field(
														
 
															         default=10,
														
 
															         ge=1,
														
 
															         le=100,
														
 
															         description="返回的最大结果数量"
														
 
															-    ),
														
 
															+    )
														
 
															     score_threshold: float = Field(
														
 
															         default=0.0,
														
 
															         ge=0.0,
														
--- a/src/api/db/repositories/__init__.py
+++ b/src/api/db/repositories/__init__.py
@@ -0,0 +1,13 @@
 
															+"""
														
 
															+数据库 Repository 模块
														
 
															+
														
 
															+提供各业务表的 Repository 实现。
														
 
															+"""
														
 
															+
														
 
															+from .prompt_dimension_repository import PromptDimensionRepository
														
 
															+from .ragflow_user_repository import RagflowUserRepository
														
 
															+
														
 
															+__all__ = [
														
 
															+    "PromptDimensionRepository",
														
 
															+    "RagflowUserRepository",
														
 
															+]
														
--- a/src/api/db/repositories/example_usage.py
+++ b/src/api/db/repositories/example_usage.py
@@ -0,0 +1,254 @@
 
															+"""
														
 
															+Repository 使用示例
														
 
															+
														
 
															+展示如何使用新的 Repository 层重构现有服务。
														
 
															+"""
														
 
															+
														
 
															+from typing import List, Dict, Any, Optional
														
 
															+from src.api.db.repositories import PromptDimensionRepository, RagflowUserRepository
														
 
															+from src.common.logging_config import get_logger
														
 
															+
														
 
															+logger = get_logger(__name__)
														
 
															+
														
 
															+
														
 
															+# ========== 示例 1: 基础 CRUD 操作 ==========
														
 
															+
														
 
															+def example_basic_crud():
														
 
															+    """基础 CRUD 操作示例"""
														
 
															+    repo = PromptDimensionRepository()
														
 
															+    
														
 
															+    # 1. 查询
														
 
															+    dimension = repo.find_by_id(1)
														
 
															+    dimension_by_name = repo.find_by_name("知识实体与百科拆解")
														
 
															+    all_dimensions = repo.find_all(order_by="created_at DESC")
														
 
															+    
														
 
															+    # 2. 条件查询
														
 
															+    active_dimensions = repo.find_all({"status": 1})
														
 
															+    
														
 
															+    # 3. 插入
														
 
															+    new_dimension = repo.insert({
														
 
															+        "name": "新维度",
														
 
															+        "description": "描述",
														
 
															+        "dataset_id": "dataset_123"
														
 
															+    })
														
 
															+    
														
 
															+    # 4. 更新
														
 
															+    repo.update_by_id(1, {"description": "更新后的描述"})
														
 
															+    
														
 
															+    # 5. 删除
														
 
															+    repo.delete_by_id(1)
														
 
															+    
														
 
															+    # 6. 统计
														
 
															+    count = repo.count({"status": 1})
														
 
															+
														
 
															+
														
 
															+# ========== 示例 2: 分页查询 ==========
														
 
															+
														
 
															+def example_pagination():
														
 
															+    """分页查询示例"""
														
 
															+    repo = PromptDimensionRepository()
														
 
															+    
														
 
															+    # 分页查询
														
 
															+    result = repo.paginate(
														
 
															+        conditions={"status": 1},
														
 
															+        order_by="created_at DESC",
														
 
															+        page=1,
														
 
															+        page_size=10
														
 
															+    )
														
 
															+    
														
 
															+    # result 包含:
														
 
															+    # {
														
 
															+    #     "total": 100,
														
 
															+    #     "items": [...],
														
 
															+    #     "page": 1,
														
 
															+    #     "page_size": 10,
														
 
															+    #     "total_pages": 10
														
 
															+    # }
														
 
															+    
														
 
															+    logger.info(f"总共 {result['total']} 条记录，当前第 {result['page']} 页")
														
 
															+
														
 
															+
														
 
															+# ========== 示例 3: 关联查询 ==========
														
 
															+
														
 
															+def example_join_query():
														
 
															+    """关联查询示例"""
														
 
															+    repo = PromptDimensionRepository()
														
 
															+    
														
 
															+    # 获取维度和激活的提示词
														
 
															+    dimensions_with_prompts = repo.get_dimensions_with_active_prompts()
														
 
															+    
														
 
															+    for item in dimensions_with_prompts:
														
 
															+        logger.info(f"维度: {item['name']}, 提示词版本: {item['version_number']}")
														
 
															+
														
 
															+
														
 
															+# ========== 示例 4: 复杂条件查询 ==========
														
 
															+
														
 
															+def example_complex_query():
														
 
															+    """复杂条件查询示例"""
														
 
															+    from src.utils.mysql import QueryBuilder, get_global_mysql_client
														
 
															+    
														
 
															+    db = get_global_mysql_client()
														
 
															+    
														
 
															+    # 使用 QueryBuilder 构建复杂查询
														
 
															+    builder = QueryBuilder("prompt_dimensions")
														
 
															+    builder.select(["id", "name", "description", "created_at"])
														
 
															+    builder.where_eq("status", 1)
														
 
															+    builder.where_like("name", "%维度%")
														
 
															+    builder.where_in("id", [1, 2, 3, 4, 5])
														
 
															+    builder.where_gt("created_at", "2024-01-01")
														
 
															+    builder.order_by("created_at", "DESC")
														
 
															+    builder.limit(20)
														
 
															+    builder.offset(0)
														
 
															+    
														
 
															+    sql, params = builder.build_select()
														
 
															+    results = db.fetch_all(sql, params)
														
 
															+    
														
 
															+    logger.info(f"查询到 {len(results)} 条记录")
														
 
															+
														
 
															+
														
 
															+# ========== 示例 5: 重构现有服务 ==========
														
 
															+
														
 
															+class PromptServiceRefactored:
														
 
															+    """
														
 
															+    重构后的提示词服务示例
														
 
															+    
														
 
															+    展示如何使用 Repository 重构原有服务。
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(self):
														
 
															+        """初始化服务"""
														
 
															+        self.dimension_repo = PromptDimensionRepository()
														
 
															+        # 可以继续使用原有的向量数据库客户端
														
 
															+        from src.utils.vector_db import get_vector_db_client
														
 
															+        self._vector_client = None
														
 
															+    
														
 
															+    def get_dimension_by_name(self, name: str) -> Optional[Dict[str, Any]]:
														
 
															+        """
														
 
															+        根据名称获取维度（使用 Repository）
														
 
															+        
														
 
															+        Args:
														
 
															+            name: 维度名称
														
 
															+            
														
 
															+        Returns:
														
 
															+            维度信息字典，不存在返回 None
														
 
															+        """
														
 
															+        return self.dimension_repo.find_by_name(name)
														
 
															+    
														
 
															+    def get_dimension_by_id(self, dimension_id: int) -> Optional[Dict[str, Any]]:
														
 
															+        """
														
 
															+        根据ID获取维度（使用 Repository）
														
 
															+        
														
 
															+        Args:
														
 
															+            dimension_id: 维度ID
														
 
															+            
														
 
															+        Returns:
														
 
															+            维度信息字典，不存在返回 None
														
 
															+        """
														
 
															+        return self.dimension_repo.find_by_id(dimension_id)
														
 
															+    
														
 
															+    def get_all_dimensions(self) -> List[Dict[str, Any]]:
														
 
															+        """
														
 
															+        获取所有维度（使用 Repository）
														
 
															+        
														
 
															+        Returns:
														
 
															+            维度列表
														
 
															+        """
														
 
															+        return self.dimension_repo.find_all(order_by="created_at DESC")
														
 
															+    
														
 
															+    def add_dimension(self, name: str, description: str = None, dataset_id: str = None) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        添加维度（使用 Repository）
														
 
															+        
														
 
															+        Args:
														
 
															+            name: 维度名称
														
 
															+            description: 维度描述
														
 
															+            dataset_id: 数据集ID
														
 
															+            
														
 
															+        Returns:
														
 
															+            新建的维度信息
														
 
															+        """
														
 
															+        # 插入新维度
														
 
															+        self.dimension_repo.insert({
														
 
															+            "name": name,
														
 
															+            "description": description,
														
 
															+            "dataset_id": dataset_id
														
 
															+        })
														
 
															+        
														
 
															+        # 返回新建的维度
														
 
															+        return self.dimension_repo.find_by_name(name)
														
 
															+    
														
 
															+    def update_dimension(self, dimension_id: int, name: str = None, description: str = None) -> int:
														
 
															+        """
														
 
															+        更新维度信息（使用 Repository）
														
 
															+        
														
 
															+        Args:
														
 
															+            dimension_id: 维度ID
														
 
															+            name: 维度名称
														
 
															+            description: 维度描述
														
 
															+            
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        update_data = {}
														
 
															+        if name is not None:
														
 
															+            update_data["name"] = name
														
 
															+        if description is not None:
														
 
															+            update_data["description"] = description
														
 
															+        
														
 
															+        if not update_data:
														
 
															+            return 0
														
 
															+        
														
 
															+        return self.dimension_repo.update_by_id(dimension_id, update_data)
														
 
															+    
														
 
															+    def delete_dimension(self, dimension_id: int) -> int:
														
 
															+        """
														
 
															+        删除维度（使用 Repository）
														
 
															+        
														
 
															+        Args:
														
 
															+            dimension_id: 维度ID
														
 
															+            
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        return self.dimension_repo.delete_by_id(dimension_id)
														
 
															+
														
 
															+
														
 
															+# ========== 示例 6: 批量操作 ==========
														
 
															+
														
 
															+def example_batch_operations():
														
 
															+    """批量操作示例"""
														
 
															+    repo = PromptDimensionRepository()
														
 
															+    
														
 
															+    # 批量插入
														
 
															+    data_list = [
														
 
															+        {"name": "维度1", "description": "描述1"},
														
 
															+        {"name": "维度2", "description": "描述2"},
														
 
															+        {"name": "维度3", "description": "描述3"},
														
 
															+    ]
														
 
															+    affected_rows = repo.insert_many(data_list)
														
 
															+    logger.info(f"批量插入了 {affected_rows} 条记录")
														
 
															+    
														
 
															+    # 批量查询
														
 
															+    ids = [1, 2, 3, 4, 5]
														
 
															+    dimensions = repo.find_by_ids(ids)
														
 
															+    logger.info(f"批量查询到 {len(dimensions)} 条记录")
														
 
															+
														
 
															+
														
 
															+# ========== 示例 7: 自定义 SQL ==========
														
 
															+
														
 
															+def example_custom_sql():
														
 
															+    """自定义 SQL 示例"""
														
 
															+    repo = PromptDimensionRepository()
														
 
															+    
														
 
															+    # 执行自定义查询
														
 
															+    sql = """
														
 
															+        SELECT pd.*, COUNT(pv.id) as version_count
														
 
															+        FROM prompt_dimensions pd
														
 
															+        LEFT JOIN prompt_versions pv ON pd.id = pv.dimension_id
														
 
															+        GROUP BY pd.id
														
 
															+        HAVING version_count > 0
														
 
															+        ORDER BY version_count DESC
														
 
															+    """
														
 
															+    results = repo.execute_query(sql)
														
 
															+    
														
 
															+    logger.info(f"查询到 {len(results)} 条记录")
														
--- a/src/api/db/repositories/prompt_dimension_repository.py
+++ b/src/api/db/repositories/prompt_dimension_repository.py
@@ -0,0 +1,105 @@
 
															+"""
														
 
															+提示词维度 Repository
														
 
															+
														
 
															+提供提示词维度相关的数据库操作。
														
 
															+"""
														
 
															+
														
 
															+from typing import List, Dict, Any, Optional
														
 
															+from src.utils.mysql import MySQLRepository
														
 
															+from src.common.logging_config import get_logger
														
 
															+
														
 
															+logger = get_logger(__name__)
														
 
															+
														
 
															+
														
 
															+class PromptDimensionRepository(MySQLRepository):
														
 
															+    """
														
 
															+    提示词维度 Repository
														
 
															+    
														
 
															+    封装 prompt_dimensions 表的数据库操作。
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(self, db_client=None):
														
 
															+        """
														
 
															+        初始化提示词维度 Repository
														
 
															+        
														
 
															+        Args:
														
 
															+            db_client: MySQL 连接客户端，如果为 None 则使用全局客户端
														
 
															+        """
														
 
															+        super().__init__("prompt_dimensions", db_client)
														
 
															+    
														
 
															+    def find_by_name(self, name: str) -> Optional[Dict[str, Any]]:
														
 
															+        """
														
 
															+        根据名称查找维度
														
 
															+        
														
 
															+        Args:
														
 
															+            name: 维度名称
														
 
															+            
														
 
															+        Returns:
														
 
															+            维度信息字典，不存在返回 None
														
 
															+        """
														
 
															+        return self.find_one({"name": name})
														
 
															+    
														
 
															+    def find_active_dimensions(self) -> List[Dict[str, Any]]:
														
 
															+        """
														
 
															+        查找所有激活的维度
														
 
															+        
														
 
															+        Returns:
														
 
															+            维度列表
														
 
															+        """
														
 
															+        # 注意：如果表中没有 is_active 字段，需要根据实际表结构调整
														
 
															+        return self.find_all(order_by="created_at DESC")
														
 
															+    
														
 
															+    def get_dimensions_with_active_prompts(self) -> List[Dict[str, Any]]:
														
 
															+        """
														
 
															+        关联查询维度和激活的提示词版本
														
 
															+        
														
 
															+        Returns:
														
 
															+            包含维度信息和提示词内容的列表
														
 
															+        """
														
 
															+        builder = self._create_query_builder()
														
 
															+        builder.select([
														
 
															+            "pd.id", 
														
 
															+            "pd.name", 
														
 
															+            "pd.description",
														
 
															+            "pd.dataset_id",
														
 
															+            "pv.content as prompt_content", 
														
 
															+            "pv.version_number",
														
 
															+            "pv.is_active"
														
 
															+        ])
														
 
															+        builder.join(
														
 
															+            "prompt_versions pv",
														
 
															+            "pd.id = pv.dimension_id AND pv.is_active = 1",
														
 
															+            "LEFT"
														
 
															+        )
														
 
															+        builder.order_by("pd.created_at", "DESC")
														
 
															+        sql, params = builder.build_select()
														
 
															+        return self.execute_query(sql, params)
														
 
															+    
														
 
															+    def get_dimension_with_prompt_by_id(self, dimension_id: int) -> Optional[Dict[str, Any]]:
														
 
															+        """
														
 
															+        根据维度ID获取维度信息和激活的提示词
														
 
															+        
														
 
															+        Args:
														
 
															+            dimension_id: 维度ID
														
 
															+            
														
 
															+        Returns:
														
 
															+            包含维度信息和提示词内容的字典，不存在返回 None
														
 
															+        """
														
 
															+        builder = self._create_query_builder()
														
 
															+        builder.select([
														
 
															+            "pd.id", 
														
 
															+            "pd.name", 
														
 
															+            "pd.description",
														
 
															+            "pd.dataset_id",
														
 
															+            "pv.content as prompt_content", 
														
 
															+            "pv.version_number"
														
 
															+        ])
														
 
															+        builder.join(
														
 
															+            "prompt_versions pv",
														
 
															+            "pd.id = pv.dimension_id AND pv.is_active = 1",
														
 
															+            "LEFT"
														
 
															+        )
														
 
															+        builder.where_eq("pd.id", dimension_id)
														
 
															+        builder.limit(1)
														
 
															+        sql, params = builder.build_select()
														
 
															+        return self.execute_query(sql, params)[0] if self.execute_query(sql, params) else None
														
--- a/src/api/db/repositories/ragflow_user_repository.py
+++ b/src/api/db/repositories/ragflow_user_repository.py
@@ -0,0 +1,46 @@
 
															+"""
														
 
															+RAGFlow 用户 Repository
														
 
															+
														
 
															+提供 RAGFlow 用户相关的数据库操作。
														
 
															+"""
														
 
															+
														
 
															+from typing import Optional, Dict, Any
														
 
															+from src.utils.mysql import MySQLRepository
														
 
															+from src.common.logging_config import get_logger
														
 
															+
														
 
															+logger = get_logger(__name__)
														
 
															+
														
 
															+
														
 
															+class RagflowUserRepository(MySQLRepository):
														
 
															+    """
														
 
															+    RAGFlow 用户 Repository
														
 
															+    
														
 
															+    封装 ragflow_user 表的数据库操作。
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(self, db_client=None):
														
 
															+        """
														
 
															+        初始化 RAGFlow 用户 Repository
														
 
															+        
														
 
															+        Args:
														
 
															+            db_client: MySQL 连接客户端，如果为 None 则使用全局客户端
														
 
															+        """
														
 
															+        super().__init__("ragflow_user", db_client)
														
 
															+    
														
 
															+    def get_ragflow_id_and_api_key(self, id: int) -> Optional[Dict[str, Any]]:
														
 
															+        """
														
 
															+        根据主键 id 获取 ragflow_id（user_id）和 api_key
														
 
															+        
														
 
															+        Args:
														
 
															+            id: 主键ID
														
 
															+            
														
 
															+        Returns:
														
 
															+            包含 ragflow_id 和 api_key 的字典，不存在返回 None
														
 
															+        """
														
 
															+        result = self.find_by_id(id)
														
 
															+        if result:
														
 
															+            return {
														
 
															+                "ragflow_id": result.get("ragflow_id"),
														
 
															+                "api_key": result.get("api_key")
														
 
															+            }
														
 
															+        return None
														
--- a/src/api/db/services/infinity_search_service.py
+++ b/src/api/db/services/infinity_search_service.py
@@ -138,9 +138,9 @@ class InfinitySearchService:
 
															                 "matching_text": request.matching_text,
														
 
															                 "vector_field": self.vector_field,
														
 
															                 "query_vector": query_vector,
														
 
															-                "topn": request.topn,
														
 
															+                "topn": request.topk,
														
 
															                 "knn_params": {
														
 
															-                    "ef": str(request.topn * 10),
														
 
															+                    "ef": str(request.topk * 10),
														
 
															                     "threshold": str(request.score_threshold)
														
 
															                 }
														
 
															             }
														
--- a/src/api/db/services/vector_search_service.py
+++ b/src/api/db/services/vector_search_service.py
@@ -59,7 +59,7 @@ class VectorSearchService:
 
															         self.vector_field = vector_field or "dense_vector_1024"
														
 
															         self.match_field = match_field or "content"
														
 
															         self.match_type = match_type or "cosine"
														
 
															-        self.table_name = table_name or "ragbook_1_4981b64cf8d611f095d95a49fdb98e7b"
														
 
															+        self.table_name = table_name or None
														
 
															     @property
														
 
															     def client(self) -> VectorDBClient:
														
@@ -114,7 +114,7 @@ class VectorSearchService:
 
															         """
														
 
															         try:
														
 
															             search_query = self._convert_search_request_to_search_query(request)
														
 
															-            result = self._client.hybrid_search(self.table_name, self.output_fields, search_query)
														
 
															+            result = self._client.hybrid_search(table_name=request.database_ids, output_fields=self.output_fields, query=search_query)
														
 
															             return result.to_result()
														
 
															         except Exception as e:
														
 
															             logger.error(f"混合搜索失败: {str(e)}")
														
@@ -138,9 +138,9 @@ class VectorSearchService:
 
															                 "matching_text": request.matching_text,
														
 
															                 "vector_field": self.vector_field,
														
 
															                 "query_vector": query_vector,
														
 
															-                "topn": request.topn,
														
 
															+                "topn": request.topk,
														
 
															                 "knn_params": {
														
 
															-                    "ef": str(request.topn * 10),
														
 
															+                    "ef": str(request.topk * 10),
														
 
															                     "threshold": str(request.score_threshold) if request.score_threshold else "0"
														
 
															                 }
														
 
															             }
														
--- a/src/api/sdk/search_infinity.py
+++ b/src/api/sdk/search_infinity.py
@@ -81,10 +81,10 @@ async def question_search(request: SearchRequest):
 
															     - **database_name**: 数据库名称（可选，默认使用客户端配置的数据库）
														
 
															     """
														
 
															     try:
														
 
															-        output_fields = ["content"]
														
 
															+        output_fields = ["content_with_weight"]
														
 
															         search_service = VectorSearchService(
														
 
															             client=get_vector_db_client(database="ragflow_db"), 
														
 
															-            table_name="ragflow_92162247e93e11f084830242ac1d0002_1c4f7a82f66c11f09c750242c0a8d002", 
														
 
															+            table_name="ragflow_f3abf26bf80c11f0953d0242ac180002", 
														
 
															             vector_field="q_1024_vec",
														
 
															             output_fields=output_fields
														
 
															         )
														
--- a/src/datasets/parser/nodes/__init__.py
+++ b/src/datasets/parser/nodes/__init__.py
@@ -21,6 +21,7 @@ from src.datasets.parser.nodes.export_csv_node import ExportCSVNode
 
															 from src.datasets.parser.nodes.prompt_retrieval_node import PromptRetrievalNode
														
 
															 from src.datasets.parser.nodes.table_name_generation_node import TableNameGenerationNode
														
 
															 from src.datasets.parser.nodes.dimension_result_node import DimensionResultNode
														
 
															+from src.datasets.parser.nodes.picture_stitching_node import PictureStitchingNode
														
 
															 __all__ = [
														
 
															     "PDFSplitNode",
														
@@ -38,4 +39,5 @@ __all__ = [
 
															     "PromptRetrievalNode",
														
 
															     "TableNameGenerationNode",
														
 
															     "DimensionResultNode",
														
 
															+    "PictureStitchingNode",
														
 
															 ]
														
--- a/src/datasets/parser/nodes/image_parse_node.py
+++ b/src/datasets/parser/nodes/image_parse_node.py
@@ -22,10 +22,13 @@ class ImageParseNode(BaseNode):
 
															     """
														
 
															     图像解析节点
														
 
															-    使用VL模型（如Qwen-VL）解析图像内容，支持并行处理多张图片。
														
 
															+    使用VL模型（如Qwen-VL）解析图像内容，支持两种模式：
														
 
															+    1. 分页模式：解析多张分页图片（split_pages）
														
 
															+    2. 书本模式：解析一张完整的长图（book_image）
														
 
															     需要的状态字段:
														
 
															-        - split_pages: 待解析的页面列表（包含image字段）
														
 
															+        - split_pages: 待解析的页面列表（包含image字段，分页模式）
														
 
															+        - book_image: 完整书本图片（书本模式）
														
 
															     更新的状态字段:
														
 
															         - parsed_results: 解析结果列表
														
@@ -35,37 +38,56 @@ class ImageParseNode(BaseNode):
 
															     def __init__(
														
 
															         self,
														
 
															         model_name: Optional[str] = None,
														
 
															-        max_workers: int = 5
														
 
															+        max_workers: int = 5,
														
 
															+        use_book_image: bool = False
														
 
															     ):
														
 
															         """
														
 
															         初始化图像解析节点
														
 
															         Args:
														
 
															             model_name: VL模型名称
														
 
															-            max_workers: 并行处理的最大工作线程数（已废弃，使用全局线程池）
														
 
															-            prompt_template: 自定义提示词模板
														
 
															+            max_workers: 并行处理的最大工作线程数（已废弃，使用全局线程池，仅分页模式使用）
														
 
															+            use_book_image: 是否使用book_image模式（True=解析完整长图，False=解析分页图片）
														
 
															         """
														
 
															         self.model_name = model_name or model_settings.vl_model_name
														
 
															         self.max_workers = max_workers  # 保留兼容性但不再使用
														
 
															+        self.use_book_image = use_book_image
														
 
															     @property
														
 
															     def name(self) -> str:
														
 
															         return "image_parse"
														
 
															-    def _default_prompt_template(self) -> str:
														
 
															-        """默认的图像解析提示词模板"""
														
 
															-        return """
														
 
															-            角色定位：你是一位顶尖的儿童绘本分析师与视觉工程专家，擅长将插画视觉信息转化为高精度的结构化元数据。
														
 
															-            任务描述：请深度解析提供的绘本页面，提取基本要素和特征。
														
 
															-            当前提取页码为：{page_number}
														
 
															-            
														
 
															-            输出格式：JSON
														
 
															-            {{
														
 
															-                "page_number": {page_number},
														
 
															-                "content": "页面内容描述",
														
 
															-                "elements": []
														
 
															-            }}
														
 
															+    def _default_prompt_template(self, is_book_image: bool = False) -> str:
														
 
															         """
														
 
															+        默认的图像解析提示词模板
														
 
															+        
														
 
															+        Args:
														
 
															+            is_book_image: 是否为完整书本图片模式
														
 
															+        """
														
 
															+        if is_book_image:
														
 
															+            return """
														
 
															+                角色定位：你是一位顶尖的儿童绘本分析师与视觉工程专家，擅长将插画视觉信息转化为高精度的结构化元数据。
														
 
															+                任务描述：请深度解析提供的完整绘本图片（包含所有页面），提取基本要素和特征。
														
 
															+                
														
 
															+                输出格式：JSON
														
 
															+                {{
														
 
															+                    "content": "完整绘本内容描述",
														
 
															+                    "elements": []
														
 
															+                }}
														
 
															+            """
														
 
															+        else:
														
 
															+            return """
														
 
															+                角色定位：你是一位顶尖的儿童绘本分析师与视觉工程专家，擅长将插画视觉信息转化为高精度的结构化元数据。
														
 
															+                任务描述：请深度解析提供的绘本页面，提取基本要素和特征。
														
 
															+                当前提取页码为：{page_number}
														
 
															+                
														
 
															+                输出格式：JSON
														
 
															+                {{
														
 
															+                    "page_number": {page_number},
														
 
															+                    "content": "页面内容描述",
														
 
															+                    "elements": []
														
 
															+                }}
														
 
															+            """
														
 
															     def _parse_single_page(self, page: Dict[str, Any], prompt_template: str) -> Dict[str, Any]:
														
 
															         """
														
@@ -106,49 +128,105 @@ class ImageParseNode(BaseNode):
 
															                 "error": str(e)
														
 
															             }
														
 
															-    def execute(self, state: BaseState) -> Dict[str, Any]:
														
 
															+    def _parse_book_image(self, book_image, prompt_template: str) -> Dict[str, Any]:
														
 
															         """
														
 
															-        执行图像解析
														
 
															+        解析完整书本图片
														
 
															         Args:
														
 
															-            state: 包含split_pages或image_pages的状态
														
 
															+            book_image: PIL图像对象，完整的书本长图
														
 
															+            prompt_template: 提示词模板
														
 
															         Returns:
														
 
															-            包含parsed_results的更新字典
														
 
															+            解析结果字典
														
 
															         """
														
 
															-        # 支持多种状态字段名称
														
 
															-        pages = getattr(state, 'split_pages', None) or getattr(state, 'image_pages', [])
														
 
															-        prompt_template = state.dimension_prompt or self._default_prompt_template()
														
 
															-        if not pages:
														
 
															-            logger.warning("没有待解析的页面")
														
 
															-            return {"parsed_results": [], "processed_pages": 0}
														
 
															-        
														
 
															-        logger.info(f"开始并行解析 {len(pages)} 页")
														
 
															-        
														
 
															-        parsed_results = []
														
 
															+        logger.info("开始解析完整书本图片")
														
 
															-        # 使用全局线程池
														
 
															-        pool = ThreadPoolManager.get_pool("parser")
														
 
															-        future_to_page = {
														
 
															-            pool.submit(self._parse_single_page, page, prompt_template): page
														
 
															-            for page in pages
														
 
															-        }
														
 
															-        
														
 
															-        for future in concurrent.futures.as_completed(future_to_page):
														
 
															-            try:
														
 
															-                result = future.result()
														
 
															-                parsed_results.append(result)
														
 
															-            except Exception as e:
														
 
															-                page = future_to_page[future]
														
 
															-                logger.error(f"解析第 {page.get('page_number', '?')} 页时出错: {str(e)}")
														
 
															-        
														
 
															-        # 按页码排序结果
														
 
															-        parsed_results.sort(key=lambda x: x.get("page_number", 0))
														
 
															+        try:
														
 
															+            parser = QWenVLParser(self.model_name)
														
 
															+            # 对于完整书本图片，page_number设为0或None
														
 
															+            result = parser.parse_image(book_image, 0, prompt_template)
														
 
															+            
														
 
															+            logger.info("完整书本图片解析完成")
														
 
															+            return result
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"解析完整书本图片时出错: {str(e)}")
														
 
															+            return {
														
 
															+                "content": "",
														
 
															+                "error": str(e)
														
 
															+            }
														
 
															+    
														
 
															+    def execute(self, state: BaseState) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        执行图像解析
														
 
															-        logger.info(f"所有页面解析完成，共解析 {len(parsed_results)} 页")
														
 
															+        支持两种模式：
														
 
															+        1. 分页模式（use_book_image=False）：解析split_pages中的多张分页图片
														
 
															+        2. 书本模式（use_book_image=True）：解析book_image中的完整长图
														
 
															-        return {
														
 
															-            "parsed_results": parsed_results,
														
 
															-            "processed_pages": len(parsed_results),
														
 
															-            "is_complete": True
														
 
															-        }
														
 
															+        Args:
														
 
															+            state: 包含split_pages或book_image的状态
														
 
															+            
														
 
															+        Returns:
														
 
															+            包含parsed_results的更新字典
														
 
															+        """
														
 
															+        # 检查使用哪种模式
														
 
															+        if self.use_book_image:
														
 
															+            # 书本模式：解析完整长图
														
 
															+            book_image = getattr(state, 'book_image', None)
														
 
															+            if book_image is None:
														
 
															+                logger.warning("book_image为空，无法解析")
														
 
															+                return {"parsed_results": [], "processed_pages": 0}
														
 
															+            
														
 
															+            prompt_template = state.dimension_prompt or self._default_prompt_template(is_book_image=True)
														
 
															+            
														
 
															+            logger.info("使用书本模式解析完整长图")
														
 
															+            result = self._parse_book_image(book_image, prompt_template)
														
 
															+            
														
 
															+            # 将结果包装成列表格式以保持兼容性
														
 
															+            parsed_results = [result] if result else []
														
 
															+            
														
 
															+            logger.info("完整书本图片解析完成")
														
 
															+            
														
 
															+            return {
														
 
															+                "parsed_results": parsed_results,
														
 
															+                "processed_pages": 1 if parsed_results else 0,
														
 
															+                "is_complete": True
														
 
															+            }
														
 
															+        else:
														
 
															+            # 分页模式：解析多张分页图片
														
 
															+            pages = getattr(state, 'split_pages', None) or getattr(state, 'image_pages', [])
														
 
															+            prompt_template = state.dimension_prompt or self._default_prompt_template(is_book_image=False)
														
 
															+            
														
 
															+            if not pages:
														
 
															+                logger.warning("没有待解析的页面")
														
 
															+                return {"parsed_results": [], "processed_pages": 0}
														
 
															+            
														
 
															+            logger.info(f"使用分页模式，开始并行解析 {len(pages)} 页")
														
 
															+            
														
 
															+            parsed_results = []
														
 
															+            
														
 
															+            # 使用全局线程池
														
 
															+            pool = ThreadPoolManager.get_pool("parser")
														
 
															+            future_to_page = {
														
 
															+                pool.submit(self._parse_single_page, page, prompt_template): page
														
 
															+                for page in pages
														
 
															+            }
														
 
															+            
														
 
															+            for future in concurrent.futures.as_completed(future_to_page):
														
 
															+                try:
														
 
															+                    result = future.result()
														
 
															+                    parsed_results.append(result)
														
 
															+                except Exception as e:
														
 
															+                    page = future_to_page[future]
														
 
															+                    logger.error(f"解析第 {page.get('page_number', '?')} 页时出错: {str(e)}")
														
 
															+            
														
 
															+            # 按页码排序结果
														
 
															+            parsed_results.sort(key=lambda x: x.get("page_number", 0))
														
 
															+            
														
 
															+            logger.info(f"所有页面解析完成，共解析 {len(parsed_results)} 页")
														
 
															+            
														
 
															+            return {
														
 
															+                "parsed_results": parsed_results,
														
 
															+                "processed_pages": len(parsed_results),
														
 
															+                "is_complete": True
														
 
															+            }
														
--- a/src/datasets/parser/nodes/picture_stitching_node.py
+++ b/src/datasets/parser/nodes/picture_stitching_node.py
@@ -0,0 +1,105 @@
 
															+"""
														
 
															+图片拼接节点
														
 
															+
														
 
															+将拆分的PDF页面图片按页码顺序拼接成一张长图。
														
 
															+"""
														
 
															+
														
 
															+from typing import Dict, Any
														
 
															+from PIL import Image
														
 
															+from src.datasets.parser.core.base import BaseNode, BaseState
														
 
															+from src.datasets.parser.core.registry import register_node
														
 
															+from src.common.logging_config import get_logger
														
 
															+
														
 
															+logger = get_logger(__name__)
														
 
															+
														
 
															+
														
 
															+@register_node()
														
 
															+class PictureStitchingNode(BaseNode):
														
 
															+    """
														
 
															+    图片拼接节点
														
 
															+    
														
 
															+    将拆分后的PDF页面图片按页码顺序垂直拼接成一张长图。
														
 
															+    
														
 
															+    需要的状态字段:
														
 
															+        - split_pages: 拆分后的页面列表，每个元素包含:
														
 
															+            - page_number: 页码
														
 
															+            - image: PIL图像对象
														
 
															+            
														
 
															+    更新的状态字段:
														
 
															+        - book_image: 拼接后的完整书本图片
														
 
															+    """
														
 
															+    
														
 
															+    @property
														
 
															+    def name(self) -> str:
														
 
															+        return "picture_stitching"
														
 
															+    
														
 
															+    def execute(self, state: BaseState) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        执行图片拼接
														
 
															+        
														
 
															+        Args:
														
 
															+            state: 包含split_pages的状态
														
 
															+            
														
 
															+        Returns:
														
 
															+            包含book_image的更新字典
														
 
															+        """
														
 
															+        split_pages = getattr(state, 'split_pages', None)
														
 
															+        
														
 
															+        if not split_pages:
														
 
															+            raise ValueError("State must contain 'split_pages' field with image data")
														
 
															+        
														
 
															+        if not split_pages:
														
 
															+            raise ValueError("split_pages is empty, no images to stitch")
														
 
															+        
														
 
															+        logger.info(f"开始拼接图片，共 {len(split_pages)} 页")
														
 
															+        
														
 
															+        # 按页码排序
														
 
															+        sorted_pages = sorted(split_pages, key=lambda x: x.get('page_number', 0))
														
 
															+        
														
 
															+        # 提取所有图片
														
 
															+        images = []
														
 
															+        for page in sorted_pages:
														
 
															+            image = page.get('image')
														
 
															+            if image is None:
														
 
															+                logger.warning(f"页码 {page.get('page_number')} 的图片为空，跳过")
														
 
															+                continue
														
 
															+            if not isinstance(image, Image.Image):
														
 
															+                logger.warning(f"页码 {page.get('page_number')} 的图片类型不正确: {type(image)}，跳过")
														
 
															+                continue
														
 
															+            images.append(image)
														
 
															+        
														
 
															+        if not images:
														
 
															+            raise ValueError("没有有效的图片可以拼接")
														
 
															+        
														
 
															+        logger.info(f"有效图片数量: {len(images)}")
														
 
															+        
														
 
															+        # 计算拼接后图片的尺寸
														
 
															+        # 宽度取所有图片的最大宽度
														
 
															+        max_width = max(img.width for img in images)
														
 
															+        # 高度为所有图片高度之和
														
 
															+        total_height = sum(img.height for img in images)
														
 
															+        
														
 
															+        logger.info(f"拼接后图片尺寸: {max_width}x{total_height}")
														
 
															+        
														
 
															+        # 创建新的空白图片
														
 
															+        stitched_image = Image.new('RGB', (max_width, total_height), color='white')
														
 
															+        
														
 
															+        # 垂直拼接所有图片
														
 
															+        current_y = 0
														
 
															+        for idx, img in enumerate(images):
														
 
															+            # 如果图片宽度小于最大宽度，将其居中放置
														
 
															+            x_offset = (max_width - img.width) // 2
														
 
															+            
														
 
															+            # 将图片粘贴到目标位置
														
 
															+            stitched_image.paste(img, (x_offset, current_y))
														
 
															+            
														
 
															+            # 更新当前y坐标
														
 
															+            current_y += img.height
														
 
															+            
														
 
															+            logger.debug(f"已拼接第 {idx + 1}/{len(images)} 页，当前高度: {current_y}")
														
 
															+        
														
 
															+        logger.info(f"图片拼接完成，最终尺寸: {stitched_image.size}")
														
 
															+        
														
 
															+        return {
														
 
															+            "book_image": stitched_image
														
 
															+        }
														
--- a/src/datasets/parser/nodes/picture_stitching_node_example.md
+++ b/src/datasets/parser/nodes/picture_stitching_node_example.md
@@ -0,0 +1,111 @@
 
															+# PictureStitchingNode 使用示例
														
 
															+
														
 
															+## 功能说明
														
 
															+
														
 
															+`PictureStitchingNode` 节点用于将 PDF 拆分后的多个页面图片按页码顺序垂直拼接成一张长图。
														
 
															+
														
 
															+## 输入要求
														
 
															+
														
 
															+节点需要 state 中包含以下字段：
														
 
															+
														
 
															+- `split_pages`: List[Dict] - 拆分后的页面列表，每个元素包含：
														
 
															+  - `page_number`: int - 页码
														
 
															+  - `image`: PIL.Image.Image - 图片对象
														
 
															+
														
 
															+## 输出
														
 
															+
														
 
															+节点会更新 state，添加以下字段：
														
 
															+
														
 
															+- `book_image`: PIL.Image.Image - 拼接后的完整书本图片
														
 
															+
														
 
															+## 使用示例
														
 
															+
														
 
															+### 1. 在工作流中使用
														
 
															+
														
 
															+```python
														
 
															+from src.datasets.parser.workflows.base import WorkflowBuilder
														
 
															+from src.datasets.parser.nodes.pdf_split_node import PDFSplitNode
														
 
															+from src.datasets.parser.nodes.picture_stitching_node import PictureStitchingNode
														
 
															+
														
 
															+# 创建工作流
														
 
															+workflow = WorkflowBuilder()
														
 
															+
														
 
															+# 添加节点
														
 
															+workflow.add_node(PDFSplitNode())
														
 
															+workflow.add_node(PictureStitchingNode())
														
 
															+
														
 
															+# 连接节点
														
 
															+workflow.add_edge("pdf_split", "picture_stitching")
														
 
															+workflow.set_entry_point("pdf_split")
														
 
															+workflow.set_finish_point("picture_stitching")
														
 
															+
														
 
															+# 编译工作流
														
 
															+app = workflow.compile()
														
 
															+
														
 
															+# 执行工作流
														
 
															+result = app.invoke({
														
 
															+    "pdf_path": "path/to/your.pdf",
														
 
															+    "dataset_name": "my_dataset",
														
 
															+    "page_dataset_id": "dataset_123"
														
 
															+})
														
 
															+
														
 
															+# 获取拼接后的图片
														
 
															+book_image = result["book_image"]
														
 
															+book_image.save("stitched_book.png")
														
 
															+```
														
 
															+
														
 
															+### 2. 单独使用节点
														
 
															+
														
 
															+```python
														
 
															+from src.datasets.parser.nodes.picture_stitching_node import PictureStitchingNode
														
 
															+from src.datasets.parser.states.parser_states import PDFParsingState
														
 
															+
														
 
															+# 准备状态（假设已经有拆分后的页面）
														
 
															+state = PDFParsingState(
														
 
															+    dataset_name="my_dataset",
														
 
															+    page_dataset_id="dataset_123",
														
 
															+    split_pages=[
														
 
															+        {"page_number": 1, "image": image1},
														
 
															+        {"page_number": 2, "image": image2},
														
 
															+        {"page_number": 3, "image": image3},
														
 
															+    ]
														
 
															+)
														
 
															+
														
 
															+# 执行拼接
														
 
															+node = PictureStitchingNode()
														
 
															+result = node.execute(state)
														
 
															+
														
 
															+# 获取拼接后的图片
														
 
															+book_image = result["book_image"]
														
 
															+```
														
 
															+
														
 
															+## 特性
														
 
															+
														
 
															+1. **自动排序**: 节点会自动按 `page_number` 对页面进行排序，确保拼接顺序正确
														
 
															+2. **居中对齐**: 如果某些页面宽度不同，较窄的页面会被居中放置
														
 
															+3. **容错处理**: 自动跳过缺失或无效的图片，只拼接有效的页面
														
 
															+4. **详细日志**: 提供详细的处理日志，便于调试和监控
														
 
															+
														
 
															+## 注意事项
														
 
															+
														
 
															+1. 拼接后的图片可能会很大，请注意内存使用
														
 
															+2. 如果 PDF 页面很多（如超过 100 页），建议考虑分批处理
														
 
															+3. 图片宽度以所有页面中的最大宽度为准
														
 
															+4. 图片高度为所有页面高度之和
														
 
															+
														
 
															+## 性能优化建议
														
 
															+
														
 
															+对于大型 PDF（如超过 50 页），可以考虑：
														
 
															+
														
 
															+1. 在拼接前降低图片分辨率
														
 
															+2. 使用分段拼接，每次处理固定数量的页面
														
 
															+3. 异步处理和保存结果
														
 
															+
														
 
															+## 错误处理
														
 
															+
														
 
															+节点会在以下情况抛出异常：
														
 
															+
														
 
															+- `split_pages` 字段不存在或为空
														
 
															+- 所有页面的图片都无效或缺失
														
 
															+
														
 
															+在这些情况下，请检查 PDF 拆分节点是否正常执行。
														
--- a/src/datasets/parser/nodes/qa_generate_node.py
+++ b/src/datasets/parser/nodes/qa_generate_node.py
@@ -68,23 +68,41 @@ class QAGenerateNode(BaseNode):
 
															             QA对列表
														
 
															         """
														
 
															         prompt = f"""
														
 
															-            请根据以下文本内容，生成{count}个高质量的问答对。
														
 
															-            
														
 
															-            要求：
														
 
															-            1. 问题应该多样化，涵盖文本的不同方面
														
 
															-            2. 答案应该准确、完整，直接来源于文本
														
 
															-            3. 问题应该自然，像真实用户会问的问题
														
 
															-            4. 避免过于简单或过于复杂的问题
														
 
															-            5. 校验必须以完整的JSON数组格式输出
														
 
															+        # Role
														
 
															+        你是一位深耕 0-14 岁儿童教育与少儿出版行业 的资深知识萃取专家。你具备儿童心理学、教育学（如皮亚杰认知发展理论、维果茨基最近发展区）以及全球童书出版趋势的深厚洞察力。
														
 
															-            文本内容：
														
 
															-            {chunk}
														
 
															-            
														
 
															-            请以JSON数组格式输出，每个元素包含"question"和"answer"字段：
														
 
															-            [
														
 
															-                {{"question": "问题1", "answer": "答案1"}},
														
 
															-                {{"question": "问题2", "answer": "答案2"}}
														
 
															-            ]
														
 
															+        # Task
														
 
															+        请阅读文本内容：{chunk}，生成 {count} 个高质量问答对。
														
 
															+
														
 
															+        # Target Audience
														
 
															+        0-14 岁儿童（提问语气要亲切、好奇、具有代入感）。
														
 
															+
														
 
															+        # Requirements
														
 
															+        提问视角（For Kids）：
														
 
															+        - 禁止说教。使用“如果你是...”、“你猜...”、“为什么...会这样”等激发好奇心的问句。
														
 
															+        - 问题要能关联孩子的生活经验或想象力。
														
 
															+        
														
 
															+        回答要求（Double-Layer & Slim）：
														
 
															+        - 基础事实 + 深度启发：先用一句话讲清事实，再用一句话点破底层逻辑或引导实践。
														
 
															+        - 字数铁律：每个答案严禁超过 50 字。
														
 
															+
														
 
															+        扩展维度：
														
 
															+        - 好奇心钩子：为什么这个知识很酷？
														
 
															+        - 生活实验室：你现在可以试着做什么？
														
 
															+        - 情绪/逻辑种子：这背后的道理是什么？
														
 
															+
														
 
															+        # Output Standards
														
 
															+        格式：必须以完整的 JSON 数组格式输出。
														
 
															+        - 严禁：任何多余的开场白或解释文字。
														
 
															+
														
 
															+        # Output Format (JSON Only)
														
 
															+        JSON格式如下：
														
 
															+        [
														
 
															+            {{
														
 
															+                "question": "（面向孩子的好奇心提问）",
														
 
															+                "answer": "（事实要点+深度启发，50字以内）"
														
 
															+            }}
														
 
															+        ]
														
 
															         """
														
 
															         logger.debug(f"开始为第 {chunk_index + 1} 块生成QA对")
														
@@ -111,20 +129,178 @@ class QAGenerateNode(BaseNode):
 
															         Returns:
														
 
															             QA对列表
														
 
															         """
														
 
															-        try:
														
 
															-            # 尝试直接解析JSON
														
 
															-            return json.loads(response)
														
 
															-        except json.JSONDecodeError:
														
 
															-            # 尝试提取JSON部分
														
 
															-            import re
														
 
															-            json_match = re.search(r'\[[\s\S]*\]', response)
														
 
															-            if json_match:
														
 
															-                try:
														
 
															-                    return json.loads(json_match.group())
														
 
															-                except json.JSONDecodeError:
														
 
															-                    pass
														
 
															-            logger.warning(f"无法解析QA响应为JSON: {response}")
														
 
															+        import re
														
 
															+        
														
 
															+        if not response:
														
 
															             return []
														
 
															+        
														
 
															+        # 清理响应文本
														
 
															+        cleaned_response = response.strip()
														
 
															+        
														
 
															+        # 移除 BOM 标记
														
 
															+        if cleaned_response.startswith('\ufeff'):
														
 
															+            cleaned_response = cleaned_response[1:]
														
 
															+        
														
 
															+        # 1. 尝试直接解析JSON
														
 
															+        try:
														
 
															+            return json.loads(cleaned_response)
														
 
															+        except json.JSONDecodeError as e:
														
 
															+            logger.debug(f"直接解析失败: {str(e)}")
														
 
															+            pass
														
 
															+        
														
 
															+        # 1.5. 尝试使用 raw_decode 解析（可以跳过前面的非JSON文本）
														
 
															+        try:
														
 
															+            decoder = json.JSONDecoder()
														
 
															+            result, idx = decoder.raw_decode(cleaned_response)
														
 
															+            if isinstance(result, list):
														
 
															+                return result
														
 
															+        except (json.JSONDecodeError, ValueError) as e:
														
 
															+            logger.debug(f"raw_decode 解析失败: {str(e)}")
														
 
															+            pass
														
 
															+        
														
 
															+        # 2. 尝试去除 markdown 代码块标记
														
 
															+        # 匹配 ```json ... ``` 或 ``` ... ```
														
 
															+        code_block_pattern = r'```(?:json)?\s*\n?(.*?)\n?```'
														
 
															+        code_block_match = re.search(code_block_pattern, cleaned_response, re.DOTALL)
														
 
															+        if code_block_match:
														
 
															+            try:
														
 
															+                json_content = code_block_match.group(1).strip()
														
 
															+                return json.loads(json_content)
														
 
															+            except json.JSONDecodeError:
														
 
															+                pass
														
 
															+        
														
 
															+        # 3. 尝试提取第一个完整的 JSON 数组
														
 
															+        # 使用括号匹配算法，正确处理嵌套的 [] 和 {}
														
 
															+        bracket_count = 0
														
 
															+        brace_count = 0
														
 
															+        start_idx = -1
														
 
															+        in_string = False
														
 
															+        escape_next = False
														
 
															+        
														
 
															+        for i, char in enumerate(cleaned_response):
														
 
															+            if escape_next:
														
 
															+                escape_next = False
														
 
															+                continue
														
 
															+            
														
 
															+            if char == '\\':
														
 
															+                escape_next = True
														
 
															+                continue
														
 
															+            
														
 
															+            if char == '"' and not escape_next:
														
 
															+                in_string = not in_string
														
 
															+                continue
														
 
															+            
														
 
															+            if in_string:
														
 
															+                continue
														
 
															+            
														
 
															+            if char == '[':
														
 
															+                if start_idx == -1:
														
 
															+                    start_idx = i
														
 
															+                bracket_count += 1
														
 
															+            elif char == ']':
														
 
															+                bracket_count -= 1
														
 
															+                if bracket_count == 0 and brace_count == 0 and start_idx != -1:
														
 
															+                    try:
														
 
															+                        json_content = cleaned_response[start_idx:i+1]
														
 
															+                        return json.loads(json_content)
														
 
															+                    except json.JSONDecodeError:
														
 
															+                        # 继续尝试下一个匹配
														
 
															+                        start_idx = -1
														
 
															+                        bracket_count = 0
														
 
															+                        brace_count = 0
														
 
															+            elif char == '{':
														
 
															+                if start_idx != -1:
														
 
															+                    brace_count += 1
														
 
															+            elif char == '}':
														
 
															+                if start_idx != -1:
														
 
															+                    brace_count -= 1
														
 
															+        
														
 
															+        # 4. 尝试使用正则提取 JSON 数组（更宽松的方式）
														
 
															+        json_array_pattern = r'\[\s*(?:\{[^}]*\}(?:\s*,\s*\{[^}]*\})*)?\s*\]'
														
 
															+        json_match = re.search(json_array_pattern, cleaned_response, re.DOTALL)
														
 
															+        if json_match:
														
 
															+            try:
														
 
															+                return json.loads(json_match.group())
														
 
															+            except json.JSONDecodeError:
														
 
															+                pass
														
 
															+        
														
 
															+        # 5. 尝试逐行查找 JSON 数组
														
 
															+        lines = cleaned_response.split('\n')
														
 
															+        json_lines = []
														
 
															+        in_json = False
														
 
															+        bracket_count = 0
														
 
															+        
														
 
															+        for line in lines:
														
 
															+            stripped_line = line.strip()
														
 
															+            if not stripped_line:
														
 
															+                continue
														
 
															+            
														
 
															+            # 检查是否包含 JSON 数组的开始
														
 
															+            if '[' in stripped_line and not in_json:
														
 
															+                in_json = True
														
 
															+                json_lines = [stripped_line]
														
 
															+                bracket_count = stripped_line.count('[') - stripped_line.count(']')
														
 
															+            elif in_json:
														
 
															+                json_lines.append(stripped_line)
														
 
															+                bracket_count += stripped_line.count('[') - stripped_line.count(']')
														
 
															+                
														
 
															+                if bracket_count == 0:
														
 
															+                    try:
														
 
															+                        json_content = '\n'.join(json_lines)
														
 
															+                        return json.loads(json_content)
														
 
															+                    except json.JSONDecodeError:
														
 
															+                        in_json = False
														
 
															+                        json_lines = []
														
 
															+                        bracket_count = 0
														
 
															+        
														
 
															+        # 如果收集到了 JSON 行但还没闭合，尝试解析
														
 
															+        if json_lines:
														
 
															+            try:
														
 
															+                json_content = '\n'.join(json_lines)
														
 
															+                return json.loads(json_content)
														
 
															+            except json.JSONDecodeError:
														
 
															+                pass
														
 
															+        
														
 
															+        # 6. 最后尝试：查找所有可能的 JSON 对象并组合成数组
														
 
															+        try:
														
 
															+            # 查找所有 { ... } 模式的对象
														
 
															+            json_objects = re.findall(r'\{[^{}]*(?:\{[^{}]*\}[^{}]*)*\}', cleaned_response, re.DOTALL)
														
 
															+            if json_objects:
														
 
															+                parsed_objects = []
														
 
															+                for obj_str in json_objects:
														
 
															+                    try:
														
 
															+                        parsed_obj = json.loads(obj_str)
														
 
															+                        if isinstance(parsed_obj, dict) and 'question' in parsed_obj and 'answer' in parsed_obj:
														
 
															+                            parsed_objects.append(parsed_obj)
														
 
															+                    except json.JSONDecodeError:
														
 
															+                        continue
														
 
															+                if parsed_objects:
														
 
															+                    logger.info(f"通过对象提取方式解析到 {len(parsed_objects)} 个QA对")
														
 
															+                    return parsed_objects
														
 
															+        except Exception as e:
														
 
															+            logger.debug(f"对象提取方式失败: {str(e)}")
														
 
															+        
														
 
															+        # 所有方法都失败
														
 
															+        # 记录更详细的错误信息用于调试
														
 
															+        error_info = {
														
 
															+            "response_length": len(cleaned_response),
														
 
															+            "first_100_chars": repr(cleaned_response[:100]),
														
 
															+            "last_100_chars": repr(cleaned_response[-100:]) if len(cleaned_response) > 100 else "",
														
 
															+            "has_bracket": '[' in cleaned_response,
														
 
															+            "has_brace": '{' in cleaned_response,
														
 
															+        }
														
 
															+        logger.warning(f"无法解析QA响应为JSON: {error_info}")
														
 
															+        
														
 
															+        # 尝试最后一次：如果响应看起来像 JSON 数组，尝试修复常见问题
														
 
															+        if cleaned_response.startswith('[') and cleaned_response.endswith(']'):
														
 
															+            try:
														
 
															+                # 尝试修复常见的 JSON 问题：替换中文引号
														
 
															+                fixed_response = cleaned_response.replace('"', '"').replace('"', '"').replace(''', "'").replace(''', "'")
														
 
															+                return json.loads(fixed_response)
														
 
															+            except json.JSONDecodeError:
														
 
															+                pass
														
 
															+        
														
 
															+        return []
														
 
															     def execute(self, state: BaseState) -> Dict[str, Any]:
														
 
															         """
														
--- a/src/datasets/parser/nodes/ragflow_nodes.py
+++ b/src/datasets/parser/nodes/ragflow_nodes.py
@@ -144,6 +144,10 @@ class RAGFlowDocumentUploadNode(BaseNode):
 
															         """
														
 
															         dataset_id = getattr(state, 'dataset_id', '')
														
 
															         # file_path = getattr(state, 'pdf_path', '') or getattr(state, 'csv_path', '')
														
 
															+        if getattr(state, 'csv_path', ''):
														
 
															+            file_path = getattr(state, 'csv_path', '')
														
 
															+        else:
														
 
															+            file_path = getattr(state, 'pdf_path', '')
														
 
															         file_path = getattr(state, 'csv_path', '') or getattr(state, 'pdf_path', '')
														
 
															         if not dataset_id:
														
@@ -177,9 +181,16 @@ class RAGFlowDocumentParseNode(BaseNode):
 
															         - dataset_id: 数据集ID
														
 
															         - document_id: 文档ID
														
 
															     """
														
 
															-    
														
 
															-    def __init__(self):
														
 
															-        self.ragflow_service = RAGFlowService()
														
 
															+
														
 
															+    def __init__(self, api_key: Optional[str] = None):
														
 
															+        """
														
 
															+        初始化文档上传节点
														
 
															+        
														
 
															+        Args:
														
 
															+            
														
 
															+        """
														
 
															+        self.api_key = api_key or ragflow_settings.ragflow_api_key
														
 
															+        self.ragflow_service = RAGFlowService(api_key=self.api_key)
														
 
															     @property
														
 
															     def name(self) -> str:
														
--- a/src/datasets/parser/states/parser_states.py
+++ b/src/datasets/parser/states/parser_states.py
@@ -5,6 +5,7 @@
 
															 """
														
 
															 import io
														
 
															+from PIL import Image
														
 
															 from typing import List, Dict, Any, Optional
														
 
															 from pydantic import Field, ConfigDict
														
 
															 from src.datasets.parser.core.base import BaseState
														
@@ -109,6 +110,13 @@ class VectorizationMixin(BaseState):
 
															     vectorized_count: int = Field(default=0, description="已向量化数量")
														
 
															+class ParsedContent(BaseState):
														
 
															+    """
														
 
															+    解析内容状态
														
 
															+    """
														
 
															+    content: str = Field(default="", description="解析内容")
														
 
															+    dimension_id: int = Field(default=0, description="维度ID")
														
 
															+
														
 
															 class DynamicDimensionState(BaseState):
														
 
															     """
														
 
															     动态维度解析状态
														
@@ -120,20 +128,18 @@ class DynamicDimensionState(BaseState):
 
															     dimension_ids: List[int] = Field(default_factory=list, description="维度ID列表")
														
 
															     dataset_id: str = Field(default="", description="数据集ID")
														
 
															     dimension_prompt: str = Field(default="", description="维度提示词")
														
 
															-    # dataset_name: str = Field(default="", description="数据集名称")
														
 
															     document_id: str = Field(default="", description="文档ID")
														
 
															     ragflow_id: str = Field(default="", description="RagFlow用户ID")
														
 
															     rag_flow_api_key: str = Field(default="", description="RAGFlow API密钥")
														
 
															-    # # RAGFlow 相关
														
 
															-    # ragflow_api_url: str = Field(default="", description="RAGFlow API URL")
														
 
															-    # rag_flow_api_key: str = Field(default="", description="RAGFlow API密钥")
														
 
															     # 中间状态
														
 
															     table_name: str = Field(default="", description="向量表名（由 TableNameGenerationNode 生成）")
														
 
															     split_pages: List[Dict[str, Any]] = Field(default_factory=list, description="拆分后的页面列表")
														
 
															     parsed_results: List[Dict[str, Any]] = Field(default_factory=list, description="解析结果列表")
														
 
															-    
														
 
															+    parsed_contents: List[ParsedContent] = Field(default_factory=list, description="解析内容列表")
														
 
															+    book_image: Image.Image = Field(default=None, description="书本图片")
														
 
															+
														
 
															     # 输出 - 每个维度的结果
														
 
															     dimension_results: Dict[int, Dict[str, Any]] = Field(default_factory=dict, description="每个维度的解析结果")
														
 
															     total_vectorized_pages: int = Field(default=0, description="总向量化页面数")
														
 
															-    is_complete: bool = Field(default=False, description="是否完成")
														
 
															+    is_complete: bool = Field(default=False, description="是否完成")
														
--- a/src/datasets/parser/workflow_nodes/__init__.py
+++ b/src/datasets/parser/workflow_nodes/__init__.py
@@ -1,11 +1,13 @@
 
															 """
														
 
															 工作流节点模块
														
 
															-提供工作流特定的节点组件，如维度技能节点等。
														
 
															+提供工作流特定的节点组件，如维度分页拆分节点、维度书本拆分节点等。
														
 
															 """
														
 
															-from src.datasets.parser.workflow_nodes.dimension_skill_node import DimensionSkillNode
														
 
															+from src.datasets.parser.workflow_nodes.dimension_page_split_node import DimensionPageSplitNode
														
 
															+from src.datasets.parser.workflow_nodes.dimension_book_split_node import DimensionBookSplitNode
														
 
															 __all__ = [
														
 
															-    "DimensionSkillNode",
														
 
															+    "DimensionPageSplitNode",
														
 
															+    "DimensionBookSplitNode",
														
 
															 ]
														
--- a/src/datasets/parser/workflow_nodes/dimension_book_split_node.py
+++ b/src/datasets/parser/workflow_nodes/dimension_book_split_node.py
@@ -0,0 +1,152 @@
 
															+"""
														
 
															+维度书本拆分节点
														
 
															+"""
														
 
															+
														
 
															+from typing import Dict, Any
														
 
															+from src.datasets.parser.core.base import BaseNode
														
 
															+from src.datasets.parser.core.workflow_builder import WorkflowBuilder
														
 
															+from src.datasets.parser.nodes import (
														
 
															+    ImageParseNode, 
														
 
															+    VectorizeNode, 
														
 
															+    PromptRetrievalNode, 
														
 
															+    TableNameGenerationNode, 
														
 
															+    DimensionResultNode,
														
 
															+    RAGFlowDocumentUploadNode,
														
 
															+    RAGFlowChunkNode,
														
 
															+    PictureStitchingNode
														
 
															+)
														
 
															+from src.datasets.parser.states.parser_states import DynamicDimensionState
														
 
															+from src.common.logging_config import get_logger
														
 
															+
														
 
															+logger = get_logger(__name__)
														
 
															+
														
 
															+
														
 
															+class DimensionBookSplitNode(BaseNode):
														
 
															+    """
														
 
															+    维度书本拆分节点
														
 
															+    
														
 
															+    单个维度的处理节点，作为子工作流的构建器和执行器，包含:
														
 
															+    1. 获取维度提示词
														
 
															+    2. 生成向量表名
														
 
															+    3. 将分页图片拼接成完整书本图片
														
 
															+    4. 使用提示词解析完整书本图片
														
 
															+    5. 向量化入库
														
 
															+    6. 记录维度结果
														
 
															+    
														
 
															+    与维度分页拆分节点的区别：
														
 
															+    - 先执行图片拼接，将分页图片拼接成一张长图
														
 
															+    - 使用完整书本图片进行解析，而不是分页图片
														
 
															+    
														
 
															+    每个维度都是独立的 LangGraph 节点，可被 Langfuse 追踪。
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(
														
 
															+        self,
														
 
															+        dimension_id: int,
														
 
															+        model_name: str = "Qwen/Qwen3-VL-8B-Instruct",
														
 
															+        max_workers: int = 5
														
 
															+    ):
														
 
															+        """
														
 
															+        初始化维度书本拆分节点
														
 
															+        
														
 
															+        Args:
														
 
															+            dimension_id: 维度ID
														
 
															+            model_name: VL模型名称
														
 
															+            max_workers: 并行处理的最大工作线程数（对于book_image模式，此参数不使用）
														
 
															+        """
														
 
															+        self.dimension_id = dimension_id
														
 
															+        self.model_name = model_name
														
 
															+        self.max_workers = max_workers
														
 
															+    
														
 
															+    @property
														
 
															+    def name(self) -> str:
														
 
															+        """节点名称，格式: book_split_dim_{id}"""
														
 
															+        return f"book_split_dim_{self.dimension_id}"
														
 
															+    
														
 
															+    def _build_sub_workflow(self, state):
														
 
															+        """
														
 
															+        构建子工作流
														
 
															+        
														
 
															+        Args:
														
 
															+            state: 状态
														
 
															+            
														
 
															+        Returns:
														
 
															+            编译后的 LangGraph 工作流
														
 
															+        """
														
 
															+        logger.info(f"[维度书本拆分-{self.dimension_id}] 开始构建子工作流")
														
 
															+        rag_flow_api_key = getattr(state, 'rag_flow_api_key', '')
														
 
															+
														
 
															+        # 创建工作流构建器
														
 
															+        builder = WorkflowBuilder(DynamicDimensionState)
														
 
															+        
														
 
															+        # 创建节点
														
 
															+        prompt_node = PromptRetrievalNode(self.dimension_id)
														
 
															+        document_upload_node = RAGFlowDocumentUploadNode(api_key=rag_flow_api_key)
														
 
															+        table_name_node = TableNameGenerationNode(self.dimension_id)
														
 
															+        stitching_node = PictureStitchingNode()
														
 
															+        parse_node = ImageParseNode(
														
 
															+            model_name=self.model_name,
														
 
															+            max_workers=self.max_workers,
														
 
															+            use_book_image=True  # 标记使用book_image模式
														
 
															+        )
														
 
															+        chunk_node = RAGFlowChunkNode(api_key=rag_flow_api_key)
														
 
															+        vectorize_node = VectorizeNode()
														
 
															+        result_node = DimensionResultNode(self.dimension_id)
														
 
															+        
														
 
															+        # 添加节点
														
 
															+        builder.add_nodes(
														
 
															+            prompt_node,
														
 
															+            document_upload_node,
														
 
															+            table_name_node,
														
 
															+            stitching_node,
														
 
															+            parse_node,
														
 
															+            chunk_node,
														
 
															+            vectorize_node,
														
 
															+            result_node
														
 
															+        )
														
 
															+        
														
 
															+        # 设置边
														
 
															+        builder.set_entry(prompt_node.name)
														
 
															+        builder.add_edge(prompt_node.name, document_upload_node.name)
														
 
															+        builder.add_edge(document_upload_node.name, table_name_node.name)
														
 
															+        builder.add_edge(table_name_node.name, stitching_node.name)
														
 
															+        builder.add_edge(stitching_node.name, parse_node.name)
														
 
															+        builder.add_edge(parse_node.name, chunk_node.name)
														
 
															+        builder.add_edge(chunk_node.name, vectorize_node.name)
														
 
															+        builder.add_edge(vectorize_node.name, result_node.name)
														
 
															+        builder.set_finish(result_node.name)
														
 
															+        
														
 
															+        # 构建并返回工作流
														
 
															+        workflow = builder.build()
														
 
															+        logger.info(f"[维度书本拆分-{self.dimension_id}] 子工作流构建完成")
														
 
															+        return workflow
														
 
															+    
														
 
															+    def execute(self, state: DynamicDimensionState) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        执行维度书本拆分
														
 
															+        
														
 
															+        构建并执行子工作流，包含以下步骤:
														
 
															+        1. 获取提示词
														
 
															+        2. 生成向量表名
														
 
															+        3. 将分页图片拼接成完整书本图片
														
 
															+        4. 解析完整书本图片
														
 
															+        5. 向量化入库
														
 
															+        6. 记录维度结果
														
 
															+        """
														
 
															+        logger.info(f"[维度书本拆分-{self.dimension_id}] 开始执行维度书本拆分")
														
 
															+        
														
 
															+        # 构建子工作流
														
 
															+        workflow = self._build_sub_workflow(state)
														
 
															+        
														
 
															+        # 执行子工作流
														
 
															+        result = workflow.invoke(state)
														
 
															+        
														
 
															+        # 处理结果
														
 
															+        if isinstance(result, dict):
														
 
															+            final_result = result
														
 
															+        else:
														
 
															+            final_result = result.dict() if hasattr(result, 'dict') else dict(result)
														
 
															+        
														
 
															+        logger.info(f"[维度书本拆分-{self.dimension_id}] 维度书本拆分执行完成")
														
 
															+        
														
 
															+        return final_result
														
--- a/src/datasets/parser/workflow_nodes/dimension_page_split_node.py
+++ b/src/datasets/parser/workflow_nodes/dimension_page_split_node.py
@@ -1,5 +1,5 @@
 
															 """
														
 
															-维度技能节点
														
 
															+维度分页拆分节点
														
 
															 """
														
 
															 from typing import Dict, Any
														
@@ -20,9 +20,9 @@ from src.common.logging_config import get_logger
 
															 logger = get_logger(__name__)
														
 
															-class DimensionSkillNode(BaseNode):
														
 
															+class DimensionPageSplitNode(BaseNode):
														
 
															     """
														
 
															-    维度技能节点
														
 
															+    维度分页拆分节点
														
 
															     单个维度的处理节点，作为子工作流的构建器和执行器，包含:
														
 
															     1. 获取维度提示词
														
@@ -41,7 +41,7 @@ class DimensionSkillNode(BaseNode):
 
															         max_workers: int = 5
														
 
															     ):
														
 
															         """
														
 
															-        初始化维度技能节点
														
 
															+        初始化维度分页拆分节点
														
 
															         Args:
														
 
															             dimension_id: 维度ID
														
@@ -54,8 +54,8 @@ class DimensionSkillNode(BaseNode):
 
															     @property
														
 
															     def name(self) -> str:
														
 
															-        """节点名称，格式: skill_dim_{id}"""
														
 
															-        return f"skill_dim_{self.dimension_id}"
														
 
															+        """节点名称，格式: page_split_dim_{id}"""
														
 
															+        return f"page_split_dim_{self.dimension_id}"
														
 
															     def _build_sub_workflow(self, state):
														
 
															         """
														
@@ -67,7 +67,7 @@ class DimensionSkillNode(BaseNode):
 
															         Returns:
														
 
															             编译后的 LangGraph 工作流
														
 
															         """
														
 
															-        logger.info(f"[Skill-{self.dimension_id}] 开始构建子工作流")
														
 
															+        logger.info(f"[维度分页拆分-{self.dimension_id}] 开始构建子工作流")
														
 
															         rag_flow_api_key = getattr(state, 'rag_flow_api_key', '')
														
@@ -109,12 +109,12 @@ class DimensionSkillNode(BaseNode):
 
															         # 构建并返回工作流
														
 
															         workflow = builder.build()
														
 
															-        logger.info(f"[Skill-{self.dimension_id}] 子工作流构建完成")
														
 
															+        logger.info(f"[维度分页拆分-{self.dimension_id}] 子工作流构建完成")
														
 
															         return workflow
														
 
															     def execute(self, state: DynamicDimensionState) -> Dict[str, Any]:
														
 
															         """
														
 
															-        执行维度技能
														
 
															+        执行维度分页拆分
														
 
															         构建并执行子工作流，包含以下步骤:
														
 
															         1. 获取提示词
														
@@ -123,7 +123,7 @@ class DimensionSkillNode(BaseNode):
 
															         4. 向量化入库
														
 
															         5. 记录维度结果
														
 
															         """
														
 
															-        logger.info(f"[Skill-{self.dimension_id}] 开始执行维度技能")
														
 
															+        logger.info(f"[维度分页拆分-{self.dimension_id}] 开始执行维度分页拆分")
														
 
															         # 构建子工作流
														
 
															         workflow = self._build_sub_workflow(state)
														
@@ -137,6 +137,6 @@ class DimensionSkillNode(BaseNode):
 
															         else:
														
 
															             final_result = result.dict() if hasattr(result, 'dict') else dict(result)
														
 
															-        logger.info(f"[Skill-{self.dimension_id}] 维度技能执行完成")
														
 
															+        logger.info(f"[维度分页拆分-{self.dimension_id}] 维度分页拆分执行完成")
														
 
															         return final_result
														
--- a/src/datasets/parser/workflows/dynamic_dimension_workflow.py
+++ b/src/datasets/parser/workflows/dynamic_dimension_workflow.py
@@ -18,7 +18,7 @@ from src.datasets.parser.nodes import (
 
															     PDFSplitNode,
														
 
															     CompleteNode
														
 
															 )
														
 
															-from src.datasets.parser.workflow_nodes import DimensionSkillNode
														
 
															+from src.datasets.parser.workflow_nodes import DimensionPageSplitNode
														
 
															 from src.utils.ragflow.ragflow_user_service import get_ragflow_user_service
														
 
															 from src.common.logging_config import get_logger
														
@@ -72,6 +72,8 @@ class DynamicDimensionWorkflow:
 
															         split_node = PDFSplitNode()
														
 
															         complete_node = CompleteNode(message_template="动态多维度解析完成")
														
 
															+        # 查询维度知识库对应的decomposition method
														
 
															+
														
 
															         # 使用 WorkflowBuilder 构建
														
 
															         builder = WorkflowBuilder(DynamicDimensionState)
														
@@ -88,8 +90,9 @@ class DynamicDimensionWorkflow:
 
															         prev_node = "pdf_split"
														
 
															         for dim_id in dimension_ids:
														
 
															-            # 为每个维度创建技能节点
														
 
															-            skill_node = DimensionSkillNode(
														
 
															+            
														
 
															+            # 为每个维度创建分页拆分节点
														
 
															+            skill_node = DimensionPageSplitNode(
														
 
															                 dimension_id=dim_id,
														
 
															                 model_name=self.model_name,
														
 
															                 max_workers=self.max_workers
														
--- a/src/datasets/parser/workflows/pdf_workflow.py
+++ b/src/datasets/parser/workflows/pdf_workflow.py
@@ -21,6 +21,7 @@ from src.datasets.parser.nodes import (
 
															     CompleteNode,
														
 
															 )
														
 
															 from src.datasets.parser.nodes.ragflow_nodes import DatasetExistsCondition
														
 
															+from src.utils.ragflow.ragflow_user_service import get_ragflow_user_service
														
 
															 from src.common.logging_config import get_logger
														
 
															 logger = get_logger(__name__)
														
@@ -58,16 +59,18 @@ class PDFParsingWorkflowV2:
 
															     def _build_workflow(self):
														
 
															         """构建工作流"""
														
 
															+        ragflow_user = get_ragflow_user_service().get_ragflow_id_and_api_key(2)
														
 
															+        ragflow_api_key = ragflow_user.get("api_key")
														
 
															         # 创建节点实例
														
 
															         dataset_node = RAGFlowDatasetNode(create_if_not_exists=True)
														
 
															         dataset_condition = DatasetExistsCondition()
														
 
															-        upload_node = RAGFlowDocumentUploadNode()
														
 
															-        page_upload_node = RAGFlowDocumentUploadNode()
														
 
															-        parse_doc_node = RAGFlowDocumentParseNode()
														
 
															+        upload_node = RAGFlowDocumentUploadNode(api_key=ragflow_api_key)
														
 
															+        page_upload_node = RAGFlowDocumentUploadNode(api_key=ragflow_api_key)
														
 
															+        parse_doc_node = RAGFlowDocumentParseNode(api_key=ragflow_api_key)
														
 
															         split_node = PDFSplitNode()
														
 
															         image_parse_node = ImageParseNode(model_name=self.model_name)
														
 
															         vectorize_node = VectorizeNode()
														
 
															-        chunk_node = RAGFlowChunkNode(api_key="ragflow-jpVLczgZ7_WkXbve59p1TS_wm3BvNXrcyhmoBFCAjR0")
														
 
															+        chunk_node = RAGFlowChunkNode(api_key=ragflow_api_key)
														
 
															         complete_node = CompleteNode(message_template="PDF解析工作流完成")
														
 
															         # 使用WorkflowBuilder构建
														
--- a/src/datasets/parser/workflows/qa_workflow.py
+++ b/src/datasets/parser/workflows/qa_workflow.py
@@ -10,6 +10,7 @@ from langfuse.langchain import CallbackHandler
 
															 from src.datasets.parser.core.workflow_builder import WorkflowBuilder
														
 
															 from src.datasets.parser.states.parser_states import QAParsingState
														
 
															+from src.utils.ragflow.ragflow_user_service import get_ragflow_user_service
														
 
															 from src.datasets.parser.nodes import (
														
 
															     TextSplitNode,
														
 
															     QAGenerateNode,
														
@@ -57,13 +58,16 @@ class QAParsingWorkflowV2:
 
															     def _build_workflow(self):
														
 
															         """构建工作流"""
														
 
															+        ragflow_user = get_ragflow_user_service().get_ragflow_id_and_api_key(2)
														
 
															+        ragflow_api_key = ragflow_user.get("api_key")
														
 
															+
														
 
															         # 创建节点实例
														
 
															         ocr_node = PDFOCRNode(model_name=self.model_name)
														
 
															         split_node = TextSplitNode()
														
 
															         qa_node = QAGenerateNode(model_name=self.model_name)
														
 
															         export_node = ExportCSVNode()
														
 
															-        upload_node = RAGFlowDocumentUploadNode(target_field="document_id")
														
 
															-        parse_node = RAGFlowDocumentParseNode()
														
 
															+        upload_node = RAGFlowDocumentUploadNode(api_key=ragflow_api_key)
														
 
															+        parse_node = RAGFlowDocumentParseNode(api_key=ragflow_api_key)
														
 
															         complete_node = CompleteNode(message_template="QA解析工作流完成")
														
 
															         # 使用WorkflowBuilder构建
														
@@ -116,7 +120,7 @@ class QAParsingWorkflowV2:
 
															             包含最终状态的字典
														
 
															         """
														
 
															         logger.info(f"开始运行QA解析工作流: {pdf_path}")
														
 
															-        
														
 
															+
														
 
															         initial_state = QAParsingState(
														
 
															             pdf_path=pdf_path,
														
 
															             dataset_id=dataset_id,
														
--- a/src/model/multimodal_embedding.py
+++ b/src/model/multimodal_embedding.py
@@ -41,7 +41,7 @@ class Embedding:
 
															         try:
														
 
															             # 使用langchain_openai初始化OpenAI Embeddings模型
														
 
															             embeddings = OpenAIEmbeddings(
														
 
															-                model=self.model_name,
														
 
															+                model=self.embedding_model_name,
														
 
															                 base_url=self.base_url,
														
 
															                 api_key=self.api_key
														
 
															             )
														
@@ -64,7 +64,7 @@ class Embedding:
 
															         try:
														
 
															             # 使用langchain_openai初始化OpenAI Embeddings模型
														
 
															             embeddings = OpenAIEmbeddings(
														
 
															-                model=self.model_name,
														
 
															+                model=self.embedding_model_name,
														
 
															                 base_url=self.base_url,
														
 
															                 api_key=self.api_key
														
 
															             )
														
--- a/src/utils/mysql/ARCHITECTURE.md
+++ b/src/utils/mysql/ARCHITECTURE.md
@@ -0,0 +1,188 @@
 
															+# MySQL 数据库查询层架构设计
														
 
															+
														
 
															+## 架构概览
														
 
															+
														
 
															+```
														
 
															+┌─────────────────────────────────────────────────────────┐
														
 
															+│                     Service Layer                       │
														
 
															+│  (业务服务层，如 PromptService, RagflowUserService)     │
														
 
															+└──────────────────────┬──────────────────────────────────┘
														
 
															+                       │
														
 
															+┌──────────────────────▼──────────────────────────────────┐
														
 
															+│                  Repository Layer                        │
														
 
															+│  ┌──────────────────────────────────────────────────┐  │
														
 
															+│  │  BaseRepository (抽象接口)                        │  │
														
 
															+│  │  - find_by_id()                                   │  │
														
 
															+│  │  - find_one() / find_all()                        │  │
														
 
															+│  │  - insert() / update() / delete()                │  │
														
 
															+│  │  - count() / paginate()                           │  │
														
 
															+│  └──────────────────┬────────────────────────────────┘  │
														
 
															+│                      │                                   │
														
 
															+│  ┌───────────────────▼──────────────────────────────┐  │
														
 
															+│  │  MySQLRepository (MySQL 实现)                    │  │
														
 
															+│  │  - 实现所有 BaseRepository 方法                  │  │
														
 
															+│  │  - 使用 QueryBuilder 构建 SQL                     │  │
														
 
															+│  └───────────────────┬──────────────────────────────┘  │
														
 
															+│                      │                                   │
														
 
															+│  ┌───────────────────▼──────────────────────────────┐  │
														
 
															+│  │  具体业务 Repository                              │  │
														
 
															+│  │  - PromptDimensionRepository                     │  │
														
 
															+│  │  - RagflowUserRepository                         │  │
														
 
															+│  │  - 封装业务特定的查询方法                         │  │
														
 
															+│  └──────────────────────────────────────────────────┘  │
														
 
															+└──────────────────────┬──────────────────────────────────┘
														
 
															+                       │
														
 
															+┌──────────────────────▼──────────────────────────────────┐
														
 
															+│                  Query Builder                          │
														
 
															+│  ┌──────────────────────────────────────────────────┐  │
														
 
															+│  │  QueryBuilder                                    │  │
														
 
															+│  │  - where() / where_eq() / where_in()             │  │
														
 
															+│  │  - order_by() / limit() / offset()               │  │
														
 
															+│  │  - join() / group_by() / having()                │  │
														
 
															+│  │  - build_select() / build_update() / build_delete()││
														
 
															+│  └──────────────────┬───────────────────────────────┘  │
														
 
															+└──────────────────────┬──────────────────────────────────┘
														
 
															+                       │
														
 
															+┌──────────────────────▼──────────────────────────────────┐
														
 
															+│              Connection Layer                           │
														
 
															+│  ┌──────────────────────────────────────────────────┐  │
														
 
															+│  │  MySQLConnection                                 │  │
														
 
															+│  │  - execute() / fetch_one() / fetch_all()         │  │
														
 
															+│  │  - bulk_insert()                                 │  │
														
 
															+│  │  - 事务支持                                       │  │
														
 
															+│  └──────────────────┬───────────────────────────────┘  │
														
 
															+│                      │                                   │
														
 
															+│  ┌───────────────────▼──────────────────────────────┐  │
														
 
															+│  │  MySQLPool                                       │  │
														
 
															+│  │  - 连接池管理                                     │  │
														
 
															+│  │  - DBUtils PooledDB                              │  │
														
 
															+│  └──────────────────────────────────────────────────┘  │
														
 
															+└─────────────────────────────────────────────────────────┘
														
 
															+```
														
 
															+
														
 
															+## 核心组件说明
														
 
															+
														
 
															+### 1. BaseRepository (抽象层)
														
 
															+- **位置**: `src/utils/mysql/base_repository.py`
														
 
															+- **作用**: 定义统一的数据库操作接口
														
 
															+- **优势**: 
														
 
															+  - 支持多种数据库实现（MySQL, PostgreSQL 等）
														
 
															+  - 便于单元测试（可 Mock）
														
 
															+  - 统一的 API 设计
														
 
															+
														
 
															+### 2. QueryBuilder (查询构建器)
														
 
															+- **位置**: `src/utils/mysql/query_builder.py`
														
 
															+- **作用**: 提供链式 API 构建 SQL 语句
														
 
															+- **特性**:
														
 
															+  - 类型安全的查询构建
														
 
															+  - 防止 SQL 注入（参数化查询）
														
 
															+  - 支持复杂查询（JOIN, GROUP BY 等）
														
 
															+
														
 
															+### 3. MySQLRepository (实现层)
														
 
															+- **位置**: `src/utils/mysql/mysql_repository.py`
														
 
															+- **作用**: 实现 BaseRepository 接口，提供 MySQL 具体实现
														
 
															+- **功能**:
														
 
															+  - 基础 CRUD 操作
														
 
															+  - 分页查询
														
 
															+  - 批量操作
														
 
															+  - 自定义 SQL 执行
														
 
															+
														
 
															+### 4. 业务 Repository (业务层)
														
 
															+- **位置**: `src/api/db/repositories/`
														
 
															+- **作用**: 封装业务特定的数据库操作
														
 
															+- **示例**:
														
 
															+  - `PromptDimensionRepository`: 提示词维度相关操作
														
 
															+  - `RagflowUserRepository`: RAGFlow 用户相关操作
														
 
															+
														
 
															+## 设计原则
														
 
															+
														
 
															+### 1. 单一职责原则
														
 
															+- 每个 Repository 只负责一个表的操作
														
 
															+- QueryBuilder 只负责 SQL 构建
														
 
															+- MySQLConnection 只负责数据库连接和执行
														
 
															+
														
 
															+### 2. 开闭原则
														
 
															+- BaseRepository 对扩展开放，对修改关闭
														
 
															+- 可以轻松添加新的 Repository 实现
														
 
															+
														
 
															+### 3. 依赖倒置原则
														
 
															+- Service 层依赖 Repository 抽象，而非具体实现
														
 
															+- 便于替换数据库实现
														
 
															+
														
 
															+### 4. 接口隔离原则
														
 
															+- BaseRepository 提供最小必要接口
														
 
															+- 具体 Repository 可以扩展额外方法
														
 
															+
														
 
															+## 使用场景
														
 
															+
														
 
															+### 场景 1: 简单 CRUD
														
 
															+```python
														
 
															+repo = get_repository("prompt_dimensions")
														
 
															+dimension = repo.find_by_id(1)
														
 
															+```
														
 
															+
														
 
															+### 场景 2: 复杂查询
														
 
															+```python
														
 
															+repo = PromptDimensionRepository()
														
 
															+dimensions = repo.get_dimensions_with_active_prompts()
														
 
															+```
														
 
															+
														
 
															+### 场景 3: 分页查询
														
 
															+```python
														
 
															+result = repo.paginate(conditions={"status": 1}, page=1, page_size=10)
														
 
															+```
														
 
															+
														
 
															+### 场景 4: 批量操作
														
 
															+```python
														
 
															+repo.insert_many([{...}, {...}, {...}])
														
 
															+```
														
 
															+
														
 
															+## 迁移路径
														
 
															+
														
 
															+### 阶段 1: 保持兼容
														
 
															+- 保留原有的 `MySQLConnection` 接口
														
 
															+- 新代码使用 Repository 模式
														
 
															+- 旧代码逐步迁移
														
 
															+
														
 
															+### 阶段 2: 创建业务 Repository
														
 
															+- 为每个表创建专门的 Repository
														
 
															+- 封装业务特定的查询逻辑
														
 
															+
														
 
															+### 阶段 3: 重构 Service 层
														
 
															+- Service 层使用 Repository 替代直接 SQL
														
 
															+- 提高代码可维护性
														
 
															+
														
 
															+## 性能考虑
														
 
															+
														
 
															+1. **连接池**: 使用 DBUtils 连接池，避免频繁创建连接
														
 
															+2. **批量操作**: 支持批量插入，提高性能
														
 
															+3. **查询优化**: QueryBuilder 生成的 SQL 可以进一步优化
														
 
															+4. **索引建议**: 为常用查询字段建立索引
														
 
															+
														
 
															+## 扩展性
														
 
															+
														
 
															+### 支持其他数据库
														
 
															+只需实现 BaseRepository 接口：
														
 
															+
														
 
															+```python
														
 
															+class PostgreSQLRepository(BaseRepository):
														
 
															+    """PostgreSQL Repository 实现"""
														
 
															+    # 实现所有抽象方法
														
 
															+```
														
 
															+
														
 
															+### 添加新功能
														
 
															+- 在 MySQLRepository 中添加扩展方法
														
 
															+- 在具体业务 Repository 中封装业务逻辑
														
 
															+
														
 
															+## 测试支持
														
 
															+
														
 
															+### Mock Repository
														
 
															+```python
														
 
															+from unittest.mock import Mock
														
 
															+
														
 
															+mock_repo = Mock(spec=BaseRepository)
														
 
															+mock_repo.find_by_id.return_value = {"id": 1, "name": "test"}
														
 
															+```
														
 
															+
														
 
															+### 集成测试
														
 
															+使用测试数据库，创建真实的 Repository 实例进行测试。
														
--- a/src/utils/mysql/README.md
+++ b/src/utils/mysql/README.md
@@ -0,0 +1,160 @@
 
															+# MySQL 数据库查询层使用指南
														
 
															+
														
 
															+## 架构设计
														
 
															+
														
 
															+本模块提供了工程化的 MySQL 数据库查询层，采用 Repository 模式和查询构建器模式：
														
 
															+
														
 
															+```
														
 
															+BaseRepository (抽象接口)
														
 
															+    ↓
														
 
															+MySQLRepository (MySQL 实现)
														
 
															+    ↓
														
 
															+具体业务 Repository (如 PromptDimensionRepository)
														
 
															+```
														
 
															+
														
 
															+## 核心组件
														
 
															+
														
 
															+### 1. BaseRepository
														
 
															+抽象基类，定义统一的 CRUD 操作接口。
														
 
															+
														
 
															+### 2. QueryBuilder
														
 
															+链式查询构建器，支持：
														
 
															+- WHERE 条件构建
														
 
															+- ORDER BY 排序
														
 
															+- LIMIT/OFFSET 分页
														
 
															+- JOIN 关联查询
														
 
															+- GROUP BY 分组
														
 
															+
														
 
															+### 3. MySQLRepository
														
 
															+MySQL 具体实现，提供：
														
 
															+- 基础 CRUD 操作
														
 
															+- 分页查询
														
 
															+- 批量操作
														
 
															+- 自定义 SQL 执行
														
 
															+
														
 
															+## 使用方式
														
 
															+
														
 
															+### 方式一：直接使用 MySQLRepository
														
 
															+
														
 
															+```python
														
 
															+from src.utils.mysql import get_repository
														
 
															+
														
 
															+# 获取 Repository 实例
														
 
															+repo = get_repository("prompt_dimensions")
														
 
															+
														
 
															+# 根据 ID 查询
														
 
															+dimension = repo.find_by_id(1)
														
 
															+
														
 
															+# 条件查询
														
 
															+dimensions = repo.find_all({"status": 1}, order_by="created_at DESC")
														
 
															+
														
 
															+# 分页查询
														
 
															+result = repo.paginate(conditions={"status": 1}, page=1, page_size=10)
														
 
															+# 返回: {"total": 100, "items": [...], "page": 1, "page_size": 10, "total_pages": 10}
														
 
															+
														
 
															+# 插入
														
 
															+new_id = repo.insert({"name": "新维度", "description": "描述"})
														
 
															+
														
 
															+# 更新
														
 
															+repo.update_by_id(1, {"description": "新描述"})
														
 
															+
														
 
															+# 删除
														
 
															+repo.delete_by_id(1)
														
 
															+```
														
 
															+
														
 
															+### 方式二：创建自定义 Repository
														
 
															+
														
 
															+```python
														
 
															+from src.utils.mysql import MySQLRepository
														
 
															+
														
 
															+class PromptDimensionRepository(MySQLRepository):
														
 
															+    """提示词维度 Repository"""
														
 
															+    
														
 
															+    def __init__(self, db_client=None):
														
 
															+        super().__init__("prompt_dimensions", db_client)
														
 
															+    
														
 
															+    def find_by_name(self, name: str):
														
 
															+        """根据名称查找维度"""
														
 
															+        return self.find_one({"name": name})
														
 
															+    
														
 
															+    def find_active_dimensions(self):
														
 
															+        """查找所有激活的维度"""
														
 
															+        return self.find_all({"is_active": 1}, order_by="created_at DESC")
														
 
															+    
														
 
															+    def get_dimensions_with_prompts(self):
														
 
															+        """关联查询维度和提示词"""
														
 
															+        builder = self._create_query_builder()
														
 
															+        builder.select([
														
 
															+            "pd.id", "pd.name", "pd.description",
														
 
															+            "pv.content as prompt_content", "pv.version_number"
														
 
															+        ])
														
 
															+        builder.join(
														
 
															+            "prompt_versions pv",
														
 
															+            "pd.id = pv.dimension_id AND pv.is_active = 1",
														
 
															+            "LEFT"
														
 
															+        )
														
 
															+        sql, params = builder.build_select()
														
 
															+        return self.execute_query(sql, params)
														
 
															+
														
 
															+# 使用
														
 
															+repo = PromptDimensionRepository()
														
 
															+dimension = repo.find_by_name("知识实体与百科拆解")
														
 
															+```
														
 
															+
														
 
															+### 方式三：使用 QueryBuilder 构建复杂查询
														
 
															+
														
 
															+```python
														
 
															+from src.utils.mysql import QueryBuilder, get_global_mysql_client
														
 
															+
														
 
															+db = get_global_mysql_client()
														
 
															+
														
 
															+# 构建复杂查询
														
 
															+builder = QueryBuilder("prompt_dimensions")
														
 
															+builder.select(["id", "name", "description"])
														
 
															+builder.where_eq("status", 1)
														
 
															+builder.where_like("name", "%维度%")
														
 
															+builder.where_in("id", [1, 2, 3, 4])
														
 
															+builder.order_by("created_at", "DESC")
														
 
															+builder.limit(10)
														
 
															+builder.offset(0)
														
 
															+
														
 
															+sql, params = builder.build_select()
														
 
															+results = db.fetch_all(sql, params)
														
 
															+```
														
 
															+
														
 
															+## 迁移指南
														
 
															+
														
 
															+### 旧代码（直接使用 MySQLConnection）
														
 
															+
														
 
															+```python
														
 
															+from src.utils.mysql import get_global_mysql_client
														
 
															+
														
 
															+db = get_global_mysql_client()
														
 
															+sql = "SELECT * FROM prompt_dimensions WHERE id = %s"
														
 
															+result = db.fetch_one(sql, [1])
														
 
															+```
														
 
															+
														
 
															+### 新代码（使用 Repository）
														
 
															+
														
 
															+```python
														
 
															+from src.utils.mysql import get_repository
														
 
															+
														
 
															+repo = get_repository("prompt_dimensions")
														
 
															+result = repo.find_by_id(1)
														
 
															+```
														
 
															+
														
 
															+## 优势
														
 
															+
														
 
															+1. **类型安全**：统一的接口定义，减少错误
														
 
															+2. **代码复用**：通用 CRUD 操作无需重复编写
														
 
															+3. **易于测试**：可以轻松 Mock BaseRepository
														
 
															+4. **可扩展**：支持自定义 Repository 扩展
														
 
															+5. **链式查询**：QueryBuilder 提供流畅的查询体验
														
 
															+6. **向后兼容**：保留原有的 MySQLConnection 接口
														
 
															+
														
 
															+## 最佳实践
														
 
															+
														
 
															+1. **为每个表创建专门的 Repository**：封装业务逻辑
														
 
															+2. **使用 QueryBuilder 处理复杂查询**：提高可读性
														
 
															+3. **在 Service 层使用 Repository**：保持代码分层清晰
														
 
															+4. **利用分页查询**：避免一次性加载大量数据
														
--- a/src/utils/mysql/__init__.py
+++ b/src/utils/mysql/__init__.py
@@ -1,4 +1,7 @@
 
															 from .mysql_conn import MySQLConnection
														
 
															+from .mysql_repository import MySQLRepository
														
 
															+from .base_repository import BaseRepository
														
 
															+from .query_builder import QueryBuilder
														
 
															 # 全局 MySQL 客户端实例
														
@@ -49,4 +52,23 @@ def close_global_mysql_client() -> None:
 
															     global _global_mysql_client
														
 
															     if _global_mysql_client is not None:
														
 
															         _global_mysql_client.close()
														
 
															-        _global_mysql_client = None
														
 
															+        _global_mysql_client = None
														
 
															+
														
 
															+
														
 
															+def get_repository(table_name: str, db_client: MySQLConnection = None) -> MySQLRepository:
														
 
															+    """
														
 
															+    获取指定表的 Repository 实例
														
 
															+    
														
 
															+    Args:
														
 
															+        table_name: 表名
														
 
															+        db_client: MySQL 连接客户端，如果为 None 则使用全局客户端
														
 
															+        
														
 
															+    Returns:
														
 
															+        MySQLRepository 实例
														
 
															+        
														
 
															+    Example:
														
 
															+        >>> repo = get_repository("prompt_dimensions")
														
 
															+        >>> dimension = repo.find_by_id(1)
														
 
															+        >>> dimensions = repo.find_all({"status": 1})
														
 
															+    """
														
 
															+    return MySQLRepository(table_name, db_client)
														
--- a/src/utils/mysql/base_repository.py
+++ b/src/utils/mysql/base_repository.py
@@ -0,0 +1,198 @@
 
															+"""
														
 
															+数据库 Repository 抽象基类
														
 
															+
														
 
															+定义统一的数据库操作接口，支持多种数据库实现。
														
 
															+"""
														
 
															+
														
 
															+from abc import ABC, abstractmethod
														
 
															+from typing import Any, Dict, List, Optional, Union
														
 
															+from src.common.logging_config import get_logger
														
 
															+
														
 
															+logger = get_logger(__name__)
														
 
															+
														
 
															+
														
 
															+class BaseRepository(ABC):
														
 
															+    """
														
 
															+    数据库 Repository 抽象基类
														
 
															+    
														
 
															+    定义统一的 CRUD 操作接口，子类需要实现具体的数据库操作。
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(self, table_name: str):
														
 
															+        """
														
 
															+        初始化 Repository
														
 
															+        
														
 
															+        Args:
														
 
															+            table_name: 表名
														
 
															+        """
														
 
															+        self.table_name = table_name
														
 
															+    
														
 
															+    @abstractmethod
														
 
															+    def find_by_id(self, id: Union[int, str]) -> Optional[Dict[str, Any]]:
														
 
															+        """
														
 
															+        根据 ID 查询单条记录
														
 
															+        
														
 
															+        Args:
														
 
															+            id: 主键ID
														
 
															+            
														
 
															+        Returns:
														
 
															+            查询结果字典，不存在返回 None
														
 
															+        """
														
 
															+        pass
														
 
															+    
														
 
															+    @abstractmethod
														
 
															+    def find_one(self, conditions: Dict[str, Any] = None, order_by: str = None) -> Optional[Dict[str, Any]]:
														
 
															+        """
														
 
															+        查询单条记录
														
 
															+        
														
 
															+        Args:
														
 
															+            conditions: 查询条件字典，如 {"name": "value", "status": 1}
														
 
															+            order_by: 排序字段，如 "created_at DESC"
														
 
															+            
														
 
															+        Returns:
														
 
															+            查询结果字典，不存在返回 None
														
 
															+        """
														
 
															+        pass
														
 
															+    
														
 
															+    @abstractmethod
														
 
															+    def find_all(
														
 
															+        self, 
														
 
															+        conditions: Dict[str, Any] = None,
														
 
															+        order_by: str = None,
														
 
															+        limit: int = None,
														
 
															+        offset: int = None
														
 
															+    ) -> List[Dict[str, Any]]:
														
 
															+        """
														
 
															+        查询多条记录
														
 
															+        
														
 
															+        Args:
														
 
															+            conditions: 查询条件字典
														
 
															+            order_by: 排序字段
														
 
															+            limit: 限制返回数量
														
 
															+            offset: 偏移量
														
 
															+            
														
 
															+        Returns:
														
 
															+            查询结果列表
														
 
															+        """
														
 
															+        pass
														
 
															+    
														
 
															+    @abstractmethod
														
 
															+    def count(self, conditions: Dict[str, Any] = None) -> int:
														
 
															+        """
														
 
															+        统计记录数量
														
 
															+        
														
 
															+        Args:
														
 
															+            conditions: 查询条件字典
														
 
															+            
														
 
															+        Returns:
														
 
															+            记录数量
														
 
															+        """
														
 
															+        pass
														
 
															+    
														
 
															+    @abstractmethod
														
 
															+    def insert(self, data: Dict[str, Any]) -> int:
														
 
															+        """
														
 
															+        插入单条记录
														
 
															+        
														
 
															+        Args:
														
 
															+            data: 要插入的数据字典
														
 
															+            
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        pass
														
 
															+    
														
 
															+    @abstractmethod
														
 
															+    def insert_many(self, data_list: List[Dict[str, Any]]) -> int:
														
 
															+        """
														
 
															+        批量插入记录
														
 
															+        
														
 
															+        Args:
														
 
															+            data_list: 要插入的数据列表
														
 
															+            
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        pass
														
 
															+    
														
 
															+    @abstractmethod
														
 
															+    def update(self, conditions: Dict[str, Any], data: Dict[str, Any]) -> int:
														
 
															+        """
														
 
															+        更新记录
														
 
															+        
														
 
															+        Args:
														
 
															+            conditions: 更新条件字典
														
 
															+            data: 要更新的数据字典
														
 
															+            
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        pass
														
 
															+    
														
 
															+    @abstractmethod
														
 
															+    def update_by_id(self, id: Union[int, str], data: Dict[str, Any]) -> int:
														
 
															+        """
														
 
															+        根据 ID 更新记录
														
 
															+        
														
 
															+        Args:
														
 
															+            id: 主键ID
														
 
															+            data: 要更新的数据字典
														
 
															+            
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        pass
														
 
															+    
														
 
															+    @abstractmethod
														
 
															+    def delete(self, conditions: Dict[str, Any]) -> int:
														
 
															+        """
														
 
															+        删除记录
														
 
															+        
														
 
															+        Args:
														
 
															+            conditions: 删除条件字典
														
 
															+            
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        pass
														
 
															+    
														
 
															+    @abstractmethod
														
 
															+    def delete_by_id(self, id: Union[int, str]) -> int:
														
 
															+        """
														
 
															+        根据 ID 删除记录
														
 
															+        
														
 
															+        Args:
														
 
															+            id: 主键ID
														
 
															+            
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        pass
														
 
															+    
														
 
															+    @abstractmethod
														
 
															+    def execute_query(self, sql: str, params: Union[List, Dict] = None) -> List[Dict[str, Any]]:
														
 
															+        """
														
 
															+        执行自定义查询
														
 
															+        
														
 
															+        Args:
														
 
															+            sql: SQL 查询语句
														
 
															+            params: SQL 参数
														
 
															+            
														
 
															+        Returns:
														
 
															+            查询结果列表
														
 
															+        """
														
 
															+        pass
														
 
															+    
														
 
															+    @abstractmethod
														
 
															+    def execute_update(self, sql: str, params: Union[List, Dict] = None) -> int:
														
 
															+        """
														
 
															+        执行自定义更新语句
														
 
															+        
														
 
															+        Args:
														
 
															+            sql: SQL 更新语句
														
 
															+            params: SQL 参数
														
 
															+            
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        pass
														
--- a/src/utils/mysql/mysql_repository.py
+++ b/src/utils/mysql/mysql_repository.py
@@ -0,0 +1,306 @@
 
															+"""
														
 
															+MySQL Repository 实现
														
 
															+
														
 
															+基于 MySQLConnection 实现 BaseRepository 接口，提供统一的数据库操作。
														
 
															+"""
														
 
															+
														
 
															+from typing import Any, Dict, List, Optional, Union
														
 
															+from .base_repository import BaseRepository
														
 
															+from .query_builder import QueryBuilder
														
 
															+from .mysql_conn import MySQLConnection
														
 
															+from src.common.logging_config import get_logger
														
 
															+
														
 
															+logger = get_logger(__name__)
														
 
															+
														
 
															+
														
 
															+class MySQLRepository(BaseRepository):
														
 
															+    """
														
 
															+    MySQL Repository 实现
														
 
															+    
														
 
															+    基于 MySQLConnection 和 QueryBuilder 提供统一的数据库操作接口。
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(self, table_name: str, db_client: Optional[MySQLConnection] = None):
														
 
															+        """
														
 
															+        初始化 MySQL Repository
														
 
															+        
														
 
															+        Args:
														
 
															+            table_name: 表名
														
 
															+            db_client: MySQL 连接客户端，如果为 None 则使用全局客户端
														
 
															+        """
														
 
															+        super().__init__(table_name)
														
 
															+        if db_client is None:
														
 
															+            from . import get_global_mysql_client
														
 
															+            self._db = get_global_mysql_client()
														
 
															+        else:
														
 
															+            self._db = db_client
														
 
															+    
														
 
															+    def _create_query_builder(self) -> QueryBuilder:
														
 
															+        """创建查询构建器"""
														
 
															+        return QueryBuilder(self.table_name)
														
 
															+    
														
 
															+    def find_by_id(self, id: Union[int, str], id_field: str = "id") -> Optional[Dict[str, Any]]:
														
 
															+        """
														
 
															+        根据 ID 查询单条记录
														
 
															+        
														
 
															+        Args:
														
 
															+            id: 主键ID
														
 
															+            id_field: ID 字段名，默认为 "id"
														
 
															+            
														
 
															+        Returns:
														
 
															+            查询结果字典，不存在返回 None
														
 
															+        """
														
 
															+        builder = self._create_query_builder()
														
 
															+        sql, params = builder.where_eq(id_field, id).build_select()
														
 
															+        return self._db.fetch_one(sql, params)
														
 
															+    
														
 
															+    def find_one(self, conditions: Dict[str, Any] = None, order_by: str = None) -> Optional[Dict[str, Any]]:
														
 
															+        """
														
 
															+        查询单条记录
														
 
															+        
														
 
															+        Args:
														
 
															+            conditions: 查询条件字典，如 {"name": "value", "status": 1}
														
 
															+            order_by: 排序字段，如 "created_at DESC"
														
 
															+            
														
 
															+        Returns:
														
 
															+            查询结果字典，不存在返回 None
														
 
															+        """
														
 
															+        builder = self._create_query_builder()
														
 
															+        if conditions:
														
 
															+            builder.where_conditions(conditions)
														
 
															+        if order_by:
														
 
															+            # 解析 order_by 字符串，如 "created_at DESC"
														
 
															+            parts = order_by.strip().split()
														
 
															+            if len(parts) == 2:
														
 
															+                builder.order_by(parts[0], parts[1])
														
 
															+            else:
														
 
															+                builder.order_by(parts[0])
														
 
															+        builder.limit(1)
														
 
															+        sql, params = builder.build_select()
														
 
															+        return self._db.fetch_one(sql, params)
														
 
															+    
														
 
															+    def find_all(
														
 
															+        self, 
														
 
															+        conditions: Dict[str, Any] = None,
														
 
															+        order_by: str = None,
														
 
															+        limit: int = None,
														
 
															+        offset: int = None
														
 
															+    ) -> List[Dict[str, Any]]:
														
 
															+        """
														
 
															+        查询多条记录
														
 
															+        
														
 
															+        Args:
														
 
															+            conditions: 查询条件字典
														
 
															+            order_by: 排序字段
														
 
															+            limit: 限制返回数量
														
 
															+            offset: 偏移量
														
 
															+            
														
 
															+        Returns:
														
 
															+            查询结果列表
														
 
															+        """
														
 
															+        builder = self._create_query_builder()
														
 
															+        if conditions:
														
 
															+            builder.where_conditions(conditions)
														
 
															+        if order_by:
														
 
															+            parts = order_by.strip().split()
														
 
															+            if len(parts) == 2:
														
 
															+                builder.order_by(parts[0], parts[1])
														
 
															+            else:
														
 
															+                builder.order_by(parts[0])
														
 
															+        if limit is not None:
														
 
															+            builder.limit(limit)
														
 
															+        if offset is not None:
														
 
															+            builder.offset(offset)
														
 
															+        sql, params = builder.build_select()
														
 
															+        return self._db.fetch_all(sql, params)
														
 
															+    
														
 
															+    def count(self, conditions: Dict[str, Any] = None) -> int:
														
 
															+        """
														
 
															+        统计记录数量
														
 
															+        
														
 
															+        Args:
														
 
															+            conditions: 查询条件字典
														
 
															+            
														
 
															+        Returns:
														
 
															+            记录数量
														
 
															+        """
														
 
															+        builder = self._create_query_builder()
														
 
															+        if conditions:
														
 
															+            builder.where_conditions(conditions)
														
 
															+        sql, params = builder.build_count()
														
 
															+        result = self._db.fetch_one(sql, params)
														
 
															+        return result['count'] if result else 0
														
 
															+    
														
 
															+    def insert(self, data: Dict[str, Any]) -> int:
														
 
															+        """
														
 
															+        插入单条记录
														
 
															+        
														
 
															+        Args:
														
 
															+            data: 要插入的数据字典
														
 
															+            
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        builder = self._create_query_builder()
														
 
															+        sql, params = builder.build_insert(data)
														
 
															+        return self._db.execute(sql, params)
														
 
															+    
														
 
															+    def insert_many(self, data_list: List[Dict[str, Any]]) -> int:
														
 
															+        """
														
 
															+        批量插入记录
														
 
															+        
														
 
															+        Args:
														
 
															+            data_list: 要插入的数据列表
														
 
															+            
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        if not data_list:
														
 
															+            return 0
														
 
															+        builder = self._create_query_builder()
														
 
															+        sql, params = builder.build_bulk_insert(data_list)
														
 
															+        return self._db.bulk_insert(sql, params)
														
 
															+    
														
 
															+    def update(self, conditions: Dict[str, Any], data: Dict[str, Any]) -> int:
														
 
															+        """
														
 
															+        更新记录
														
 
															+        
														
 
															+        Args:
														
 
															+            conditions: 更新条件字典
														
 
															+            data: 要更新的数据字典
														
 
															+            
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        builder = self._create_query_builder()
														
 
															+        sql, params = builder.build_update(data, conditions)
														
 
															+        return self._db.execute(sql, params)
														
 
															+    
														
 
															+    def update_by_id(self, id: Union[int, str], data: Dict[str, Any], id_field: str = "id") -> int:
														
 
															+        """
														
 
															+        根据 ID 更新记录
														
 
															+        
														
 
															+        Args:
														
 
															+            id: 主键ID
														
 
															+            data: 要更新的数据字典
														
 
															+            id_field: ID 字段名，默认为 "id"
														
 
															+            
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        return self.update({id_field: id}, data)
														
 
															+    
														
 
															+    def delete(self, conditions: Dict[str, Any]) -> int:
														
 
															+        """
														
 
															+        删除记录
														
 
															+        
														
 
															+        Args:
														
 
															+            conditions: 删除条件字典
														
 
															+            
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        builder = self._create_query_builder()
														
 
															+        sql, params = builder.build_delete(conditions)
														
 
															+        return self._db.execute(sql, params)
														
 
															+    
														
 
															+    def delete_by_id(self, id: Union[int, str], id_field: str = "id") -> int:
														
 
															+        """
														
 
															+        根据 ID 删除记录
														
 
															+        
														
 
															+        Args:
														
 
															+            id: 主键ID
														
 
															+            id_field: ID 字段名，默认为 "id"
														
 
															+            
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        return self.delete({id_field: id})
														
 
															+    
														
 
															+    def execute_query(self, sql: str, params: Union[List, Dict] = None) -> List[Dict[str, Any]]:
														
 
															+        """
														
 
															+        执行自定义查询
														
 
															+        
														
 
															+        Args:
														
 
															+            sql: SQL 查询语句
														
 
															+            params: SQL 参数
														
 
															+            
														
 
															+        Returns:
														
 
															+            查询结果列表
														
 
															+        """
														
 
															+        return self._db.fetch_all(sql, params)
														
 
															+    
														
 
															+    def execute_update(self, sql: str, params: Union[List, Dict] = None) -> int:
														
 
															+        """
														
 
															+        执行自定义更新语句
														
 
															+        
														
 
															+        Args:
														
 
															+            sql: SQL 更新语句
														
 
															+            params: SQL 参数
														
 
															+            
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        return self._db.execute(sql, params)
														
 
															+    
														
 
															+    # ========== 扩展方法 ==========
														
 
															+    
														
 
															+    def exists(self, conditions: Dict[str, Any]) -> bool:
														
 
															+        """
														
 
															+        检查记录是否存在
														
 
															+        
														
 
															+        Args:
														
 
															+            conditions: 查询条件字典
														
 
															+            
														
 
															+        Returns:
														
 
															+            存在返回 True，否则返回 False
														
 
															+        """
														
 
															+        return self.count(conditions) > 0
														
 
															+    
														
 
															+    def find_by_ids(self, ids: List[Union[int, str]], id_field: str = "id") -> List[Dict[str, Any]]:
														
 
															+        """
														
 
															+        根据 ID 列表批量查询
														
 
															+        
														
 
															+        Args:
														
 
															+            ids: ID 列表
														
 
															+            id_field: ID 字段名，默认为 "id"
														
 
															+            
														
 
															+        Returns:
														
 
															+            查询结果列表
														
 
															+        """
														
 
															+        if not ids:
														
 
															+            return []
														
 
															+        builder = self._create_query_builder()
														
 
															+        sql, params = builder.where_in(id_field, ids).build_select()
														
 
															+        return self._db.fetch_all(sql, params)
														
 
															+    
														
 
															+    def paginate(
														
 
															+        self,
														
 
															+        conditions: Dict[str, Any] = None,
														
 
															+        order_by: str = None,
														
 
															+        page: int = 1,
														
 
															+        page_size: int = 10
														
 
															+    ) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        分页查询
														
 
															+        
														
 
															+        Args:
														
 
															+            conditions: 查询条件字典
														
 
															+            order_by: 排序字段
														
 
															+            page: 页码（从1开始）
														
 
															+            page_size: 每页数量
														
 
															+            
														
 
															+        Returns:
														
 
															+            包含 total, items, page, page_size 的字典
														
 
															+        """
														
 
															+        total = self.count(conditions)
														
 
															+        offset = (page - 1) * page_size
														
 
															+        items = self.find_all(conditions=conditions, order_by=order_by, limit=page_size, offset=offset)
														
 
															+        
														
 
															+        return {
														
 
															+            "total": total,
														
 
															+            "items": items,
														
 
															+            "page": page,
														
 
															+            "page_size": page_size,
														
 
															+            "total_pages": (total + page_size - 1) // page_size
														
 
															+        }
														
--- a/src/utils/mysql/query_builder.py
+++ b/src/utils/mysql/query_builder.py
@@ -0,0 +1,442 @@
 
															+"""
														
 
															+SQL 查询构建器
														
 
															+
														
 
															+提供链式 API 构建 SQL 查询语句。
														
 
															+"""
														
 
															+
														
 
															+from typing import Any, Dict, List, Optional, Union
														
 
															+from src.common.logging_config import get_logger
														
 
															+
														
 
															+logger = get_logger(__name__)
														
 
															+
														
 
															+
														
 
															+class QueryBuilder:
														
 
															+    """
														
 
															+    SQL 查询构建器
														
 
															+    
														
 
															+    提供链式 API 构建 SQL 查询语句，支持：
														
 
															+    - WHERE 条件构建
														
 
															+    - ORDER BY 排序
														
 
															+    - LIMIT/OFFSET 分页
														
 
															+    - JOIN 关联查询
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(self, table_name: str):
														
 
															+        """
														
 
															+        初始化查询构建器
														
 
															+        
														
 
															+        Args:
														
 
															+            table_name: 表名
														
 
															+        """
														
 
															+        self.table_name = table_name
														
 
															+        self._select_fields = ["*"]
														
 
															+        self._where_conditions = []
														
 
															+        self._where_params = []
														
 
															+        self._order_by = None
														
 
															+        self._limit_value = None
														
 
															+        self._offset_value = None
														
 
															+        self._joins = []
														
 
															+        self._group_by = None
														
 
															+        self._having = None
														
 
															+    
														
 
															+    def select(self, fields: Union[str, List[str]]) -> 'QueryBuilder':
														
 
															+        """
														
 
															+        指定查询字段
														
 
															+        
														
 
															+        Args:
														
 
															+            fields: 字段名或字段列表，如 "id, name" 或 ["id", "name"]
														
 
															+            
														
 
															+        Returns:
														
 
															+            QueryBuilder 实例（支持链式调用）
														
 
															+        """
														
 
															+        if isinstance(fields, str):
														
 
															+            self._select_fields = [f.strip() for f in fields.split(",")]
														
 
															+        else:
														
 
															+            self._select_fields = fields
														
 
															+        return self
														
 
															+    
														
 
															+    def where(self, field: str, operator: str, value: Any) -> 'QueryBuilder':
														
 
															+        """
														
 
															+        添加 WHERE 条件
														
 
															+        
														
 
															+        Args:
														
 
															+            field: 字段名
														
 
															+            operator: 操作符，如 "=", ">", "<", "LIKE", "IN", "BETWEEN" 等
														
 
															+            value: 条件值
														
 
															+            
														
 
															+        Returns:
														
 
															+            QueryBuilder 实例（支持链式调用）
														
 
															+            
														
 
															+        Examples:
														
 
															+            >>> builder.where("id", "=", 1)
														
 
															+            >>> builder.where("age", ">", 18)
														
 
															+            >>> builder.where("name", "LIKE", "%test%")
														
 
															+            >>> builder.where("status", "IN", [1, 2, 3])
														
 
															+        """
														
 
															+        if operator.upper() == "IN":
														
 
															+            if not isinstance(value, (list, tuple)):
														
 
															+                raise ValueError("IN 操作符的值必须是列表或元组")
														
 
															+            placeholders = ",".join(["%s"] * len(value))
														
 
															+            self._where_conditions.append(f"{field} IN ({placeholders})")
														
 
															+            self._where_params.extend(value)
														
 
															+        elif operator.upper() == "BETWEEN":
														
 
															+            if not isinstance(value, (list, tuple)) or len(value) != 2:
														
 
															+                raise ValueError("BETWEEN 操作符的值必须是包含两个元素的列表或元组")
														
 
															+            self._where_conditions.append(f"{field} BETWEEN %s AND %s")
														
 
															+            self._where_params.extend(value)
														
 
															+        elif operator.upper() == "IS NULL":
														
 
															+            self._where_conditions.append(f"{field} IS NULL")
														
 
															+        elif operator.upper() == "IS NOT NULL":
														
 
															+            self._where_conditions.append(f"{field} IS NOT NULL")
														
 
															+        else:
														
 
															+            self._where_conditions.append(f"{field} {operator} %s")
														
 
															+            self._where_params.append(value)
														
 
															+        return self
														
 
															+    
														
 
															+    def where_eq(self, field: str, value: Any) -> 'QueryBuilder':
														
 
															+        """等于条件（便捷方法）"""
														
 
															+        return self.where(field, "=", value)
														
 
															+    
														
 
															+    def where_ne(self, field: str, value: Any) -> 'QueryBuilder':
														
 
															+        """不等于条件（便捷方法）"""
														
 
															+        return self.where(field, "!=", value)
														
 
															+    
														
 
															+    def where_gt(self, field: str, value: Any) -> 'QueryBuilder':
														
 
															+        """大于条件（便捷方法）"""
														
 
															+        return self.where(field, ">", value)
														
 
															+    
														
 
															+    def where_gte(self, field: str, value: Any) -> 'QueryBuilder':
														
 
															+        """大于等于条件（便捷方法）"""
														
 
															+        return self.where(field, ">=", value)
														
 
															+    
														
 
															+    def where_lt(self, field: str, value: Any) -> 'QueryBuilder':
														
 
															+        """小于条件（便捷方法）"""
														
 
															+        return self.where(field, "<", value)
														
 
															+    
														
 
															+    def where_lte(self, field: str, value: Any) -> 'QueryBuilder':
														
 
															+        """小于等于条件（便捷方法）"""
														
 
															+        return self.where(field, "<=", value)
														
 
															+    
														
 
															+    def where_like(self, field: str, value: str) -> 'QueryBuilder':
														
 
															+        """LIKE 条件（便捷方法）"""
														
 
															+        return self.where(field, "LIKE", value)
														
 
															+    
														
 
															+    def where_in(self, field: str, values: List[Any]) -> 'QueryBuilder':
														
 
															+        """IN 条件（便捷方法）"""
														
 
															+        return self.where(field, "IN", values)
														
 
															+    
														
 
															+    def where_between(self, field: str, start: Any, end: Any) -> 'QueryBuilder':
														
 
															+        """BETWEEN 条件（便捷方法）"""
														
 
															+        return self.where(field, "BETWEEN", [start, end])
														
 
															+    
														
 
															+    def where_conditions(self, conditions: Dict[str, Any]) -> 'QueryBuilder':
														
 
															+        """
														
 
															+        批量添加 WHERE 条件
														
 
															+        
														
 
															+        Args:
														
 
															+            conditions: 条件字典，如 {"id": 1, "status": "active"}
														
 
															+                       默认使用 = 操作符
														
 
															+            
														
 
															+        Returns:
														
 
															+            QueryBuilder 实例（支持链式调用）
														
 
															+        """
														
 
															+        for field, value in conditions.items():
														
 
															+            self.where_eq(field, value)
														
 
															+        return self
														
 
															+    
														
 
															+    def order_by(self, field: str, direction: str = "ASC") -> 'QueryBuilder':
														
 
															+        """
														
 
															+        添加排序
														
 
															+        
														
 
															+        Args:
														
 
															+            field: 排序字段
														
 
															+            direction: 排序方向，ASC 或 DESC
														
 
															+            
														
 
															+        Returns:
														
 
															+            QueryBuilder 实例（支持链式调用）
														
 
															+        """
														
 
															+        if direction.upper() not in ["ASC", "DESC"]:
														
 
															+            raise ValueError("排序方向必须是 ASC 或 DESC")
														
 
															+        self._order_by = f"{field} {direction.upper()}"
														
 
															+        return self
														
 
															+    
														
 
															+    def limit(self, count: int) -> 'QueryBuilder':
														
 
															+        """
														
 
															+        限制返回数量
														
 
															+        
														
 
															+        Args:
														
 
															+            count: 返回数量
														
 
															+            
														
 
															+        Returns:
														
 
															+            QueryBuilder 实例（支持链式调用）
														
 
															+        """
														
 
															+        self._limit_value = count
														
 
															+        return self
														
 
															+    
														
 
															+    def offset(self, count: int) -> 'QueryBuilder':
														
 
															+        """
														
 
															+        设置偏移量
														
 
															+        
														
 
															+        Args:
														
 
															+            count: 偏移量
														
 
															+            
														
 
															+        Returns:
														
 
															+            QueryBuilder 实例（支持链式调用）
														
 
															+        """
														
 
															+        self._offset_value = count
														
 
															+        return self
														
 
															+    
														
 
															+    def join(self, table: str, on: str, join_type: str = "INNER") -> 'QueryBuilder':
														
 
															+        """
														
 
															+        添加 JOIN
														
 
															+        
														
 
															+        Args:
														
 
															+            table: 关联表名
														
 
															+            on: JOIN 条件，如 "table1.id = table2.foreign_id"
														
 
															+            join_type: JOIN 类型，INNER, LEFT, RIGHT, FULL
														
 
															+            
														
 
															+        Returns:
														
 
															+            QueryBuilder 实例（支持链式调用）
														
 
															+        """
														
 
															+        join_type = join_type.upper()
														
 
															+        if join_type not in ["INNER", "LEFT", "RIGHT", "FULL"]:
														
 
															+            raise ValueError("JOIN 类型必须是 INNER, LEFT, RIGHT 或 FULL")
														
 
															+        self._joins.append(f"{join_type} JOIN {table} ON {on}")
														
 
															+        return self
														
 
															+    
														
 
															+    def group_by(self, field: str) -> 'QueryBuilder':
														
 
															+        """
														
 
															+        添加 GROUP BY
														
 
															+        
														
 
															+        Args:
														
 
															+            field: 分组字段
														
 
															+            
														
 
															+        Returns:
														
 
															+            QueryBuilder 实例（支持链式调用）
														
 
															+        """
														
 
															+        self._group_by = field
														
 
															+        return self
														
 
															+    
														
 
															+    def having(self, condition: str) -> 'QueryBuilder':
														
 
															+        """
														
 
															+        添加 HAVING 条件
														
 
															+        
														
 
															+        Args:
														
 
															+            condition: HAVING 条件，如 "COUNT(*) > 10"
														
 
															+            
														
 
															+        Returns:
														
 
															+            QueryBuilder 实例（支持链式调用）
														
 
															+        """
														
 
															+        self._having = condition
														
 
															+        return self
														
 
															+    
														
 
															+    def build_select(self) -> tuple[str, List[Any]]:
														
 
															+        """
														
 
															+        构建 SELECT 查询语句
														
 
															+        
														
 
															+        Returns:
														
 
															+            (SQL 语句, 参数列表) 元组
														
 
															+        """
														
 
															+        # 构建 SELECT 字段
														
 
															+        select_clause = ", ".join(self._select_fields)
														
 
															+        
														
 
															+        # 构建 FROM 子句
														
 
															+        from_clause = f"FROM {self.table_name}"
														
 
															+        
														
 
															+        # 构建 JOIN 子句
														
 
															+        join_clause = ""
														
 
															+        if self._joins:
														
 
															+            join_clause = " " + " ".join(self._joins)
														
 
															+        
														
 
															+        # 构建 WHERE 子句
														
 
															+        where_clause = ""
														
 
															+        if self._where_conditions:
														
 
															+            where_clause = " WHERE " + " AND ".join(self._where_conditions)
														
 
															+        
														
 
															+        # 构建 GROUP BY 子句
														
 
															+        group_by_clause = ""
														
 
															+        if self._group_by:
														
 
															+            group_by_clause = f" GROUP BY {self._group_by}"
														
 
															+        
														
 
															+        # 构建 HAVING 子句
														
 
															+        having_clause = ""
														
 
															+        if self._having:
														
 
															+            having_clause = f" HAVING {self._having}"
														
 
															+        
														
 
															+        # 构建 ORDER BY 子句
														
 
															+        order_by_clause = ""
														
 
															+        if self._order_by:
														
 
															+            order_by_clause = f" ORDER BY {self._order_by}"
														
 
															+        
														
 
															+        # 构建 LIMIT 子句
														
 
															+        limit_clause = ""
														
 
															+        if self._limit_value is not None:
														
 
															+            limit_clause = f" LIMIT {self._limit_value}"
														
 
															+            if self._offset_value is not None:
														
 
															+                limit_clause += f" OFFSET {self._offset_value}"
														
 
															+        
														
 
															+        # 组合 SQL
														
 
															+        sql = f"SELECT {select_clause} {from_clause}{join_clause}{where_clause}{group_by_clause}{having_clause}{order_by_clause}{limit_clause}"
														
 
															+        
														
 
															+        return sql.strip(), self._where_params
														
 
															+    
														
 
															+    def build_count(self) -> tuple[str, List[Any]]:
														
 
															+        """
														
 
															+        构建 COUNT 查询语句
														
 
															+        
														
 
															+        Returns:
														
 
															+            (SQL 语句, 参数列表) 元组
														
 
															+        """
														
 
															+        # 构建 FROM 子句
														
 
															+        from_clause = f"FROM {self.table_name}"
														
 
															+        
														
 
															+        # 构建 JOIN 子句
														
 
															+        join_clause = ""
														
 
															+        if self._joins:
														
 
															+            join_clause = " " + " ".join(self._joins)
														
 
															+        
														
 
															+        # 构建 WHERE 子句
														
 
															+        where_clause = ""
														
 
															+        if self._where_conditions:
														
 
															+            where_clause = " WHERE " + " AND ".join(self._where_conditions)
														
 
															+        
														
 
															+        # 构建 GROUP BY 子句
														
 
															+        group_by_clause = ""
														
 
															+        if self._group_by:
														
 
															+            group_by_clause = f" GROUP BY {self._group_by}"
														
 
															+        
														
 
															+        # 构建 HAVING 子句
														
 
															+        having_clause = ""
														
 
															+        if self._having:
														
 
															+            having_clause = f" HAVING {self._having}"
														
 
															+        
														
 
															+        sql = f"SELECT COUNT(*) as count {from_clause}{join_clause}{where_clause}{group_by_clause}{having_clause}"
														
 
															+        
														
 
															+        return sql.strip(), self._where_params
														
 
															+    
														
 
															+    def build_insert(self, data: Dict[str, Any]) -> tuple[str, List[Any]]:
														
 
															+        """
														
 
															+        构建 INSERT 语句
														
 
															+        
														
 
															+        Args:
														
 
															+            data: 要插入的数据字典
														
 
															+            
														
 
															+        Returns:
														
 
															+            (SQL 语句, 参数列表) 元组
														
 
															+        """
														
 
															+        if not data:
														
 
															+            raise ValueError("插入数据不能为空")
														
 
															+        
														
 
															+        fields = list(data.keys())
														
 
															+        placeholders = ", ".join(["%s"] * len(fields))
														
 
															+        fields_str = ", ".join(fields)
														
 
															+        
														
 
															+        sql = f"INSERT INTO {self.table_name} ({fields_str}) VALUES ({placeholders})"
														
 
															+        params = list(data.values())
														
 
															+        
														
 
															+        return sql, params
														
 
															+    
														
 
															+    def build_bulk_insert(self, data_list: List[Dict[str, Any]]) -> tuple[str, List[Any]]:
														
 
															+        """
														
 
															+        构建批量 INSERT 语句
														
 
															+        
														
 
															+        Args:
														
 
															+            data_list: 要插入的数据列表
														
 
															+            
														
 
															+        Returns:
														
 
															+            (SQL 语句, 参数列表) 元组
														
 
															+        """
														
 
															+        if not data_list:
														
 
															+            raise ValueError("插入数据列表不能为空")
														
 
															+        
														
 
															+        # 使用第一个字典的键作为字段名
														
 
															+        fields = list(data_list[0].keys())
														
 
															+        fields_str = ", ".join(fields)
														
 
															+        
														
 
															+        # 构建 VALUES 子句
														
 
															+        values_list = []
														
 
															+        params = []
														
 
															+        for data in data_list:
														
 
															+            if set(data.keys()) != set(fields):
														
 
															+                raise ValueError("批量插入的数据字典字段必须一致")
														
 
															+            placeholders = ", ".join(["%s"] * len(fields))
														
 
															+            values_list.append(f"({placeholders})")
														
 
															+            params.extend([data[field] for field in fields])
														
 
															+        
														
 
															+        values_str = ", ".join(values_list)
														
 
															+        sql = f"INSERT INTO {self.table_name} ({fields_str}) VALUES {values_str}"
														
 
															+        
														
 
															+        return sql, params
														
 
															+    
														
 
															+    def build_update(self, data: Dict[str, Any], conditions: Dict[str, Any] = None) -> tuple[str, List[Any]]:
														
 
															+        """
														
 
															+        构建 UPDATE 语句
														
 
															+        
														
 
															+        Args:
														
 
															+            data: 要更新的数据字典
														
 
															+            conditions: 更新条件字典（如果提供，会添加到 WHERE 子句）
														
 
															+            
														
 
															+        Returns:
														
 
															+            (SQL 语句, 参数列表) 元组
														
 
															+        """
														
 
															+        if not data:
														
 
															+            raise ValueError("更新数据不能为空")
														
 
															+        
														
 
															+        # 构建 SET 子句
														
 
															+        set_clauses = []
														
 
															+        params = []
														
 
															+        for field, value in data.items():
														
 
															+            set_clauses.append(f"{field} = %s")
														
 
															+            params.append(value)
														
 
															+        
														
 
															+        set_clause = ", ".join(set_clauses)
														
 
															+        
														
 
															+        # 构建 WHERE 子句
														
 
															+        where_clause = ""
														
 
															+        if conditions:
														
 
															+            where_conditions = []
														
 
															+            for field, value in conditions.items():
														
 
															+                where_conditions.append(f"{field} = %s")
														
 
															+                params.append(value)
														
 
															+            where_clause = " WHERE " + " AND ".join(where_conditions)
														
 
															+        elif self._where_conditions:
														
 
															+            where_clause = " WHERE " + " AND ".join(self._where_conditions)
														
 
															+            params.extend(self._where_params)
														
 
															+        
														
 
															+        if not where_clause:
														
 
															+            raise ValueError("UPDATE 语句必须包含 WHERE 条件")
														
 
															+        
														
 
															+        sql = f"UPDATE {self.table_name} SET {set_clause}{where_clause}"
														
 
															+        
														
 
															+        return sql, params
														
 
															+    
														
 
															+    def build_delete(self, conditions: Dict[str, Any] = None) -> tuple[str, List[Any]]:
														
 
															+        """
														
 
															+        构建 DELETE 语句
														
 
															+        
														
 
															+        Args:
														
 
															+            conditions: 删除条件字典（如果提供，会添加到 WHERE 子句）
														
 
															+            
														
 
															+        Returns:
														
 
															+            (SQL 语句, 参数列表) 元组
														
 
															+        """
														
 
															+        params = []
														
 
															+        
														
 
															+        # 构建 WHERE 子句
														
 
															+        where_clause = ""
														
 
															+        if conditions:
														
 
															+            where_conditions = []
														
 
															+            for field, value in conditions.items():
														
 
															+                where_conditions.append(f"{field} = %s")
														
 
															+                params.append(value)
														
 
															+            where_clause = " WHERE " + " AND ".join(where_conditions)
														
 
															+        elif self._where_conditions:
														
 
															+            where_clause = " WHERE " + " AND ".join(self._where_conditions)
														
 
															+            params.extend(self._where_params)
														
 
															+        
														
 
															+        if not where_clause:
														
 
															+            raise ValueError("DELETE 语句必须包含 WHERE 条件")
														
 
															+        
														
 
															+        sql = f"DELETE FROM {self.table_name}{where_clause}"
														
 
															+        
														
 
															+        return sql, params
														
--- a/src/utils/vector_db/elasticsearch_adapter.py
+++ b/src/utils/vector_db/elasticsearch_adapter.py
@@ -6,7 +6,7 @@ Elasticsearch 向量数据库适配器
 
															 import re
														
 
															 import threading
														
 
															-from typing import Dict, Any, List, Optional, Tuple
														
 
															+from typing import Dict, Any, List, Optional, Tuple, Union, Sequence
														
 
															 from .base import VectorDBClient
														
 
															 from .result_util import UnifiedSearchResult, build_unified_result
														
 
															 from src.conf.settings import es_settings, vector_db_settings
														
@@ -14,6 +14,10 @@ from src.common.logging_config import get_logger
 
															 logger = get_logger(__name__)
														
 
															+# 模块加载时的标记，用于确认代码已重新加载
														
 
															+import datetime
														
 
															+logger.info(f"=== ElasticsearchAdapter 模块已加载 (ES 8.x API) - {datetime.datetime.now()} ===")
														
 
															+
														
 
															 class ElasticsearchAdapter(VectorDBClient):
														
 
															     """
														
@@ -101,15 +105,13 @@ class ElasticsearchAdapter(VectorDBClient):
 
															         matching_text = query.get("matching_text") or ""
														
 
															         # match 的 query 不能为 None，否则 ES 报 VALUE_NULL
														
 
															-        es_query = {
														
 
															-            "query": {
														
 
															-                "match": {match_field: matching_text}
														
 
															-            },
														
 
															-            "size": query.get("topn", 10),
														
 
															-            "_source": output_fields
														
 
															-        }
														
 
															-        
														
 
															-        result = self._client.search(index=index_name, body=es_query)
														
 
															+        # ES 8.x 使用关键字参数而非 body
														
 
															+        result = self._client.search(
														
 
															+            index=index_name,
														
 
															+            query={"match": {match_field: matching_text}},
														
 
															+            size=query.get("topn", 10),
														
 
															+            _source=output_fields
														
 
															+        )
														
 
															         return self._convert_result(result, output_fields)
														
 
															     def vector_search(
														
@@ -127,14 +129,21 @@ class ElasticsearchAdapter(VectorDBClient):
 
															         index_name = table_name
														
 
															         vector_field = query.get("vector_field", "dense_vector")
														
 
															         query_vector = query.get("query_vector", [])
														
 
															+        # 确保 query_vector 是 Python 原生列表，兼容 numpy 数组等类型
														
 
															+        if query_vector is not None and len(query_vector) > 0:
														
 
															+            # 强制转换为 Python 原生 float 列表
														
 
															+            query_vector = [float(x) for x in query_vector]
														
 
															+        else:
														
 
															+            query_vector = []
														
 
															         topn = query.get("topn", 10)
														
 
															         # 获取阈值
														
 
															         knn_params = query.get("knn_params", {})
														
 
															         threshold = float(knn_params.get("threshold", 0.0))
														
 
															-        # 构建 ES knn 查询
														
 
															-        es_query = {
														
 
															+        # 构建 ES knn 查询（ES 8.x 使用关键字参数而非 body）
														
 
															+        search_params = {
														
 
															+            "index": index_name,
														
 
															             "knn": {
														
 
															                 "field": vector_field,
														
 
															                 "query_vector": query_vector,
														
@@ -146,16 +155,16 @@ class ElasticsearchAdapter(VectorDBClient):
 
															         # 如果有阈值，添加 min_score
														
 
															         if threshold > 0:
														
 
															-            es_query["min_score"] = threshold
														
 
															+            search_params["min_score"] = threshold
														
 
															-        result = self._client.search(index=index_name, body=es_query)
														
 
															+        result = self._client.search(**search_params)
														
 
															         return self._convert_result(result, output_fields)
														
 
															     def hybrid_search(
														
 
															         self,
														
 
															-        table_name: str,
														
 
															         output_fields: List[str],
														
 
															         query: Dict[str, Any],
														
 
															+        table_name: Optional[Union[str, Sequence[str]]] = None,
														
 
															         database_name: Optional[str] = None
														
 
															     ) -> Any:
														
 
															         """
														
@@ -163,9 +172,17 @@ class ElasticsearchAdapter(VectorDBClient):
 
															         使用 ES 的 bool 查询结合 knn 和 match。
														
 
															         """
														
 
															+        # index_name =  "ragbook_1_f3c87b89f82711f0b7450242ac180002,ragbook_2_16db7236f82911f093e20242ac180002"
														
 
															         index_name = table_name
														
 
															         vector_field = query.get("vector_field", "dense_vector")
														
 
															         query_vector = query.get("query_vector", [])
														
 
															+        # 确保 query_vector 是 Python 原生列表，兼容 numpy 数组等类型
														
 
															+        if query_vector is not None and len(query_vector) > 0:
														
 
															+            # 强制转换为 Python 原生 float 列表
														
 
															+            query_vector = [float(x) for x in query_vector]
														
 
															+            logger.info(f"混合搜索: 已转换 query_vector 类型, 长度={len(query_vector)}, 前3个元素={query_vector[:3]}")
														
 
															+        else:
														
 
															+            query_vector = []
														
 
															         match_field = query.get("match_field", "content")
														
 
															         matching_text = query.get("matching_text")
														
 
															         if matching_text is not None and not isinstance(matching_text, str):
														
@@ -186,25 +203,24 @@ class ElasticsearchAdapter(VectorDBClient):
 
															         else:
														
 
															             text_clause = {"match_all": {"boost": 1.0}}
														
 
															-        # 构建混合查询
														
 
															-        es_query = {
														
 
															-            "query": {
														
 
															+        # 构建混合查询（ES 8.x 使用关键字参数而非 body）
														
 
															+        result = self._client.search(
														
 
															+            index=index_name,
														
 
															+            query={
														
 
															                 "bool": {
														
 
															                     "should": [text_clause]
														
 
															                 }
														
 
															             },
														
 
															-            "knn": {
														
 
															+            knn={
														
 
															                 "field": vector_field,
														
 
															                 "query_vector": query_vector,
														
 
															                 "k": topn,
														
 
															                 "num_candidates": topn * 10,
														
 
															                 "boost": 1.0
														
 
															             },
														
 
															-            "size": topn,
														
 
															-            "_source": output_fields
														
 
															-        }
														
 
															-        
														
 
															-        result = self._client.search(index=index_name, body=es_query)
														
 
															+            size=topn,
														
 
															+            _source=output_fields
														
 
															+        )
														
 
															         return self._convert_result(result, output_fields)
														
 
															     def insert(
														
@@ -216,14 +232,14 @@ class ElasticsearchAdapter(VectorDBClient):
 
															         """插入文档"""
														
 
															         index_name = table_name
														
 
															-        # 批量插入
														
 
															+        # 批量插入（ES 8.x 使用 operations 而非 body）
														
 
															         operations = []
														
 
															         for doc in documents:
														
 
															             operations.append({"index": {"_index": index_name}})
														
 
															             operations.append(doc)
														
 
															         if operations:
														
 
															-            result = self._client.bulk(body=operations, refresh=True)
														
 
															+            result = self._client.bulk(operations=operations, refresh=True)
														
 
															             return result
														
 
															         return None
														
@@ -264,10 +280,11 @@ class ElasticsearchAdapter(VectorDBClient):
 
															             if field in ['id', '_id']:
														
 
															                 # 使用update API直接更新指定id的文档
														
 
															                 try:
														
 
															+                    # ES 8.x 使用 doc 而非 body
														
 
															                     result = self._client.update(
														
 
															                         index=index_name,
														
 
															                         id=value,
														
 
															-                        body={"doc": data}
														
 
															+                        doc=data
														
 
															                     )
														
 
															                     logger.info(f"update 执行: index={index_name}, id={value}, data={data}")
														
 
															                     return result
														
@@ -280,18 +297,14 @@ class ElasticsearchAdapter(VectorDBClient):
 
															             # 复杂条件，使用query_string
														
 
															             es_query_clause = {"query_string": {"query": cond or "*"}}
														
 
															-        # 构建update_by_query请求
														
 
															-        es_query = {
														
 
															-            "query": es_query_clause,
														
 
															-            "script": {
														
 
															-                "source": "; ".join([f"ctx._source.{k} = params.{k}" for k in data.keys()]),
														
 
															-                "params": data
														
 
															-            }
														
 
															-        }
														
 
															-        
														
 
															+        # 构建update_by_query请求（ES 8.x 使用关键字参数而非 body）
														
 
															         result = self._client.update_by_query(
														
 
															             index=index_name,
														
 
															-            body=es_query,
														
 
															+            query=es_query_clause,
														
 
															+            script={
														
 
															+                "source": "; ".join([f"ctx._source.{k} = params.{k}" for k in data.keys()]),
														
 
															+                "params": data
														
 
															+            },
														
 
															             conflicts="proceed"
														
 
															         )
														
 
															         # 打印实际执行的查询
														
@@ -359,11 +372,11 @@ class ElasticsearchAdapter(VectorDBClient):
 
															         mappings: Dict[str, Any],
														
 
															         settings: Optional[Dict[str, Any]] = None
														
 
															     ):
														
 
															-        """创建索引"""
														
 
															-        body = {"mappings": mappings}
														
 
															+        """创建索引（ES 8.x 使用关键字参数而非 body）"""
														
 
															+        create_params = {"index": index_name, "mappings": mappings}
														
 
															         if settings:
														
 
															-            body["settings"] = settings
														
 
															-        return self._client.indices.create(index=index_name, body=body, ignore=400)
														
 
															+            create_params["settings"] = settings
														
 
															+        return self._client.indices.create(**create_params, ignore=400)
														
 
															     def delete_index(self, index_name: str):
														
 
															         """删除索引"""