3 tháng trước cách đây · 434dc600f1
--- a/src/api/dataset/services/dataset_manage_service.py
+++ b/src/api/dataset/services/dataset_manage_service.py
@@ -10,7 +10,7 @@
 
															 import os
														
 
															 import tempfile
														
 
															 from typing import Dict, Any, Optional
														
 
															-from src.parser.pdf_parser.pdf_parser_workflow import PDFParsingWorkflow
														
 
															+from src.datasets.parser.pdf_parser.pdf_parser_workflow import PDFParsingWorkflow
														
 
															 from src.conf.settings import vector_db_settings
														
--- a/src/api/db/models/__init__.py
+++ b/src/api/db/models/__init__.py
@@ -0,0 +1,8 @@
 
															+from .search_request_models import SearchRequest
														
 
															+# from .search_param_models import KnnParams, VectorSearchQuery
														
 
															+
														
 
															+__all__ = [
														
 
															+    "SearchRequest",
														
 
															+    # "KnnParams",
														
 
															+    # "VectorSearchQuery",
														
 
															+]
														
--- a/src/api/db/models/search_param_models.py
+++ b/src/api/db/models/search_param_models.py
@@ -0,0 +1,79 @@
 
															+# """
														
 
															+# 搜索相关的Pydantic模型定义
														
 
															+
														
 
															+# 该模块定义了用于图像和文本搜索的请求和响应模型。
														
 
															+# """
														
 
															+
														
 
															+# from pydantic import BaseModel, Field, field_validator
														
 
															+# from typing import List, Optional
														
 
															+
														
 
															+# class KnnParams(BaseModel):
														
 
															+#     """
														
 
															+#     KNN搜索参数模型
														
 
															+    
														
 
															+#     用于配置向量搜索的近邻搜索参数。
														
 
															+    
														
 
															+#     Attributes:
														
 
															+#         ef: HNSW索引的搜索参数，影响搜索精度和速度
														
 
															+#         threshold: 相似度分数阈值，低于该阈值的结果将被过滤
														
 
															+#     """
														
 
															+    
														
 
															+#     ef: str = Field(
														
 
															+#         default="100",
														
 
															+#         description="HNSW索引的搜索参数 (ef值越大搜索越精确但速度越慢)"
														
 
															+#     )
														
 
															+#     threshold: str = Field(
														
 
															+#         default="0.0",
														
 
															+#         description="相似度分数阈值，范围 0.0-1.0"
														
 
															+#     )
														
 
															+    
														
 
															+#     @classmethod
														
 
															+#     def from_retrieval_setting(cls, top_k: int, score_threshold: float) -> "KnnParams":
														
 
															+#         """
														
 
															+#         从检索设置创建KNN参数
														
 
															+        
														
 
															+#         Args:
														
 
															+#             top_k: 返回的结果数量
														
 
															+#             score_threshold: 分数阈值
														
 
															+            
														
 
															+#         Returns:
														
 
															+#             KnnParams实例
														
 
															+#         """
														
 
															+#         return cls(
														
 
															+#             ef=str(top_k * 10),
														
 
															+#             threshold=str(score_threshold)
														
 
															+#         )
														
 
															+
														
 
															+
														
 
															+# class VectorSearchQuery(BaseModel):
														
 
															+#     """
														
 
															+#     向量搜索查询参数模型
														
 
															+    
														
 
															+#     封装向量检索所需的所有参数。
														
 
															+    
														
 
															+#     Attributes:
														
 
															+#         vector_field: 向量字段名称
														
 
															+#         query_vector: 查询向量
														
 
															+#         topn: 返回的最大结果数量
														
 
															+#         knn_params: KNN搜索参数
														
 
															+#     """
														
 
															+    
														
 
															+#     vector_field: str = Field(
														
 
															+#         ...,
														
 
															+#         description="向量字段名称",
														
 
															+#         examples=["dense_vector_1024"]
														
 
															+#     )
														
 
															+#     query_vector: List[float] = Field(
														
 
															+#         ...,
														
 
															+#         description="查询向量"
														
 
															+#     )
														
 
															+#     topn: int = Field(
														
 
															+#         default=10,
														
 
															+#         ge=1,
														
 
															+#         le=100,
														
 
															+#         description="返回的最大结果数量"
														
 
															+#     )
														
 
															+#     knn_params: Optional[KnnParams] = Field(
														
 
															+#         default=None,
														
 
															+#         description="KNN搜索参数"
														
 
															+#     )
														
--- a/src/api/db/models/search_request_models.py
+++ b/src/api/db/models/search_request_models.py
@@ -0,0 +1,65 @@
 
															+"""
														
 
															+搜索相关的Pydantic模型定义
														
 
															+
														
 
															+该模块定义了用于图像和文本搜索的请求和响应模型。
														
 
															+"""
														
 
															+from pydantic import BaseModel, Field, field_validator
														
 
															+from typing import List, Optional
														
 
															+
														
 
															+
														
 
															+class SearchRequest(BaseModel):
														
 
															+    """
														
 
															+    搜索请求模型
														
 
															+    
														
 
															+    支持通过图像URL或文本进行相似性搜索。
														
 
															+    至少需要提供 image_url 或 matching_text 其中之一。
														
 
															+    
														
 
															+    Attributes:
														
 
															+        image_url: 用于图像搜索的图片URL (可选)
														
 
															+        matching_text: 用于文本匹配搜索的查询文本 (可选)
														
 
															+        topn: 返回的最大结果数量，默认为10，范围1-100
														
 
															+    """
														
 
															+    
														
 
															+    image_url: Optional[str] = Field(
														
 
															+        default=None,
														
 
															+        description="用于图像搜索的图片URL",
														
 
															+        examples=["https://example.com/image.jpg"]
														
 
															+    )
														
 
															+    matching_text: Optional[str] = Field(
														
 
															+        default=None,
														
 
															+        description="用于文本匹配搜索的查询文本",
														
 
															+        examples=["搜索关键词"]
														
 
															+    )
														
 
															+    topn: int = Field(
														
 
															+        default=10,
														
 
															+        ge=1,
														
 
															+        le=100,
														
 
															+        description="返回的最大结果数量"
														
 
															+    ),
														
 
															+    score_threshold: float = Field(
														
 
															+        default=0.0,
														
 
															+        ge=0.0,
														
 
															+        le=1.0,
														
 
															+        description="相似度分数阈值"
														
 
															+    )
														
 
															+    
														
 
															+    @field_validator('image_url')
														
 
															+    @classmethod
														
 
															+    def validate_image_url(cls, v: Optional[str]) -> Optional[str]:
														
 
															+        """验证图片URL格式"""
														
 
															+        if v is not None and v.strip() == "":
														
 
															+            return None
														
 
															+        return v
														
 
															+    
														
 
															+    @field_validator('matching_text')
														
 
															+    @classmethod
														
 
															+    def validate_matching_text(cls, v: Optional[str]) -> Optional[str]:
														
 
															+        """验证匹配文本"""
														
 
															+        if v is not None and v.strip() == "":
														
 
															+            return None
														
 
															+        return v
														
 
															+    
														
 
															+    def model_post_init(self, __context) -> None:
														
 
															+        """模型初始化后验证：确保至少提供一个搜索条件"""
														
 
															+        if self.image_url is None and self.matching_text is None:
														
 
															+            raise ValueError("必须提供 image_url 或 matching_text 其中至少一个")
														
--- a/src/api/db/services/infinity_search_service.py
+++ b/src/api/db/services/infinity_search_service.py
@@ -3,13 +3,13 @@ from src.conf.settings import vector_db_settings
 
															 from src.utils.infinity import InfinityClient
														
 
															 from src.utils.file.image_util import image_util
														
 
															 from src.model.multimodal_embedding import get_embedding_model
														
 
															-from src.utils.infinity.result_util import convert_to_basic_types
														
 
															+from src.utils.infinity.result_util import convert_to_json
														
 
															+from src.api.db.models import SearchRequest
														
 
															+from langchain_core.documents import Document
														
 
															 class InfinitySearchService:
														
 
															-    def __init__(self, infinity_client: InfinityClient, vector_field: str = None, match_field: str = None, match_type: str = None, table_name: str = None):
														
 
															-        self.infinity_client = infinity_client
														
 
															-        # 输出字段
														
 
															-        self.output_fields = [
														
 
															+
														
 
															+    default_output_fields = [
														
 
															                     "file_name",
														
 
															                     "page_number",
														
 
															                     "content",
														
@@ -17,12 +17,33 @@ class InfinitySearchService:
 
															                     "dataset_id",
														
 
															                     "document_id"
														
 
															                 ]
														
 
															+
														
 
															+    def __init__(self, infinity_client: InfinityClient, 
														
 
															+                       vector_field: str = None, 
														
 
															+                       match_field: str = None, 
														
 
															+                       match_type: str = None, 
														
 
															+                       table_name: str = None, 
														
 
															+                       output_fields: List[str] = None):
														
 
															+        """
														
 
															+        初始化InfinitySearchService
														
 
															+        
														
 
															+        Args:
														
 
															+            infinity_client: InfinityClient实例
														
 
															+            vector_field: 向量字段名
														
 
															+            match_field: 匹配字段名
														
 
															+            match_type: 匹配类型
														
 
															+            table_name: 表名
														
 
															+            output_fields: 输出字段列表
														
 
															+        """
														
 
															+        self.infinity_client = infinity_client
														
 
															+        # 输出字段
														
 
															+        self.output_fields = output_fields or self.default_output_fields
														
 
															         self.vector_field = vector_field or "dense_vector_1024"
														
 
															         self.match_field = match_field or "content"
														
 
															         self.match_type = match_type or "cosine"
														
 
															         self.table_name = table_name or vector_db_settings.infinity_table_name
														
 
															-    def search(self, search_query: Dict[str, Any]) -> Dict[str, Any]:
														
 
															+    def search(self, request: SearchRequest) -> List[Dict[str, Any]]:
														
 
															         """
														
 
															         执行Infinity数据库搜索
														
@@ -33,16 +54,18 @@ class InfinitySearchService:
 
															             搜索结果，转换为基本类型以便序列化
														
 
															         """
														
 
															         try:
														
 
															+            # 参数转换
														
 
															+            search_query = self._convert_search_request_to_search_query(request)
														
 
															             # 执行搜索
														
 
															             result = self.infinity_client.search(self.table_name, self.output_fields, search_query)
														
 
															             # 将结果转换为基本类型，处理可能的复杂类型
														
 
															             result_dict = result.to_result()
														
 
															             # 递归转换所有复杂类型为基本类型
														
 
															-            return convert_to_basic_types(result_dict)
														
 
															+            return convert_to_json(result_dict)
														
 
															         except Exception as e:
														
 
															             raise Exception(f"搜索失败: {str(e)}")
														
 
															-    def vector_search(self, search_query: Dict[str, Any]):
														
 
															+    def vector_search(self, request: SearchRequest) -> List[Dict[str, Any]]:
														
 
															         """
														
 
															         执行Infinity数据库向量检索
														
@@ -53,23 +76,18 @@ class InfinitySearchService:
 
															             向量检索结果，转换为基本类型以便序列化
														
 
															         """
														
 
															         try:
														
 
															-            # 1.处理image_url为image: Image.Image
														
 
															-            image = image_util._url_to_image(search_query["image_url"])
														
 
															-            # 2.将图片进行向量化
														
 
															-            query_vector = get_embedding_model().get_multimodal_embedding(search_query["matching_text"], image)
														
 
															-
														
 
															-            search_query["vector_field"] = self.vector_field
														
 
															-            search_query["query_vector"] = query_vector
														
 
															+            # 参数转换
														
 
															+            search_query = self._convert_search_request_to_search_query(request)
														
 
															             # 执行向量检索
														
 
															             result = self.infinity_client.vector_search(self.table_name, self.output_fields, search_query)
														
 
															             # 将结果转换为基本类型，处理可能的复杂类型
														
 
															             result_dict = result.to_result()
														
 
															             # 递归转换所有复杂类型为基本类型
														
 
															-            return convert_to_basic_types(result_dict)
														
 
															+            return convert_to_json(result_dict)
														
 
															         except Exception as e:
														
 
															             raise Exception(f"向量检索失败: {str(e)}")
														
 
															-    def hybrid_search(self, search_query: Dict[str, Any]):
														
 
															+    def hybrid_search(self, request: SearchRequest) -> List[Dict[str, Any]]:
														
 
															         """
														
 
															         执行Infinity数据库混合检索
														
@@ -80,18 +98,52 @@ class InfinitySearchService:
 
															             混合检索结果，转换为基本类型以便序列化
														
 
															         """
														
 
															         try:
														
 
															-            # 1.处理image_url为image: Image.Image
														
 
															-            image = image_util._url_to_image(search_query["image_url"])
														
 
															-            # 2.将图片进行向量化
														
 
															-            query_vector = get_embedding_model().get_multimodal_embedding(search_query["matching_text"], image)
														
 
															-            search_query["vector_field"] = self.vector_field
														
 
															-            search_query["query_vector"] = query_vector
														
 
															-            search_query["match_field"] = self.match_field
														
 
															+            # 参数转换
														
 
															+            search_query = self._convert_search_request_to_search_query(request)
														
 
															             # 执行混合检索
														
 
															             result = self.infinity_client.hybrid_search(self.table_name, self.output_fields, search_query)
														
 
															             # 将结果转换为基本类型，处理可能的复杂类型
														
 
															             result_dict = result.to_result()
														
 
															             # 递归转换所有复杂类型为基本类型
														
 
															-            return convert_to_basic_types(result_dict)
														
 
															+            return convert_to_json(result_dict)
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"混合检索失败: {str(e)}")
														
 
															+
														
 
															+    # 参数转换
														
 
															+    def _convert_search_request_to_search_query(self, request: SearchRequest) -> dict:
														
 
															+        """
														
 
															+        将SearchRequest转换为SearchQuery
														
 
															+        
														
 
															+        Args:
														
 
															+            request: SearchRequest实例
														
 
															+            
														
 
															+        Returns:
														
 
															+            SearchQuery字典
														
 
															+        """
														
 
															+        try:
														
 
															+            if request.score_threshold is not None:
														
 
															+                # 判断是文本向量还是多模态向量
														
 
															+                if request.image_url is not None:
														
 
															+                    # 处理image_url为image: Image.Image
														
 
															+                    image = image_util._url_to_image(request.image_url)
														
 
															+                    # 将图片进行向量化
														
 
															+                    query_vector = get_embedding_model().get_multimodal_embedding(request.matching_text, image)
														
 
															+                else:
														
 
															+                    query_vector = get_embedding_model().get_text_embedding(request.matching_text)
														
 
															+            else:
														
 
															+                query_vector = None
														
 
															+            
														
 
															+            search_query = {
														
 
															+                "match_field": self.match_field,
														
 
															+                "matching_text": request.matching_text,
														
 
															+                "vector_field": self.vector_field,
														
 
															+                "query_vector": query_vector,
														
 
															+                "topn": request.topn,
														
 
															+                "knn_params": {
														
 
															+                    "ef": str(request.topn * 10),
														
 
															+                    "threshold": str(request.score_threshold)
														
 
															+                }
														
 
															+            }
														
 
															+            return search_query
														
 
															         except Exception as e:
														
 
															-            raise Exception(f"混合检索失败: {str(e)}")
														
 
															+            raise Exception(f"参数转换失败: {str(e)}")
														
--- a/src/api/sdk/search_infinity.py
+++ b/src/api/sdk/search_infinity.py
@@ -1,12 +1,11 @@
 
															 # Infinity搜索API服务
														
 
															 from fastapi import FastAPI, HTTPException
														
 
															-from typing import List, Dict, Any, Optional
														
 
															 from src.api.db.services.infinity_search_service import InfinitySearchService
														
 
															 from src.utils.infinity import get_client
														
 
															 from src.common.result import Result
														
 
															 from src.utils.async_utils import run_in_threadpool
														
 
															-
														
 
															+from src.api.db.models import SearchRequest
														
 
															 # 创建FastAPI应用
														
@@ -16,13 +15,6 @@ app = FastAPI(
 
															     version="1.0.0"
														
 
															 )
														
 
															-# 请求模型
														
 
															-from pydantic import BaseModel
														
 
															-
														
 
															-class SearchRequest(BaseModel):
														
 
															-    """搜索请求模型"""
														
 
															-    search_query: Dict[str, Any]
														
 
															-
														
 
															 # 1. 普通搜索接口
														
 
															 @app.post("/text")
														
 
															 async def search(request: SearchRequest):
														
@@ -36,7 +28,7 @@ async def search(request: SearchRequest):
 
															     """
														
 
															     try:
														
 
															         search_service = InfinitySearchService(infinity_client=get_client())
														
 
															-        result = await run_in_threadpool(search_service.search, request.search_query)
														
 
															+        result = await run_in_threadpool(search_service.search, request)
														
 
															         return Result.success(data=result, message="搜索成功")
														
 
															     except Exception as e:
														
 
															         return Result.error(code=500, message=f"搜索失败: {str(e)}")
														
@@ -54,7 +46,7 @@ async def vector_search(request: SearchRequest):
 
															     """
														
 
															     try:
														
 
															         search_service = InfinitySearchService(infinity_client=get_client())
														
 
															-        result = await run_in_threadpool(search_service.vector_search, request.search_query)
														
 
															+        result = await run_in_threadpool(search_service.vector_search, request)
														
 
															         return Result.success(data=result, message="向量搜索成功")
														
 
															     except Exception as e:
														
 
															         return Result.error(code=500, message=f"向量搜索失败: {str(e)}")
														
@@ -72,7 +64,28 @@ async def hybrid_search(request: SearchRequest):
 
															     """
														
 
															     try:
														
 
															         search_service = InfinitySearchService(infinity_client=get_client())
														
 
															-        result = await run_in_threadpool(search_service.hybrid_search, request.search_query)
														
 
															+        result = await run_in_threadpool(search_service.hybrid_search, request)
														
 
															         return Result.success(data=result, message="混合搜索成功")
														
 
															     except Exception as e:
														
 
															         return Result.error(code=500, message=f"混合搜索失败: {str(e)}")
														
 
															+
														
 
															+# 4. 问答对检索
														
 
															+@app.post("/question")
														
 
															+async def question_search(request: SearchRequest):
														
 
															+    """
														
 
															+    问答对检索接口
														
 
															+
														
 
															+    - **output_fields**: 要返回的字段列表
														
 
															+    - **query**: 查询条件，包含vector_field、query_vector、field、query、topn和fusion_weight字段
														
 
															+    - **database_name**: 数据库名称（可选，默认使用客户端配置的数据库）
														
 
															+    """
														
 
															+    try:
														
 
															+        output_fields = ["content"]
														
 
															+        search_service = InfinitySearchService(infinity_client=get_client(database="ragflow_db"), 
														
 
															+                                               table_name="ragflow_92162247e93e11f084830242ac1d0002_1c4f7a82f66c11f09c750242c0a8d002", 
														
 
															+                                               vector_field="q_1024_vec",
														
 
															+                                               output_fields=output_fields)
														
 
															+        result = await run_in_threadpool(search_service.hybrid_search, request)
														
 
															+        return Result.success(data=result, message="问答对检索成功")
														
 
															+    except Exception as e:
														
 
															+        return Result.error(code=500, message=f"问答对检索失败: {str(e)}")
														
--- a/src/datasets/__init__.py
+++ b/src/datasets/__init__.py
--- a/src/parser/image_parser/__init__.py
+++ b/src/parser/image_parser/__init__.py
--- a/src/datasets/parser/image_parser/__init__.py
+++ b/src/datasets/parser/image_parser/__init__.py
--- a/src/datasets/parser/image_parser/image_parser_workflow.py
+++ b/src/datasets/parser/image_parser/image_parser_workflow.py
--- a/src/datasets/parser/pdf_parser/__init__.py
+++ b/src/datasets/parser/pdf_parser/__init__.py
--- a/src/datasets/parser/pdf_parser/pdf_parser_workflow.py
+++ b/src/datasets/parser/pdf_parser/pdf_parser_workflow.py
@@ -5,7 +5,7 @@ from concurrent.futures import ThreadPoolExecutor
 
															 from langgraph.graph import StateGraph, START, END
														
 
															 from typing import List, Dict, Any
														
 
															 from pydantic import BaseModel, Field, ConfigDict
														
 
															-from src.parser.pdf_parser.pdf_splitter import PDFSplitter
														
 
															+from src.datasets.parser.pdf_parser.pdf_splitter import PDFSplitter
														
 
															 from src.model.qwen_vl import QWenVLParser
														
 
															 from src.utils.ragflow.ragflow_service import RAGFlowService
														
 
															 from src.utils.ragflow.chunk_record import get_chunk_record_service
														
--- a/src/datasets/parser/pdf_parser/pdf_splitter.py
+++ b/src/datasets/parser/pdf_parser/pdf_splitter.py
--- a/src/datasets/parser/pdf_parser/test_service.py
+++ b/src/datasets/parser/pdf_parser/test_service.py
--- a/src/datasets/parser/question_answer_parser/question_answer_parser.py
+++ b/src/datasets/parser/question_answer_parser/question_answer_parser.py
@@ -0,0 +1,417 @@
 
															+"""
														
 
															+QA模式问答对解析器工作流
														
 
															+
														
 
															+使用LangGraph实现完整的PDF到QA知识库工作流：
														
 
															+PDF OCR解析 → 文本分块 → 生成QA对 → 上传RAGFlow
														
 
															+"""
														
 
															+
														
 
															+import os
														
 
															+import json
														
 
															+import csv
														
 
															+import tempfile
														
 
															+import concurrent.futures
														
 
															+from concurrent.futures import ThreadPoolExecutor
														
 
															+from typing import List, Dict, Any, Optional
														
 
															+from pydantic import BaseModel, Field, ConfigDict
														
 
															+from langgraph.graph import StateGraph, START, END
														
 
															+from langchain.chat_models import init_chat_model
														
 
															+from langchain_core.messages import HumanMessage, SystemMessage
														
 
															+from langchain_text_splitters import RecursiveCharacterTextSplitter
														
 
															+from src.datasets.parser.pdf_parser.pdf_splitter import PDFSplitter
														
 
															+from src.model.qwen_vl import QWenVLParser
														
 
															+from src.utils.ragflow.ragflow_service import RAGFlowService
														
 
															+from src.conf.settings import model_settings
														
 
															+from langfuse.langchain import CallbackHandler
														
 
															+
														
 
															+
														
 
															+class QAParsingState(BaseModel):
														
 
															+    """QA解析工作流状态"""
														
 
															+    model_config = ConfigDict(arbitrary_types_allowed=True)
														
 
															+    
														
 
															+    # 输入参数
														
 
															+    pdf_path: str = Field(..., description="PDF文件路径")
														
 
															+    dataset_id: str = Field(..., description="RAGFlow数据集ID")
														
 
															+    qa_count_per_chunk: int = Field(default=50, description="每块生成的QA数量")
														
 
															+    chunk_size: int = Field(default=1000, description="文本分块大小")
														
 
															+    chunk_overlap: int = Field(default=200, description="分块重叠大小")
														
 
															+    
														
 
															+    # 中间状态
														
 
															+    extracted_text: str = Field(default="", description="OCR提取的文本")
														
 
															+    chunks: List[str] = Field(default_factory=list, description="分块后的文本列表")
														
 
															+    qa_pairs: List[Dict[str, Any]] = Field(default_factory=list, description="生成的QA对列表")
														
 
															+    csv_path: str = Field(default="", description="临时CSV文件路径")
														
 
															+    
														
 
															+    # 输出状态
														
 
															+    uploaded_document_id: str = Field(default="", description="上传后的文档ID")
														
 
															+    qa_count: int = Field(default=0, description="生成的QA对数量")
														
 
															+    is_complete: bool = Field(default=False, description="是否处理完成")
														
 
															+    error_message: Optional[str] = Field(default=None, description="错误信息")
														
 
															+
														
 
															+
														
 
															+class QuestionAnswerParserWorkflow:
														
 
															+    """QA问答对解析工作流"""
														
 
															+    
														
 
															+    def __init__(self, model_name: str = None):
														
 
															+        """
														
 
															+        初始化QA解析工作流
														
 
															+        
														
 
															+        Args:
														
 
															+            model_name: VL模型名称，用于PDF OCR解析
														
 
															+        """
														
 
															+        self.model_name = model_name or model_settings.model_name
														
 
															+        self.ragflow_service = RAGFlowService()
														
 
															+        self.langfuse_handler = CallbackHandler()
														
 
															+        
														
 
															+        # 初始化LangChain chat model用于QA生成
														
 
															+        self.chat_model = init_chat_model(
														
 
															+            model_provider=model_settings.model_provider,
														
 
															+            model=model_settings.chat_model_name,
														
 
															+            api_key=model_settings.api_key,
														
 
															+            base_url=model_settings.base_url,
														
 
															+            temperature=0.7
														
 
															+        )
														
 
															+        
														
 
															+        self.workflow = self._build_workflow()
														
 
															+    
														
 
															+    def _build_workflow(self):
														
 
															+        """构建LangGraph工作流"""
														
 
															+        graph = StateGraph(QAParsingState)
														
 
															+        
														
 
															+        # 添加节点
														
 
															+        graph.add_node("parse_pdf", self._parse_pdf_node)
														
 
															+        graph.add_node("split_text", self._split_text_node)
														
 
															+        graph.add_node("generate_qa", self._generate_qa_node)
														
 
															+        graph.add_node("export_csv", self._export_csv_node)
														
 
															+        graph.add_node("upload_document", self._upload_document_node)
														
 
															+        graph.add_node("parse_document", self._parse_document_node)
														
 
															+        graph.add_node("complete", self._complete_node)
														
 
															+        
														
 
															+        # 定义边
														
 
															+        graph.add_edge(START, "parse_pdf")
														
 
															+        graph.add_edge("parse_pdf", "split_text")
														
 
															+        graph.add_edge("split_text", "generate_qa")
														
 
															+        graph.add_edge("generate_qa", "export_csv")
														
 
															+        graph.add_edge("export_csv", "upload_document")
														
 
															+        graph.add_edge("upload_document", "parse_document")
														
 
															+        graph.add_edge("parse_document", "complete")
														
 
															+        graph.add_edge("complete", END)
														
 
															+        
														
 
															+        return graph.compile()
														
 
															+    
														
 
															+    def _parse_pdf_node(self, state: QAParsingState) -> Dict[str, Any]:
														
 
															+        """PDF OCR解析节点 - 提取文本内容"""
														
 
															+        print(f"开始解析PDF: {state.pdf_path}")
														
 
															+        
														
 
															+        try:
														
 
															+            # 使用PDFSplitter拆分PDF为图片
														
 
															+            splitter = PDFSplitter()
														
 
															+            pages = splitter.split_pdf(state.pdf_path)
														
 
															+            
														
 
															+            # 使用QWenVL模型提取每页文本
														
 
															+            extracted_texts = []
														
 
															+            parser = QWenVLParser(self.model_name)
														
 
															+            
														
 
															+            for page in pages:
														
 
															+                page_number = page["page_number"]
														
 
															+                image = page["image"]
														
 
															+                
														
 
															+                # OCR提取文本的prompt
														
 
															+                prompt = """请提取图片中的所有文字内容，保持原有的段落结构。
														
 
															+只输出提取的文字，不要添加任何额外的说明或格式。"""
														
 
															+                
														
 
															+                result = parser.parse_image(image, page_number, prompt)
														
 
															+                text = result.get("content", "")
														
 
															+                extracted_texts.append(text)
														
 
															+                print(f"第 {page_number} 页文本提取完成")
														
 
															+            
														
 
															+            full_text = "\n\n".join(extracted_texts)
														
 
															+            print(f"PDF解析完成，提取文本长度: {len(full_text)} 字符")
														
 
															+            
														
 
															+            return {"extracted_text": full_text}
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            print(f"PDF解析失败: {str(e)}")
														
 
															+            return {"error_message": f"PDF解析失败: {str(e)}"}
														
 
															+    
														
 
															+    def _split_text_node(self, state: QAParsingState) -> Dict[str, Any]:
														
 
															+        """文本分块节点"""
														
 
															+        print("开始文本分块...")
														
 
															+        
														
 
															+        if state.error_message:
														
 
															+            return {}
														
 
															+        
														
 
															+        if not state.extracted_text:
														
 
															+            return {"error_message": "没有提取到文本内容"}
														
 
															+        
														
 
															+        try:
														
 
															+            # 使用LangChain的RecursiveCharacterTextSplitter
														
 
															+            text_splitter = RecursiveCharacterTextSplitter(
														
 
															+                chunk_size=state.chunk_size,
														
 
															+                chunk_overlap=state.chunk_overlap,
														
 
															+                length_function=len,
														
 
															+                separators=["\n\n", "\n", "。", "！", "？", "；", " ", ""]
														
 
															+            )
														
 
															+            
														
 
															+            chunks = text_splitter.split_text(state.extracted_text)
														
 
															+            print(f"文本分块完成，共 {len(chunks)} 个分块")
														
 
															+            
														
 
															+            return {"chunks": chunks}
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            print(f"文本分块失败: {str(e)}")
														
 
															+            return {"error_message": f"文本分块失败: {str(e)}"}
														
 
															+    
														
 
															+    def _generate_qa_for_chunk(self, chunk: str, count: int, chunk_index: int) -> List[Dict[str, str]]:
														
 
															+        """为单个分块生成QA对"""
														
 
															+        print(f"正在为分块 {chunk_index + 1} 生成 {count} 个QA对...")
														
 
															+        
														
 
															+        system_prompt = """你是一个专业的问答对生成专家。你的任务是根据给定的文本内容，生成高质量的问答对。
														
 
															+
														
 
															+            要求：
														
 
															+            1. 问题应该覆盖内容的不同方面和细节
														
 
															+            2. 答案应该准确、简洁，直接来自文本
														
 
															+            3. 问答对应该有助于知识检索和理解
														
 
															+            4. 避免生成过于简单或重复的问题
														
 
															+            5. 确保问题是自包含的，不需要额外上下文即可理解"""
														
 
															+
														
 
															+        user_prompt = f"""请根据以下内容，生成 {count} 个高质量的问答对。
														
 
															+
														
 
															+            内容：
														
 
															+                {chunk}
														
 
															+
														
 
															+            请严格以JSON格式输出，格式如下：
														
 
															+            [
														
 
															+                {{"question": "问题1", "answer": "答案1"}},
														
 
															+                {{"question": "问题2", "answer": "答案2"}}
														
 
															+            ]
														
 
															+
														
 
															+            只输出JSON数组，不要添加任何其他内容。"""
														
 
															+
														
 
															+        try:
														
 
															+            messages = [
														
 
															+                SystemMessage(content=system_prompt),
														
 
															+                HumanMessage(content=user_prompt)
														
 
															+            ]
														
 
															+            
														
 
															+            response = self.chat_model.invoke(messages)
														
 
															+            content = response.content if hasattr(response, 'content') else str(response)
														
 
															+            
														
 
															+            # 尝试解析JSON
														
 
															+            # 清理可能的markdown代码块标记
														
 
															+            content = content.strip()
														
 
															+            if content.startswith("```json"):
														
 
															+                content = content[7:]
														
 
															+            if content.startswith("```"):
														
 
															+                content = content[3:]
														
 
															+            if content.endswith("```"):
														
 
															+                content = content[:-3]
														
 
															+            content = content.strip()
														
 
															+            
														
 
															+            qa_list = json.loads(content)
														
 
															+            print(f"分块 {chunk_index + 1} 生成了 {len(qa_list)} 个QA对")
														
 
															+            return qa_list
														
 
															+            
														
 
															+        except json.JSONDecodeError as e:
														
 
															+            print(f"分块 {chunk_index + 1} JSON解析失败: {str(e)}")
														
 
															+            return []
														
 
															+        except Exception as e:
														
 
															+            print(f"分块 {chunk_index + 1} QA生成失败: {str(e)}")
														
 
															+            return []
														
 
															+    
														
 
															+    def _generate_qa_node(self, state: QAParsingState) -> Dict[str, Any]:
														
 
															+        """生成QA对节点 - 并行处理所有分块"""
														
 
															+        print(f"开始为 {len(state.chunks)} 个分块生成QA对...")
														
 
															+        
														
 
															+        if state.error_message:
														
 
															+            return {}
														
 
															+        
														
 
															+        if not state.chunks:
														
 
															+            return {"error_message": "没有可处理的文本分块"}
														
 
															+        
														
 
															+        all_qa_pairs = []
														
 
															+        
														
 
															+        # 使用ThreadPoolExecutor并行处理
														
 
															+        with ThreadPoolExecutor(max_workers=5, thread_name_prefix="qa_gen_") as executor:
														
 
															+            futures = {
														
 
															+                executor.submit(
														
 
															+                    self._generate_qa_for_chunk, 
														
 
															+                    chunk, 
														
 
															+                    state.qa_count_per_chunk,
														
 
															+                    i
														
 
															+                ): i for i, chunk in enumerate(state.chunks)
														
 
															+            }
														
 
															+            
														
 
															+            for future in concurrent.futures.as_completed(futures):
														
 
															+                chunk_index = futures[future]
														
 
															+                try:
														
 
															+                    qa_list = future.result()
														
 
															+                    for qa in qa_list:
														
 
															+                        qa["chunk_index"] = chunk_index
														
 
															+                    all_qa_pairs.extend(qa_list)
														
 
															+                except Exception as e:
														
 
															+                    print(f"分块 {chunk_index + 1} 处理异常: {str(e)}")
														
 
															+        
														
 
															+        # 按chunk_index排序
														
 
															+        all_qa_pairs.sort(key=lambda x: x.get("chunk_index", 0))
														
 
															+        
														
 
															+        print(f"QA对生成完成，共生成 {len(all_qa_pairs)} 个问答对")
														
 
															+        return {"qa_pairs": all_qa_pairs}
														
 
															+    
														
 
															+    def _export_csv_node(self, state: QAParsingState) -> Dict[str, Any]:
														
 
															+        """导出QA对到CSV临时文件节点"""
														
 
															+        print(f"开始导出 {len(state.qa_pairs)} 个QA对到CSV文件...")
														
 
															+        
														
 
															+        if state.error_message:
														
 
															+            return {}
														
 
															+        
														
 
															+        if not state.qa_pairs:
														
 
															+            return {"error_message": "没有可导出的QA对"}
														
 
															+        
														
 
															+        try:
														
 
															+            # 使用PDF文件名作为CSV文件名前缀
														
 
															+            pdf_basename = os.path.splitext(os.path.basename(state.pdf_path))[0]
														
 
															+            
														
 
															+            # 创建临时CSV文件
														
 
															+            temp_file = tempfile.NamedTemporaryFile(
														
 
															+                mode='w',
														
 
															+                suffix='.csv',
														
 
															+                prefix=f'{pdf_basename}_qa_',
														
 
															+                delete=False,
														
 
															+                encoding='utf-8',
														
 
															+                newline=''
														
 
															+            )
														
 
															+            
														
 
															+            # 使用TAB作为分隔符写入CSV
														
 
															+            writer = csv.writer(temp_file, delimiter='\t')
														
 
															+            
														
 
															+            # 写入数据（问题和答案）
														
 
															+            for qa in state.qa_pairs:
														
 
															+                writer.writerow([qa['question'], qa['answer']])
														
 
															+            
														
 
															+            temp_file.close()
														
 
															+            csv_path = temp_file.name
														
 
															+            
														
 
															+            print(f"CSV文件导出完成: {csv_path}")
														
 
															+            print(f"共导出 {len(state.qa_pairs)} 个QA对")
														
 
															+            
														
 
															+            return {
														
 
															+                "csv_path": csv_path,
														
 
															+                "qa_count": len(state.qa_pairs)
														
 
															+            }
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            print(f"导出CSV失败: {str(e)}")
														
 
															+            return {"error_message": f"导出CSV失败: {str(e)}"}
														
 
															+    
														
 
															+    def _upload_document_node(self, state: QAParsingState) -> Dict[str, Any]:
														
 
															+        """上传CSV文档到RAGFlow节点"""
														
 
															+        print(f"开始上传CSV文件到RAGFlow: {state.csv_path}")
														
 
															+        
														
 
															+        if state.error_message:
														
 
															+            return {}
														
 
															+        
														
 
															+        if not state.csv_path:
														
 
															+            return {"error_message": "没有可上传的CSV文件"}
														
 
															+        
														
 
															+        try:
														
 
															+            # 上传文档到RAGFlow
														
 
															+            document_info_list = self.ragflow_service.upload_document(
														
 
															+                dataset_id=state.dataset_id,
														
 
															+                file_path=state.csv_path
														
 
															+            )
														
 
															+            
														
 
															+            if document_info_list and len(document_info_list) > 0:
														
 
															+                document_id = document_info_list[0]["id"]
														
 
															+                print(f"CSV文档上传成功，文档ID: {document_id}")
														
 
															+                
														
 
															+                # 清理临时文件
														
 
															+                try:
														
 
															+                    os.remove(state.csv_path)
														
 
															+                    print(f"临时文件已清理: {state.csv_path}")
														
 
															+                except Exception as e:
														
 
															+                    print(f"清理临时文件失败: {str(e)}")
														
 
															+                
														
 
															+                return {"uploaded_document_id": document_id}
														
 
															+            else:
														
 
															+                return {"error_message": "文档上传失败: 未返回有效的文档信息"}
														
 
															+                
														
 
															+        except Exception as e:
														
 
															+            print(f"上传文档失败: {str(e)}")
														
 
															+            return {"error_message": f"上传文档失败: {str(e)}"}
														
 
															+
														
 
															+    def _parse_document_node(self, state: QAParsingState) -> Dict[str, Any]:
														
 
															+        """RAGFLOW文档解析节点"""
														
 
															+        print(f"开始解析文档 {state.dataset_id}: {state.uploaded_document_id}")
														
 
															+        
														
 
															+        try:        
														
 
															+            # 解析文档
														
 
															+            parse_success = self.ragflow_service.parse_document(
														
 
															+                dataset_id=state.dataset_id,
														
 
															+                document_ids=[state.uploaded_document_id]
														
 
															+            )
														
 
															+            
														
 
															+            # 检查响应parse_success为bool
														
 
															+            if parse_success:
														
 
															+                print(f"文档解析成功，文档ID: {state.uploaded_document_id}")
														
 
															+                # 返回空列表，因为parsed_results字段期望是列表类型
														
 
															+                return {
														
 
															+                    "parsed_results": []
														
 
															+                }
														
 
															+            else:
														
 
															+                print("文档解析失败: 未返回有效的解析结果")
														
 
															+                raise Exception("文档解析失败: 未返回有效的解析结果")
														
 
															+        except Exception as e:
														
 
															+            print(f"解析文档时出错: {str(e)}")
														
 
															+            raise
														
 
															+    
														
 
															+    def _complete_node(self, state: QAParsingState) -> Dict[str, Any]:
														
 
															+        """完成节点"""
														
 
															+        if state.error_message:
														
 
															+            print(f"工作流完成（有错误）: {state.error_message}")
														
 
															+        else:
														
 
															+            print(f"QA解析工作流完成！")
														
 
															+            print(f"  - 提取文本: {len(state.extracted_text)} 字符")
														
 
															+            print(f"  - 分块数量: {len(state.chunks)}")
														
 
															+            print(f"  - 生成QA对: {state.qa_count}")
														
 
															+            print(f"  - 上传文档ID: {state.uploaded_document_id}")
														
 
															+        
														
 
															+        return {"is_complete": True}
														
 
															+    
														
 
															+    def run(
														
 
															+        self, 
														
 
															+        pdf_path: str, 
														
 
															+        dataset_id: str, 
														
 
															+        qa_count_per_chunk: int = 50,
														
 
															+        chunk_size: int = 1000,
														
 
															+        chunk_overlap: int = 200
														
 
															+    ) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        运行QA解析工作流
														
 
															+        
														
 
															+        Args:
														
 
															+            pdf_path: PDF文件路径
														
 
															+            dataset_id: RAGFlow数据集ID
														
 
															+            qa_count_per_chunk: 每块生成的QA数量，默认50
														
 
															+            chunk_size: 文本分块大小，默认1000
														
 
															+            chunk_overlap: 分块重叠大小，默认200
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict: 包含最终状态的字典
														
 
															+        """
														
 
															+        initial_state = QAParsingState(
														
 
															+            pdf_path=pdf_path,
														
 
															+            dataset_id=dataset_id,
														
 
															+            qa_count_per_chunk=qa_count_per_chunk,
														
 
															+            chunk_size=chunk_size,
														
 
															+            chunk_overlap=chunk_overlap
														
 
															+        )
														
 
															+        
														
 
															+        result = self.workflow.invoke(
														
 
															+            initial_state, 
														
 
															+            config={"callbacks": [self.langfuse_handler]}
														
 
															+        )
														
 
															+        
														
 
															+        if isinstance(result, dict):
														
 
															+            return result
														
 
															+        else:
														
 
															+            return result.dict()
														
--- a/src/utils/infinity/client.py
+++ b/src/utils/infinity/client.py
@@ -260,8 +260,8 @@ class InfinityClient:
 
															         """关闭客户端，释放所有连接"""
														
 
															         self.pool.close()
														
 
															-# 全局客户端实例
														
 
															-_global_client: Optional[InfinityClient] = None
														
 
															+# 全局客户端实例缓存（按database进行缓存）
														
 
															+_client_cache: Dict[str, "InfinityClient"] = {}
														
 
															 _client_lock = threading.Lock()
														
 
															 def get_client(
														
@@ -270,25 +270,36 @@ def get_client(
 
															     database: str = vector_db_settings.infinity_database,
														
 
															     min_connections: int = 5,
														
 
															     max_connections: int = 10
														
 
															-) -> InfinityClient:
														
 
															+) -> "InfinityClient":
														
 
															     """
														
 
															-    获取全局客户端实例（单例模式）
														
 
															+    获取Infinity客户端实例（按数据库缓存）
														
 
															+    
														
 
															+    支持动态切换数据库：每个数据库对应一个独立的客户端实例，
														
 
															+    通过不同的database参数可获取对应数据库的客户端。
														
 
															     Args:
														
 
															         host: Infinity服务地址
														
 
															         port: Infinity服务端口
														
 
															-        database: 数据库名称
														
 
															+        database: 数据库名称（不同的数据库会创建不同的客户端实例）
														
 
															         min_connections: 最小连接数
														
 
															         max_connections: 最大连接数
														
 
															     Returns:
														
 
															-        全局Infinity客户端实例
														
 
															+        对应数据库的Infinity客户端实例
														
 
															+        
														
 
															+    Example:
														
 
															+        # 获取默认数据库客户端
														
 
															+        client = get_client()
														
 
															+        
														
 
															+        # 获取指定数据库客户端
														
 
															+        ragflow_client = get_client(database="ragflow_db")
														
 
															     """
														
 
															-    global _global_client
														
 
															+    # 使用 (host:port:database) 作为缓存key
														
 
															+    cache_key = f"{host}:{port}:{database}"
														
 
															     with _client_lock:
														
 
															-        if _global_client is None:
														
 
															-            _global_client = InfinityClient(
														
 
															+        if cache_key not in _client_cache:
														
 
															+            _client_cache[cache_key] = InfinityClient(
														
 
															                 host=host,
														
 
															                 port=port,
														
 
															                 database=database,
														
@@ -296,13 +307,28 @@ def get_client(
 
															                 max_connections=max_connections
														
 
															             )
														
 
															-    return _global_client
														
 
															+    return _client_cache[cache_key]
														
 
															+
														
 
															-def close_client():
														
 
															-    """关闭全局客户端"""
														
 
															-    global _global_client
														
 
															+def close_client(database: Optional[str] = None):
														
 
															+    """
														
 
															+    关闭客户端
														
 
															+    
														
 
															+    Args:
														
 
															+        database: 要关闭的数据库客户端名称。
														
 
															+                  如果为None，则关闭所有缓存的客户端。
														
 
															+    """
														
 
															+    global _client_cache
														
 
															     with _client_lock:
														
 
															-        if _global_client:
														
 
															-            _global_client.close()
														
 
															-            _global_client = None
														
 
															+        if database is None:
														
 
															+            # 关闭所有客户端
														
 
															+            for client in _client_cache.values():
														
 
															+                client.close()
														
 
															+            _client_cache.clear()
														
 
															+        else:
														
 
															+            # 关闭指定数据库的客户端
														
 
															+            keys_to_remove = [k for k in _client_cache if k.endswith(f":{database}")]
														
 
															+            for key in keys_to_remove:
														
 
															+                _client_cache[key].close()
														
 
															+                del _client_cache[key]
														
--- a/src/utils/infinity/result_util.py
+++ b/src/utils/infinity/result_util.py
@@ -63,4 +63,54 @@ def convert_to_langchain_docs(obj: Any) -> List[Document]:
 
															                  metadata={k: v for k, v in item.items() if k != "content"})
														
 
															         for item in res[0]
														
 
															     ]
														
 
															-    return candidate_docs
														
 
															+    return candidate_docs
														
 
															+
														
 
															+
														
 
															+def convert_to_json(obj: Any, content_field: str = "content") -> List[Dict[str, Any]]:
														
 
															+    """
														
 
															+    将Infinity搜索结果转换为JSON可序列化的列表格式
														
 
															+    
														
 
															+    Args:
														
 
															+        obj: 要转换的对象（Infinity搜索结果）
														
 
															+        content_field: 内容字段名称，默认为"content"
														
 
															+        
														
 
															+    Returns:
														
 
															+        转换后的JSON可序列化列表，每个元素包含:
														
 
															+        - content: 内容字段
														
 
															+        - metadata: 其他字段组成的元数据字典
														
 
															+        
														
 
															+    Example:
														
 
															+        >>> result = infinity_client.vector_search(...)
														
 
															+        >>> json_data = convert_to_json(result.to_result())
														
 
															+        >>> # [{"content": "...", "metadata": {"field1": "...", ...}}, ...]
														
 
															+    """
														
 
															+    res = convert_to_basic_types(obj=obj)
														
 
															+    
														
 
															+    # 处理结果为空的情况
														
 
															+    if not res or len(res) == 0 or len(res[0]) == 0:
														
 
															+        return []
														
 
															+    
														
 
															+    # 转换为JSON格式
														
 
															+    json_list = []
														
 
															+    for item in res[0]:
														
 
															+        # 处理 item 可能是字符串或字典的情况
														
 
															+        if isinstance(item, dict):
														
 
															+            json_item = {
														
 
															+                "content": item.get(content_field, ""),
														
 
															+                "metadata": {k: v for k, v in item.items() if k != content_field}
														
 
															+            }
														
 
															+        elif isinstance(item, str):
														
 
															+            # 如果 item 是字符串，直接作为 content
														
 
															+            json_item = {
														
 
															+                "content": item,
														
 
															+                "metadata": {}
														
 
															+            }
														
 
															+        else:
														
 
															+            # 其他类型转为字符串
														
 
															+            json_item = {
														
 
															+                "content": str(item),
														
 
															+                "metadata": {}
														
 
															+            }
														
 
															+        json_list.append(json_item)
														
 
															+    
														
 
															+    return json_list