há 3 meses atrás · fb3a29ffab
--- a/.env
+++ b/.env
@@ -1,9 +1,10 @@
 
															 # 模型配置
														
 
															 MODEL_PROVIDER=openai
														
 
															 MODEL_NAME=Qwen/Qwen3-VL-8B-Instruct
														
 
															+CHAT_MODEL_NAME=deepseek-ai/DeepSeek-V3.2
														
 
															 BASE_URL=https://api.siliconflow.cn/v1
														
 
															 API_KEY=sk-xvrfniafyxprllrgedsgosdwcmfmrbnrvhhztssqsmnzacfj
														
 
															-DASHSCOPE=sk-bc0f1026a41c4c92beb014be8973e4e2
														
 
															+DASHSCOPE_API_KEY=sk-bc0f1026a41c4c92beb014be8973e4e2
														
 
															 # embedding模型配置
														
 
															 EMBEDDING_MODEL_NAME=Qwen/Qwen3-Embedding-0.6B
														
 
															 MULTIMODAL_EMBEDDING_MODEL_NAME=qwen2.5-vl-embedding
														
@@ -12,7 +13,7 @@ RANK_MODEL_NAME=Qwen/Qwen3-Reranker-0.6B
 
															 # RAGFLOW配置
														
 
															 RAGFLOW_API_URL=http://192.168.16.134:9380/
														
 
															-RAGFLOW_API_KEY=ragflow-sPJ06xiUdRrcfDRlOD-GN2gl-U2DLB-PbgNGckUu0KM
														
 
															+RAGFLOW_API_KEY=ragflow-HZpOgDg9Vguv2qFRJ4Du7Fo0Lu3AmLaL-Ta0G_R28Y4
														
 
															 DATASET_ID=a0f1aa03ed2c11f08b8f0242c0a85002
														
 
															 RAGFLOW_USER_NAME=O75u85uh+PwmwmJvNebYUCNKpD812xhfnQOvB+Mwy+cHQtGBV2dy0tMQKQwGHiW7MiLJkHPqSLn7ULTzav0c2w3yIze71PAcIfxUScautg6xMMgtjHd4ex8peVyXTQcWc0bmD+GxADaZoOMnDz/XNUtB8mggx/VZ1RBdhrZMylTEGQUcUE8ylbLAVgDVOR6iqJEjGNZYoWUFiuYZAB6bIfPdaPG8Kr0KQrqHj3Y0zZHXl92AloXnw5RsaBOc3p01PKc+xYujrb+mdSGs8flzNHMusWhB/0bJ+t0XxqgePymCCk6+7nmm7M6iZ6pRlYEeERsjiNd/1lcMaWxda5jv4A==
														
 
															 RAGFLOW_PASSWD=ggR2p1L7DRp5v+VcfikmfMYWh99QgBjtQV1fexSFP5C18HVXhkTD2MeMrcnJft8ciGeRUPDStaYZft3CbHOBY3Bzm2+/WX8iVuZ+5kMkmiAL9iUu0RxK74g1x11zy2CAoASy344ZiDy1p1co7hE0ksPdL62U38dxPGPaK8ngqfTsMvpb0XztWBUxaK5Izl3fqPKaYp+eqC75vvj6PeeaajIc7I7dqSai3a6jipruZeA8VxF/cWjVSKubQrm/YLs8mge2mcSM0pyUU2t9LeNS+hOiUyxRAqE2s+yGmRpeCMKIcfeGaurlVesy8v7zjIjZZBbEPV8rSZOEskGRSAG38Q==
														
@@ -32,6 +33,7 @@ INFINITY_DATABASE=book_image_db
 
															 INFINITY_USER=admin
														
 
															 INFINITY_PASSWORD=admin
														
 
															 INFINITY_TABLE_NAME=book_page_image
														
 
															+INFINITY_PAGE_DATASET_ID=90d73295f02411f0a76b0242c0a85002
														
 
															 # MySQL配置
														
 
															 MYSQL_HOST=192.168.16.134
														
@@ -55,7 +57,7 @@ TAG_DB_NAME=default_db
 
															 TAG_DATASET_ID=18caf531f04d11f095670242c0a85002
														
 
															 TAG_DOCUMENT_ID=3dda0a90f1e211f0a3b80242c0a85002
														
 
															 #TAG_TABLE_NAME=ragflow_92162247e93e11f084830242ac1d0002_52275b36f03611f0a5340242c0a85002
														
 
															-TAG_TABLE_NAME=ragflow_92162247e93e11f084830242ac1d0002_18caf531f04d11f095670242c0a85002
														
 
															+TAG_TABLE_NAME=ragflow_92162247e93e11f084830242ac1d0002_18caf531f04d11f095670242c0a85002  6d2e0990f28b11f0b5200242c0a85002
														
 
															 # LANGFUSE
														
 
															 LANGFUSE_PUBLIC_KEY=pk-lf-6918a148-be72-4211-a22d-183a23e6643e
														
--- a/API.md
+++ b/API.md
--- a/api/dataset/__init__.py
+++ b/api/dataset/__init__.py
--- a/api/dataset/services/__init__.py
+++ b/api/dataset/services/__init__.py
--- a/api/dataset/services/dataset_manage_service.py
+++ b/api/dataset/services/dataset_manage_service.py
@@ -0,0 +1,56 @@
 
															+"""
														
 
															+数据集管理服务
														
 
															+
														
 
															+该文件提供数据集管理功能，支持：
														
 
															+- PDF文件解析
														
 
															+- 数据集创建和管理
														
 
															+- 调用PDF解析工作流
														
 
															+"""
														
 
															+
														
 
															+import os
														
 
															+import tempfile
														
 
															+from typing import Dict, Any, Optional
														
 
															+from parser.pdf_parser.pdf_parser_workflow import PDFParsingWorkflow
														
 
															+from conf.settings import vector_db_settings
														
 
															+
														
 
															+
														
 
															+class DatasetManageService:
														
 
															+    """数据集管理服务类"""
														
 
															+    
														
 
															+    def __init__(self):
														
 
															+        """初始化数据集管理服务"""
														
 
															+        self.pdf_workflow = PDFParsingWorkflow()
														
 
															+    
														
 
															+    def parse_pdf(self, series_name: str, pdf_file: bytes, pdf_filename: str) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        解析PDF文件
														
 
															+        
														
 
															+        Args:
														
 
															+            series_name: 系列名
														
 
															+            pdf_file: PDF文件字节数据
														
 
															+            pdf_filename: PDF文件名
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: 解析结果
														
 
															+        """
														
 
															+        try:
														
 
															+            # 创建临时文件，使用原始文件名称
														
 
															+            temp_dir = tempfile.gettempdir()
														
 
															+            temp_file_path = os.path.join(temp_dir, pdf_filename)
														
 
															+            with open(temp_file_path, 'wb') as temp_file:
														
 
															+                temp_file.write(pdf_file)
														
 
															+            
														
 
															+            try:
														
 
															+                # 运行PDF解析工作流
														
 
															+                result = self.pdf_workflow.run(
														
 
															+                    pdf_path=temp_file_path,
														
 
															+                    page_dataset_id=vector_db_settings.infinity_page_dataset_id,
														
 
															+                    dataset_name=series_name
														
 
															+                )
														
 
															+                
														
 
															+                return result
														
 
															+            finally:
														
 
															+                # 删除临时文件
														
 
															+                os.unlink(temp_file_path)
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"解析PDF文件失败: {str(e)}")
														
--- a/api/db/__init__.py
+++ b/api/db/__init__.py
--- a/api/sdk/__init__.py
+++ b/api/sdk/__init__.py
--- a/api/sdk/dataset_manage.py
+++ b/api/sdk/dataset_manage.py
@@ -0,0 +1,56 @@
 
															+"""
														
 
															+数据集管理 API
														
 
															+
														
 
															+该文件提供数据集管理的 API 接口，支持：
														
 
															+- PDF 文件上传和解析
														
 
															+- 数据集创建
														
 
															+"""
														
 
															+
														
 
															+from fastapi import FastAPI, HTTPException, UploadFile, File, Form
														
 
															+from typing import Dict, Any
														
 
															+from api.dataset.services.dataset_manage_service import DatasetManageService
														
 
															+
														
 
															+
														
 
															+# 创建 FastAPI 应用
														
 
															+app = FastAPI(
														
 
															+    title="数据集管理 API",
														
 
															+    description="数据集管理服务，提供 PDF 解析和数据集创建功能",
														
 
															+    version="1.0.0"
														
 
															+)
														
 
															+
														
 
															+# 创建数据集管理服务实例
														
 
															+dataset_service = DatasetManageService()
														
 
															+
														
 
															+
														
 
															+@app.post("/parse-pdf", response_model=Dict[str, Any])
														
 
															+async def parse_pdf(
														
 
															+    file: UploadFile = File(...),
														
 
															+    series_name: str = Form(...)
														
 
															+    
														
 
															+):
														
 
															+    """
														
 
															+    解析 PDF 文件接口
														
 
															+    
														
 
															+    - **file**: PDF 文件附件
														
 
															+    - **series_name**: 系列名
														
 
															+    """
														
 
															+    try:
														
 
															+        # 验证文件格式
														
 
															+        if not file.filename.endswith((".pdf", ".PDF")):
														
 
															+            raise HTTPException(status_code=400, detail="只支持 PDF 格式的文件")
														
 
															+        
														
 
															+        # 读取文件内容
														
 
															+        file_content = await file.read()
														
 
															+        
														
 
															+        # 调用解析 PDF 方法
														
 
															+        result = dataset_service.parse_pdf(
														
 
															+            series_name=series_name,
														
 
															+            pdf_file=file_content,
														
 
															+            pdf_filename=file.filename
														
 
															+        )
														
 
															+        
														
 
															+        return {"success": True, "result": result}
														
 
															+    except HTTPException as e:
														
 
															+        raise e
														
 
															+    except Exception as e:
														
 
															+        raise HTTPException(status_code=500, detail=f"解析 PDF 文件失败: {str(e)}")
														
--- a/conf/age_level.json
+++ b/conf/age_level.json
@@ -1,10 +1,10 @@
 
															 {
														
 
															-    "L1": "0-2",
														
 
															-    "L2": "2-3",
														
 
															-    "L3": "3-4",
														
 
															-    "L4": "4-5",
														
 
															-    "L5": "5-6",
														
 
															-    "L6": "6-10",
														
 
															-    "L7": "10-14",
														
 
															-    "L8": "14-100"
														
 
															+    "L1": [0, 1 ,2],
														
 
															+    "L2": [2, 3],
														
 
															+    "L3": [3, 4],
														
 
															+    "L4": [4, 5],
														
 
															+    "L5": [5, 6],
														
 
															+    "L6": [6, 7, 8, 9, 10],
														
 
															+    "L7": [10, 11, 12, 13, 14],
														
 
															+    "L8": [14, 15, 16, 17, 18, 19, 20]
														
 
															 }
														
--- a/conf/config.py
+++ b/conf/config.py
@@ -67,7 +67,7 @@ class ModelConfig:
 
															     @staticmethod
														
 
															     def get_dashscope_api_key() -> str:
														
 
															         """获取DASHSCOPE API密钥"""
														
 
															-        return os.getenv("DASHSCOPE", "")
														
 
															+        return os.getenv("DASHSCOPE_API_KEY", "")
														
 
															 class RagflowConfig:
														
 
															     """RAGFLOW配置类"""
														
--- a/conf/rag_parser_config.py
+++ b/conf/rag_parser_config.py
@@ -0,0 +1,46 @@
 
															+class RagParserDefaults:
														
 
															+
														
 
															+    DATASET_PERMISSION="team"
														
 
															+
														
 
															+    DATASET_CHUNK_METHOD="naive"
														
 
															+
														
 
															+    DATASET_CONFIG_DICT = {
														
 
															+            "chunk_token_num": 256,
														
 
															+            "delimiter": "\n!?;。；！？",
														
 
															+            "html4excel": False,
														
 
															+            "layout_recognize": "Pro/Qwen/Qwen2.5-VL-7B-Instruct@SILICONFLOW",
														
 
															+            "auto_keywords": 5,
														
 
															+            "tag_kb_ids": [],
														
 
															+            "topn_tags": 3,
														
 
															+            "task_page_size": 4,
														
 
															+            "raptor": {
														
 
															+                "max_cluster": 64,
														
 
															+                "max_token": 256,
														
 
															+                "prompt": "Please summarize the following paragraphs. Be careful with the numbers, do not make things up. Paragraphs as following:\n      {cluster_content}\nThe above is the content you need to summarize.",
														
 
															+                "random_seed": 0,
														
 
															+                "threshold": 0.1,
														
 
															+                "use_raptor": True
														
 
															+            },
														
 
															+            "graphrag": {
														
 
															+                "resolution": True,
														
 
															+                "use_graphrag": True,
														
 
															+                "method": "general",
														
 
															+                "entity_types": [
														
 
															+                    "event",
														
 
															+                    "Book",
														
 
															+                    "Author",
														
 
															+                    "Illustrator",
														
 
															+                    "Series",
														
 
															+                    "Theme",
														
 
															+                    "Genre",
														
 
															+                    "Character",
														
 
															+                    "Setting",
														
 
															+                    "AgeGroup",
														
 
															+                    "Competency",
														
 
															+                    "ArtStyle",
														
 
															+                    "Award",
														
 
															+                    "Publisher",
														
 
															+                    "Role"
														
 
															+                ]
														
 
															+            }
														
 
															+        }
														
--- a/conf/settings.py
+++ b/conf/settings.py
@@ -18,12 +18,13 @@ class ModelSettings(BaseSettings):
 
															     """模型配置类"""
														
 
															     model_provider: str = Field(default="openai", alias="MODEL_PROVIDER")
														
 
															     model_name: str = Field(default="Qwen/Qwen3-VL-8B-Instruct", alias="MODEL_NAME")
														
 
															+    chat_model_name: str = Field(default="deepseek-ai/DeepSeek-V3.2", alias="CHAT_MODEL_NAME")
														
 
															     embedding_model_name: str = Field(default="Qwen/Qwen3-Embedding-0.6B", alias="EMBEDDING_MODEL_NAME")
														
 
															     base_url: str = Field(default="https://api.openai.com/v1", alias="BASE_URL")
														
 
															     api_key: str = Field(default="", alias="API_KEY")
														
 
															     rank_model_name: str = Field(default="Qwen/Qwen3-Reranker-0.6B", alias="RANK_MODEL_NAME")
														
 
															     multimodal_embedding_model_name: str = Field(default="qwen2.5-vl-embedding", alias="MULTIMODAL_EMBEDDING_MODEL_NAME")
														
 
															-    dashscope: str = Field(default="", alias="DASHSCOPE")
														
 
															+    dashscope_api_key: str = Field(default="", alias="DASHSCOPE_API_KEY")
														
 
															     model_config = SettingsConfigDict(
														
 
															         env_file=".env",
														
@@ -72,6 +73,7 @@ class VectorDBSettings(BaseSettings):
 
															     infinity_password: str = Field(default="admin", alias="INFINITY_PASSWORD")
														
 
															     infinity_database: str = Field(default="test", alias="INFINITY_DATABASE")
														
 
															     infinity_table_name: str = Field(default="test", alias="INFINITY_TABLE_NAME")
														
 
															+    infinity_page_dataset_id: str = Field(default="", alias="INFINITY_PAGE_DATASET_ID")
														
 
															     model_config = SettingsConfigDict(
														
 
															         env_file=".env",
														
--- a/main.py
+++ b/main.py
@@ -6,6 +6,7 @@ from contextlib import asynccontextmanager
 
															 # 导入所有子应用
														
 
															 from api.search_infinity import app as search_app
														
 
															 from api.tag_manage import app as tag_app
														
 
															+from api.sdk.dataset_manage import app as dataset_app
														
 
															 # 定义主应用的生命周期管理
														
 
															 @asynccontextmanager
														
@@ -47,6 +48,8 @@ main_app = FastAPI(
 
															 main_app.mount("/search", search_app, name="search_api")
														
 
															 # 2. 标签管理 API - 访问路径: /tag/*
														
 
															 main_app.mount("/tag", tag_app, name="tag_api")
														
 
															+# 3. 数据集管理 API - 访问路径: /dataset/*
														
 
															+main_app.mount("/dataset", dataset_app, name="dataset_api")
														
 
															 # 主应用根路径
														
 
															 @main_app.get("/")
														
@@ -57,7 +60,8 @@ async def root():
 
															         "available_apps": {
														
 
															             "search_api": "访问路径: /search, 文档: /search/docs",
														
 
															             "hybrid_http_api": "访问路径: /hybrid, 文档: /hybrid/docs",
														
 
															-            "tag_api": "访问路径: /tag, 文档: /tag/docs"
														
 
															+            "tag_api": "访问路径: /tag, 文档: /tag/docs",
														
 
															+            "dataset_api": "访问路径: /dataset, 文档: /dataset/docs"
														
 
															         }
														
 
															     }
														
--- a/model/openai_chat_model.py
+++ b/model/openai_chat_model.py
@@ -0,0 +1,109 @@
 
															+from typing import Optional, Dict, Any
														
 
															+from langchain.chat_models import init_chat_model
														
 
															+from langchain_core.messages import AIMessage, HumanMessage, SystemMessage
														
 
															+from conf.settings import model_settings
														
 
															+
														
 
															+class OpenAIChatModel:
														
 
															+    """
														
 
															+    OpenAI 风格的聊天模型封装
														
 
															+    
														
 
															+    基于 langchain 的 init_chat_model 实现，
														
 
															+    默认使用 deepseek-r1 模型，支持用户指定其他模型。
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(
														
 
															+        self,
														
 
															+        model_provider: str = model_settings.model_provider,
														
 
															+        model_name: str = model_settings.chat_model_name,
														
 
															+        api_key: Optional[str] = model_settings.api_key,
														
 
															+        base_url: Optional[str] = model_settings.base_url,
														
 
															+        temperature: float = 0.7,
														
 
															+        max_tokens: Optional[int] = None,
														
 
															+        **kwargs
														
 
															+    ):
														
 
															+        """
														
 
															+        初始化 OpenAI Chat 模型
														
 
															+        
														
 
															+        Args:
														
 
															+            model_name: 模型名称，默认为 "deepseek-r1"
														
 
															+            api_key: API 密钥
														
 
															+            base_url: API 基础 URL
														
 
															+            temperature: 生成文本的随机性，范围 0-2，默认为 0.7
														
 
															+            max_tokens: 最大生成 token 数
														
 
															+            **kwargs: 其他参数
														
 
															+        """
														
 
															+        # 使用 langchain 的 init_chat_model 初始化模型
														
 
															+        self.chat_model = init_chat_model(
														
 
															+            model_provider=model_provider,
														
 
															+            model=model_name,
														
 
															+            api_key=api_key,
														
 
															+            base_url=base_url,
														
 
															+            temperature=temperature,
														
 
															+            max_tokens=max_tokens,
														
 
															+            **kwargs
														
 
															+        )
														
 
															+    
														
 
															+    def get_chat_model(self):
														
 
															+        """
														
 
															+        获取聊天模型实例
														
 
															+        
														
 
															+        Returns:
														
 
															+            聊天模型实例（由 langchain.init_chat_model 返回的类型）
														
 
															+        """
														
 
															+        return self.chat_model
														
 
															+    
														
 
															+    def generate_response(
														
 
															+        self,
														
 
															+        prompt: str,
														
 
															+        system_prompt: Optional[str] = None,
														
 
															+        **kwargs
														
 
															+    ) -> str:
														
 
															+        """
														
 
															+        生成响应
														
 
															+        
														
 
															+        Args:
														
 
															+            prompt: 用户提示
														
 
															+            system_prompt: 系统提示
														
 
															+            **kwargs: 其他参数
														
 
															+            
														
 
															+        Returns:
														
 
															+            str: 生成的响应
														
 
															+        """
														
 
															+        # 构建消息列表
														
 
															+        messages = []
														
 
															+        
														
 
															+        # 添加系统提示（如果有）
														
 
															+        if system_prompt:
														
 
															+            messages.append(SystemMessage(content=system_prompt))
														
 
															+        
														
 
															+        # 添加用户提示
														
 
															+        messages.append(HumanMessage(content=prompt))
														
 
															+        
														
 
															+        # 生成响应
														
 
															+        response = self.chat_model.invoke(messages, **kwargs)
														
 
															+        
														
 
															+        # 解析响应
														
 
															+        if isinstance(response, AIMessage):
														
 
															+            return response.content
														
 
															+        else:
														
 
															+            # 对于其他类型的响应，尝试获取内容
														
 
															+            return str(response)
														
 
															+    
														
 
															+    def chat(
														
 
															+        self,
														
 
															+        prompt: str,
														
 
															+        system_prompt: Optional[str] = None,
														
 
															+        **kwargs
														
 
															+    ) -> str:
														
 
															+        """
														
 
															+        聊天接口（别名，向后兼容）
														
 
															+        
														
 
															+        Args:
														
 
															+            prompt: 用户提示
														
 
															+            system_prompt: 系统提示
														
 
															+            **kwargs: 其他参数
														
 
															+            
														
 
															+        Returns:
														
 
															+            str: 生成的响应
														
 
															+        """
														
 
															+        return self.generate_response(prompt, system_prompt, **kwargs)
														
--- a/model/qwen_vl.py
+++ b/model/qwen_vl.py
@@ -4,7 +4,7 @@ import base64
 
															 import io
														
 
															 from langchain.chat_models import init_chat_model
														
 
															 from conf.settings import model_settings
														
 
															-from langfuse.callback import CallbackHandler
														
 
															+from langfuse.langchain import CallbackHandler
														
 
															 class QWenVLParser:
														
 
															     """QWEN VL模型图像解析工具"""
														
--- a/parser/pdf_parser/pdf_parser_workflow.py
+++ b/parser/pdf_parser/pdf_parser_workflow.py
@@ -1,30 +1,29 @@
 
															 import os
														
 
															 import concurrent.futures
														
 
															+import time
														
 
															 from concurrent.futures import ThreadPoolExecutor
														
 
															 from langgraph.graph import StateGraph, START, END
														
 
															 from typing import List, Dict, Any
														
 
															 from pydantic import BaseModel, Field, ConfigDict
														
 
															 from parser.pdf_parser.pdf_splitter import PDFSplitter
														
 
															 from model.qwen_vl import QWenVLParser
														
 
															-from utils.ragflow_sdk import DataSetUtil, DocumentUtil, ChunkUtil
														
 
															 from utils.ragflow.ragflow_service import RAGFlowService
														
 
															 from model.multimodal_embedding import Embedding
														
 
															 from conf.settings import model_settings, vector_db_settings
														
 
															 from utils.infinity import get_client
														
 
															+from langfuse.langchain import CallbackHandler
														
 
															+from conf.rag_parser_config import RagParserDefaults
														
 
															 # 定义工作流状态类
														
 
															 class PDFParsingState(BaseModel):
														
 
															     """PDF解析工作流状态"""
														
 
															     model_config = ConfigDict(arbitrary_types_allowed=True)
														
 
															     pdf_path: str = Field(..., description="PDF文件路径")
														
 
															-    dataset_id: str = Field(..., description="数据集ID")
														
 
															-    page_dataset_id: str = Field(..., description="页面数据集ID")
														
 
															-    ragflow_service: RAGFlowService = Field(default_factory=RAGFlowService, description="RAGFlow服务实例")
														
 
															-    dataset_util: DataSetUtil = Field(default_factory=DataSetUtil, description="数据集工具类实例")
														
 
															-    document_util: DocumentUtil = Field(default_factory=DocumentUtil, description="文档工具类实例")
														
 
															-    chunk_util: ChunkUtil = Field(default_factory=ChunkUtil, description="文档工具类实例")
														
 
															-    embedding_model: Embedding = Field(default_factory=Embedding, description="多模态嵌入模型实例")
														
 
															+    dataset_name: str = Field(..., description="数据集名称")
														
 
															+    dataset_id: str = Field(default="", description="RAGFLOW数据集ID")
														
 
															     document_id: str = Field(default="", description="上传后的文档ID")
														
 
															+    page_dataset_id: str = Field(..., description="页面数据集ID")
														
 
															+    page_document_id: str = Field(default="", description="上传后的页面文档ID")
														
 
															     split_pages: List[Dict[str, Any]] = Field(default_factory=list, description="拆分后的页面列表")
														
 
															     current_page: Dict[str, Any] = Field(default_factory=dict, description="当前处理的页面")
														
 
															     parsed_results: List[Dict[str, Any]] = Field(default_factory=list, description="解析结果列表")
														
@@ -46,6 +45,9 @@ class PDFParsingWorkflow:
 
															         """
														
 
															         self.model_name = model_name
														
 
															         self.workflow = self._build_workflow()
														
 
															+        self.ragflow_service = RAGFlowService()
														
 
															+        self.langfuse_handler = CallbackHandler()
														
 
															+        self.embedding_model = Embedding(model_name=model_settings.multimodal_embedding_model_name, api_key=model_settings.dashscope_api_key)
														
 
															     def _build_workflow(self):
														
@@ -53,8 +55,17 @@ class PDFParsingWorkflow:
 
															         # 创建状态图
														
 
															         graph = StateGraph(PDFParsingState)
														
 
															+        # 添加查询知识库是否存在节点
														
 
															+        graph.add_node("get_ragflow_dataset", self.get_ragflow_dataset)
														
 
															+
														
 
															+        # 添加创建知识库节点
														
 
															+        graph.add_node("create_ragflow_dataset", self.create_ragflow_dataset)
														
 
															+
														
 
															         # 添加上传文档节点
														
 
															         graph.add_node("upload_document", self._upload_document_node)
														
 
															+
														
 
															+        # 添加上传图书页面文档节点
														
 
															+        graph.add_node("upload_page_document", self._upload_page_document_node)
														
 
															         # 添加解析文档节点
														
 
															         graph.add_node("parse_document", self._parse_document_node)
														
@@ -64,6 +75,9 @@ class PDFParsingWorkflow:
 
															         # 添加解析图像节点
														
 
															         graph.add_node("parse_image", self._parse_image_node)
														
 
															+
														
 
															+        # 添加解析图书页面图像节点
														
 
															+        graph.add_node("create_ragflow_chunk", self.create_ragflow_chunk)
														
 
															         # 添加向量化入库节点
														
 
															         graph.add_node("vectorize_store", self._vectorize_store_node)
														
@@ -72,10 +86,21 @@ class PDFParsingWorkflow:
 
															         graph.add_node("complete", self._complete_node)
														
 
															         # 定义边
														
 
															-        # 定义RagFLow解析文档
														
 
															-        graph.add_edge(START, "upload_document")
														
 
															+        # 查询知识库是否存在
														
 
															+        graph.add_edge(START, "get_ragflow_dataset")
														
 
															+        # 添加条件边，判断知识库是否存在
														
 
															+        graph.add_conditional_edges(
														
 
															+            "get_ragflow_dataset",
														
 
															+            self._check_dataset_exists,
														
 
															+            {
														
 
															+                "exists": "upload_document",
														
 
															+                "not_exists": "create_ragflow_dataset"
														
 
															+            }
														
 
															+        )
														
 
															         # 添加解析文档边
														
 
															+        graph.add_edge("create_ragflow_dataset", "upload_document")
														
 
															         graph.add_edge("upload_document", "parse_document")
														
 
															+        graph.add_edge("upload_document", "upload_page_document")
														
 
															         graph.add_edge("parse_document", "split_pdf")
														
 
															         # 定义图片解析边
														
 
															         graph.add_edge("split_pdf", "parse_image")
														
@@ -86,45 +111,55 @@ class PDFParsingWorkflow:
 
															             self._should_continue_parsing,
														
 
															             {
														
 
															                 "continue": "parse_image",
														
 
															-                "complete": "vectorize_store"
														
 
															+                "complete": "vectorize_store",
														
 
															             }
														
 
															         )
														
 
															-        # 添加向量化入库边
														
 
															-        graph.add_edge("vectorize_store", "complete")
														
 
															+        # 添加从vectorize_store到create_ragflow_chunk的边
														
 
															+        graph.add_edge("vectorize_store", "create_ragflow_chunk")
														
 
															+        
														
 
															+        graph.add_edge("create_ragflow_chunk", "complete")
														
 
															         graph.add_edge("complete", END)
														
 
															         # 编译工作流
														
 
															         return graph.compile()
														
 
															-    def get_ragflow_dataset(self, dataset_name: str) -> str:
														
 
															+    def get_ragflow_dataset(self, state: PDFParsingState) -> str:
														
 
															         """获取RAGFLOW数据集ID"""
														
 
															         try:
														
 
															-            dataset_id = self.dataset_util.get_dataset(name=dataset_name)
														
 
															-            print(f"数据集 {dataset_name} 的ID为: {dataset_id}")
														
 
															-            return dataset_id
														
 
															+            dataset = self.ragflow_service.get_dataset(name=state.dataset_name)
														
 
															+            dataset_id = dataset["id"] if dataset else ""
														
 
															+            print(f"数据集 {state.dataset_name} 的ID为: {dataset_id}")
														
 
															+            return {
														
 
															+                "dataset_id": dataset_id
														
 
															+            }
														
 
															         except Exception as e:
														
 
															-            print(f"获取数据集ID时出错: {str(e)}")
														
 
															-            raise
														
 
															+            raise Exception(f"获取数据集ID时出错: {str(e)}")
														
 
															-    def create_ragflow_dataset(self, state: PDFParsingState, dataset_name: str) -> str:
														
 
															-        """创建RAGFLOW数据集"""
														
 
															-        if state.dataset_id:
														
 
															-            print(f"数据集 {dataset_name} 已存在，数据集ID: {state.dataset_id}")
														
 
															-            return state.dataset_id
														
 
															+    def _check_dataset_exists(self, state: PDFParsingState) -> str:
														
 
															+        """检查RAGFLOW数据集是否存在"""
														
 
															+        # 判断state.dataset_id是否为空，为空则返回"not_exists"，否则返回"exists"
														
 
															+        if state.dataset_id == "":
														
 
															+            return "not_exists"
														
 
															+        else:
														
 
															+            return "exists"
														
 
															-        print(f"开始创建数据集: {dataset_name}")
														
 
															+    def create_ragflow_dataset(self, state: PDFParsingState) -> str:
														
 
															+        """创建RAGFLOW数据集"""      
														
 
															+        print(f"开始创建数据集: {state.dataset_name}")
														
 
															         try: 
														
 
															             # 创建数据集
														
 
															-            dataset_id = self.dataset_util.create_dataset(
														
 
															-                chunk_method="naive",
														
 
															-                dataset_name=dataset_name,
														
 
															-                dataset_desc="",
														
 
															-            )
														
 
															+            dataset = self.ragflow_service.create_dataset(name=state.dataset_name, description="",
														
 
															+                                             permission=RagParserDefaults.DATASET_PERMISSION,
														
 
															+                                             chunk_method=RagParserDefaults.DATASET_CHUNK_METHOD,
														
 
															+                                             parser_config=RagParserDefaults.DATASET_CONFIG_DICT)
														
 
															+            dataset_id = dataset["id"]                     
														
 
															             print(f"数据集创建成功，数据集ID: {dataset_id}")
														
 
															-            return dataset_id
														
 
															+            return {
														
 
															+                "dataset_id": dataset_id
														
 
															+            }
														
 
															         except Exception as e:
														
 
															             print(f"创建数据集时出错: {str(e)}")
														
 
															             raise
														
@@ -135,24 +170,42 @@ class PDFParsingWorkflow:
 
															         try:
														
 
															             # 上传文档
														
 
															-            document_info_list = state.ragflow_service.upload_document(
														
 
															+            document_info_list = self.ragflow_service.upload_document(
														
 
															                 dataset_id=state.dataset_id,
														
 
															                 file_path=state.pdf_path
														
 
															             )
														
 
															-            # 上传文档
														
 
															-            document_info_list2 = state.ragflow_service.upload_document(
														
 
															-                dataset_id=state.page_dataset_id,
														
 
															-                file_path=state.pdf_path
														
 
															-            )
														
 
															             # 检查响应
														
 
															             if document_info_list and len(document_info_list) > 0:
														
 
															                 document_id = document_info_list[0]["id"]
														
 
															-                page_document_id = document_info_list2[0]["id"]
														
 
															                 print(f"文档上传成功，文档ID: {document_id}")
														
 
															                 return {
														
 
															                     "document_id": document_id,
														
 
															-                    "page_document_id": page_document_id
														
 
															+                }
														
 
															+            else:
														
 
															+                print("文档上传失败: 未返回有效的文档信息")
														
 
															+                raise Exception("文档上传失败: 未返回有效的文档信息")
														
 
															+        except Exception as e:
														
 
															+            print(f"上传文档时出错: {str(e)}")
														
 
															+            raise
														
 
															+
														
 
															+    def _upload_page_document_node(self, state: PDFParsingState) -> Dict[str, Any]:
														
 
															+        """RAGFLOW上传页面文档节点"""
														
 
															+        print(f"开始上传页面文档到数据集 {state.dataset_id}: {state.pdf_path}")
														
 
															+        
														
 
															+        try:
														
 
															+            # 上传文档
														
 
															+            document_info_list = self.ragflow_service.upload_document(
														
 
															+                dataset_id=state.page_dataset_id,
														
 
															+                file_path=state.pdf_path
														
 
															+            ) 
														
 
															+            
														
 
															+            # 检查响应
														
 
															+            if document_info_list and len(document_info_list) > 0:
														
 
															+                page_document_id = document_info_list[0]["id"]
														
 
															+                print(f"文档上传成功，文档ID: {page_document_id}")
														
 
															+                return {
														
 
															+                    "page_document_id": page_document_id,
														
 
															                 }
														
 
															             else:
														
 
															                 print("文档上传失败: 未返回有效的文档信息")
														
@@ -167,7 +220,7 @@ class PDFParsingWorkflow:
 
															         try:        
														
 
															             # 解析文档
														
 
															-            parse_success = state.ragflow_service.parse_document(
														
 
															+            parse_success = self.ragflow_service.parse_document(
														
 
															                 dataset_id=state.dataset_id,
														
 
															                 document_ids=[state.document_id]
														
 
															             )
														
@@ -322,26 +375,22 @@ class PDFParsingWorkflow:
 
															         print(f"开始单页上传，共 {len(state.parsed_results)} 页")
														
 
															         # 遍历所有解析结果，上传单页
														
 
															-        for parsed_result in state.parsed_results:
														
 
															+         # 遍历所有解析结果，生成向量化文档
														
 
															+        for i, parsed_result in enumerate(state.parsed_results):
														
 
															             page_number = parsed_result.get("page_number")
														
 
															             text = parsed_result.get("content", "")
														
 
															-            image = state.split_pages[page_number - 1].get("image")
														
 
															+            image_path = state.split_pages[i].get("image_path")
														
 
															             # 上传单页到RagFlow Chunk
														
 
															-            chunk = state.chunk_util.add_chunk(
														
 
															-                dataset_name=state.dataset_name,
														
 
															-                document_id=state.page_document_id,
														
 
															-                content=text,
														
 
															-            )
														
 
															-
														
 
															-            infinity_client = get_client()
														
 
															-            infinity_client.update(database_name=state.dataset_name, table_name="", cond=f"id = {chunk_id}", data={"tag_kwd": tag_name})
														
 
															-            
														
 
															-            # 检查响应
														
 
															-            if document_info and document_info.get("id"):
														
 
															-                print(f"第 {page_number} 页上传成功，文档ID: {document_info['id']}")
														
 
															-            else:
														
 
															-                print(f"第 {page_number} 页上传失败")
														
 
															+            chunk = self.ragflow_service.create_chunk(dataset_id=state.page_dataset_id, 
														
 
															+                                              document_id=state.page_document_id, 
														
 
															+                                              content=text)
														
 
															+            chunk_id = chunk["chunk"]["id"]
														
 
															+            print(f"上传第 {page_number} 页，Chunk ID: {chunk_id}")
														
 
															+            # # 睡眠50ms，避免上传过快
														
 
															+            # time.sleep(0.05)
														
 
															+            # result = get_client().update(database_name=state.dataset_name, table_name="", cond=f"id = '{chunk_id}'", data={"img_id": img_id})
														
 
															+            # print(f"更新第 {page_number} 页，Chunk ID: {chunk_id}，结果: {result}")
														
 
															     def _vectorize_store_node(self, state: PDFParsingState) -> Dict[str, Any]:
														
 
															         """向量化入库节点"""
														
@@ -349,7 +398,7 @@ class PDFParsingWorkflow:
 
															         # 创建索引（如果不存在）
														
 
															         index_name = f"{vector_db_settings.infinity_table_name}"
														
 
															-        state.vector_db.create_index(index_name)
														
 
															+        # get_client().create_index()
														
 
															         # 准备要入库的文档列表
														
 
															         documents_to_store = []
														
@@ -369,7 +418,7 @@ class PDFParsingWorkflow:
 
															                 # 获取多模态嵌入向量
														
 
															                 print(f"正在生成第 {page_number} 页的多模态嵌入...")
														
 
															-                embedding = state.embedding_model.get_multimodal_embedding(text, image)
														
 
															+                embedding = self.embedding_model.get_multimodal_embedding(text, image)
														
 
															                 # 生成1024维稠密向量（如果嵌入向量维度不是1024，这里需要处理）
														
 
															                 dense_vector_1024 = embedding[:1024]  # 取前1024维
														
@@ -395,8 +444,11 @@ class PDFParsingWorkflow:
 
															         # 批量入库
														
 
															         if documents_to_store:
														
 
															             print(f"开始入库，共 {len(documents_to_store)} 个文档")
														
 
															-            infinity_client = get_client()
														
 
															-            result = infinity_client.insert(index_name, documents_to_store)
														
 
															+            result = get_client().insert(
														
 
															+                table_name=vector_db_settings.infinity_table_name,
														
 
															+                documents=documents_to_store,
														
 
															+                database_name=vector_db_settings.infinity_database
														
 
															+            )
														
 
															             print(f"入库结果: {result}")
														
 
															         return {
														
@@ -414,7 +466,7 @@ class PDFParsingWorkflow:
 
															             "is_complete": True
														
 
															         }
														
 
															-    def run(self, pdf_path: str, page_dataset_id: str, ragflow_api_url: str, rag_flow_api_key: str) -> Dict[str, Any]:
														
 
															+    def run(self, pdf_path: str, page_dataset_id: str, dataset_name: str) -> Dict[str, Any]:
														
 
															         """
														
 
															         运行PDF解析工作流
														
@@ -430,13 +482,9 @@ class PDFParsingWorkflow:
 
															         initial_state = PDFParsingState(
														
 
															             pdf_path=pdf_path,
														
 
															             page_dataset_id=page_dataset_id,
														
 
															-            embedding_model=Embedding(model_name=model_settings.multimodal_embedding_model_name, api_key=model_settings.dashscope_api_key),
														
 
															-            dataset_util=DataSetUtil(),
														
 
															-            document_util=DocumentUtil(),
														
 
															-            chunk_util=ChunkUtil(),
														
 
															-            ragflow_service=RAGFlowService(api_url=ragflow_api_url, api_key=rag_flow_api_key)
														
 
															+            dataset_name=dataset_name
														
 
															         )
														
 
															-        result = self.workflow.invoke(initial_state)
														
 
															+        result = self.workflow.invoke(initial_state, config={"callbacks": [self.langfuse_handler]})
														
 
															         # 检查结果类型，如果是字典直接返回，否则调用dict()方法
														
 
															         if isinstance(result, dict):
														
--- a/parser/pdf_parser/pdf_splitter.py
+++ b/parser/pdf_parser/pdf_splitter.py
@@ -22,7 +22,7 @@ class PDFSplitter:
 
															                 - image_path: MinIO中保存的图片URL
														
 
															         """
														
 
															         import os
														
 
															-        from utils.minio.minio_util import MinIOUtil
														
 
															+        from utils.file.minio.minio_util import MinIOUtil
														
 
															         try:
														
 
															             # 初始化MinioUtil
														
--- a/test_ragflow_http_api.py
+++ b/test_ragflow_http_api.py
@@ -0,0 +1,94 @@
 
															+from utils.ragflow.ragflow_service import RAGFlowService
														
 
															+from utils.infinity import InfinityClient
														
 
															+
														
 
															+DATASET_CONFIG_DICT = {
														
 
															+            "chunk_token_num": 256,
														
 
															+            "delimiter": "\n!?;。；！？",
														
 
															+            "html4excel": False,
														
 
															+            "layout_recognize": "Pro/Qwen/Qwen2.5-VL-7B-Instruct@SILICONFLOW",
														
 
															+            "auto_keywords": 5,
														
 
															+            "tag_kb_ids": [],
														
 
															+            "topn_tags": 3,
														
 
															+            "task_page_size": 4,
														
 
															+            "raptor": {
														
 
															+                "max_cluster": 64,
														
 
															+                "max_token": 256,
														
 
															+                "prompt": "Please summarize the following paragraphs. Be careful with the numbers, do not make things up. Paragraphs as following:\n      {cluster_content}\nThe above is the content you need to summarize.",
														
 
															+                "random_seed": 0,
														
 
															+                "threshold": 0.1,
														
 
															+                "use_raptor": True
														
 
															+            },
														
 
															+            "graphrag": {
														
 
															+                "resolution": True,
														
 
															+                "use_graphrag": True,
														
 
															+                "method": "general",
														
 
															+                "entity_types": [
														
 
															+                    "event",
														
 
															+                    "Book",
														
 
															+                    "Author",
														
 
															+                    "Illustrator",
														
 
															+                    "Series",
														
 
															+                    "Theme",
														
 
															+                    "Genre",
														
 
															+                    "Character",
														
 
															+                    "Setting",
														
 
															+                    "AgeGroup",
														
 
															+                    "Competency",
														
 
															+                    "ArtStyle",
														
 
															+                    "Award",
														
 
															+                    "Publisher"
														
 
															+                ]
														
 
															+            }
														
 
															+        }
														
 
															+ragflow_service = RAGFlowService()
														
 
															+
														
 
															+dataset_ids = [
														
 
															+    "c2be78a4f10711f095230242c0a85002"
														
 
															+]
														
 
															+
														
 
															+def create_dataset():
														
 
															+    dataset = ragflow_service.create_dataset(name="test_http_dataset1", description="测试HTTP数据集1",
														
 
															+                                             permission="team",
														
 
															+                                             chunk_method="naive",
														
 
															+                                             parser_config=DATASET_CONFIG_DICT)
														
 
															+    print(dataset)
														
 
															+
														
 
															+def delete_dataset(dataset_id: str):
														
 
															+    flg = ragflow_service.delete_datasets(dataset_ids=[dataset_id])
														
 
															+    print(flg)
														
 
															+
														
 
															+def delete_datasets(dataset_ids: list[str]):
														
 
															+    flg = ragflow_service.delete_datasets(dataset_ids=dataset_ids)
														
 
															+    print(flg)
														
 
															+
														
 
															+def list_datasets(name: str = None):
														
 
															+    datasets = ragflow_service.list_datasets(name=name)
														
 
															+    print(datasets)
														
 
															+
														
 
															+def get_dataset(name: str = None, dataset_id: str = None):
														
 
															+    dataset = ragflow_service.get_dataset(name=name, dataset_id=dataset_id)
														
 
															+    print(dataset)
														
 
															+
														
 
															+def add_chunk(dataset_id: str, document_id: str, content: str, important_keywords: list[int] = None):
														
 
															+    chunk = ragflow_service.create_chunk(dataset_id=dataset_id, document_id=document_id, content=content, important_keywords=important_keywords)
														
 
															+    print(chunk)
														
 
															+    return chunk
														
 
															+import os
														
 
															+def test_image():
														
 
															+    url = "http://192.168.16.134:9000/bookpage/daa1861c-2096-42c0-b8e3-a163f96f0f66.png?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=ck7I8Esssx6rzZrXQ5uP%2F20260109%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20260109T074307Z&X-Amz-Expires=3600&X-Amz-SignedHeaders=host&X-Amz-Signature=6150ffc414cccbedc255bc0a72d85fd4e693a59b112789af61e8a0e93d00e5dc"
														
 
															+    # 截取url中的daa1861c-2096-42c0-b8e3-a163f96f0f66.png部分
														
 
															+    img_id = os.path.basename(url).split("?")[0]
														
 
															+    print(img_id)
														
 
															+
														
 
															+if __name__ == "__main__":
														
 
															+    test_image()
														
 
															+    # dataset_id = "18caf531f04d11f095670242c0a85002"
														
 
															+    # document_id = "3dda0a90f1e211f0a3b80242c0a85002"
														
 
															+    # tag = "社会L3_人际交往L3_同理心L3"	
														
 
															+    # content="能感知他人情绪，对同伴的困难产生理解并尝试回应"
														
 
															+    # important_keywords = ["3", "4"]
														
 
															+    # chunk = add_chunk(dataset_id=dataset_id, document_id=document_id, content=content, important_keywords=important_keywords)
														
 
															+    # chunk_id = chunk["chunk"]["id"]
														
 
															+    # infinity_client = InfinityClient()
														
 
															+    # infinity_client.update(database_name="default_db", table_name="ragflow_92162247e93e11f084830242ac1d0002_18caf531f04d11f095670242c0a85002", cond=f"id = '{chunk_id}'", data={"tag_kwd": tag})
														
 
															+    # print(chunk_id)
														
--- a/test_search.py
+++ b/test_search.py
@@ -0,0 +1,97 @@
 
															+import time
														
 
															+from langchain.chat_models import init_chat_model
														
 
															+from model.multimodal_embedding import Embedding
														
 
															+from conf.settings import model_settings, ragflow_settings, tag_search_settings
														
 
															+from utils.infinity import get_client
														
 
															+from model.jina_rerank import JinaRerank
														
 
															+from langchain_core.documents import Document
														
 
															+from utils.infinity.result_util import convert_to_langchain_docs
														
 
															+
														
 
															+# 初始化多模态嵌入模型
														
 
															+embedding_model = Embedding(
														
 
															+    model_name=model_settings.embedding_model_name,
														
 
															+    api_key=model_settings.api_key
														
 
															+)
														
 
															+
														
 
															+llm = init_chat_model(
														
 
															+    model_provider=model_settings.model_provider,
														
 
															+    model=model_settings.model_name,
														
 
															+    base_url=model_settings.base_url,
														
 
															+    api_key=model_settings.api_key,
														
 
															+    temperature=0.3
														
 
															+)
														
 
															+
														
 
															+compressor = JinaRerank(
														
 
															+    base_url=model_settings.base_url,
														
 
															+    jina_api_key=model_settings.api_key,
														
 
															+    model=model_settings.rank_model_name, # 建议先确认硅基后台此模型 ID 是否正确
														
 
															+    top_n=5
														
 
															+)
														
 
															+
														
 
															+output_fields = [
														
 
															+                    "important_keywords",
														
 
															+                    "content",
														
 
															+                    "kb_id",
														
 
															+                    "doc_id"
														
 
															+                ]
														
 
															+
														
 
															+search_query = {
														
 
															+    "matching_text": """
														
 
															+     莉莉兰中都有哪些小虫虫
														
 
															+    """,
														
 
															+    "query_vector": [],
														
 
															+    "vector_field": "q_1024_vec",
														
 
															+    "match_field": "content",
														
 
															+    "topn": 5
														
 
															+}
														
 
															+
														
 
															+def main():
														
 
															+   
														
 
															+    
														
 
															+    infinity_client = get_client(database="ragflow_db")
														
 
															+    # 问题向量化
														
 
															+     # 记录开始时间
														
 
															+    start_time = time.time()
														
 
															+    embedding = embedding_model.get_text_embedding(search_query["matching_text"])
														
 
															+    embedding_time = time.time() - start_time
														
 
															+    print(f"向量化耗时: {embedding_time:.4f} 秒")
														
 
															+    search_query["query_vector"] = embedding
														
 
															+    # TAG_TABLE_NAME="ragflow_92162247e93e11f084830242ac1d0002_52275b36f03611f0a5340242c0a85002"
														
 
															+    TAG_TABLE_NAME="ragflow_92162247e93e11f084830242ac1d0002_6d2e0990f28b11f0b5200242c0a85002"
														
 
															+    results = infinity_client.vector_search(TAG_TABLE_NAME, output_fields, search_query).to_result()
														
 
															+    candidate_docs = convert_to_langchain_docs(results)
														
 
															+    # print(candidate_docs)
														
 
															+    
														
 
															+    # # 4. 直接调用重排序逻辑
														
 
															+    reranked_docs = compressor.compress_documents(
														
 
															+        documents=candidate_docs, 
														
 
															+        query=search_query["matching_text"],
														
 
															+        top_n=3
														
 
															+    )
														
 
															+    # # print(reranked_docs)
														
 
															+    # # 5. 查看结果
														
 
															+    for i, doc in enumerate(reranked_docs):
														
 
															+        print(f"排名 {i+1}: 分数 {doc.metadata['relevance_score']:.4f}")
														
 
															+        print(f"内容: {doc.page_content}")
														
 
															+        print(f"标签: {doc.metadata['important_keywords']}\n")
														
 
															+    
														
 
															+    # 记录结束时间并计算执行时间
														
 
															+    end_time = time.time()
														
 
															+    execution_time = end_time - start_time
														
 
															+    print(f"执行时间: {execution_time:.4f} 秒")
														
 
															+
														
 
															+# from utils.asymmetric_encryption import AsymmetricEncryption
														
 
															+
														
 
															+# def main2():
														
 
															+#     # passwd = "zhangqi@lelequ.net"
														
 
															+#     # loaded_public_pem = AsymmetricEncryption.load_key_from_file(r"D:\project\work\graph_rag_server\public_key.pem")
														
 
															+#     loaded_private_pem = AsymmetricEncryption.load_key_from_file(r"D:\project\work\graph_rag_server\private_key.pem")
														
 
															+#     # encrypted = AsymmetricEncryption.encrypt(passwd, loaded_public_pem)
														
 
															+#     # print(encrypted)
														
 
															+#     decrypted = AsymmetricEncryption.decrypt(ragflow_settings.ragflow_user_name, loaded_private_pem)
														
 
															+#     print(decrypted)
														
 
															+#     # assert decrypted2 == test_message, "使用加载的密钥解密失败！"
														
 
															+#     # print("✓ 使用加载的密钥加密解密测试通过！")
														
 
															+
														
 
															+if __name__ == "__main__":
														
 
															+    main()
														
--- a/utils/infinity/client.py
+++ b/utils/infinity/client.py
@@ -255,8 +255,8 @@ def get_client(
 
															     host: str = vector_db_settings.infinity_host,
														
 
															     port: str = vector_db_settings.infinity_sdk_port,
														
 
															     database: str = vector_db_settings.infinity_database,
														
 
															-    min_connections: int = 2,
														
 
															-    max_connections: int = 10
														
 
															+    min_connections: int = 1,
														
 
															+    max_connections: int = 1
														
 
															 ) -> InfinityClient:
														
 
															     """
														
 
															     获取全局客户端实例（单例模式）
														
--- a/utils/infinity/pool.py
+++ b/utils/infinity/pool.py
@@ -70,7 +70,9 @@ class InfinityConnectionPool:
 
															     def _init_connections(self):
														
 
															         """初始化最小连接数"""
														
 
															         for _ in range(self.min_connections):
														
 
															-            self._create_connection()
														
 
															+            # 初始化时需要获取锁，因为_create_connection现在没有内部锁
														
 
															+            with self.lock:
														
 
															+                self._create_connection()
														
 
															     def _create_connection(self) -> Any:
														
 
															         """创建新连接"""
														
@@ -94,9 +96,9 @@ class InfinityConnectionPool:
 
															             connection.__dict__['_last_used'] = time.time()
														
 
															             connection.__dict__['_is_valid'] = True
														
 
															-            with self.lock:
														
 
															-                self.connections.append(connection)
														
 
															-                self.connection_count += 1
														
 
															+            # 注意：这里不需要再获取锁，因为调用此方法时已经在acquire方法中持有了锁
														
 
															+            self.connections.append(connection)
														
 
															+            self.connection_count += 1
														
 
															             return connection
														
 
															         except Exception as e:
														
@@ -106,6 +108,8 @@ class InfinityConnectionPool:
 
															         """检查连接是否有效"""
														
 
															         try:
														
 
															             # 通过执行简单查询检查连接是否有效
														
 
															+            # 注意：这里不应该在持有锁的情况下执行网络操作
														
 
															+            # 但由于此方法是在锁内被调用的，我们需要尽量减少操作时间
														
 
															             connection.get_database(self.database)
														
 
															             return True
														
 
															         except Exception:
														
--- a/utils/infinity/result_util.py
+++ b/utils/infinity/result_util.py
@@ -67,12 +67,7 @@ def convert_to_langchain_docs(obj: Any) -> List[Document]:
 
															     # 将数据转换为 LangChain 的 Document 格式
														
 
															     candidate_docs = [
														
 
															         Document(page_content=item["content"], 
														
 
															-            metadata={
														
 
															-                "docnm": item["docnm"], 
														
 
															-                "tag_kwd": item["tag_kwd"], 
														
 
															-                "kb_id": item["kb_id"], 
														
 
															-                "doc_id": item["doc_id"]
														
 
															-            }) 
														
 
															+            metadata={k: v for k, v in item.items() if k != "content"}) 
														
 
															         for item in res[0]
														
 
															     ]
														
 
															     return candidate_docs
														
--- a/utils/ragflow/chunk_service.py
+++ b/utils/ragflow/chunk_service.py
@@ -5,12 +5,12 @@ class ChunkService:
 
															         self.http_client = http_client
														
 
															     def create_chunk(self, dataset_id: str, document_id: str, content: str, 
														
 
															-                    meta_fields: Dict = None) -> Dict[str, Any]:
														
 
															+                    important_keywords: List[str]) -> Dict[str, Any]:
														
 
															         endpoint = f"/api/v1/datasets/{dataset_id}/documents/{document_id}/chunks"
														
 
															         data = {"content": content}
														
 
															-        if meta_fields is not None:
														
 
															-            data["meta_fields"] = meta_fields
														
 
															+        if important_keywords is not None:
														
 
															+            data["important_keywords"] = important_keywords
														
 
															         response = self.http_client.post(endpoint, json_data=data)
														
@@ -20,14 +20,14 @@ class ChunkService:
 
															             raise Exception(f"创建切片失败: {response.get('message', '未知错误')}")
														
 
															     def update_chunk(self, dataset_id: str, chunk_id: str, content: str = None,
														
 
															-                    meta_fields: Dict = None) -> Dict[str, Any]:
														
 
															+                    important_keywords: List[str] = None) -> Dict[str, Any]:
														
 
															         endpoint = f"/api/v1/datasets/{dataset_id}/chunks/{chunk_id}"
														
 
															         data = {}
														
 
															         if content is not None:
														
 
															             data["content"] = content
														
 
															-        if meta_fields is not None:
														
 
															-            data["meta_fields"] = meta_fields
														
 
															+        if important_keywords is not None:
														
 
															+            data["important_keywords"] = important_keywords
														
 
															         response = self.http_client.post(endpoint, json=data)
														
--- a/utils/ragflow/dataset_service.py
+++ b/utils/ragflow/dataset_service.py
@@ -31,7 +31,7 @@ class DatasetService:
 
															     def delete_datasets(self, dataset_ids: List[str]) -> bool:
														
 
															         endpoint = "/api/v1/datasets"
														
 
															-        response = self.http_client.post(endpoint, json_data={"dataset_ids": dataset_ids})
														
 
															+        response = self.http_client.delete(endpoint, json_data={"ids": dataset_ids})
														
 
															         if response.get("code") == 0:
														
 
															             return True
														
@@ -76,6 +76,8 @@ class DatasetService:
 
															         if response.get("code") == 0 and response.get("data"):
														
 
															             return response["data"]
														
 
															+        elif response.get("code") == 108:
														
 
															+            return None
														
 
															         else:
														
 
															             raise Exception(f"列出数据集失败: {response.get('message', '未知错误')}")
														
--- a/utils/ragflow/ragflow_service.py
+++ b/utils/ragflow/ragflow_service.py
@@ -92,8 +92,8 @@ class RAGFlowService:
 
															     def create_dataset(self, name: str, description: str = None, 
														
 
															                       embedding_model: str = None, permission: str = None,
														
 
															-                      chunk_method: str = None) -> DatasetInfo:
														
 
															-        return self.dataset_service.create_dataset(name, description, embedding_model, permission, chunk_method)
														
 
															+                      chunk_method: str = None, parser_config: dict = None) -> DatasetInfo:
														
 
															+        return self.dataset_service.create_dataset(name, description, embedding_model, permission, chunk_method, parser_config)
														
 
															     def delete_datasets(self, dataset_ids: List[str]) -> bool:
														
 
															         return self.dataset_service.delete_datasets(dataset_ids)
														
@@ -107,8 +107,12 @@ class RAGFlowService:
 
															                      desc: bool = True, name: str = None, dataset_id: str = None) -> List[DatasetInfo]:
														
 
															         return self.dataset_service.list_datasets(page, size, orderby, desc, name, dataset_id)
														
 
															-    def get_dataset(self, dataset_id: str) -> DatasetInfo:
														
 
															-        return self.dataset_service.get_dataset(dataset_id)
														
 
															+    def get_dataset(self, name: Optional[str] = None, dataset_id: Optional[str] = None) -> DatasetInfo:
														
 
															+        _list = self.list_datasets(name=name, dataset_id=dataset_id)
														
 
															+        if _list is None:
														
 
															+            return None
														
 
															+        elif len(_list) > 0:
														
 
															+            return _list[0]
														
 
															     def get_knowledge_graph(self, dataset_id: str) -> Dict[str, Any]:
														
 
															         return self.dataset_service.get_knowledge_graph(dataset_id)
														
@@ -167,12 +171,12 @@ class RAGFlowService:
 
															         return self.document_service.parse_document(dataset_id, document_ids)
														
 
															     def create_chunk(self, dataset_id: str, document_id: str, content: str, 
														
 
															-                    meta_fields: Dict = None) -> ChunkInfo:
														
 
															-        return self.chunk_service.create_chunk(dataset_id, document_id, content, meta_fields)
														
 
															+                    important_keywords: List[str] = None) -> ChunkInfo:
														
 
															+        return self.chunk_service.create_chunk(dataset_id, document_id, content, important_keywords)
														
 
															     def update_chunk(self, dataset_id: str, chunk_id: str, content: str = None,
														
 
															-                    meta_fields: Dict = None) -> ChunkInfo:
														
 
															-        return self.chunk_service.update_chunk(dataset_id, chunk_id, content, meta_fields)
														
 
															+                    important_keywords: List[str] = None) -> ChunkInfo:
														
 
															+        return self.chunk_service.update_chunk(dataset_id, chunk_id, content, important_keywords)
														
 
															     def delete_chunk(self, dataset_id: str, chunk_id: str) -> bool:
														
 
															         return self.chunk_service.delete_chunk(dataset_id, chunk_id)
														
--- a/workflow/search/dataset_search_workflow.py
+++ b/workflow/search/dataset_search_workflow.py
@@ -0,0 +1,100 @@
 
															+from concurrent.futures import ThreadPoolExecutor
														
 
															+from langgraph.graph import StateGraph, START, END
														
 
															+from typing import List, Dict, Any
														
 
															+from pydantic import BaseModel, Field, ConfigDict
														
 
															+from model.qwen_vl import QWenVLParser
														
 
															+from model.openai_chat_model import OpenAIChatModel
														
 
															+from utils.ragflow.ragflow_service import RAGFlowService
														
 
															+from model.multimodal_embedding import Embedding
														
 
															+from conf.settings import model_settings, vector_db_settings
														
 
															+from utils.infinity import get_client
														
 
															+from langfuse.langchain import CallbackHandler
														
 
															+
														
 
															+# 定义工作流状态类
														
 
															+class DatasetSearchState(BaseModel):
														
 
															+    """知识库检索工作流状态"""
														
 
															+    query: str = Field(..., description="用户查询")
														
 
															+    dataset_ids: List[str] = Field(..., description="知识库ID列表")
														
 
															+    results: List[Dict[str, Any]] = Field(default_factory=list, description="检索结果列表")
														
 
															+
														
 
															+# 创建工作流构建器
														
 
															+class DatasetSearchWorkflow:
														
 
															+    """知识库检索工作流"""
														
 
															+    
														
 
															+    def __init__(self):
														
 
															+        """
														
 
															+        初始化PDF解析工作流
														
 
															+        """
														
 
															+        self.model_name = model_name
														
 
															+        self.workflow = self._build_workflow()
														
 
															+        self.ragflow_service = RAGFlowService()
														
 
															+        self.langfuse_handler = CallbackHandler()
														
 
															+        
														
 
															+    
														
 
															+    def _build_workflow(self):
														
 
															+        """构建langgraph工作流，实现基于条件路由的并行处理"""
														
 
															+        # 创建状态图
														
 
															+        graph = StateGraph(PDFParsingState)
														
 
															+        
														
 
															+
														
 
															+        
														
 
															+        # 编译工作流
														
 
															+        return graph.compile()
														
 
															+
														
 
															+    # 意图识别，判断用户问题是图书推荐类、还是图书内容问答类、还是其他问题
														
 
															+    def intent_recognition(self, query: str) -> str:
														
 
															+        """
														
 
															+        意图识别，判断用户问题是图书推荐类、还是图书内容问答类、还是其他问题
														
 
															+        
														
 
															+        Args:
														
 
															+            query: 用户查询
														
 
															+            
														
 
															+        Returns:
														
 
															+            str: 意图分类，例如"推荐图书"、"图书内容问答"、"其他问题"
														
 
															+        """
														
 
															+        # 初始化 OpenAI Chat 模型
														
 
															+        chat_model = OpenAIChatModel()
														
 
															+        # 构建提示模板
														
 
															+        prompt_template = """
														
 
															+        你是一个意图分类模型，你的任务是根据用户查询判断其意图是推荐图书、图书内容问答还是其他问题。
														
 
															+        用户查询：{query}
														
 
															+        请判断用户意图，并返回分类结果，如果是推荐图书类意图，返回"Recommend_books"；
														
 
															+        如果是图书内容问答类意图，返回"图书内容问答"；
														
 
															+        如果是其他问题，返回"其他问题"。
														
 
															+        注意：
														
 
															+        1. 推荐图书类意图指的是用户想知道推荐的图书，例如"推荐一本关于Python的图书"。
														
 
															+        2. 图书内容问答类意图指的是用户想知道图书的具体内容，例如"这本书的作者是谁"。
														
 
															+        3. 其他问题指的是用户的查询与推荐图书或图书内容问答无关的问题，例如"你好"、"你是谁"等。
														
 
															+        4. 意图分类结果必须是"推荐图书"、"图书内容问答"或"其他问题"中的一个。
														
 
															+        """
														
 
															+        # 格式化提示模板
														
 
															+        formatted_prompt = prompt_template.format(query=query)
														
 
															+        # 调用模型生成意图分类
														
 
															+        response = chat_model.invoke(formatted_prompt)
														
 
															+        # 解析模型输出，提取意图分类
														
 
															+        intent = response.content.strip()
														
 
															+        return intent
														
 
															+    
														
 
															+    
														
 
															+    def run(self, query: str, dataset_ids: List[str]) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        运行知识库检索工作流
														
 
															+        
														
 
															+        Args:
														
 
															+            query: 用户查询
														
 
															+            dataset_ids: 知识库ID列表
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict: 包含最终状态的字典
														
 
															+        """
														
 
															+        initial_state = DatasetSearchState(
														
 
															+            query=query,
														
 
															+            dataset_ids=dataset_ids
														
 
															+        )
														
 
															+        result = self.workflow.invoke(initial_state, config={"callbacks": [self.langfuse_handler]})
														
 
															+        
														
 
															+        # 检查结果类型，如果是字典直接返回，否则调用dict()方法
														
 
															+        if isinstance(result, dict):
														
 
															+            return result
														
 
															+        else:
														
 
															+            return result.dict()