3 luni în urmă · eafbea0aec
--- a/.env
+++ b/.env
@@ -7,10 +7,15 @@ DASHSCOPE=sk-bc0f1026a41c4c92beb014be8973e4e2
 
				 # embedding模型配置
			
 
				 EMBEDDING_MODEL_NAME=Qwen/Qwen3-Embedding-0.6B
			
 
				 MULTIMODAL_EMBEDDING_MODEL_NAME=qwen2.5-vl-embedding
			
 
				+# rank模型配置
			
 
				+RANK_MODEL_NAME=Qwen/Qwen3-Reranker-0.6B
			
 
				+
			
 
				 # RAGFLOW配置
			
 
				-RAGFLOW_API_URL=http://192.168.16.134/
			
 
				+RAGFLOW_API_URL=http://192.168.16.134:9380/
			
 
				 RAGFLOW_API_KEY=ragflow-sPJ06xiUdRrcfDRlOD-GN2gl-U2DLB-PbgNGckUu0KM
			
 
				 DATASET_ID=a0f1aa03ed2c11f08b8f0242c0a85002
			
 
				+RAGFLOW_USER_NAME=O75u85uh+PwmwmJvNebYUCNKpD812xhfnQOvB+Mwy+cHQtGBV2dy0tMQKQwGHiW7MiLJkHPqSLn7ULTzav0c2w3yIze71PAcIfxUScautg6xMMgtjHd4ex8peVyXTQcWc0bmD+GxADaZoOMnDz/XNUtB8mggx/VZ1RBdhrZMylTEGQUcUE8ylbLAVgDVOR6iqJEjGNZYoWUFiuYZAB6bIfPdaPG8Kr0KQrqHj3Y0zZHXl92AloXnw5RsaBOc3p01PKc+xYujrb+mdSGs8flzNHMusWhB/0bJ+t0XxqgePymCCk6+7nmm7M6iZ6pRlYEeERsjiNd/1lcMaWxda5jv4A==
			
 
				+RAGFLOW_PASSWD=ggR2p1L7DRp5v+VcfikmfMYWh99QgBjtQV1fexSFP5C18HVXhkTD2MeMrcnJft8ciGeRUPDStaYZft3CbHOBY3Bzm2+/WX8iVuZ+5kMkmiAL9iUu0RxK74g1x11zy2CAoASy344ZiDy1p1co7hE0ksPdL62U38dxPGPaK8ngqfTsMvpb0XztWBUxaK5Izl3fqPKaYp+eqC75vvj6PeeaajIc7I7dqSai3a6jipruZeA8VxF/cWjVSKubQrm/YLs8mge2mcSM0pyUU2t9LeNS+hOiUyxRAqE2s+yGmRpeCMKIcfeGaurlVesy8v7zjIjZZBbEPV8rSZOEskGRSAG38Q==
			
 
				 
			
 
				 # 应用配置
			
 
				 LOG_LEVEL=INFO
			
@@ -28,6 +33,15 @@ INFINITY_USER=admin
 
				 INFINITY_PASSWORD=admin
			
 
				 INFINITY_TABLE_NAME=book_page_image
			
 
				 
			
 
				+# MySQL配置
			
 
				+MYSQL_HOST=192.168.16.134
			
 
				+MYSQL_PORT=5455
			
 
				+MYSQL_USER=root
			
 
				+MYSQL_PASSWORD=ronshin@1234
			
 
				+MYSQL_DATABASE=book_page
			
 
				+MYSQL_CHARSET=utf8mb4
			
 
				+MYSQL_POOL_SIZE=5
			
 
				+
			
 
				 # MinIO配置
			
 
				 MINIO_ENDPOINT=192.168.16.134:9000
			
 
				 MINIO_ACCESS_KEY=ck7I8Esssx6rzZrXQ5uP
			
@@ -36,4 +50,14 @@ MINIO_BUCKET_NAME=bookpage
 
				 # 本地测试设为false；生产环境设为true
			
 
				 MINIO_SECURE=False
			
 
				 
			
 
				+# TAG_SEARCH
			
 
				+TAG_DB_NAME=default_db
			
 
				+TAG_DATASET_ID=18caf531f04d11f095670242c0a85002
			
 
				+TAG_DOCUMENT_ID=3dda0a90f1e211f0a3b80242c0a85002
			
 
				+#TAG_TABLE_NAME=ragflow_92162247e93e11f084830242ac1d0002_52275b36f03611f0a5340242c0a85002
			
 
				+TAG_TABLE_NAME=ragflow_92162247e93e11f084830242ac1d0002_18caf531f04d11f095670242c0a85002
			
 
				 
			
 
				+# LANGFUSE
			
 
				+LANGFUSE_PUBLIC_KEY=pk-lf-6918a148-be72-4211-a22d-183a23e6643e
			
 
				+LANGFUSE_SECRET_KEY=sk-lf-9c64d7ed-1618-4da9-a775-33e39b05448e
			
 
				+LANGFUSE_HOST=http://192.168.16.134:3000
			
--- a/agent/test_image_agent.py
+++ b/agent/test_image_agent.py
@@ -9,7 +9,7 @@ sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
 
				 
			
 
				 from utils.infinity_util import InfinityVectorDB
			
 
				 from model.multimodal_embedding import Embedding
			
 
				-from conf.config import ModelConfig, VectorDBConfig
			
 
				+from conf.settings import model_settings, ragflow_settings, vector_db_settings
			
 
				 
			
 
				 system_prompt = """
			
 
				 【角色设定】 你是一位拥有丰富经验的儿童绘本编辑与阅读推广人，擅长从视觉美学、儿童心理学和文学创作三个维度深度解读绘本。
			
@@ -29,15 +29,15 @@ vector_db = InfinityVectorDB()
 
				 
			
 
				 # 初始化多模态嵌入模型
			
 
				 embedding_model = Embedding(
			
 
				-    model_name=ModelConfig.get_multimodal_embedding_model_name(),
			
 
				-    api_key=ModelConfig.get_dashscope_api_key()
			
 
				+    model_name=model_settings.multimodal_embedding_model_name,
			
 
				+    api_key=model_settings.dashscope_api_key
			
 
				 )
			
 
				 
			
 
				 llm = init_chat_model(
			
 
				-    model_provider=ModelConfig.get_model_provider(),
			
 
				-    model=ModelConfig.get_model_name(),
			
 
				-    base_url=ModelConfig.get_base_url(),
			
 
				-    api_key=ModelConfig.get_api_key(),
			
 
				+    model_provider=model_settings.model_provider,
			
 
				+    model=model_settings.model_name,
			
 
				+    base_url=model_settings.base_url,
			
 
				+    api_key=model_settings.api_key,
			
 
				     temperature=0.3
			
 
				 )
			
 
				 
			
@@ -52,10 +52,10 @@ def vector_search(text_query: str, image_path: str, topn: int = 2):
 
				     :return: 检索结果
			
 
				     """
			
 
				         
			
 
				-    print(f"开始混合检索，数据库: {VectorDBConfig.get_infinity_database}, 知识库id: {ModelConfig.get_dataset_id()}, 文本查询: {text_query}, 返回数量: {topn}")
			
 
				+    print(f"开始混合检索，数据库: {vector_db_settings.infinity_database}, 知识库id: {ragflow_settings.dataset_id}, 文本查询: {text_query}, 返回数量: {topn}")
			
 
				         
			
 
				     # 构建索引名称
			
 
				-    index_name = f"{VectorDBConfig.get_infinity_table_name()}" 
			
 
				+    index_name = f"{vector_db_settings.infinity_table_name}" 
			
 
				     print(f"开始生成多模态嵌入，文本长度: {len(text_query)}")
			
 
				         
			
 
				     # 处理image_path为image: Image.Image
			
--- a/api/db/services/infinity_search_service.py
+++ b/api/db/services/infinity_search_service.py
@@ -1,61 +1,9 @@
 
				 from typing import Dict, Any, List
			
 
				-from conf.config import VectorDBConfig
			
 
				+from conf.settings import vector_db_settings
			
 
				 from utils.infinity import InfinityClient
			
 
				 from utils.file.image_util import image_util
			
 
				 from model.multimodal_embedding import get_embedding_model
			
 
				-
			
 
				-
			
 
				-def convert_to_basic_types(obj: Any) -> Any:
			
 
				-    """
			
 
				-    递归将对象转换为基本类型，以便Pydantic能够序列化
			
 
				-    
			
 
				-    特殊处理：当字典中的子项包含相同长度的数组时，将其转换为数组对象结构
			
 
				-    例如：{"a": [1,2], "b": [3,4]} -> [{"a":1, "b":3}, {"a":2, "b":4}]
			
 
				-    
			
 
				-    Args:
			
 
				-        obj: 要转换的对象
			
 
				-    
			
 
				-    Returns:
			
 
				-        转换后的基本类型对象
			
 
				-    """
			
 
				-    if obj is None:
			
 
				-        return None
			
 
				-    elif isinstance(obj, (str, int, float, bool)):
			
 
				-        return obj
			
 
				-    elif isinstance(obj, dict):
			
 
				-        # 先递归转换所有值
			
 
				-        converted = {k: convert_to_basic_types(v) for k, v in obj.items()}
			
 
				-        
			
 
				-        # 检查是否需要转换为数组对象结构
			
 
				-        # 条件：所有值都是列表，且长度一致，且长度大于0
			
 
				-        values = list(converted.values())
			
 
				-        if all(isinstance(v, list) for v in values):
			
 
				-            lengths = [len(v) for v in values]
			
 
				-            if len(set(lengths)) == 1 and lengths[0] > 0:
			
 
				-                # 转换为数组对象结构
			
 
				-                result = []
			
 
				-                keys = list(converted.keys())
			
 
				-                for i in range(lengths[0]):
			
 
				-                    item = {}
			
 
				-                    for key in keys:
			
 
				-                        # 处理数组中可能存在的None值
			
 
				-                        if i < len(converted[key]):
			
 
				-                            item[key] = converted[key][i]
			
 
				-                        else:
			
 
				-                            item[key] = None
			
 
				-                    result.append(item)
			
 
				-                return result
			
 
				-        
			
 
				-        return converted
			
 
				-    elif isinstance(obj, (list, tuple)):
			
 
				-        return [convert_to_basic_types(item) for item in obj]
			
 
				-    else:
			
 
				-        # 对于其他类型，尝试将其转换为字符串或字典
			
 
				-        try:
			
 
				-            return dict(obj)
			
 
				-        except:
			
 
				-            return str(obj)
			
 
				-
			
 
				+from utils.infinity.result_util import convert_to_basic_types
			
 
				 
			
 
				 class InfinitySearchService:
			
 
				     def __init__(self, infinity_client: InfinityClient, vector_field: str = None, match_field: str = None, match_type: str = None, table_name: str = None):
			
@@ -72,7 +20,7 @@ class InfinitySearchService:
 
				         self.vector_field = vector_field or "dense_vector_1024"
			
 
				         self.match_field = match_field or "content"
			
 
				         self.match_type = match_type or "cosine"
			
 
				-        self.table_name = table_name or VectorDBConfig.get_infinity_table_name()
			
 
				+        self.table_name = table_name or vector_db_settings.infinity_table_name
			
 
				 
			
 
				     def search(self, search_query: Dict[str, Any]) -> Dict[str, Any]:
			
 
				         """
			
--- a/api/db/services/tag_service.py
+++ b/api/db/services/tag_service.py
@@ -0,0 +1,207 @@
 
				+from typing import List, Dict, Any, Optional
			
 
				+from abc import ABC, abstractmethod
			
 
				+from utils.ragflow_sdk.chunk_util import ChunkUtil
			
 
				+from utils.infinity import InfinityClient
			
 
				+from conf.settings import tag_search_settings
			
 
				+
			
 
				+
			
 
				+
			
 
				+class TagService(ABC):
			
 
				+    """标签管理服务接口"""
			
 
				+    
			
 
				+    @abstractmethod
			
 
				+    def create_tag(self, tag_data: Dict[str, Any]) -> Dict[str, Any]:
			
 
				+        """
			
 
				+        新增标签
			
 
				+        
			
 
				+        Args:
			
 
				+            tag_data: 标签数据，包含标签名称、描述等信息
			
 
				+            
			
 
				+        Returns:
			
 
				+            Dict[str, Any]: 创建成功的标签信息
			
 
				+        """
			
 
				+        pass
			
 
				+    
			
 
				+    @abstractmethod
			
 
				+    def upload_tags(self, tags_data: List[Dict[str, Any]]) -> Dict[str, Any]:
			
 
				+        """
			
 
				+        批量上传标签
			
 
				+        
			
 
				+        Args:
			
 
				+            tags_data: 标签数据列表，每个元素包含标签名称、描述等信息
			
 
				+            
			
 
				+        Returns:
			
 
				+            Dict[str, Any]: 上传结果，包含成功数量、失败数量等信息
			
 
				+        """
			
 
				+        pass
			
 
				+    
			
 
				+    @abstractmethod
			
 
				+    def delete_tag(self, tag_id: str) -> Dict[str, Any]:
			
 
				+        """
			
 
				+        删除标签
			
 
				+        
			
 
				+        Args:
			
 
				+            tag_id: 标签ID
			
 
				+            
			
 
				+        Returns:
			
 
				+            Dict[str, Any]: 删除结果
			
 
				+        """
			
 
				+        pass
			
 
				+
			
 
				+
			
 
				+class TagServiceImpl(TagService):
			
 
				+    """标签管理服务实现"""
			
 
				+    
			
 
				+    def __init__(self, infinity_client: InfinityClient):
			
 
				+        """
			
 
				+        初始化标签服务
			
 
				+        
			
 
				+        Args:
			
 
				+            db_client: 数据库客户端实例
			
 
				+        """
			
 
				+        self.tag_dataset_id=tag_search_settings.tag_dataset_id
			
 
				+        self.tag_document_id=tag_search_settings.tag_document_id
			
 
				+        self.infinity_client = infinity_client
			
 
				+        self.chunk_util = ChunkUtil(self.tag_dataset_id, self.tag_document_id)
			
 
				+    
			
 
				+    def create_tag(self, tag_data: Dict[str, Any]) -> Dict[str, Any]:
			
 
				+        """
			
 
				+        新增标签
			
 
				+        
			
 
				+        Args:
			
 
				+            tag_data: 标签数据，包含标签名称、描述等信息
			
 
				+            
			
 
				+        Returns:
			
 
				+            Dict[str, Any]: 创建成功的标签信息
			
 
				+        """
			
 
				+        tag_name = tag_data["name"]
			
 
				+        tag_desc = tag_data["description"]
			
 
				+        age_range = tag_data["age_range"]
			
 
				+        # 步骤1：将分块数据写入ragflow
			
 
				+        chunk = self.chunk_util.add_chunk(document_id=self.tag_document_id, content=tag_desc, important_keywords=[age_range])
			
 
				+        chunk_id = chunk["id"]
			
 
				+        # 步骤2： 调用infinity的update方法，将标签更新到块数据中
			
 
				+        res = self.infinity_client.update(f"id = {chunk_id}", {"tag_kwd": tag_name})
			
 
				+        if res["code"] != 0:
			
 
				+            raise Exception(f"更新标签到infinity失败: {res}")
			
 
				+        
			
 
				+        # 返回创建成功的标签信息
			
 
				+        return {
			
 
				+            "name": tag_name,
			
 
				+            "description": tag_desc,
			
 
				+            "age_range": age_range,
			
 
				+            "chunk_id": chunk_id,
			
 
				+            "ragflow_chunk": chunk,
			
 
				+            "infinity_update_result": res
			
 
				+        }
			
 
				+    
			
 
				+    def upload_tags(self, tags_data: List[Dict[str, Any]]) -> Dict[str, Any]:
			
 
				+        """
			
 
				+        批量上传标签
			
 
				+        
			
 
				+        Args:
			
 
				+            tags_data: 标签数据列表，每个元素包含一级标签、二级标签、三级标签、标签描述等信息
			
 
				+            
			
 
				+        Returns:
			
 
				+            Dict[str, Any]: 上传结果，包含成功数量、失败数量等信息
			
 
				+        """
			
 
				+        success_count = 0
			
 
				+        fail_count = 0
			
 
				+        failed_tags = []
			
 
				+
			
 
				+        tag_data_list = self.get_tag_data(tags_data)
			
 
				+        # 标签数据入库
			
 
				+        for tag_data in tag_data_list:
			
 
				+            tag_name = tag_data["name"]
			
 
				+            tag_desc = tag_data["description"]
			
 
				+            age_range = tag_data["age_range"]
			
 
				+            # 步骤1：将分块数据写入ragflow
			
 
				+            chunk = self.chunk_util.add_chunk(dataset_name="标签", document_id=self.tag_document_id, content=tag_desc, important_keywords=[age_range])
			
 
				+            print(f"分块数据写入成功, chunk_id: {chunk.id}")
			
 
				+            # 步骤2： 调用infinity的update方法，将标签更新到块数据中
			
 
				+            res = self.infinity_client.update(table_name="ragflow_92162247e93e11f084830242ac1d0002_18caf531f04d11f095670242c0a85002", 
			
 
				+                                              cond=f"id = '{chunk.id}'", 
			
 
				+                                              data={"tag_kwd": tag_name},
			
 
				+                                              database_name="default_db")
			
 
				+            print(f"更新标签 {tag_name} 到 infinity 结果: {res}")
			
 
				+            if res.error_code == 0:
			
 
				+                print(f"标签 {tag_name} 更新到 infinity 成功")
			
 
				+                success_count += 1
			
 
				+            else:
			
 
				+                fail_count += 1
			
 
				+                failed_tags.append({"age_range": age_range, "tag_name": tag_name, "tag_desc": tag_desc, "error": res})
			
 
				+        return {
			
 
				+            "success": True,
			
 
				+            "total": len(tags_data),
			
 
				+            "success_count": success_count,
			
 
				+            "fail_count": fail_count,
			
 
				+            "failed_tags": failed_tags
			
 
				+        }
			
 
				+    
			
 
				+    def delete_tag(self, tag_id: str) -> Dict[str, Any]:
			
 
				+        """
			
 
				+        删除标签
			
 
				+        
			
 
				+        Args:
			
 
				+            tag_id: 标签ID
			
 
				+            
			
 
				+        Returns:
			
 
				+            Dict[str, Any]: 删除结果
			
 
				+        """
			
 
				+        pass
			
 
				+
			
 
				+    def get_tag_data(self, tags_data: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
			
 
				+        import json
			
 
				+        import os
			
 
				+        
			
 
				+        # 读取年龄段配置文件
			
 
				+        age_level_path = os.path.join(os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(__file__)))), "conf", "age_level.json")
			
 
				+        with open(age_level_path, "r", encoding="utf-8") as f:
			
 
				+            age_level_map = json.load(f)
			
 
				+        
			
 
				+        # 存储转换后的标签数据
			
 
				+        formatted_tags = []
			
 
				+        
			
 
				+        # 遍历标签数据列表，验证每个标签数据是否符合要求，并按照要求格式输出
			
 
				+        for tag_data in tags_data:
			
 
				+            # 提取标签数据
			
 
				+            age_level_code = tag_data.get("年龄分级", "")  # 年龄分级编码
			
 
				+            one_tag = tag_data.get("一级标签", "")  # 一级标签
			
 
				+            two_tag = tag_data.get("二级标签", "")  # 二级标签
			
 
				+            three_tag = tag_data.get("三级标签", "")  # 三级标签
			
 
				+            tag_desc = tag_data.get("标签描述", "")  # 标签描述
			
 
				+                
			
 
				+            # 生成标签名称：一级标签_二级标签_三级标签
			
 
				+            tag_name = f"{one_tag}_{two_tag}_{three_tag}"
			
 
				+                
			
 
				+            # 获取年龄段
			
 
				+            age_range = age_level_map.get(age_level_code, "")
			
 
				+                
			
 
				+            # 构建最终标签数据
			
 
				+            formatted_tag_data = {
			
 
				+                "name": tag_name,
			
 
				+                "description": tag_desc,
			
 
				+                "age_range": age_range
			
 
				+            }
			
 
				+            
			
 
				+            # 将转换后的标签数据添加到列表中
			
 
				+            formatted_tags.append(formatted_tag_data)
			
 
				+        
			
 
				+        # 返回转换后的标签数据集合
			
 
				+        return formatted_tags
			
 
				+
			
 
				+class TagServiceFactory:
			
 
				+    """标签服务工厂类"""
			
 
				+    
			
 
				+    @staticmethod
			
 
				+    def create_tag_service(db_client) -> TagService:
			
 
				+        """
			
 
				+        创建标签服务实例
			
 
				+        
			
 
				+        Args:
			
 
				+            db_client: 数据库客户端实例
			
 
				+            
			
 
				+        Returns:
			
 
				+            TagService: 标签服务实例
			
 
				+        """
			
 
				+        return TagServiceImpl(db_client)
			
--- a/api/hybrid_search_mcp.py
+++ b/api/hybrid_search_mcp.py
@@ -15,7 +15,9 @@ sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
 
				 from PIL import Image
			
 
				 from utils.infinity_util import InfinityVectorDB
			
 
				 from model.multimodal_embedding import Embedding
			
 
				-from conf.config import ModelConfig, VectorDBConfig
			
 
				+from conf.settings import model_settings, ragflow_settings, vector_db_settings
			
 
				+
			
 
				+
			
 
				 
			
 
				 # 初始化fastmcp应用
			
 
				 mcp = FastMCP("Multi_Vector_Search")
			
@@ -25,8 +27,8 @@ vector_db = InfinityVectorDB()
 
				 
			
 
				 # 初始化多模态嵌入模型
			
 
				 embedding_model = Embedding(
			
 
				-    model_name=ModelConfig.get_multimodal_embedding_model_name(),
			
 
				-    api_key=ModelConfig.get_dashscope_api_key()
			
 
				+    model_name=model_settings.multimodal_embedding_model_name,
			
 
				+    api_key=model_settings.dashscope_api_key
			
 
				 )
			
 
				 
			
 
				 @mcp.tool(name="hybrid_search")
			
@@ -41,10 +43,10 @@ def hybrid_search(request: Dict[str, Any]) -> Dict[str, Any]:
 
				         image_url = request["image"]
			
 
				         topn = request.get("topn", 2)
			
 
				         
			
 
				-        print(f"开始混合检索，数据库: {VectorDBConfig.get_infinity_database}, 知识库id: {ModelConfig.get_dataset_id()}, 文本查询: {text_query}, 返回数量: {topn}")
			
 
				+        print(f"开始混合检索，数据库: {vector_db_settings.infinity_database}, 知识库id: {ragflow_settings.dataset_id}, 文本查询: {text_query}, 返回数量: {topn}")
			
 
				         
			
 
				         # 构建索引名称
			
 
				-        index_name = f"pdf_documents_{ModelConfig.get_dataset_id()}"        
			
 
				+        index_name = f"pdf_documents_{ragflow_settings.dataset_id}"        
			
 
				         print(f"开始生成多模态嵌入，文本长度: {len(text_query)}")
			
 
				         
			
 
				         # 处理image_url为image: Image.Image
			
--- a/api/tag_manage.py
+++ b/api/tag_manage.py
@@ -0,0 +1,95 @@
 
				+# 标签管理API服务
			
 
				+
			
 
				+from fastapi import FastAPI, HTTPException, UploadFile, File
			
 
				+from typing import List, Dict, Any, Optional
			
 
				+from api.db.services.tag_service import TagServiceFactory
			
 
				+from utils.infinity import get_client
			
 
				+from utils.excel_util import excel_util
			
 
				+from pydantic import BaseModel
			
 
				+import os
			
 
				+import tempfile
			
 
				+
			
 
				+
			
 
				+# 创建FastAPI应用
			
 
				+app = FastAPI(
			
 
				+    title="标签管理 API",
			
 
				+    description="标签管理服务，提供标签上传、查询、删除等功能",
			
 
				+    version="1.0.0"
			
 
				+)
			
 
				+
			
 
				+
			
 
				+# 请求模型
			
 
				+class TagCreateRequest(BaseModel):
			
 
				+    """创建标签请求模型"""
			
 
				+    name: str  # 标签名称，格式：一级标签_二级标签_三级标签
			
 
				+    description: str  # 标签描述
			
 
				+    age_range: str  # 年龄段，如：0-2、2-3等
			
 
				+
			
 
				+
			
 
				+# 1. 标签上传接口
			
 
				+@app.post("/upload", response_model=Dict[str, Any])
			
 
				+async def upload_tags(file: UploadFile = File(...)):
			
 
				+    """
			
 
				+    批量上传标签接口
			
 
				+    
			
 
				+    - **file**: Excel格式的标签文件，包含年龄分级、一级标签、二级标签、三级标签、标签描述字段
			
 
				+    
			
 
				+    Excel文件格式要求：
			
 
				+    - 支持 .xlsx 和 .xls 格式
			
 
				+    - 第一行为表头，包含：年龄分级、一级标签、二级标签、三级标签、标签描述
			
 
				+    - 年龄分级字段值应为 L1-L8 之间的一个（如 L1、L2 等）
			
 
				+    """
			
 
				+    try:
			
 
				+        # 验证文件格式
			
 
				+        file_ext = os.path.splitext(file.filename)[1].lower()
			
 
				+        if file_ext not in [".xlsx", ".xls"]:
			
 
				+            raise HTTPException(status_code=400, detail=f"不支持的文件格式 {file_ext}，只支持 .xlsx 和 .xls 格式")
			
 
				+        
			
 
				+        # 创建临时文件
			
 
				+        with tempfile.NamedTemporaryFile(suffix=file_ext, delete=False) as temp_file:
			
 
				+            temp_file.write(await file.read())
			
 
				+            temp_file_path = temp_file.name
			
 
				+        
			
 
				+        try:
			
 
				+            # 解析Excel文件获取标签数据
			
 
				+            tags_data = excel_util.parse_excel(file_path=temp_file_path)
			
 
				+            
			
 
				+            # 使用工厂类创建标签服务实例
			
 
				+            tag_service = TagServiceFactory.create_tag_service(get_client())
			
 
				+            
			
 
				+            # 调用批量上传标签方法
			
 
				+            result = tag_service.upload_tags(tags_data)
			
 
				+            
			
 
				+            return {"success": True, "result": result}
			
 
				+        finally:
			
 
				+            # 删除临时文件
			
 
				+            os.unlink(temp_file_path)
			
 
				+    except HTTPException as e:
			
 
				+        raise e
			
 
				+    except Exception as e:
			
 
				+        raise HTTPException(status_code=500, detail=f"标签上传失败: {str(e)}")
			
 
				+
			
 
				+
			
 
				+# 2. 新增标签接口
			
 
				+@app.post("/create", response_model=Dict[str, Any])
			
 
				+async def create_tag(request: TagCreateRequest):
			
 
				+    """
			
 
				+    新增标签接口
			
 
				+    
			
 
				+    - **name**: 标签名称，格式为：一级标签_二级标签_三级标签
			
 
				+    - **description**: 标签描述，详细说明标签的含义和用途
			
 
				+    - **age_range**: 年龄段，如：0-2、2-3、3-4等
			
 
				+    """
			
 
				+    try:
			
 
				+        # 使用工厂类创建标签服务实例
			
 
				+        tag_service = TagServiceFactory.create_tag_service(get_client())
			
 
				+        
			
 
				+        # 调用创建标签方法
			
 
				+        tag_data = request.model_dump()
			
 
				+        result = tag_service.create_tag(tag_data)
			
 
				+        
			
 
				+        return {"success": True, "tag": result}
			
 
				+    except KeyError as e:
			
 
				+        raise HTTPException(status_code=400, detail=f"缺少必填字段: {str(e)}")
			
 
				+    except Exception as e:
			
 
				+        raise HTTPException(status_code=500, detail=f"创建标签失败: {str(e)}")
			
--- a/common/models/pagination.py
+++ b/common/models/pagination.py
@@ -0,0 +1,11 @@
 
				+from pydantic import BaseModel, Field
			
 
				+from typing import Optional
			
 
				+
			
 
				+class Pagination(BaseModel):
			
 
				+    """通用分页与过滤模型"""
			
 
				+    page: int = Field(default=1, ge=1, description="当前页码")
			
 
				+    page_size: int = Field(default=30, ge=1, le=100, description="每页条数")
			
 
				+    
			
 
				+    def to_dict(self):
			
 
				+        """过滤掉 None 值，转化为 API 要求的字典"""
			
 
				+        return {k: v for k, v in self.model_dump().items() if v is not None}
			
--- a/conf/age_level.json
+++ b/conf/age_level.json
@@ -0,0 +1,10 @@
 
				+{
			
 
				+    "L1": "0-2",
			
 
				+    "L2": "2-3",
			
 
				+    "L3": "3-4",
			
 
				+    "L4": "4-5",
			
 
				+    "L5": "5-6",
			
 
				+    "L6": "6-10",
			
 
				+    "L7": "10-14",
			
 
				+    "L8": "14-100"
			
 
				+}
			
--- a/conf/config.py
+++ b/conf/config.py
@@ -33,6 +33,11 @@ class ModelConfig:
 
				     def get_api_key() -> str:
			
 
				         """获取模型API密钥"""
			
 
				         return os.getenv("API_KEY", "")
			
 
				+
			
 
				+    @staticmethod
			
 
				+    def get_rank_model_name() -> str:
			
 
				+        """获取模型名称"""
			
 
				+        return os.getenv("RANK_MODEL_NAME", "Qwen/Qwen3-Reranker-0.6B")
			
 
				     
			
 
				     @staticmethod
			
 
				     def get_model_config() -> dict:
			
@@ -64,6 +69,9 @@ class ModelConfig:
 
				         """获取DASHSCOPE API密钥"""
			
 
				         return os.getenv("DASHSCOPE", "")
			
 
				 
			
 
				+class RagflowConfig:
			
 
				+    """RAGFLOW配置类"""
			
 
				+
			
 
				     # RAGFLOW配置
			
 
				     @staticmethod
			
 
				     def get_ragflow_api_url() -> str:
			
@@ -80,6 +88,16 @@ class ModelConfig:
 
				         """获取数据集ID"""
			
 
				         return os.getenv("DATASET_ID", "")
			
 
				 
			
 
				+    @staticmethod
			
 
				+    def get_ragflow_user_name() -> str:
			
 
				+        """获取RAGFLOW用户名"""
			
 
				+        return os.getenv("RAGFLOW_USER_NAME", "")
			
 
				+    
			
 
				+    @staticmethod
			
 
				+    def get_ragflow_passwd() -> str:
			
 
				+        """获取RAGFLOW密码"""
			
 
				+        return os.getenv("RAGFLOW_PASSWD", "")
			
 
				+
			
 
				 class AppConfig:
			
 
				     """应用配置类"""
			
 
				     
			
@@ -159,6 +177,19 @@ class VectorDBConfig:
 
				         """获取Infinity向量数据库表名"""
			
 
				         return os.getenv("INFINITY_TABLE_NAME", "test")
			
 
				 
			
 
				+class TagSearchConfig:
			
 
				+    """标签搜索配置类"""
			
 
				+
			
 
				+    @staticmethod
			
 
				+    def get_tag_db_name() -> str:
			
 
				+        """获取标签数据库名称"""
			
 
				+        return os.getenv("TAG_DB_NAME", "tag_db")
			
 
				+    
			
 
				+    @staticmethod
			
 
				+    def get_tag_table_name() -> str:
			
 
				+        """获取标签数据库表名"""
			
 
				+        return os.getenv("TAG_TABLE_NAME", "tag_table")
			
 
				+
			
 
				 # 导出配置实例
			
 
				 model_config = ModelConfig.get_model_config()
			
 
				 app_config = {
			
--- a/conf/settings.py
+++ b/conf/settings.py
@@ -0,0 +1,123 @@
 
				+"""配置管理模块，使用 pydantic-settings 从.env文件加载环境变量"""
			
 
				+
			
 
				+from pydantic_settings import BaseSettings, SettingsConfigDict
			
 
				+from pydantic import Field
			
 
				+
			
 
				+class AppSettings(BaseSettings):
			
 
				+    """应用配置类"""
			
 
				+    log_level: str = Field(default="INFO", alias="LOG_LEVEL")
			
 
				+    
			
 
				+    model_config = SettingsConfigDict(
			
 
				+        env_file=".env",
			
 
				+        env_file_encoding="utf-8",
			
 
				+        case_sensitive=False,
			
 
				+        extra="ignore"
			
 
				+    )
			
 
				+
			
 
				+class ModelSettings(BaseSettings):
			
 
				+    """模型配置类"""
			
 
				+    model_provider: str = Field(default="openai", alias="MODEL_PROVIDER")
			
 
				+    model_name: str = Field(default="Qwen/Qwen3-VL-8B-Instruct", alias="MODEL_NAME")
			
 
				+    embedding_model_name: str = Field(default="Qwen/Qwen3-Embedding-0.6B", alias="EMBEDDING_MODEL_NAME")
			
 
				+    base_url: str = Field(default="https://api.openai.com/v1", alias="BASE_URL")
			
 
				+    api_key: str = Field(default="", alias="API_KEY")
			
 
				+    rank_model_name: str = Field(default="Qwen/Qwen3-Reranker-0.6B", alias="RANK_MODEL_NAME")
			
 
				+    multimodal_embedding_model_name: str = Field(default="qwen2.5-vl-embedding", alias="MULTIMODAL_EMBEDDING_MODEL_NAME")
			
 
				+    dashscope: str = Field(default="", alias="DASHSCOPE")
			
 
				+    
			
 
				+    model_config = SettingsConfigDict(
			
 
				+        env_file=".env",
			
 
				+        env_file_encoding="utf-8",
			
 
				+        case_sensitive=False,
			
 
				+        extra="ignore"
			
 
				+    )
			
 
				+
			
 
				+class RagflowSettings(BaseSettings):
			
 
				+    """RAGFLOW配置类"""
			
 
				+    ragflow_api_url: str = Field(default="http://192.168.16.134/", alias="RAGFLOW_API_URL")
			
 
				+    ragflow_api_key: str = Field(default="", alias="RAGFLOW_API_KEY")
			
 
				+    dataset_id: str = Field(default="", alias="DATASET_ID")
			
 
				+    ragflow_user_name: str = Field(default="", alias="RAGFLOW_USER_NAME")
			
 
				+    ragflow_passwd: str = Field(default="", alias="RAGFLOW_PASSWD")
			
 
				+    
			
 
				+    model_config = SettingsConfigDict(
			
 
				+        env_file=".env",
			
 
				+        env_file_encoding="utf-8",
			
 
				+        case_sensitive=False,
			
 
				+        extra="ignore"
			
 
				+    )
			
 
				+
			
 
				+class MinioSettings(BaseSettings):
			
 
				+    """MinIO配置类"""
			
 
				+    minio_endpoint: str = Field(default="http://localhost:9000", alias="MINIO_ENDPOINT")
			
 
				+    minio_access_key: str = Field(default="minioadmin", alias="MINIO_ACCESS_KEY")
			
 
				+    minio_secret_key: str = Field(default="minioadmin", alias="MINIO_SECRET_KEY")
			
 
				+    minio_bucket_name: str = Field(default="ragflow", alias="MINIO_BUCKET_NAME")
			
 
				+    minio_secure: bool = Field(default=False, alias="MINIO_SECURE")
			
 
				+    
			
 
				+    model_config = SettingsConfigDict(
			
 
				+        env_file=".env",
			
 
				+        env_file_encoding="utf-8",
			
 
				+        case_sensitive=False,
			
 
				+        extra="ignore"
			
 
				+    )
			
 
				+
			
 
				+class VectorDBSettings(BaseSettings):
			
 
				+    """向量数据库配置类"""
			
 
				+    vector_db_type: str = Field(default="es", alias="VECTOR_DB_TYPE")
			
 
				+    infinity_host: str = Field(default="192.168.16.134", alias="INFINITY_HOST")
			
 
				+    infinity_port: int = Field(default=23820, alias="INFINITY_PORT")
			
 
				+    infinity_sdk_port: int = Field(default=23817, alias="INFINITY_SDK_PORT")
			
 
				+    infinity_user: str = Field(default="admin", alias="INFINITY_USER")
			
 
				+    infinity_password: str = Field(default="admin", alias="INFINITY_PASSWORD")
			
 
				+    infinity_database: str = Field(default="test", alias="INFINITY_DATABASE")
			
 
				+    infinity_table_name: str = Field(default="test", alias="INFINITY_TABLE_NAME")
			
 
				+    
			
 
				+    model_config = SettingsConfigDict(
			
 
				+        env_file=".env",
			
 
				+        env_file_encoding="utf-8",
			
 
				+        case_sensitive=False,
			
 
				+        extra="ignore"
			
 
				+    )
			
 
				+
			
 
				+class MysqlSettings(BaseSettings):
			
 
				+    """MySQL配置类"""
			
 
				+    mysql_host: str = Field(default="localhost", alias="MYSQL_HOST")
			
 
				+    mysql_port: int = Field(default=3306, alias="MYSQL_PORT")
			
 
				+    mysql_user: str = Field(default="root", alias="MYSQL_USER")
			
 
				+    mysql_password: str = Field(default="", alias="MYSQL_PASSWORD")
			
 
				+    mysql_database: str = Field(default="", alias="MYSQL_DATABASE")
			
 
				+    mysql_charset: str = Field(default="utf8mb4", alias="MYSQL_CHARSET")
			
 
				+    mysql_pool_size: int = Field(default=5, alias="MYSQL_POOL_SIZE")
			
 
				+
			
 
				+    model_config = SettingsConfigDict(
			
 
				+        env_file=".env",
			
 
				+        env_file_encoding="utf-8",
			
 
				+        case_sensitive=False,
			
 
				+        extra="ignore"
			
 
				+    )
			
 
				+
			
 
				+
			
 
				+class TagSearchSettings(BaseSettings):
			
 
				+    """标签搜索配置类"""
			
 
				+    tag_db_name: str = Field(default="tag_db", alias="TAG_DB_NAME")
			
 
				+    tag_table_name: str = Field(default="tag_table", alias="TAG_TABLE_NAME")
			
 
				+    tag_document_id: str = Field(default="", alias="TAG_DOCUMENT_ID")
			
 
				+    tag_dataset_id: str = Field(default="", alias="TAG_DATASET_ID")
			
 
				+    
			
 
				+    model_config = SettingsConfigDict(
			
 
				+        env_file=".env",
			
 
				+        env_file_encoding="utf-8",
			
 
				+        case_sensitive=False,
			
 
				+        extra="ignore"
			
 
				+    )
			
 
				+
			
 
				+
			
 
				+# 创建配置实例
			
 
				+model_settings = ModelSettings()
			
 
				+ragflow_settings = RagflowSettings()
			
 
				+app_settings = AppSettings()
			
 
				+minio_settings = MinioSettings()
			
 
				+vector_db_settings = VectorDBSettings()
			
 
				+mysql_settings = MysqlSettings()
			
 
				+tag_search_settings = TagSearchSettings()
			
--- a/ee.json
+++ b/ee.json
--- a/main.py
+++ b/main.py
@@ -5,6 +5,7 @@ from contextlib import asynccontextmanager
 
				 
			
 
				 # 导入所有子应用
			
 
				 from api.search_infinity import app as search_app
			
 
				+from api.tag_manage import app as tag_app
			
 
				 
			
 
				 # 定义主应用的生命周期管理
			
 
				 @asynccontextmanager
			
@@ -12,15 +13,26 @@ async def main_lifespan(app: FastAPI):
 
				     """主应用生命周期管理"""
			
 
				     from utils.infinity import get_client, close_client
			
 
				     print("=== Infinity API Gateway 启动 ===")
			
 
				-    # 1. 初始化全局客户端（在服务启动时）
			
 
				+    # 1. 初始化Infinity全局客户端（在服务启动时）
			
 
				     get_client(database="book_image_db")
			
 
				     print("✅ Infinity客户端已初始化")
			
 
				+    
			
 
				+    # 2. 初始化MySQL全局客户端
			
 
				+    from utils.mysql import init_global_mysql_client
			
 
				+    init_global_mysql_client()
			
 
				+    print("✅ MySQL客户端已初始化")
			
 
				+    
			
 
				     yield
			
 
				 
			
 
				     print("=== Infinity API Gateway 关闭 ===")
			
 
				-     # 2. 关闭全局客户端（在服务关闭时）
			
 
				+    # 1. 关闭Infinity全局客户端（在服务关闭时）
			
 
				     close_client()
			
 
				     print("✅ Infinity客户端已关闭")
			
 
				+    
			
 
				+    # 2. 关闭MySQL全局客户端
			
 
				+    from utils.mysql import close_global_mysql_client
			
 
				+    close_global_mysql_client()
			
 
				+    print("✅ MySQL客户端已关闭")
			
 
				 
			
 
				 # 创建主应用
			
 
				 main_app = FastAPI(
			
@@ -33,6 +45,8 @@ main_app = FastAPI(
 
				 # 挂载子应用
			
 
				 # 1. 搜索 API - 访问路径: /search/*
			
 
				 main_app.mount("/search", search_app, name="search_api")
			
 
				+# 2. 标签管理 API - 访问路径: /tag/*
			
 
				+main_app.mount("/tag", tag_app, name="tag_api")
			
 
				 
			
 
				 # 主应用根路径
			
 
				 @main_app.get("/")
			
@@ -42,7 +56,8 @@ async def root():
 
				         "message": "Welcome to GRAPH_RAG API Gateway",
			
 
				         "available_apps": {
			
 
				             "search_api": "访问路径: /search, 文档: /search/docs",
			
 
				-            "hybrid_http_api": "访问路径: /hybrid, 文档: /hybrid/docs"
			
 
				+            "hybrid_http_api": "访问路径: /hybrid, 文档: /hybrid/docs",
			
 
				+            "tag_api": "访问路径: /tag, 文档: /tag/docs"
			
 
				         }
			
 
				     }
			
 
				 
			
--- a/model/jina_rerank.py
+++ b/model/jina_rerank.py
@@ -0,0 +1,133 @@
 
				+from __future__ import annotations
			
 
				+
			
 
				+from copy import deepcopy
			
 
				+from typing import Any, Dict, List, Optional, Sequence, Union
			
 
				+
			
 
				+import requests
			
 
				+from langchain_core.callbacks import Callbacks
			
 
				+from langchain_core.documents import BaseDocumentCompressor, Document
			
 
				+from langchain_core.utils import get_from_dict_or_env
			
 
				+from pydantic import ConfigDict, model_validator
			
 
				+
			
 
				+JINA_API_URL: str = "https://api.jina.ai/v1/rerank"
			
 
				+
			
 
				+
			
 
				+class JinaRerank(BaseDocumentCompressor):
			
 
				+    """Document compressor that uses `Jina Rerank API` with support for custom base_url."""
			
 
				+
			
 
				+    session: Any = None
			
 
				+    """Requests session to communicate with API."""
			
 
				+    top_n: Optional[int] = 3
			
 
				+    """Number of documents to return."""
			
 
				+    model: str = "jina-reranker-v1-base-en"
			
 
				+    """Model to use for reranking."""
			
 
				+    jina_api_key: Optional[str] = None
			
 
				+    """Jina API key. Must be specified directly or via environment variable 
			
 
				+        JINA_API_KEY."""
			
 
				+    user_agent: str = "langchain"
			
 
				+    """Identifier for the application making the request."""
			
 
				+    base_url: str = JINA_API_URL
			
 
				+    """Base URL for the Jina API. Defaults to JINA_API_URL."""
			
 
				+
			
 
				+    model_config = ConfigDict(
			
 
				+        arbitrary_types_allowed=True,
			
 
				+        extra="forbid",
			
 
				+    )
			
 
				+
			
 
				+    @model_validator(mode="before")
			
 
				+    @classmethod
			
 
				+    def validate_environment(cls, values: Dict) -> Any:
			
 
				+        """Validate that api key exists in environment."""
			
 
				+        jina_api_key = get_from_dict_or_env(values, "jina_api_key", "JINA_API_KEY")
			
 
				+        user_agent = values.get("user_agent", "langchain")
			
 
				+        session = requests.Session()
			
 
				+        session.headers.update(
			
 
				+            {
			
 
				+                "Authorization": f"Bearer {jina_api_key}",
			
 
				+                "Accept-Encoding": "identity",
			
 
				+                "Content-type": "application/json",
			
 
				+                "user-agent": user_agent,
			
 
				+            }
			
 
				+        )
			
 
				+        values["session"] = session
			
 
				+        return values
			
 
				+
			
 
				+    def rerank(
			
 
				+        self,
			
 
				+        documents: Sequence[Union[str, Document, dict]],
			
 
				+        query: str,
			
 
				+        *,
			
 
				+        model: Optional[str] = None,
			
 
				+        top_n: Optional[int] = -1,
			
 
				+        max_chunks_per_doc: Optional[int] = None,
			
 
				+    ) -> List[Dict[str, Any]]:
			
 
				+        """Returns an ordered list of documents ordered by their relevance to the provided query.
			
 
				+
			
 
				+        Args:
			
 
				+            query: The query to use for reranking.
			
 
				+            documents: A sequence of documents to rerank.
			
 
				+            model: The model to use for re-ranking. Default to self.model.
			
 
				+            top_n : The number of results to return. If None returns all results.
			
 
				+                Defaults to self.top_n.
			
 
				+            max_chunks_per_doc : The maximum number of chunks derived from a document.
			
 
				+        """  # noqa: E501
			
 
				+        if len(documents) == 0:  # to avoid empty api call
			
 
				+            return []
			
 
				+        docs = [
			
 
				+            doc.page_content if isinstance(doc, Document) else doc for doc in documents
			
 
				+        ]
			
 
				+        model = model or self.model
			
 
				+        top_n = top_n if (top_n is None or top_n > 0) else self.top_n
			
 
				+        data = {
			
 
				+            "query": query,
			
 
				+            "documents": docs,
			
 
				+            "model": model,
			
 
				+            "top_n": top_n,
			
 
				+        }
			
 
				+
			
 
				+        # 构建完整的API路径
			
 
				+        api_url = self.base_url.rstrip('/') + '/rerank'
			
 
				+        resp = self.session.post(
			
 
				+            api_url,
			
 
				+            json=data,
			
 
				+        ).json()
			
 
				+
			
 
				+        if "results" not in resp:
			
 
				+            raise RuntimeError(resp["detail"])
			
 
				+
			
 
				+        results = resp["results"]
			
 
				+        result_dicts = []
			
 
				+        for res in results:
			
 
				+            result_dicts.append(
			
 
				+                {
			
 
				+                    "index": res["index"],
			
 
				+                    "relevance_score": res["relevance_score"],
			
 
				+                }
			
 
				+            )
			
 
				+        return result_dicts
			
 
				+
			
 
				+    def compress_documents(
			
 
				+        self,
			
 
				+        documents: Sequence[Document],
			
 
				+        query: str,
			
 
				+        top_n: Optional[int] = None,
			
 
				+        callbacks: Optional[Callbacks] = None,
			
 
				+    ) -> Sequence[Document]:
			
 
				+        """
			
 
				+        Compress documents using Jina's Rerank API.
			
 
				+
			
 
				+        Args:
			
 
				+            documents: A sequence of documents to compress.
			
 
				+            query: The query to use for compressing the documents.
			
 
				+            callbacks: Callbacks to run during the compression process.
			
 
				+
			
 
				+        Returns:
			
 
				+            A sequence of compressed documents.
			
 
				+        """
			
 
				+        compressed = []
			
 
				+        for res in self.rerank(documents=documents, query=query, top_n=top_n):
			
 
				+            doc = documents[res["index"]]
			
 
				+            doc_copy = Document(doc.page_content, metadata=deepcopy(doc.metadata))
			
 
				+            doc_copy.metadata["relevance_score"] = res["relevance_score"]
			
 
				+            compressed.append(doc_copy)
			
 
				+        return compressed
			
--- a/model/multimodal_embedding.py
+++ b/model/multimodal_embedding.py
@@ -4,8 +4,9 @@ import base64
 
				 import io
			
 
				 from langchain_openai import OpenAIEmbeddings
			
 
				 from dashscope import MultiModalEmbedding
			
 
				-from conf.config import ModelConfig
			
 
				-from utils.file.image_util import image_util as ImageUtil
			
 
				+from conf.settings import model_settings
			
 
				+from langfuse import observe
			
 
				+from utils.file.image_util import image_util
			
 
				 
			
 
				 class Embedding:
			
 
				     """Embedding模型工具"""
			
@@ -19,18 +20,12 @@ class Embedding:
 
				             api_key: API密钥，若为None则使用配置文件中的值
			
 
				         """
			
 
				         # 获取模型配置
			
 
				-        self.model_provider = ModelConfig.get_model_provider()
			
 
				-        self.model_name = model_name or ModelConfig.get_model_name()
			
 
				-        self.base_url = ModelConfig.get_base_url()
			
 
				-        self.api_key = api_key or ModelConfig.get_api_key()
			
 
				-        
			
 
				-        # 使用langchain_openai初始化OpenAI Embeddings模型
			
 
				-        self.embeddings = OpenAIEmbeddings(
			
 
				-            model=self.model_name,
			
 
				-            base_url=self.base_url,
			
 
				-            api_key=self.api_key
			
 
				-        )
			
 
				+        self.model_provider = model_settings.model_provider
			
 
				+        self.model_name = model_name or model_settings.model_name
			
 
				+        self.base_url = model_settings.base_url
			
 
				+        self.api_key = api_key or model_settings.api_key
			
 
				     
			
 
				+    @observe(name="text_embedding", as_type="embedding")
			
 
				     def get_text_embedding(self, text: str) -> List[float]:
			
 
				         """
			
 
				         获取文本的embedding
			
@@ -42,11 +37,18 @@ class Embedding:
 
				             List[float]: 文本的embedding向量
			
 
				         """
			
 
				         try:
			
 
				-            embedding = self.embeddings.embed_query(text)
			
 
				+            # 使用langchain_openai初始化OpenAI Embeddings模型
			
 
				+            embeddings = OpenAIEmbeddings(
			
 
				+                model=self.model_name,
			
 
				+                base_url=self.base_url,
			
 
				+                api_key=self.api_key
			
 
				+            )
			
 
				+            embedding = embeddings.embed_query(text)
			
 
				             return embedding
			
 
				         except Exception as e:
			
 
				             raise Exception(f"文本embedding生成失败: {str(e)}")
			
 
				     
			
 
				+    @observe(name="texts_embedding", as_type="embedding")
			
 
				     def get_texts_embedding(self, texts: List[str]) -> List[List[float]]:
			
 
				         """
			
 
				         获取多个文本的embedding
			
@@ -58,11 +60,18 @@ class Embedding:
 
				             List[List[float]]: 文本列表的embedding向量列表
			
 
				         """
			
 
				         try:
			
 
				-            embeddings = self.embeddings.embed_documents(texts)
			
 
				+            # 使用langchain_openai初始化OpenAI Embeddings模型
			
 
				+            embeddings = OpenAIEmbeddings(
			
 
				+                model=self.model_name,
			
 
				+                base_url=self.base_url,
			
 
				+                api_key=self.api_key
			
 
				+            )
			
 
				+            embeddings = embeddings.embed_documents(texts)
			
 
				             return embeddings
			
 
				         except Exception as e:
			
 
				             raise Exception(f"多个文本embedding生成失败: {str(e)}")
			
 
				     
			
 
				+    @observe(name="image_embedding", as_type="embedding")
			
 
				     def get_image_embedding(self, image: Image.Image) -> List[float]:
			
 
				         """
			
 
				         获取图像的embedding
			
@@ -80,7 +89,7 @@ class Embedding:
 
				             buffer.seek(0)
			
 
				             
			
 
				             # 压缩图片字节流
			
 
				-            compressed_bytes = ImageUtil._compress_image_to_bytes(buffer)
			
 
				+            compressed_bytes = image_util._compress_image_to_bytes(buffer)
			
 
				             
			
 
				             image_base64 = base64.b64encode(compressed_bytes).decode("utf-8")
			
 
				             # 构建输入项
			
@@ -98,7 +107,8 @@ class Embedding:
 
				                 return response.output["embeddings"][0]["embedding"]
			
 
				         except Exception as e:
			
 
				             raise Exception(f"图像embedding生成失败: {str(e)}")
			
 
				-    
			
 
				+
			
 
				+    @observe(name="multimodal_embedding", as_type="embedding")
			
 
				     def get_multimodal_embedding(self, text: str, image: Image.Image) -> List[float]:
			
 
				         """
			
 
				         获取多模态（文本+图像）的embedding
			
@@ -118,7 +128,7 @@ class Embedding:
 
				                 buffer.seek(0)
			
 
				             
			
 
				                 # 压缩图片字节流
			
 
				-                compressed_bytes = ImageUtil()._compress_image_to_bytes(buffer)
			
 
				+                compressed_bytes = image_util._compress_image_to_bytes(buffer)
			
 
				             
			
 
				                 image_base64 = base64.b64encode(compressed_bytes).decode("utf-8")
			
 
				                 item.append({'image': f"data:image/png;base64,{image_base64}"})
			
@@ -148,6 +158,6 @@ def get_embedding_model() -> Embedding:
 
				         Embedding: 全局单例的Embedding模型
			
 
				     """
			
 
				     return Embedding(
			
 
				-        model_name=ModelConfig.get_multimodal_embedding_model_name(),
			
 
				-        api_key=ModelConfig.get_dashscope_api_key()
			
 
				+        model_name=model_settings.embedding_model_name,
			
 
				+        api_key=model_settings.api_key
			
 
				     )
			
--- a/model/qwen_vl.py
+++ b/model/qwen_vl.py
@@ -3,7 +3,8 @@ from PIL import Image
 
				 import base64
			
 
				 import io
			
 
				 from langchain.chat_models import init_chat_model
			
 
				-from conf.config import ModelConfig
			
 
				+from conf.settings import model_settings
			
 
				+from langfuse.callback import CallbackHandler
			
 
				 
			
 
				 class QWenVLParser:
			
 
				     """QWEN VL模型图像解析工具"""
			
@@ -16,11 +17,11 @@ class QWenVLParser:
 
				             model_name: 模型名称，若为None则使用配置文件中的值
			
 
				         """
			
 
				         # 获取模型配置
			
 
				-        self.model_provider = ModelConfig.get_model_provider()
			
 
				-        self.model_name = model_name or ModelConfig.get_model_name()
			
 
				-        self.base_url = ModelConfig.get_base_url()
			
 
				-        self.api_key = ModelConfig.get_api_key()
			
 
				-        
			
 
				+        self.model_provider = model_settings.model_provider
			
 
				+        self.model_name = model_name or model_settings.model_name
			
 
				+        self.base_url = model_settings.base_url
			
 
				+        self.api_key = model_settings.api_key
			
 
				+        self.langfuse_handler = CallbackHandler()
			
 
				         # 使用langchain的init_chat_model初始化模型
			
 
				         self.model = init_chat_model(
			
 
				             model_provider=self.model_provider,
			
@@ -82,7 +83,7 @@ class QWenVLParser:
 
				             ]
			
 
				             
			
 
				             # 使用langchain模型调用OpenAI API
			
 
				-            response = self.model.invoke(messages)
			
 
				+            response = self.model.invoke(input=messages, config={"callbacks": [self.langfuse_handler]})
			
 
				             
			
 
				             # 提取解析结果
			
 
				             content = response.content
			
--- a/model/tracked_multi_embedding.py
+++ b/model/tracked_multi_embedding.py
@@ -0,0 +1,21 @@
 
				+from model.multimodal_embedding import Embedding
			
 
				+from PIL import Image
			
 
				+from utils.decorators.langfuse_trace_embedding import langfuse_trace_embedding
			
 
				+
			
 
				+class TrackedMultiEmbeddings(Embedding):
			
 
				+    
			
 
				+    @langfuse_trace_embedding(name="multi-embed-query")
			
 
				+    def embed_query(self, text: str):
			
 
				+        return super().get_text_embedding(text)
			
 
				+
			
 
				+    @langfuse_trace_embedding(name="multi-embed-documents")
			
 
				+    def embed_documents(self, texts: list[str]):
			
 
				+        return super().get_texts_embedding(texts)
			
 
				+
			
 
				+    @langfuse_trace_embedding(name="multi-embed-image")
			
 
				+    def embed_image(self, image: Image):
			
 
				+        return super().get_image_embedding(image)
			
 
				+
			
 
				+    @langfuse_trace_embedding(name="multi-embed-multimodal")
			
 
				+    def embed_multimodal(self, text: str, image: Image):
			
 
				+        return super().get_multimodal_embedding(text, image)
			
--- a/model/tracked_openai_embeddings.py
+++ b/model/tracked_openai_embeddings.py
@@ -0,0 +1,12 @@
 
				+from langchain_openai import OpenAIEmbeddings
			
 
				+from utils.decorators.langfuse_trace_embedding import langfuse_trace_embedding
			
 
				+
			
 
				+class TrackedOpenAIEmbeddings(OpenAIEmbeddings):
			
 
				+    
			
 
				+    @langfuse_trace_embedding(name="openai-embed-query")
			
 
				+    def embed_query(self, text: str):
			
 
				+        return super().embed_query(text)
			
 
				+
			
 
				+    @langfuse_trace_embedding(name="openai-embed-documents")
			
 
				+    def embed_documents(self, texts: list[str]):
			
 
				+        return super().embed_documents(texts)
			
--- a/parser/image_parser/__init__.py
+++ b/parser/image_parser/__init__.py
--- a/parser/image_parser/image_parser_workflow.py
+++ b/parser/image_parser/image_parser_workflow.py
@@ -19,7 +19,7 @@ from model.qwen_vl import QWenVLParser
 
				 from utils.ragflow.ragflow_service import RAGFlowService
			
 
				 from model.multimodal_embedding import Embedding
			
 
				 from utils.minio.image_util import image_util
			
 
				-from conf.config import ModelConfig
			
 
				+from conf.settings import model_settings
			
 
				 from utils.infinity import get_client
			
 
				 
			
 
				 # 定义工作流状态类
			
@@ -298,7 +298,7 @@ class ImageParsingWorkflow:
 
				             zip_file_path=zip_file_path,
			
 
				             book_name=book_name,
			
 
				             dataset_id=dataset_id,
			
 
				-            embedding_model=Embedding(model_name=ModelConfig.get_multimodal_embedding_model_name(), api_key=ModelConfig.get_dashscope_api_key()),
			
 
				+            embedding_model=Embedding(model_name=model_settings.multimodal_embedding_model_name, api_key=model_settings.dashscope_api_key),
			
 
				             ragflow_service=RAGFlowService(base_url=ragflow_api_url, api_key=rag_flow_api_key)
			
 
				         )
			
 
				         result = self.workflow.invoke(initial_state)
			
--- a/parser/pdf_parser/pdf_parser_workflow.py
+++ b/parser/pdf_parser/pdf_parser_workflow.py
@@ -1,19 +1,15 @@
 
				-import sys
			
 
				 import os
			
 
				 import concurrent.futures
			
 
				 from concurrent.futures import ThreadPoolExecutor
			
 
				-# 添加项目根目录到Python路径
			
 
				-sys.path.append(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__)))))
			
 
				-
			
 
				 from langgraph.graph import StateGraph, START, END
			
 
				-from langgraph.graph.message import add_messages
			
 
				 from typing import List, Dict, Any
			
 
				 from pydantic import BaseModel, Field, ConfigDict
			
 
				 from parser.pdf_parser.pdf_splitter import PDFSplitter
			
 
				 from model.qwen_vl import QWenVLParser
			
 
				+from utils.ragflow_sdk import DataSetUtil, DocumentUtil, ChunkUtil
			
 
				 from utils.ragflow.ragflow_service import RAGFlowService
			
 
				 from model.multimodal_embedding import Embedding
			
 
				-from conf.config import ModelConfig, VectorDBConfig
			
 
				+from conf.settings import model_settings, vector_db_settings
			
 
				 from utils.infinity import get_client
			
 
				 
			
 
				 # 定义工作流状态类
			
@@ -22,7 +18,11 @@ class PDFParsingState(BaseModel):
 
				     model_config = ConfigDict(arbitrary_types_allowed=True)
			
 
				     pdf_path: str = Field(..., description="PDF文件路径")
			
 
				     dataset_id: str = Field(..., description="数据集ID")
			
 
				-    ragflow_service: RAGFlowService = Field(default_factory=RAGFlowService, description="RAGFLOW服务")
			
 
				+    page_dataset_id: str = Field(..., description="页面数据集ID")
			
 
				+    ragflow_service: RAGFlowService = Field(default_factory=RAGFlowService, description="RAGFlow服务实例")
			
 
				+    dataset_util: DataSetUtil = Field(default_factory=DataSetUtil, description="数据集工具类实例")
			
 
				+    document_util: DocumentUtil = Field(default_factory=DocumentUtil, description="文档工具类实例")
			
 
				+    chunk_util: ChunkUtil = Field(default_factory=ChunkUtil, description="文档工具类实例")
			
 
				     embedding_model: Embedding = Field(default_factory=Embedding, description="多模态嵌入模型实例")
			
 
				     document_id: str = Field(default="", description="上传后的文档ID")
			
 
				     split_pages: List[Dict[str, Any]] = Field(default_factory=list, description="拆分后的页面列表")
			
@@ -46,6 +46,7 @@ class PDFParsingWorkflow:
 
				         """
			
 
				         self.model_name = model_name
			
 
				         self.workflow = self._build_workflow()
			
 
				+        
			
 
				     
			
 
				     def _build_workflow(self):
			
 
				         """构建langgraph工作流，实现基于条件路由的并行处理"""
			
@@ -97,6 +98,37 @@ class PDFParsingWorkflow:
 
				         # 编译工作流
			
 
				         return graph.compile()
			
 
				     
			
 
				+    def get_ragflow_dataset(self, dataset_name: str) -> str:
			
 
				+        """获取RAGFLOW数据集ID"""
			
 
				+        try:
			
 
				+            dataset_id = self.dataset_util.get_dataset(name=dataset_name)
			
 
				+            print(f"数据集 {dataset_name} 的ID为: {dataset_id}")
			
 
				+            return dataset_id
			
 
				+        except Exception as e:
			
 
				+            print(f"获取数据集ID时出错: {str(e)}")
			
 
				+            raise
			
 
				+
			
 
				+    def create_ragflow_dataset(self, state: PDFParsingState, dataset_name: str) -> str:
			
 
				+        """创建RAGFLOW数据集"""
			
 
				+        if state.dataset_id:
			
 
				+            print(f"数据集 {dataset_name} 已存在，数据集ID: {state.dataset_id}")
			
 
				+            return state.dataset_id
			
 
				+        
			
 
				+        print(f"开始创建数据集: {dataset_name}")
			
 
				+        
			
 
				+        try: 
			
 
				+            # 创建数据集
			
 
				+            dataset_id = self.dataset_util.create_dataset(
			
 
				+                chunk_method="naive",
			
 
				+                dataset_name=dataset_name,
			
 
				+                dataset_desc="",
			
 
				+            )
			
 
				+            print(f"数据集创建成功，数据集ID: {dataset_id}")
			
 
				+            return dataset_id
			
 
				+        except Exception as e:
			
 
				+            print(f"创建数据集时出错: {str(e)}")
			
 
				+            raise
			
 
				+
			
 
				     def _upload_document_node(self, state: PDFParsingState) -> Dict[str, Any]:
			
 
				         """RAGFLOW上传文档节点"""
			
 
				         print(f"开始上传文档到数据集 {state.dataset_id}: {state.pdf_path}")
			
@@ -107,13 +139,20 @@ class PDFParsingWorkflow:
 
				                 dataset_id=state.dataset_id,
			
 
				                 file_path=state.pdf_path
			
 
				             )
			
 
				+            # 上传文档
			
 
				+            document_info_list2 = state.ragflow_service.upload_document(
			
 
				+                dataset_id=state.page_dataset_id,
			
 
				+                file_path=state.pdf_path
			
 
				+            )
			
 
				             
			
 
				             # 检查响应
			
 
				             if document_info_list and len(document_info_list) > 0:
			
 
				                 document_id = document_info_list[0]["id"]
			
 
				+                page_document_id = document_info_list2[0]["id"]
			
 
				                 print(f"文档上传成功，文档ID: {document_id}")
			
 
				                 return {
			
 
				-                    "document_id": document_id
			
 
				+                    "document_id": document_id,
			
 
				+                    "page_document_id": page_document_id
			
 
				                 }
			
 
				             else:
			
 
				                 print("文档上传失败: 未返回有效的文档信息")
			
@@ -278,12 +317,38 @@ class PDFParsingWorkflow:
 
				         # 所以这里总是返回"complete"
			
 
				         return "complete"
			
 
				     
			
 
				+    def create_ragflow_chunk(self, state: PDFParsingState):
			
 
				+        """单页上传节点"""
			
 
				+        print(f"开始单页上传，共 {len(state.parsed_results)} 页")
			
 
				+        
			
 
				+        # 遍历所有解析结果，上传单页
			
 
				+        for parsed_result in state.parsed_results:
			
 
				+            page_number = parsed_result.get("page_number")
			
 
				+            text = parsed_result.get("content", "")
			
 
				+            image = state.split_pages[page_number - 1].get("image")
			
 
				+            
			
 
				+            # 上传单页到RagFlow Chunk
			
 
				+            chunk = state.chunk_util.add_chunk(
			
 
				+                dataset_name=state.dataset_name,
			
 
				+                document_id=state.page_document_id,
			
 
				+                content=text,
			
 
				+            )
			
 
				+
			
 
				+            infinity_client = get_client()
			
 
				+            infinity_client.update(database_name=state.dataset_name, table_name="", cond=f"id = {chunk_id}", data={"tag_kwd": tag_name})
			
 
				+            
			
 
				+            # 检查响应
			
 
				+            if document_info and document_info.get("id"):
			
 
				+                print(f"第 {page_number} 页上传成功，文档ID: {document_info['id']}")
			
 
				+            else:
			
 
				+                print(f"第 {page_number} 页上传失败")
			
 
				+
			
 
				     def _vectorize_store_node(self, state: PDFParsingState) -> Dict[str, Any]:
			
 
				         """向量化入库节点"""
			
 
				         print(f"开始向量化入库，共 {len(state.parsed_results)} 页")
			
 
				         
			
 
				         # 创建索引（如果不存在）
			
 
				-        index_name = f"{VectorDBConfig.get_infinity_table_name()}"
			
 
				+        index_name = f"{vector_db_settings.infinity_table_name}"
			
 
				         state.vector_db.create_index(index_name)
			
 
				         
			
 
				         # 准备要入库的文档列表
			
@@ -349,13 +414,13 @@ class PDFParsingWorkflow:
 
				             "is_complete": True
			
 
				         }
			
 
				     
			
 
				-    def run(self, pdf_path: str, dataset_id: str, ragflow_api_url: str, rag_flow_api_key: str) -> Dict[str, Any]:
			
 
				+    def run(self, pdf_path: str, page_dataset_id: str, ragflow_api_url: str, rag_flow_api_key: str) -> Dict[str, Any]:
			
 
				         """
			
 
				         运行PDF解析工作流
			
 
				         
			
 
				         Args:
			
 
				             pdf_path: PDF文件路径
			
 
				-            dataset_id: 数据集ID
			
 
				+            page_dataset_id: 数据集ID
			
 
				             ragflow_api_url: RAGFLOW API URL
			
 
				             rag_flow_api_key: RAGFLOW API密钥
			
 
				             
			
@@ -364,9 +429,12 @@ class PDFParsingWorkflow:
 
				         """
			
 
				         initial_state = PDFParsingState(
			
 
				             pdf_path=pdf_path,
			
 
				-            dataset_id=dataset_id,
			
 
				-            embedding_model=Embedding(model_name=ModelConfig.get_multimodal_embedding_model_name(), api_key=ModelConfig.get_dashscope_api_key()),
			
 
				-            ragflow_service=RAGFlowService(base_url=ragflow_api_url, api_key=rag_flow_api_key)
			
 
				+            page_dataset_id=page_dataset_id,
			
 
				+            embedding_model=Embedding(model_name=model_settings.multimodal_embedding_model_name, api_key=model_settings.dashscope_api_key),
			
 
				+            dataset_util=DataSetUtil(),
			
 
				+            document_util=DocumentUtil(),
			
 
				+            chunk_util=ChunkUtil(),
			
 
				+            ragflow_service=RAGFlowService(api_url=ragflow_api_url, api_key=rag_flow_api_key)
			
 
				         )
			
 
				         result = self.workflow.invoke(initial_state)
			
 
				         
			
--- a/private_key.pem
+++ b/private_key.pem
@@ -0,0 +1,27 @@
 
				+-----BEGIN RSA PRIVATE KEY-----
			
 
				+MIIEowIBAAKCAQEAk737JTysaX2ZnsMtvU8uOB8sSTqoL4/z7hcO01IwYDFTZPUO
			
 
				+UeBcTbwsIxoyh3IQReW/SL9kay3ZeZzg3xRZYaiKkMVtbnu1ijt3/t4/K+rmIBs/
			
 
				+8Lg9vpJGVyY43rPlaJP0IlrttnGAOiurDSnSM3iJN3BiZsdBz5fMgEShp6PQpWpJ
			
 
				+ggOjK+2wuMlI1GP2nrJs/9/FN5yIcoqbJtxOkXiHTRLvn/6V0iwO0KR8n5WWUseA
			
 
				+ziVtIEDTZxIGkYyfK1DrRP3WZYmXS3gDbV5wqtNDLhnrbYvarZA6ntC1aAa2S8YA
			
 
				+Ey3dgGee66547mF8nML7qWzxcVrLpRGYdcz0wQIDAQABAoIBACknHyC1MNVFjhfi
			
 
				+CAiWWKp7TGutchGliG3GcHO+jgkNVExn0jBOTYe9pZG1h2OhCxVdNJX/8enE4LH2
			
 
				+V9DrqyX/u3Et/RhsTxoNDJSqtW/3Q1ioHnxf5ZsCxaMa23Z1J66kn7k+GL7cCLqr
			
 
				+VT8aahm6NoaBwHceg59eijEkbN7z3vEdpcoM7Y/T9vsIiRxof7XbIkoMAR14ZZsF
			
 
				+51ht/Uw6lcY+ZBil4m+PSGkTF00WrTYYySVpLNeOg7gHOZhCvkegu5ZjAgJf4468
			
 
				++eG6OW57UP+Fvx1cy1YY+2rO1FiNclmcNKEj6m8kvbcsGDI84NzXx2Z5UNMehTZm
			
 
				+TsaJBG0CgYEAzgpzsPK/NyZmLwmoty9h+7cIGsVXGDbJBSbHDKLbt1B/QEtUGvVZ
			
 
				+MdilQBWmYPw74F+dyl/pOiaXppEwwCej/5aIQVc2LruekOj2nlC6aAE+vI1fFJwn
			
 
				+MPWqHgQKv3Q0oC/0jOA4WfDAuPMAlWgCmPOHX+dpn60Ehd2Gg9jzdGsCgYEAt5DC
			
 
				+hx5ag7X3YAqm16o63ztDDLmyA9SWuD41wmXqxiVANV4aLOb5xOKhTGePN+vL4uYF
			
 
				+3XD+SBWeaksIlp8jKgQ6lo+E7ODvFCWp7anUE4joqRYDLX76YfYaV55ftn2QG13g
			
 
				+FlSJrcHW/LDW2K4VljZ/RMe9EjvwZpwXTLHxpoMCgYBljPc6dlpSZ0Wj12Hlb6Ae
			
 
				+fTasYykrEQ2A0Xz3uGkMb8tYOAhrBRQCImJINKN9V7R3QQk3TpBYDd9exF6/xonp
			
 
				+FhtwAPj+jZB4oamzm9xUGJEAQ7liIhia4+oFwz484Jxze09QA88iXSvPvE1EVjA5
			
 
				+jIXjed4wSglZpTaAU3SiowKBgQCq6eH1pNFqKRc3GTPXQeymxKrdQlj5MAtVaLbt
			
 
				+Va+O5kguaHu+qyCLrOe6GAJFcwrXLIzxba+UtmxVU5+ffnRjPqS+YsrFM3nnLFpX
			
 
				+qvSHa8YVCSXUSpIee+JzCkbbx3VRxcpLgFLgscbWaGDiRtRalEtTYxYr0Bs5rsQS
			
 
				+6OuyuQKBgBtf5/D46K+gnzEHKxvrRNSWvzkWa9t89v/N6ndOhfTPanWfvwCeqEzQ
			
 
				+nnWfYaQkB3vG54Rzv0pW7/UJnPxRLg6OuCaYBjYYXR7rzyBXuHotAH7MNf8nLiC1
			
 
				+0ymLnAopyhJK0K17jzPh4vIMNFcjYMnVg7/NB825Ufj88VRow5TE
			
 
				+-----END RSA PRIVATE KEY-----
			
--- a/prompt/parser/page_parse_prompt.py
+++ b/prompt/parser/page_parse_prompt.py
--- a/public_key.pem
+++ b/public_key.pem
@@ -0,0 +1,9 @@
 
				+-----BEGIN PUBLIC KEY-----
			
 
				+MIIBIjANBgkqhkiG9w0BAQEFAAOCAQ8AMIIBCgKCAQEAk737JTysaX2ZnsMtvU8u
			
 
				+OB8sSTqoL4/z7hcO01IwYDFTZPUOUeBcTbwsIxoyh3IQReW/SL9kay3ZeZzg3xRZ
			
 
				+YaiKkMVtbnu1ijt3/t4/K+rmIBs/8Lg9vpJGVyY43rPlaJP0IlrttnGAOiurDSnS
			
 
				+M3iJN3BiZsdBz5fMgEShp6PQpWpJggOjK+2wuMlI1GP2nrJs/9/FN5yIcoqbJtxO
			
 
				+kXiHTRLvn/6V0iwO0KR8n5WWUseAziVtIEDTZxIGkYyfK1DrRP3WZYmXS3gDbV5w
			
 
				+qtNDLhnrbYvarZA6ntC1aAa2S8YAEy3dgGee66547mF8nML7qWzxcVrLpRGYdcz0
			
 
				+wQIDAQAB
			
 
				+-----END PUBLIC KEY-----
			
--- a/test/test_asymmetric_encryption.py
+++ b/test/test_asymmetric_encryption.py
@@ -0,0 +1,82 @@
 
				+from utils.asymmetric_encryption import AsymmetricEncryption
			
 
				+import os
			
 
				+
			
 
				+
			
 
				+def test_asymmetric_encryption():
			
 
				+    """测试非对称加密功能"""
			
 
				+    print("开始测试非对称加密功能...")
			
 
				+    
			
 
				+    # 测试1：生成密钥对
			
 
				+    print("\n1. 生成密钥对测试...")
			
 
				+    private_pem, public_pem = AsymmetricEncryption.generate_key_pair()
			
 
				+    print(f"私钥长度: {len(private_pem)} 字节")
			
 
				+    print(f"公钥长度: {len(public_pem)} 字节")
			
 
				+    print(f"私钥前100字节: {private_pem[:100]!r}")
			
 
				+    print(f"公钥前100字节: {public_pem[:100]!r}")
			
 
				+    
			
 
				+    # 测试2：加密解密测试
			
 
				+    print("\n2. 加密解密测试...")
			
 
				+    test_message = "这是一个测试消息，用于测试非对称加密功能！"
			
 
				+    print(f"原始消息: {test_message}")
			
 
				+    
			
 
				+    # 加密
			
 
				+    encrypted = AsymmetricEncryption.encrypt(test_message, public_pem)
			
 
				+    print(f"加密后: {encrypted}")
			
 
				+    
			
 
				+    # 解密
			
 
				+    decrypted = AsymmetricEncryption.decrypt(encrypted, private_pem)
			
 
				+    print(f"解密后: {decrypted}")
			
 
				+    
			
 
				+    # 验证
			
 
				+    assert decrypted == test_message, "解密失败，结果与原始消息不符！"
			
 
				+    print("✓ 加密解密测试通过！")
			
 
				+    
			
 
				+    # 测试3：密钥文件保存和加载测试
			
 
				+    print("\n3. 密钥文件保存和加载测试...")
			
 
				+    private_key_path = "private_key.pem"
			
 
				+    public_key_path = "public_key.pem"
			
 
				+    
			
 
				+    # 保存密钥
			
 
				+    AsymmetricEncryption.save_key_to_file(private_pem, private_key_path)
			
 
				+    AsymmetricEncryption.save_key_to_file(public_pem, public_key_path)
			
 
				+    print(f"✓ 密钥已保存到文件: {private_key_path}, {public_key_path}")
			
 
				+    
			
 
				+    # # 加载密钥
			
 
				+    # loaded_private_pem = AsymmetricEncryption.load_key_from_file(private_key_path)
			
 
				+    # loaded_public_pem = AsymmetricEncryption.load_key_from_file(public_key_path)
			
 
				+    # print("✓ 密钥已从文件加载")
			
 
				+    
			
 
				+    # # 验证加载的密钥是否正确
			
 
				+    # encrypted2 = AsymmetricEncryption.encrypt(test_message, loaded_public_pem)
			
 
				+    # decrypted2 = AsymmetricEncryption.decrypt(encrypted2, loaded_private_pem)
			
 
				+    # assert decrypted2 == test_message, "使用加载的密钥解密失败！"
			
 
				+    # print("✓ 使用加载的密钥加密解密测试通过！")
			
 
				+    
			
 
				+    # # 测试4：生成密钥对并保存测试
			
 
				+    # print("\n4. 生成密钥对并保存测试...")
			
 
				+    # private_key_path2 = "test_private_key2.pem"
			
 
				+    # public_key_path2 = "test_public_key2.pem"
			
 
				+    
			
 
				+    # AsymmetricEncryption.generate_key_pair_and_save(private_key_path2, public_key_path2)
			
 
				+    # print(f"✓ 密钥对已生成并保存到文件: {private_key_path2}, {public_key_path2}")
			
 
				+    
			
 
				+    # # 验证生成并保存的密钥
			
 
				+    # loaded_private_pem2 = AsymmetricEncryption.load_key_from_file(private_key_path2)
			
 
				+    # loaded_public_pem2 = AsymmetricEncryption.load_key_from_file(public_key_path2)
			
 
				+    # encrypted3 = AsymmetricEncryption.encrypt(test_message, loaded_public_pem2)
			
 
				+    # decrypted3 = AsymmetricEncryption.decrypt(encrypted3, loaded_private_pem2)
			
 
				+    # assert decrypted3 == test_message, "使用生成并保存的密钥解密失败！"
			
 
				+    # print("✓ 使用生成并保存的密钥加密解密测试通过！")
			
 
				+    
			
 
				+    # # 清理临时文件
			
 
				+    # print("\n5. 清理临时文件...")
			
 
				+    # for file_path in [private_key_path, public_key_path, private_key_path2, public_key_path2]:
			
 
				+    #     if os.path.exists(file_path):
			
 
				+    #         os.remove(file_path)
			
 
				+    #         print(f"✓ 删除临时文件: {file_path}")
			
 
				+    
			
 
				+    # print("\n所有测试通过！非对称加密功能正常工作。")
			
 
				+
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    test_asymmetric_encryption()
			
--- a/test/test_excel_util.py
+++ b/test/test_excel_util.py
@@ -0,0 +1,39 @@
 
				+#!/usr/bin/env python3
			
 
				+"""
			
 
				+测试 ExcelUtil 类的功能
			
 
				+"""
			
 
				+
			
 
				+from utils.excel_util import ExcelUtil
			
 
				+
			
 
				+def test_excel_util():
			
 
				+    """测试 ExcelUtil 类的功能"""
			
 
				+    print("测试 ExcelUtil 类的功能...")
			
 
				+    
			
 
				+    try:
			
 
				+        # 测试获取工作表名称方法
			
 
				+        print("\n1. 测试获取工作表名称方法...")
			
 
				+        # 注意：这里需要替换为实际的 Excel 文件路径
			
 
				+        # sheet_names = ExcelUtil.get_sheet_names("test.xlsx")
			
 
				+        # print(f"工作表名称: {sheet_names}")
			
 
				+        print("✅ 工作表名称方法已实现")
			
 
				+        
			
 
				+        # 测试解析 Excel 方法
			
 
				+        print("\n2. 测试解析 Excel 方法...")
			
 
				+        # 注意：这里需要替换为实际的 Excel 文件路径
			
 
				+        # data = ExcelUtil.parse_excel("test.xlsx")
			
 
				+        # print(f"解析结果数量: {len(data)}")
			
 
				+        # if data:
			
 
				+        #     print(f"第一条数据: {data[0]}")
			
 
				+        print("✅ 解析 Excel 方法已实现")
			
 
				+        
			
 
				+        print("\n🎉 所有测试通过！ExcelUtil 类功能正常。")
			
 
				+        return True
			
 
				+        
			
 
				+    except Exception as e:
			
 
				+        print(f"\n❌ 测试失败: {e}")
			
 
				+        import traceback
			
 
				+        traceback.print_exc()
			
 
				+        return False
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    test_excel_util()
			
--- a/test/test_mysql_config.py
+++ b/test/test_mysql_config.py
@@ -0,0 +1,70 @@
 
				+"""测试MySQL配置从.env文件读取"""
			
 
				+
			
 
				+from utils.mysql.mysql_pool import get_mysql_pool
			
 
				+from utils.mysql.mysql_conn import get_mysql_conn
			
 
				+
			
 
				+
			
 
				+def test_mysql_pool_from_env():
			
 
				+    """测试从.env文件读取MySQL连接池配置"""
			
 
				+    print("=== 测试从.env文件读取MySQL连接池配置 ===")
			
 
				+    
			
 
				+    # 使用默认配置创建连接池（应从.env文件读取）
			
 
				+    pool = get_mysql_pool()
			
 
				+    print(f"连接池配置 - 主机: {pool.host}")
			
 
				+    print(f"连接池配置 - 端口: {pool.port}")
			
 
				+    print(f"连接池配置 - 用户名: {pool.user}")
			
 
				+    print(f"连接池配置 - 数据库: {pool.database}")
			
 
				+    print(f"连接池配置 - 字符集: {pool.charset}")
			
 
				+    print(f"连接池配置 - 连接池大小: {pool.pool_size}")
			
 
				+    
			
 
				+    print("\n✓ 从.env文件读取MySQL连接池配置成功！")
			
 
				+
			
 
				+
			
 
				+def test_mysql_conn_from_env():
			
 
				+    """测试从.env文件读取MySQL连接配置"""
			
 
				+    print("\n=== 测试从.env文件读取MySQL连接配置 ===")
			
 
				+    
			
 
				+    # 使用默认配置创建连接（应从.env文件读取）
			
 
				+    conn = get_mysql_conn()
			
 
				+    
			
 
				+    # 尝试执行简单查询
			
 
				+    try:
			
 
				+        # 获取游标上下文管理器
			
 
				+        with conn.get_cursor() as cursor:
			
 
				+            # 执行简单查询
			
 
				+            cursor.execute("SELECT 1 AS test")
			
 
				+            result = cursor.fetchone()
			
 
				+            print(f"执行简单查询结果: {result}")
			
 
				+        print("\n✓ 从.env文件读取MySQL连接配置成功！")
			
 
				+    except Exception as e:
			
 
				+        print(f"\n✗ 执行查询失败: {e}")
			
 
				+    finally:
			
 
				+        conn.close()
			
 
				+
			
 
				+
			
 
				+def test_mysql_conn_with_custom_params():
			
 
				+    """测试自定义参数覆盖.env配置"""
			
 
				+    print("\n=== 测试自定义参数覆盖.env配置 ===")
			
 
				+    
			
 
				+    # 使用自定义参数创建连接
			
 
				+    conn = get_mysql_conn(database="test")
			
 
				+    
			
 
				+    try:
			
 
				+        # 获取游标上下文管理器
			
 
				+        with conn.get_cursor() as cursor:
			
 
				+            # 执行简单查询
			
 
				+            cursor.execute("SELECT 1 AS test")
			
 
				+            result = cursor.fetchone()
			
 
				+            print(f"执行简单查询结果: {result}")
			
 
				+        print("\n✓ 自定义参数覆盖.env配置成功！")
			
 
				+    except Exception as e:
			
 
				+        print(f"\n✗ 执行查询失败: {e}")
			
 
				+    finally:
			
 
				+        conn.close()
			
 
				+
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    test_mysql_pool_from_env()
			
 
				+    test_mysql_conn_from_env()
			
 
				+    test_mysql_conn_with_custom_params()
			
 
				+    print("\n🎉 所有测试完成！")
			
--- a/test/test_mysql_conn.py
+++ b/test/test_mysql_conn.py
@@ -0,0 +1,95 @@
 
				+from utils.mysql_conn import get_mysql_conn
			
 
				+
			
 
				+
			
 
				+def test_mysql_connection():
			
 
				+    """测试MySQL连接池"""
			
 
				+    print("开始测试MySQL连接池...")
			
 
				+    
			
 
				+    # 获取MySQL连接管理器实例
			
 
				+    conn_manager = get_mysql_conn(
			
 
				+        host="localhost",
			
 
				+        port=3306,
			
 
				+        user="root",
			
 
				+        password="password",
			
 
				+        database="test"
			
 
				+    )
			
 
				+    
			
 
				+    print("✓ MySQL连接管理器实例创建成功")
			
 
				+    
			
 
				+    # 测试execute方法
			
 
				+    try:
			
 
				+        # 创建测试表
			
 
				+        create_table_sql = """
			
 
				+        CREATE TABLE IF NOT EXISTS test_users (
			
 
				+            id INT AUTO_INCREMENT PRIMARY KEY,
			
 
				+            name VARCHAR(50) NOT NULL,
			
 
				+            email VARCHAR(100) NOT NULL,
			
 
				+            create_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP
			
 
				+        )
			
 
				+        """
			
 
				+        rowcount = conn_manager.execute(create_table_sql)
			
 
				+        print(f"✓ 创建测试表成功，受影响行数: {rowcount}")
			
 
				+        
			
 
				+        # 插入测试数据
			
 
				+        insert_sql = "INSERT INTO test_users (name, email) VALUES (%s, %s)"
			
 
				+        params = ("测试用户", "test@example.com")
			
 
				+        rowcount = conn_manager.execute(insert_sql, params)
			
 
				+        print(f"✓ 插入测试数据成功，受影响行数: {rowcount}")
			
 
				+        
			
 
				+        # 测试fetch_one方法
			
 
				+        select_one_sql = "SELECT * FROM test_users ORDER BY id DESC LIMIT 1"
			
 
				+        result = conn_manager.fetch_one(select_one_sql)
			
 
				+        print(f"✓ 查询单条数据成功，结果: {result}")
			
 
				+        
			
 
				+        # 测试fetch_all方法
			
 
				+        select_all_sql = "SELECT * FROM test_users"
			
 
				+        results = conn_manager.fetch_all(select_all_sql)
			
 
				+        print(f"✓ 查询所有数据成功，结果数量: {len(results)}")
			
 
				+        
			
 
				+        # 测试fetch_many方法
			
 
				+        select_many_sql = "SELECT * FROM test_users"
			
 
				+        results = conn_manager.fetch_many(select_many_sql, size=2)
			
 
				+        print(f"✓ 查询多条数据成功，结果数量: {len(results)}")
			
 
				+        
			
 
				+        # 测试bulk_insert方法
			
 
				+        bulk_insert_sql = "INSERT INTO test_users (name, email) VALUES (%s, %s)"
			
 
				+        bulk_params = [
			
 
				+            ("批量用户1", "batch1@example.com"),
			
 
				+            ("批量用户2", "batch2@example.com"),
			
 
				+            ("批量用户3", "batch3@example.com")
			
 
				+        ]
			
 
				+        rowcount = conn_manager.bulk_insert(bulk_insert_sql, bulk_params)
			
 
				+        print(f"✓ 批量插入数据成功，受影响行数: {rowcount}")
			
 
				+        
			
 
				+        # 测试事务
			
 
				+        try:
			
 
				+            conn, cursor = conn_manager.begin_transaction()
			
 
				+            cursor.execute("INSERT INTO test_users (name, email) VALUES (%s, %s)", ("事务用户", "transaction@example.com"))
			
 
				+            conn_manager.commit_transaction(conn, cursor)
			
 
				+            print("✓ 事务提交成功")
			
 
				+        except Exception as e:
			
 
				+            conn_manager.rollback_transaction(conn, cursor)
			
 
				+            print(f"✗ 事务回滚: {e}")
			
 
				+        
			
 
				+        # 清理测试数据
			
 
				+        delete_sql = "DELETE FROM test_users"
			
 
				+        rowcount = conn_manager.execute(delete_sql)
			
 
				+        print(f"✓ 清理测试数据成功，受影响行数: {rowcount}")
			
 
				+        
			
 
				+        # 删除测试表
			
 
				+        drop_table_sql = "DROP TABLE IF EXISTS test_users"
			
 
				+        rowcount = conn_manager.execute(drop_table_sql)
			
 
				+        print(f"✓ 删除测试表成功，受影响行数: {rowcount}")
			
 
				+        
			
 
				+        print("\n🎉 所有测试通过！MySQL连接池工作正常。")
			
 
				+        
			
 
				+    except Exception as e:
			
 
				+        print(f"\n✗ 测试失败: {e}")
			
 
				+    
			
 
				+    # 测试连接池关闭
			
 
				+    conn_manager.close()
			
 
				+    print("✓ 连接池关闭成功")
			
 
				+
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    test_mysql_connection()
			
--- a/test/test_ragflow_sdk.py
+++ b/test/test_ragflow_sdk.py
@@ -0,0 +1,14 @@
 
				+from api.db.services.tag_service import TagService
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    tag_service = TagService()
			
 
				+    tags_data = tag_service.get_tag_data()
			
 
				+    print(tags_data)
			
 
				+    
			
 
				+    # multi_embeddings = Embedding(
			
 
				+    #     model_name=ModelConfig.get_multimodal_embedding_model_name(),
			
 
				+    #     api_key=ModelConfig.get_dashscope_api_key()
			
 
				+    # )
			
 
				+
			
 
				+    # res = multi_embeddings.get_multimodal_embedding("这是一个测试文本", Image.open(r"C:\Users\EDY\Desktop\粉宝.png"))
			
 
				+    # print(res)
			
--- a/test/test_search_tag.py
+++ b/test/test_search_tag.py
@@ -0,0 +1,85 @@
 
				+from langchain.chat_models import init_chat_model
			
 
				+from model.multimodal_embedding import Embedding
			
 
				+from conf.settings import model_settings, ragflow_settings, tag_search_settings
			
 
				+from utils.infinity import get_client
			
 
				+from model.jina_rerank import JinaRerank
			
 
				+from langchain_core.documents import Document
			
 
				+from utils.infinity.result_util import convert_to_langchain_docs
			
 
				+
			
 
				+# 初始化多模态嵌入模型
			
 
				+embedding_model = Embedding(
			
 
				+    model_name=model_settings.embedding_model_name,
			
 
				+    api_key=model_settings.api_key
			
 
				+)
			
 
				+
			
 
				+llm = init_chat_model(
			
 
				+    model_provider=model_settings.model_provider,
			
 
				+    model=model_settings.model_name,
			
 
				+    base_url=model_settings.base_url,
			
 
				+    api_key=model_settings.api_key,
			
 
				+    temperature=0.3
			
 
				+)
			
 
				+
			
 
				+compressor = JinaRerank(
			
 
				+    base_url=model_settings.base_url,
			
 
				+    jina_api_key=model_settings.api_key,
			
 
				+    model=model_settings.rank_model_name, # 建议先确认硅基后台此模型 ID 是否正确
			
 
				+    top_n=5
			
 
				+)
			
 
				+
			
 
				+output_fields = [
			
 
				+                    "docnm",
			
 
				+                    "tag_kwd",
			
 
				+                    "content",
			
 
				+                    "kb_id",
			
 
				+                    "doc_id"
			
 
				+                ]
			
 
				+
			
 
				+search_query = {
			
 
				+    "matching_text": """
			
 
				+    桑尼最初因专注画画，对朋友求助表现出不耐烦并大声吼叫，后来意识到是小米生日，主动平复情绪转变态度帮助朋友，完成情绪调节
			
 
				+    """,
			
 
				+    "query_vector": [],
			
 
				+    "vector_field": "q_1024_vec",
			
 
				+    "match_field": "content",
			
 
				+    "topn": 10
			
 
				+}
			
 
				+
			
 
				+def main():
			
 
				+    infinity_client = get_client(database=tag_search_settings.tag_db_name)
			
 
				+    # 问题向量化
			
 
				+    embedding = embedding_model.get_text_embedding(search_query["matching_text"])
			
 
				+    search_query["query_vector"] = embedding
			
 
				+    # TAG_TABLE_NAME="ragflow_92162247e93e11f084830242ac1d0002_52275b36f03611f0a5340242c0a85002"
			
 
				+    TAG_TABLE_NAME="ragflow_92162247e93e11f084830242ac1d0002_18caf531f04d11f095670242c0a85002"
			
 
				+    results = infinity_client.vector_search(TAG_TABLE_NAME, output_fields, search_query).to_result()
			
 
				+    candidate_docs = convert_to_langchain_docs(results)
			
 
				+    
			
 
				+    # 4. 直接调用重排序逻辑
			
 
				+    reranked_docs = compressor.compress_documents(
			
 
				+        documents=candidate_docs, 
			
 
				+        query=search_query["matching_text"],
			
 
				+        top_n=5
			
 
				+    )
			
 
				+    print(reranked_docs)
			
 
				+    # 5. 查看结果
			
 
				+    for i, doc in enumerate(reranked_docs):
			
 
				+        print(f"排名 {i+1}: 分数 {doc.metadata['relevance_score']:.4f}")
			
 
				+        print(f"内容: {doc.page_content}")
			
 
				+        print(f"标签: {doc.metadata['tag_kwd']}\n")
			
 
				+
			
 
				+from utils.asymmetric_encryption import AsymmetricEncryption
			
 
				+
			
 
				+def main2():
			
 
				+    # passwd = "zhangqi@lelequ.net"
			
 
				+    # loaded_public_pem = AsymmetricEncryption.load_key_from_file(r"D:\project\work\graph_rag_server\public_key.pem")
			
 
				+    loaded_private_pem = AsymmetricEncryption.load_key_from_file(r"D:\project\work\graph_rag_server\private_key.pem")
			
 
				+    # encrypted = AsymmetricEncryption.encrypt(passwd, loaded_public_pem)
			
 
				+    # print(encrypted)
			
 
				+    decrypted = AsymmetricEncryption.decrypt(ragflow_settings.ragflow_user_name, loaded_private_pem)
			
 
				+    print(decrypted)
			
 
				+    # assert decrypted2 == test_message, "使用加载的密钥解密失败！"
			
 
				+    # print("✓ 使用加载的密钥加密解密测试通过！")
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    main2()
			
--- a/test_upload_tag.py
+++ b/test_upload_tag.py
@@ -0,0 +1,25 @@
 
				+from api.db.services.tag_service import TagServiceFactory
			
 
				+from utils.excel_util import excel_util
			
 
				+from utils.infinity import get_client
			
 
				+
			
 
				+def main():
			
 
				+    infinity_client = get_client()
			
 
				+    # 使用工厂类创建标签服务实例
			
 
				+    tag_service = TagServiceFactory.create_tag_service(infinity_client)
			
 
				+    # 使用单例实例解析 Excel 文件
			
 
				+    tags_data = excel_util.parse_excel(file_path=r"D:\project\work\data_deal\测试标签.xlsx")
			
 
				+    # 调用批量上传标签方法
			
 
				+    result = tag_service.upload_tags(tags_data)
			
 
				+    # 打印上传结果
			
 
				+    print(f"上传结果: {result}")
			
 
				+
			
 
				+# def get_chunk():
			
 
				+#     infinity_client = get_client()
			
 
				+#     table_object = infinity_client.get_table("ragflow_92162247e93e11f084830242ac1d0002_18caf531f04d11f095670242c0a85002", "default_db")
			
 
				+#     res = table_object.output(["*"]).to_pl()
			
 
				+#     print(res)
			
 
				+
			
 
				+
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    main()
			
--- a/utils/asymmetric_encryption.py
+++ b/utils/asymmetric_encryption.py
@@ -0,0 +1,151 @@
 
				+from cryptography.hazmat.primitives import serialization, hashes
			
 
				+from cryptography.hazmat.primitives.asymmetric import rsa, padding
			
 
				+from cryptography.hazmat.backends import default_backend
			
 
				+from typing import Tuple, Optional
			
 
				+import base64
			
 
				+
			
 
				+
			
 
				+class AsymmetricEncryption:
			
 
				+    """非对称加密工具类，使用RSA算法"""
			
 
				+
			
 
				+    @staticmethod
			
 
				+    def generate_key_pair(key_size: int = 2048) -> Tuple[bytes, bytes]:
			
 
				+        """
			
 
				+        生成RSA密钥对
			
 
				+        
			
 
				+        Args:
			
 
				+            key_size: 密钥大小，默认为2048位
			
 
				+        
			
 
				+        Returns:
			
 
				+            Tuple[bytes, bytes]: (私钥PEM格式，公钥PEM格式)
			
 
				+        """
			
 
				+        # 生成私钥
			
 
				+        private_key = rsa.generate_private_key(
			
 
				+            public_exponent=65537,
			
 
				+            key_size=key_size,
			
 
				+            backend=default_backend()
			
 
				+        )
			
 
				+        
			
 
				+        # 生成公钥
			
 
				+        public_key = private_key.public_key()
			
 
				+        
			
 
				+        # 将私钥序列化为PEM格式
			
 
				+        private_pem = private_key.private_bytes(
			
 
				+            encoding=serialization.Encoding.PEM,
			
 
				+            format=serialization.PrivateFormat.TraditionalOpenSSL,
			
 
				+            encryption_algorithm=serialization.NoEncryption()
			
 
				+        )
			
 
				+        
			
 
				+        # 将公钥序列化为PEM格式
			
 
				+        public_pem = public_key.public_bytes(
			
 
				+            encoding=serialization.Encoding.PEM,
			
 
				+            format=serialization.PublicFormat.SubjectPublicKeyInfo
			
 
				+        )
			
 
				+        
			
 
				+        return private_pem, public_pem
			
 
				+    
			
 
				+    @staticmethod
			
 
				+    def encrypt(message: str, public_key_pem: bytes) -> str:
			
 
				+        """
			
 
				+        使用公钥加密数据
			
 
				+        
			
 
				+        Args:
			
 
				+            message: 要加密的明文
			
 
				+            public_key_pem: 公钥PEM格式
			
 
				+        
			
 
				+        Returns:
			
 
				+            str: 加密后的base64编码字符串
			
 
				+        """
			
 
				+        # 加载公钥
			
 
				+        public_key = serialization.load_pem_public_key(
			
 
				+            public_key_pem,
			
 
				+            backend=default_backend()
			
 
				+        )
			
 
				+        
			
 
				+        # 加密数据
			
 
				+        encrypted = public_key.encrypt(
			
 
				+            message.encode('utf-8'),
			
 
				+            padding.OAEP(
			
 
				+                mgf=padding.MGF1(algorithm=hashes.SHA256()),
			
 
				+                algorithm=hashes.SHA256(),
			
 
				+                label=None
			
 
				+            )
			
 
				+        )
			
 
				+        
			
 
				+        # 返回base64编码的加密数据
			
 
				+        return base64.b64encode(encrypted).decode('utf-8')
			
 
				+    
			
 
				+    @staticmethod
			
 
				+    def decrypt(encrypted_message: str, private_key_pem: bytes) -> str:
			
 
				+        """
			
 
				+        使用私钥解密数据
			
 
				+        
			
 
				+        Args:
			
 
				+            encrypted_message: 加密后的base64编码字符串
			
 
				+            private_key_pem: 私钥PEM格式
			
 
				+        
			
 
				+        Returns:
			
 
				+            str: 解密后的明文
			
 
				+        """
			
 
				+        # 加载私钥
			
 
				+        private_key = serialization.load_pem_private_key(
			
 
				+            private_key_pem,
			
 
				+            password=None,
			
 
				+            backend=default_backend()
			
 
				+        )
			
 
				+        
			
 
				+        # 解码base64加密数据
			
 
				+        encrypted = base64.b64decode(encrypted_message)
			
 
				+        
			
 
				+        # 解密数据
			
 
				+        decrypted = private_key.decrypt(
			
 
				+            encrypted,
			
 
				+            padding.OAEP(
			
 
				+                mgf=padding.MGF1(algorithm=hashes.SHA256()),
			
 
				+                algorithm=hashes.SHA256(),
			
 
				+                label=None
			
 
				+            )
			
 
				+        )
			
 
				+        
			
 
				+        # 返回解密后的明文
			
 
				+        return decrypted.decode('utf-8')
			
 
				+    
			
 
				+    @staticmethod
			
 
				+    def save_key_to_file(key_pem: bytes, file_path: str) -> None:
			
 
				+        """
			
 
				+        将密钥保存到文件
			
 
				+        
			
 
				+        Args:
			
 
				+            key_pem: 密钥PEM格式
			
 
				+            file_path: 文件路径
			
 
				+        """
			
 
				+        with open(file_path, 'wb') as f:
			
 
				+            f.write(key_pem)
			
 
				+    
			
 
				+    @staticmethod
			
 
				+    def load_key_from_file(file_path: str) -> bytes:
			
 
				+        """
			
 
				+        从文件加载密钥
			
 
				+        
			
 
				+        Args:
			
 
				+            file_path: 文件路径
			
 
				+        
			
 
				+        Returns:
			
 
				+            bytes: 密钥PEM格式
			
 
				+        """
			
 
				+        with open(file_path, 'rb') as f:
			
 
				+            return f.read()
			
 
				+    
			
 
				+    @staticmethod
			
 
				+    def generate_key_pair_and_save(private_key_path: str, public_key_path: str, key_size: int = 2048) -> None:
			
 
				+        """
			
 
				+        生成密钥对并保存到文件
			
 
				+        
			
 
				+        Args:
			
 
				+            private_key_path: 私钥文件路径
			
 
				+            public_key_path: 公钥文件路径
			
 
				+            key_size: 密钥大小，默认为2048位
			
 
				+        """
			
 
				+        private_pem, public_pem = AsymmetricEncryption.generate_key_pair(key_size)
			
 
				+        AsymmetricEncryption.save_key_to_file(private_pem, private_key_path)
			
 
				+        AsymmetricEncryption.save_key_to_file(public_pem, public_key_path)
			
--- a/utils/decorators/langfuse_trace_embedding.py
+++ b/utils/decorators/langfuse_trace_embedding.py
@@ -0,0 +1,45 @@
 
				+import functools
			
 
				+import time
			
 
				+from langfuse import Langfuse
			
 
				+
			
 
				+# 初始化 Langfuse 客户端
			
 
				+langfuse = Langfuse()
			
 
				+
			
 
				+def langfuse_trace_embedding(name="embedding-operation"):
			
 
				+    """
			
 
				+    用于追踪 Embedding 操作的装饰器
			
 
				+    """
			
 
				+    def decorator(func):
			
 
				+        @functools.wraps(func)
			
 
				+        def wrapper(*args, **kwargs):
			
 
				+            # 1. 获取输入参数（假设第一个参数是文本或文本列表）
			
 
				+            # 对于 embed_query(text) 或 embed_documents(texts)
			
 
				+            input_data = args[1] if len(args) > 1 else kwargs.get("text") or kwargs.get("texts")
			
 
				+            
			
 
				+            # 2. 在 Langfuse 中开启一个 Span
			
 
				+            # 如果当前上下文已有 Trace，它会自动关联；如果没有，它会创建新的 Trace
			
 
				+            span = langfuse.span(
			
 
				+                name=name,
			
 
				+                input=input_data,
			
 
				+                metadata={"function": func.__name__}
			
 
				+            )
			
 
				+            
			
 
				+            start_time = time.time()
			
 
				+            try:
			
 
				+                # 3. 执行真正的 Embedding 操作
			
 
				+                result = func(*args, **kwargs)
			
 
				+                
			
 
				+                # 4. 记录执行结果和耗时
			
 
				+                span.end(
			
 
				+                    output={
			
 
				+                        "vector_count": len(result) if isinstance(result, list) else 1,
			
 
				+                        "dimension": len(result[0]) if isinstance(result, list) and len(result) > 0 else len(result) if isinstance(result, list) else 0
			
 
				+                    }
			
 
				+                )
			
 
				+                return result
			
 
				+            except Exception as e:
			
 
				+                # 捕捉异常并记录到 Langfuse
			
 
				+                span.end(level="ERROR", status_message=str(e))
			
 
				+                raise e
			
 
				+        return wrapper
			
 
				+    return decorator
			
--- a/utils/decorators/singleton.py
+++ b/utils/decorators/singleton.py
--- a/utils/excel_util.py
+++ b/utils/excel_util.py
@@ -0,0 +1,221 @@
 
				+"""
			
 
				+Excel 工具类
			
 
				+
			
 
				+该文件提供 Excel 解析功能，支持：
			
 
				+- 解析 .xlsx 和 .xls 格式的 Excel 文件
			
 
				+- 将 Excel 数据转换为 List[Dict[str, Any]] 格式
			
 
				+- 支持指定工作表
			
 
				+- 支持自定义表头行
			
 
				+"""
			
 
				+
			
 
				+from typing import List, Dict, Any, Optional
			
 
				+import os
			
 
				+
			
 
				+
			
 
				+try:
			
 
				+    from openpyxl import load_workbook
			
 
				+    from openpyxl.worksheet.worksheet import Worksheet
			
 
				+except ImportError:
			
 
				+    raise ImportError("openpyxl 库未安装，请使用 pip install openpyxl 安装")
			
 
				+
			
 
				+try:
			
 
				+    import xlrd
			
 
				+    from xlrd.sheet import Sheet
			
 
				+except ImportError:
			
 
				+    raise ImportError("xlrd 库未安装，请使用 pip install xlrd 安装")
			
 
				+
			
 
				+
			
 
				+class ExcelUtil:
			
 
				+    """
			
 
				+    Excel 工具类，用于解析 Excel 文件
			
 
				+    """
			
 
				+    
			
 
				+    @staticmethod
			
 
				+    def _parse_xlsx(file_path: str, sheet_name: Optional[str] = None, header_row: int = 0) -> List[Dict[str, Any]]:
			
 
				+        """
			
 
				+        解析 .xlsx 格式的 Excel 文件
			
 
				+        
			
 
				+        Args:
			
 
				+            file_path: Excel 文件路径
			
 
				+            sheet_name: 工作表名称，None 表示使用第一个工作表
			
 
				+            header_row: 表头所在行索引，默认第 0 行
			
 
				+            
			
 
				+        Returns:
			
 
				+            List[Dict[str, Any]]: 解析后的 Excel 数据
			
 
				+        """
			
 
				+        # 加载工作簿
			
 
				+        workbook = load_workbook(filename=file_path, read_only=True)
			
 
				+        
			
 
				+        # 获取工作表
			
 
				+        if sheet_name:
			
 
				+            sheet: Worksheet = workbook[sheet_name]
			
 
				+        else:
			
 
				+            sheet: Worksheet = workbook.active
			
 
				+        
			
 
				+        # 获取所有行数据
			
 
				+        rows = list(sheet.iter_rows(values_only=True))
			
 
				+        
			
 
				+        # 检查数据是否为空
			
 
				+        if not rows:
			
 
				+            return []
			
 
				+        
			
 
				+        # 检查表头行索引是否合法
			
 
				+        if header_row >= len(rows):
			
 
				+            raise ValueError(f"表头行索引 {header_row} 超出数据总行数 {len(rows)}")
			
 
				+        
			
 
				+        # 获取表头
			
 
				+        headers = rows[header_row]
			
 
				+        
			
 
				+        # 检查表头是否为空
			
 
				+        if not headers:
			
 
				+            return []
			
 
				+        
			
 
				+        # 解析数据行
			
 
				+        data: List[Dict[str, Any]] = []
			
 
				+        for row in rows[header_row + 1:]:
			
 
				+            if not row or all(cell is None for cell in row):
			
 
				+                continue
			
 
				+            
			
 
				+            # 创建数据字典
			
 
				+            row_data: Dict[str, Any] = {}
			
 
				+            for i, header in enumerate(headers):
			
 
				+                if i < len(row):
			
 
				+                    row_data[header] = row[i]
			
 
				+                else:
			
 
				+                    row_data[header] = None
			
 
				+            
			
 
				+            data.append(row_data)
			
 
				+        
			
 
				+        workbook.close()
			
 
				+        return data
			
 
				+    
			
 
				+    @staticmethod
			
 
				+    def _parse_xls(file_path: str, sheet_name: Optional[str] = None, header_row: int = 0) -> List[Dict[str, Any]]:
			
 
				+        """
			
 
				+        解析 .xls 格式的 Excel 文件
			
 
				+        
			
 
				+        Args:
			
 
				+            file_path: Excel 文件路径
			
 
				+            sheet_name: 工作表名称，None 表示使用第一个工作表
			
 
				+            header_row: 表头所在行索引，默认第 0 行
			
 
				+            
			
 
				+        Returns:
			
 
				+            List[Dict[str, Any]]: 解析后的 Excel 数据
			
 
				+        """
			
 
				+        # 打开工作簿
			
 
				+        workbook = xlrd.open_workbook(file_path)
			
 
				+        
			
 
				+        # 获取工作表
			
 
				+        if sheet_name:
			
 
				+            sheet: Sheet = workbook.sheet_by_name(sheet_name)
			
 
				+        else:
			
 
				+            sheet: Sheet = workbook.sheet_by_index(0)
			
 
				+        
			
 
				+        # 获取所有行数据
			
 
				+        rows = []
			
 
				+        for i in range(sheet.nrows):
			
 
				+            rows.append(sheet.row_values(i))
			
 
				+        
			
 
				+        # 检查数据是否为空
			
 
				+        if not rows:
			
 
				+            return []
			
 
				+        
			
 
				+        # 检查表头行索引是否合法
			
 
				+        if header_row >= len(rows):
			
 
				+            raise ValueError(f"表头行索引 {header_row} 超出数据总行数 {len(rows)}")
			
 
				+        
			
 
				+        # 获取表头
			
 
				+        headers = rows[header_row]
			
 
				+        
			
 
				+        # 检查表头是否为空
			
 
				+        if not headers:
			
 
				+            return []
			
 
				+        
			
 
				+        # 解析数据行
			
 
				+        data: List[Dict[str, Any]] = []
			
 
				+        for row in rows[header_row + 1:]:
			
 
				+            if not row or all(cell == '' or cell is None for cell in row):
			
 
				+                continue
			
 
				+            
			
 
				+            # 创建数据字典
			
 
				+            row_data: Dict[str, Any] = {}
			
 
				+            for i, header in enumerate(headers):
			
 
				+                if i < len(row):
			
 
				+                    row_data[header] = row[i]
			
 
				+                else:
			
 
				+                    row_data[header] = None
			
 
				+            
			
 
				+            data.append(row_data)
			
 
				+        
			
 
				+        return data
			
 
				+    
			
 
				+    @staticmethod
			
 
				+    def parse_excel(file_path: str, sheet_name: Optional[str] = None, header_row: int = 0) -> List[Dict[str, Any]]:
			
 
				+        """
			
 
				+        解析 Excel 文件，支持 .xlsx 和 .xls 格式
			
 
				+        
			
 
				+        Args:
			
 
				+            file_path: Excel 文件路径
			
 
				+            sheet_name: 工作表名称，None 表示使用第一个工作表
			
 
				+            header_row: 表头所在行索引，默认第 0 行
			
 
				+            
			
 
				+        Returns:
			
 
				+            List[Dict[str, Any]]: 解析后的 Excel 数据
			
 
				+        
			
 
				+        Raises:
			
 
				+            ValueError: 不支持的文件格式
			
 
				+            FileNotFoundError: 文件不存在
			
 
				+        """
			
 
				+        # 检查文件是否存在
			
 
				+        if not os.path.exists(file_path):
			
 
				+            raise FileNotFoundError(f"文件 {file_path} 不存在")
			
 
				+        
			
 
				+        # 获取文件扩展名
			
 
				+        file_ext = os.path.splitext(file_path)[1].lower()
			
 
				+        
			
 
				+        # 根据文件格式选择解析方法
			
 
				+        if file_ext == '.xlsx':
			
 
				+            return ExcelUtil._parse_xlsx(file_path, sheet_name, header_row)
			
 
				+        elif file_ext == '.xls':
			
 
				+            return ExcelUtil._parse_xls(file_path, sheet_name, header_row)
			
 
				+        else:
			
 
				+            raise ValueError(f"不支持的文件格式 {file_ext}，只支持 .xlsx 和 .xls 格式")
			
 
				+    
			
 
				+    @staticmethod
			
 
				+    def get_sheet_names(file_path: str) -> List[str]:
			
 
				+        """
			
 
				+        获取 Excel 文件中的所有工作表名称
			
 
				+        
			
 
				+        Args:
			
 
				+            file_path: Excel 文件路径
			
 
				+            
			
 
				+        Returns:
			
 
				+            List[str]: 工作表名称列表
			
 
				+        
			
 
				+        Raises:
			
 
				+            ValueError: 不支持的文件格式
			
 
				+            FileNotFoundError: 文件不存在
			
 
				+        """
			
 
				+        # 检查文件是否存在
			
 
				+        if not os.path.exists(file_path):
			
 
				+            raise FileNotFoundError(f"文件 {file_path} 不存在")
			
 
				+        
			
 
				+        # 获取文件扩展名
			
 
				+        file_ext = os.path.splitext(file_path)[1].lower()
			
 
				+        
			
 
				+        # 根据文件格式选择方法
			
 
				+        if file_ext == '.xlsx':
			
 
				+            workbook = load_workbook(filename=file_path, read_only=True)
			
 
				+            sheet_names = workbook.sheetnames
			
 
				+            workbook.close()
			
 
				+            return sheet_names
			
 
				+        elif file_ext == '.xls':
			
 
				+            workbook = xlrd.open_workbook(file_path)
			
 
				+            sheet_names = workbook.sheet_names()
			
 
				+            return sheet_names
			
 
				+        else:
			
 
				+            raise ValueError(f"不支持的文件格式 {file_ext}，只支持 .xlsx 和 .xls 格式")
			
 
				+
			
 
				+
			
 
				+# 单例模式实例
			
 
				+excel_util = ExcelUtil()
			
--- a/utils/file/minio/minio_util.py
+++ b/utils/file/minio/minio_util.py
@@ -1,18 +1,18 @@
 
				 from minio import Minio
			
 
				 from typing import BinaryIO
			
 
				 from datetime import timedelta
			
 
				-from conf.config import MinioConfig
			
 
				+from conf.settings import minio_settings
			
 
				 from utils.file.file_utils import generate_unique_filename
			
 
				 
			
 
				 class MinIOUtil:
			
 
				     def __init__(self):
			
 
				         self.client = Minio(
			
 
				-            endpoint=MinioConfig.get_minio_endpoint(),
			
 
				-            access_key=MinioConfig.get_minio_access_key(),
			
 
				-            secret_key=MinioConfig.get_minio_secret_key(),
			
 
				+            endpoint=minio_settings.minio_endpoint,
			
 
				+            access_key=minio_settings.minio_access_key,
			
 
				+            secret_key=minio_settings.minio_secret_key,
			
 
				             secure=False
			
 
				         )
			
 
				-        self.bucket_name = MinioConfig.get_minio_bucket_name()
			
 
				+        self.bucket_name = minio_settings.minio_bucket_name
			
 
				         self._ensure_bucket_exists()
			
 
				 
			
 
				     def _ensure_bucket_exists(self):
			
--- a/utils/infinity/client.py
+++ b/utils/infinity/client.py
@@ -3,7 +3,7 @@ from infinity.common import ConflictType
 
				 from typing import Dict, Any, List, Optional
			
 
				 import threading
			
 
				 from contextlib import contextmanager
			
 
				-from conf.config import VectorDBConfig
			
 
				+from conf.settings import vector_db_settings
			
 
				 from .pool import InfinityConnectionPool
			
 
				 
			
 
				 class InfinityClient:
			
@@ -19,9 +19,9 @@ class InfinityClient:
 
				     
			
 
				     def __init__(
			
 
				         self,
			
 
				-        host: str = VectorDBConfig.get_infinity_host(),
			
 
				-        port: str = VectorDBConfig.get_infinity_sdk_port(),
			
 
				-        database: str = VectorDBConfig.get_infinity_database(),
			
 
				+        host: str = vector_db_settings.infinity_host,
			
 
				+        port: str = vector_db_settings.infinity_sdk_port,
			
 
				+        database: str = vector_db_settings.infinity_database,
			
 
				         min_connections: int = 2,
			
 
				         max_connections: int = 10
			
 
				     ):
			
@@ -179,6 +179,20 @@ class InfinityClient:
 
				             table = self._get_table(conn, table_name, database_name)
			
 
				             return table.insert(documents)
			
 
				     
			
 
				+    def update(
			
 
				+        self, 
			
 
				+        table_name: str, 
			
 
				+        cond: str, 
			
 
				+        data: Dict[str, Any], 
			
 
				+        database_name: Optional[str] = None
			
 
				+    ):
			
 
				+        """更新文档"""
			
 
				+        with self.pool.get_connection() as conn:
			
 
				+            # 获取Table对象
			
 
				+            table = self._get_table(conn, table_name, database_name)
			
 
				+            # 更新文档
			
 
				+            return table.update(cond, data)
			
 
				+
			
 
				     def search(
			
 
				         self,
			
 
				         table_name: str,
			
@@ -238,9 +252,9 @@ _global_client: Optional[InfinityClient] = None
 
				 _client_lock = threading.Lock()
			
 
				 
			
 
				 def get_client(
			
 
				-    host: str = VectorDBConfig.get_infinity_host(),
			
 
				-    port: str = VectorDBConfig.get_infinity_sdk_port(),
			
 
				-    database: str = VectorDBConfig.get_infinity_database(),
			
 
				+    host: str = vector_db_settings.infinity_host,
			
 
				+    port: str = vector_db_settings.infinity_sdk_port,
			
 
				+    database: str = vector_db_settings.infinity_database,
			
 
				     min_connections: int = 2,
			
 
				     max_connections: int = 10
			
 
				 ) -> InfinityClient:
			
--- a/utils/infinity/pool.py
+++ b/utils/infinity/pool.py
@@ -4,7 +4,7 @@ from typing import Dict, Any, List, Optional
 
				 import threading
			
 
				 import time
			
 
				 from contextlib import contextmanager
			
 
				-from conf.config import VectorDBConfig
			
 
				+from conf.settings import vector_db_settings
			
 
				 
			
 
				 class InfinityConnectionPool:
			
 
				     """
			
@@ -20,9 +20,9 @@ class InfinityConnectionPool:
 
				     
			
 
				     def __init__(
			
 
				         self,
			
 
				-        host: str = VectorDBConfig.get_infinity_host(),
			
 
				-        port: str = VectorDBConfig.get_infinity_sdk_port(),
			
 
				-        database: str = VectorDBConfig.get_infinity_database(),
			
 
				+        host: str = vector_db_settings.infinity_host,
			
 
				+        port: str = vector_db_settings.infinity_sdk_port,
			
 
				+        database: str = vector_db_settings.infinity_database,
			
 
				         min_connections: int = 2,
			
 
				         max_connections: int = 10,
			
 
				         connection_timeout: int = 30,
			
--- a/utils/infinity/result_util.py
+++ b/utils/infinity/result_util.py
@@ -0,0 +1,78 @@
 
				+from typing import Dict, Any, List
			
 
				+from langchain_core.documents import Document
			
 
				+
			
 
				+
			
 
				+def convert_to_basic_types(obj: Any) -> Any:
			
 
				+    """
			
 
				+    递归将对象转换为基本类型，以便Pydantic能够序列化
			
 
				+    
			
 
				+    特殊处理：当字典中的子项包含相同长度的数组时，将其转换为数组对象结构
			
 
				+    例如：{"a": [1,2], "b": [3,4]} -> [{"a":1, "b":3}, {"a":2, "b":4}]
			
 
				+    
			
 
				+    Args:
			
 
				+        obj: 要转换的对象
			
 
				+    
			
 
				+    Returns:
			
 
				+        转换后的基本类型对象
			
 
				+    """
			
 
				+    if obj is None:
			
 
				+        return None
			
 
				+    elif isinstance(obj, (str, int, float, bool)):
			
 
				+        return obj
			
 
				+    elif isinstance(obj, dict):
			
 
				+        # 先递归转换所有值
			
 
				+        converted = {k: convert_to_basic_types(v) for k, v in obj.items()}
			
 
				+        
			
 
				+        # 检查是否需要转换为数组对象结构
			
 
				+        # 条件：所有值都是列表，且长度一致，且长度大于0
			
 
				+        values = list(converted.values())
			
 
				+        if all(isinstance(v, list) for v in values):
			
 
				+            lengths = [len(v) for v in values]
			
 
				+            if len(set(lengths)) == 1 and lengths[0] > 0:
			
 
				+                # 转换为数组对象结构
			
 
				+                result = []
			
 
				+                keys = list(converted.keys())
			
 
				+                for i in range(lengths[0]):
			
 
				+                    item = {}
			
 
				+                    for key in keys:
			
 
				+                        # 处理数组中可能存在的None值
			
 
				+                        if i < len(converted[key]):
			
 
				+                            item[key] = converted[key][i]
			
 
				+                        else:
			
 
				+                            item[key] = None
			
 
				+                    result.append(item)
			
 
				+                return result
			
 
				+        
			
 
				+        return converted
			
 
				+    elif isinstance(obj, (list, tuple)):
			
 
				+        return [convert_to_basic_types(item) for item in obj]
			
 
				+    else:
			
 
				+        # 对于其他类型，尝试将其转换为字符串或字典
			
 
				+        try:
			
 
				+            return dict(obj)
			
 
				+        except:
			
 
				+            return str(obj)
			
 
				+
			
 
				+def convert_to_langchain_docs(obj: Any) -> List[Document]:
			
 
				+    """
			
 
				+    将Infinity搜索结果转换为LangChain的Document格式
			
 
				+    
			
 
				+    Args:
			
 
				+        obj: 要转换的对象
			
 
				+    
			
 
				+    Returns:
			
 
				+        转换后的Document列表
			
 
				+    """
			
 
				+    res = convert_to_basic_types(obj=obj)
			
 
				+    # 将数据转换为 LangChain 的 Document 格式
			
 
				+    candidate_docs = [
			
 
				+        Document(page_content=item["content"], 
			
 
				+            metadata={
			
 
				+                "docnm": item["docnm"], 
			
 
				+                "tag_kwd": item["tag_kwd"], 
			
 
				+                "kb_id": item["kb_id"], 
			
 
				+                "doc_id": item["doc_id"]
			
 
				+            }) 
			
 
				+        for item in res[0]
			
 
				+    ]
			
 
				+    return candidate_docs
			
--- a/utils/mysql/__init__.py
+++ b/utils/mysql/__init__.py
@@ -0,0 +1,52 @@
 
				+from .mysql_conn import MySQLConnection
			
 
				+
			
 
				+
			
 
				+# 全局 MySQL 客户端实例
			
 
				+_global_mysql_client = None
			
 
				+
			
 
				+def init_global_mysql_client(host: str = None, port: int = None, 
			
 
				+                           user: str = None, password: str = None, 
			
 
				+                           database: str = None, charset: str = None,
			
 
				+                           pool_size: int = None, **kwargs) -> None:
			
 
				+    """
			
 
				+    初始化全局 MySQL 客户端
			
 
				+    
			
 
				+    Args:
			
 
				+        host: MySQL 主机地址
			
 
				+        port: MySQL 端口号
			
 
				+        user: MySQL 用户名
			
 
				+        password: MySQL 密码
			
 
				+        database: 数据库名称
			
 
				+        charset: 字符集
			
 
				+        pool_size: 连接池大小
			
 
				+        **kwargs: 其他 MySQL 连接参数
			
 
				+    """
			
 
				+    global _global_mysql_client
			
 
				+    if _global_mysql_client is None:
			
 
				+        _global_mysql_client = MySQLConnection(
			
 
				+            host=host, port=port, user=user, password=password, 
			
 
				+            database=database, charset=charset, pool_size=pool_size, **kwargs
			
 
				+        )
			
 
				+
			
 
				+
			
 
				+def get_global_mysql_client() -> MySQLConnection:
			
 
				+    """
			
 
				+    获取全局 MySQL 客户端实例
			
 
				+    
			
 
				+    Returns:
			
 
				+        MySQL SQL 执行器实例
			
 
				+    """
			
 
				+    global _global_mysql_client
			
 
				+    if _global_mysql_client is None:
			
 
				+        raise RuntimeError("Global MySQL client has not been initialized. Call init_global_mysql_client() first.")
			
 
				+    return _global_mysql_client
			
 
				+
			
 
				+
			
 
				+def close_global_mysql_client() -> None:
			
 
				+    """
			
 
				+    关闭全局 MySQL 客户端
			
 
				+    """
			
 
				+    global _global_mysql_client
			
 
				+    if _global_mysql_client is not None:
			
 
				+        _global_mysql_client.close()
			
 
				+        _global_mysql_client = None
			
--- a/utils/mysql/mysql_conn.py
+++ b/utils/mysql/mysql_conn.py
@@ -1,49 +1,41 @@
 
				 """
			
 
				-MySQL 连接管理器
			
 
				+MySQL SQL 执行器
			
 
				 
			
 
				-该文件提供 MySQL 数据库连接管理功能，支持：
			
 
				+该文件提供 MySQL 数据库 SQL 执行功能，支持：
			
 
				 - 单例模式
			
 
				-- 连接池管理
			
 
				 - 基本 CRUD 操作
			
 
				 - 事务支持
			
 
				 - 连接错误处理
			
 
				+- 全局客户端管理
			
 
				 """
			
 
				 import pymysql
			
 
				 from pymysql.cursors import DictCursor
			
 
				 from typing import Any, List, Dict, Optional, Union
			
 
				 from contextlib import contextmanager
			
 
				-
			
 
				-# 单例装饰器
			
 
				-class singleton:
			
 
				-    def __init__(self, cls):
			
 
				-        self.cls = cls
			
 
				-        self._instance = None
			
 
				-    
			
 
				-    def __call__(self, *args, **kwargs):
			
 
				-        if self._instance is None:
			
 
				-            self._instance = self.cls(*args, **kwargs)
			
 
				-        return self._instance
			
 
				+from .mysql_pool import get_mysql_pool, MySQLPool
			
 
				+from utils.decorators.singleton import singleton
			
 
				 
			
 
				 @singleton
			
 
				 class MySQLConnection:
			
 
				     """
			
 
				-    MySQL 连接管理器
			
 
				+    MySQL SQL 执行器
			
 
				     支持：
			
 
				     - 单例模式
			
 
				-    - 连接池管理
			
 
				     - 基本 CRUD 操作
			
 
				     - 事务支持
			
 
				     - 连接错误处理
			
 
				     """
			
 
				     
			
 
				-    def __init__(self, host: str = "localhost", port: int = 3306, 
			
 
				+    def __init__(self, mysql_pool: Optional[MySQLPool] = None,
			
 
				+                 host: str = None, port: int = None, 
			
 
				                  user: str = None, password: str = None, 
			
 
				-                 database: str = None, charset: str = "utf8mb4",
			
 
				-                 pool_size: int = 5, **kwargs):
			
 
				+                 database: str = None, charset: str = None,
			
 
				+                 pool_size: int = None, **kwargs):
			
 
				         """
			
 
				-        初始化 MySQL 连接池
			
 
				+        初始化 MySQL SQL 执行器
			
 
				         
			
 
				         Args:
			
 
				+            mysql_pool: 可选的 MySQL 连接池实例，如果提供则使用该实例，否则创建新实例
			
 
				             host: MySQL 主机地址
			
 
				             port: MySQL 端口号
			
 
				             user: MySQL 用户名
			
@@ -53,76 +45,20 @@ class MySQLConnection:
 
				             pool_size: 连接池大小
			
 
				             **kwargs: 其他 MySQL 连接参数
			
 
				         """
			
 
				-        self.host = host
			
 
				-        self.port = port
			
 
				-        self.user = user
			
 
				-        self.password = password
			
 
				-        self.database = database
			
 
				-        self.charset = charset
			
 
				-        self.pool_size = pool_size
			
 
				-        self.kwargs = kwargs
			
 
				-        
			
 
				-        # 初始化连接池
			
 
				-        self._connection_pool = []
			
 
				-        self._init_connection_pool()
			
 
				-    
			
 
				-    def _init_connection_pool(self):
			
 
				-        """
			
 
				-        初始化连接池
			
 
				-        """
			
 
				-        for _ in range(self.pool_size):
			
 
				-            conn = self._create_connection()
			
 
				-            if conn:
			
 
				-                self._connection_pool.append(conn)
			
 
				-    
			
 
				-    def _create_connection(self) -> Optional[pymysql.connections.Connection]:
			
 
				-        """
			
 
				-        创建新的 MySQL 连接
			
 
				-        
			
 
				-        Returns:
			
 
				-            MySQL 连接对象，失败返回 None
			
 
				-        """
			
 
				-        try:
			
 
				-            conn = pymysql.connect(
			
 
				-                host=self.host,
			
 
				-                port=self.port,
			
 
				-                user=self.user,
			
 
				-                password=self.password,
			
 
				-                database=self.database,
			
 
				-                charset=self.charset,
			
 
				-                cursorclass=DictCursor,
			
 
				-                **self.kwargs
			
 
				-            )
			
 
				-            return conn
			
 
				-        except pymysql.Error as e:
			
 
				-            print(f"创建 MySQL 连接失败: {e}")
			
 
				-            return None
			
 
				+        # 如果提供了连接池实例，则使用该实例，否则创建新实例
			
 
				+        if mysql_pool:
			
 
				+            self._pool = mysql_pool
			
 
				+        else:
			
 
				+            self._pool = get_mysql_pool(host, port, user, password, database, charset, pool_size, **kwargs)
			
 
				     
			
 
				-    def _get_connection(self) -> Optional[pymysql.connections.Connection]:
			
 
				+    def _get_connection(self) -> pymysql.connections.Connection:
			
 
				         """
			
 
				         从连接池获取连接
			
 
				         
			
 
				         Returns:
			
 
				-            MySQL 连接对象，失败返回 None
			
 
				+            MySQL 连接对象
			
 
				         """
			
 
				-        if self._connection_pool:
			
 
				-            return self._connection_pool.pop()
			
 
				-        else:
			
 
				-            # 连接池为空，创建新连接
			
 
				-            return self._create_connection()
			
 
				-    
			
 
				-    def _return_connection(self, conn: pymysql.connections.Connection):
			
 
				-        """
			
 
				-        将连接返回连接池
			
 
				-        
			
 
				-        Args:
			
 
				-            conn: MySQL 连接对象
			
 
				-        """
			
 
				-        if len(self._connection_pool) < self.pool_size:
			
 
				-            self._connection_pool.append(conn)
			
 
				-        else:
			
 
				-            # 连接池已满，关闭连接
			
 
				-            conn.close()
			
 
				+        return self._pool.get_connection()
			
 
				     
			
 
				     @contextmanager
			
 
				     def get_cursor(self, cursorclass=DictCursor):
			
@@ -136,11 +72,9 @@ class MySQLConnection:
 
				             MySQL 游标对象
			
 
				         """
			
 
				         conn = self._get_connection()
			
 
				-        if not conn:
			
 
				-            raise Exception("无法获取 MySQL 连接")
			
 
				+        cursor = conn.cursor(cursorclass=cursorclass)
			
 
				         
			
 
				         try:
			
 
				-            cursor = conn.cursor(cursorclass=cursorclass)
			
 
				             yield cursor
			
 
				             conn.commit()
			
 
				         except Exception as e:
			
@@ -148,7 +82,7 @@ class MySQLConnection:
 
				             raise e
			
 
				         finally:
			
 
				             cursor.close()
			
 
				-            self._return_connection(conn)
			
 
				+            conn.close()
			
 
				     
			
 
				     def execute(self, sql: str, params: Union[List, Dict] = None) -> int:
			
 
				         """
			
@@ -234,16 +168,9 @@ class MySQLConnection:
 
				             连接对象和游标对象
			
 
				         """
			
 
				         conn = self._get_connection()
			
 
				-        if not conn:
			
 
				-            raise Exception("无法获取 MySQL 连接")
			
 
				-        
			
 
				-        try:
			
 
				-            conn.begin()
			
 
				-            cursor = conn.cursor()
			
 
				-            return conn, cursor
			
 
				-        except Exception as e:
			
 
				-            self._return_connection(conn)
			
 
				-            raise e
			
 
				+        conn.begin()
			
 
				+        cursor = conn.cursor()
			
 
				+        return conn, cursor
			
 
				     
			
 
				     def commit_transaction(self, conn: pymysql.connections.Connection, cursor: pymysql.cursors.Cursor):
			
 
				         """
			
@@ -257,7 +184,7 @@ class MySQLConnection:
 
				             conn.commit()
			
 
				         finally:
			
 
				             cursor.close()
			
 
				-            self._return_connection(conn)
			
 
				+            conn.close()
			
 
				     
			
 
				     def rollback_transaction(self, conn: pymysql.connections.Connection, cursor: pymysql.cursors.Cursor):
			
 
				         """
			
@@ -271,26 +198,22 @@ class MySQLConnection:
 
				             conn.rollback()
			
 
				         finally:
			
 
				             cursor.close()
			
 
				-            self._return_connection(conn)
			
 
				+            conn.close()
			
 
				     
			
 
				     def close(self):
			
 
				         """
			
 
				-        关闭连接池中的所有连接
			
 
				+        关闭 SQL 执行器
			
 
				         """
			
 
				-        for conn in self._connection_pool:
			
 
				-            try:
			
 
				-                conn.close()
			
 
				-            except Exception as e:
			
 
				-                print(f"关闭 MySQL 连接失败: {e}")
			
 
				-        self._connection_pool.clear()
			
 
				+        # 关闭连接池
			
 
				+        self._pool.close()
			
 
				 
			
 
				 # 简化的接口函数，便于快速使用
			
 
				-def get_mysql_conn(host: str = "localhost", port: int = 3306, 
			
 
				-                   user: str = None, password: str = None, 
			
 
				-                   database: str = None, charset: str = "utf8mb4",
			
 
				-                   pool_size: int = 5, **kwargs) -> MySQLConnection:
			
 
				+def get_mysql_conn(host: str = None, port: int = None, 
			
 
				+                  user: str = None, password: str = None, 
			
 
				+                  database: str = None, charset: str = None,
			
 
				+                  pool_size: int = None, **kwargs) -> MySQLConnection:
			
 
				     """
			
 
				-    获取 MySQL 连接管理器实例
			
 
				+    获取 MySQL SQL 执行器实例
			
 
				     
			
 
				     Args:
			
 
				         host: MySQL 主机地址
			
@@ -303,6 +226,19 @@ def get_mysql_conn(host: str = "localhost", port: int = 3306,
 
				         **kwargs: 其他 MySQL 连接参数
			
 
				     
			
 
				     Returns:
			
 
				-        MySQL 连接管理器实例
			
 
				+        MySQL SQL 执行器实例
			
 
				+    """
			
 
				+    return MySQLConnection(host=host, port=port, user=user, password=password, 
			
 
				+                          database=database, charset=charset, pool_size=pool_size, **kwargs)
			
 
				+
			
 
				+def get_mysql_conn_with_pool(mysql_pool: MySQLPool) -> MySQLConnection:
			
 
				+    """
			
 
				+    使用指定的连接池获取 MySQL SQL 执行器实例
			
 
				+    
			
 
				+    Args:
			
 
				+        mysql_pool: MySQL 连接池实例
			
 
				+    
			
 
				+    Returns:
			
 
				+        MySQL SQL 执行器实例
			
 
				     """
			
 
				-    return MySQLConnection(host, port, user, password, database, charset, pool_size, **kwargs)
			
 
				+    return MySQLConnection(mysql_pool=mysql_pool)
			
--- a/utils/mysql/mysql_pool.py
+++ b/utils/mysql/mysql_pool.py
@@ -0,0 +1,138 @@
 
				+"""
			
 
				+MySQL 连接池配置
			
 
				+
			
 
				+该文件提供 MySQL 数据库连接池配置功能，支持：
			
 
				+- 单例模式
			
 
				+- DBUtils 连接池管理
			
 
				+- 连接错误处理
			
 
				+- 从.env文件读取配置
			
 
				+"""
			
 
				+import pymysql
			
 
				+from pymysql.cursors import DictCursor
			
 
				+from dbutils.pooled_db import PooledDB
			
 
				+from conf.settings import mysql_settings
			
 
				+
			
 
				+# 单例装饰器
			
 
				+class singleton:
			
 
				+    def __init__(self, cls):
			
 
				+        self.cls = cls
			
 
				+        self._instance = None
			
 
				+    
			
 
				+    def __call__(self, *args, **kwargs):
			
 
				+        if self._instance is None:
			
 
				+            self._instance = self.cls(*args, **kwargs)
			
 
				+        return self._instance
			
 
				+
			
 
				+@singleton
			
 
				+class MySQLPool:
			
 
				+    """
			
 
				+    MySQL 连接池管理器
			
 
				+    支持：
			
 
				+    - 单例模式
			
 
				+    - DBUtils 连接池管理
			
 
				+    - 连接错误处理
			
 
				+    """
			
 
				+    
			
 
				+    def __init__(self, host: str = None, port: int = None, 
			
 
				+                 user: str = None, password: str = None, 
			
 
				+                 database: str = None, charset: str = None,
			
 
				+                 pool_size: int = None, **kwargs):
			
 
				+        """
			
 
				+        初始化 MySQL 连接池
			
 
				+        
			
 
				+        Args:
			
 
				+            host: MySQL 主机地址
			
 
				+            port: MySQL 端口号
			
 
				+            user: MySQL 用户名
			
 
				+            password: MySQL 密码
			
 
				+            database: 数据库名称
			
 
				+            charset: 字符集
			
 
				+            pool_size: 连接池大小
			
 
				+            **kwargs: 其他 MySQL 连接参数
			
 
				+        """
			
 
				+        # 从环境变量读取配置，优先级：传入参数 > 环境变量 > 默认值
			
 
				+        self.host = host or mysql_settings.mysql_host
			
 
				+        self.port = int(port or mysql_settings.mysql_port)
			
 
				+        self.user = user or mysql_settings.mysql_user
			
 
				+        self.password = password or mysql_settings.mysql_password
			
 
				+        self.database = database or mysql_settings.mysql_database
			
 
				+        self.charset = charset or mysql_settings.mysql_charset
			
 
				+        self.pool_size = int(pool_size or mysql_settings.mysql_pool_size)
			
 
				+        self.kwargs = kwargs
			
 
				+        
			
 
				+        # 初始化 DBUtils 连接池
			
 
				+        self._pool = PooledDB(
			
 
				+            creator=pymysql,
			
 
				+            maxconnections=self.pool_size,
			
 
				+            mincached=2,
			
 
				+            maxcached=5,
			
 
				+            maxshared=3,
			
 
				+            blocking=True,
			
 
				+            maxusage=None,
			
 
				+            setsession=[],
			
 
				+            ping=0,
			
 
				+            host=self.host,
			
 
				+            port=self.port,
			
 
				+            user=self.user,
			
 
				+            password=self.password,
			
 
				+            database=self.database,
			
 
				+            charset=self.charset,
			
 
				+            cursorclass=DictCursor,
			
 
				+            **kwargs
			
 
				+        )
			
 
				+    
			
 
				+    def get_connection(self) -> pymysql.connections.Connection:
			
 
				+        """
			
 
				+        从连接池获取连接
			
 
				+        
			
 
				+        Returns:
			
 
				+            MySQL 连接对象
			
 
				+        """
			
 
				+        return self._pool.connection()
			
 
				+    
			
 
				+    def close(self):
			
 
				+        """
			
 
				+        关闭连接池
			
 
				+        """
			
 
				+        # DBUtils 连接池会自动管理连接，无需手动关闭
			
 
				+        pass
			
 
				+
			
 
				+# 简化的接口函数，便于快速使用
			
 
				+def get_mysql_pool(host: str = None, port: int = None, 
			
 
				+                  user: str = None, password: str = None, 
			
 
				+                  database: str = None, charset: str = None,
			
 
				+                  pool_size: int = None, **kwargs) -> MySQLPool:
			
 
				+    """
			
 
				+    获取 MySQL 连接池实例
			
 
				+    
			
 
				+    Args:
			
 
				+        host: MySQL 主机地址
			
 
				+        port: MySQL 端口号
			
 
				+        user: MySQL 用户名
			
 
				+        password: MySQL 密码
			
 
				+        database: 数据库名称
			
 
				+        charset: 字符集
			
 
				+        pool_size: 连接池大小
			
 
				+        **kwargs: 其他 MySQL 连接参数
			
 
				+    
			
 
				+    Returns:
			
 
				+        MySQL 连接池实例
			
 
				+    """
			
 
				+    # 从环境变量读取默认值，与MySQLPool.__init__保持一致
			
 
				+    default_host = mysql_settings.mysql_host
			
 
				+    default_port = int(mysql_settings.mysql_port)
			
 
				+    default_user = mysql_settings.mysql_user
			
 
				+    default_database = mysql_settings.mysql_database
			
 
				+    default_charset = mysql_settings.mysql_charset
			
 
				+    default_pool_size = int(mysql_settings.mysql_pool_size)
			
 
				+    
			
 
				+    return MySQLPool(
			
 
				+        host=host or default_host,
			
 
				+        port=port or default_port,
			
 
				+        user=user or default_user,
			
 
				+        password=password,
			
 
				+        database=database or default_database,
			
 
				+        charset=charset or default_charset,
			
 
				+        pool_size=pool_size or default_pool_size,
			
 
				+        **kwargs
			
 
				+    )
			
--- a/utils/ragflow/dataset_service.py
+++ b/utils/ragflow/dataset_service.py
@@ -6,7 +6,7 @@ class DatasetService:
 
				     
			
 
				     def create_dataset(self, name: str, description: str = None, 
			
 
				                       embedding_model: str = None, permission: str = None,
			
 
				-                      chunk_method: str = None) -> Dict[str, Any]:
			
 
				+                      chunk_method: str = None, parser_config: dict = None) -> Dict[str, Any]:
			
 
				         endpoint = "/api/v1/datasets"
			
 
				         
			
 
				         data = {"name": name}
			
@@ -18,6 +18,8 @@ class DatasetService:
 
				             data["permission"] = permission
			
 
				         if chunk_method is not None:
			
 
				             data["chunk_method"] = chunk_method
			
 
				+        if parser_config is not None:
			
 
				+            data["parser_config"] = parser_config
			
 
				         
			
 
				         response = self.http_client.post(endpoint, json_data=data)
			
 
				         
			
--- a/utils/ragflow/ragflow_service.py
+++ b/utils/ragflow/ragflow_service.py
@@ -6,7 +6,7 @@ from dataclasses import dataclass
 
				 sys.path.append(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__)))))
			
 
				 
			
 
				 from utils.http_client import HTTPClient
			
 
				-from conf.config import ModelConfig
			
 
				+from conf.settings import ragflow_settings
			
 
				 from utils.ragflow.dataset_service import DatasetService
			
 
				 from utils.ragflow.document_service import DocumentService
			
 
				 from utils.ragflow.chunk_service import ChunkService
			
@@ -78,8 +78,8 @@ class FileInfo:
 
				 
			
 
				 class RAGFlowService:
			
 
				     def __init__(self, base_url: str = None, api_key: str = None):
			
 
				-        base_url = base_url or ModelConfig.get_ragflow_api_url()
			
 
				-        api_key = api_key or ModelConfig.get_ragflow_api_key()
			
 
				+        base_url = base_url or ragflow_settings.ragflow_api_url
			
 
				+        api_key = api_key or ragflow_settings.ragflow_api_key
			
 
				         self.http_client = HTTPClient(base_url=base_url, api_key=api_key)
			
 
				         
			
 
				         self.dataset_service = DatasetService(self.http_client)
			
--- a/utils/ragflow_sdk/__init__.py
+++ b/utils/ragflow_sdk/__init__.py
@@ -0,0 +1,9 @@
 
				+from .dataset_util import DataSetUtil
			
 
				+from .document_util import DocumentUtil
			
 
				+from .chunk_util import ChunkUtil
			
 
				+
			
 
				+__all__ = [
			
 
				+    "DataSetUtil",
			
 
				+    "DocumentUtil",
			
 
				+    "ChunkUtil"
			
 
				+]
			
--- a/utils/ragflow_sdk/base_util.py
+++ b/utils/ragflow_sdk/base_util.py
@@ -0,0 +1,17 @@
 
				+from ragflow_sdk import RAGFlow
			
 
				+from conf.settings import ragflow_settings
			
 
				+
			
 
				+
			
 
				+class RAGFlowBaseUtil:
			
 
				+    """
			
 
				+    RAGFlow 工具类基础类，封装了 RAGFlow 客户端初始化逻辑
			
 
				+    """
			
 
				+    
			
 
				+    def __init__(self):
			
 
				+        """
			
 
				+        初始化 RAGFlow 客户端
			
 
				+        """
			
 
				+        self.ragflow_client = RAGFlow(
			
 
				+            api_key=ragflow_settings.ragflow_api_key,
			
 
				+            base_url=ragflow_settings.ragflow_api_url
			
 
				+        )
			
--- a/utils/ragflow_sdk/chunk_util.py
+++ b/utils/ragflow_sdk/chunk_util.py
@@ -0,0 +1,80 @@
 
				+from typing import Optional
			
 
				+from ragflow_sdk import Chunk
			
 
				+from utils.ragflow_sdk.document_util import DocumentUtil
			
 
				+from .base_util import RAGFlowBaseUtil
			
 
				+
			
 
				+
			
 
				+
			
 
				+class ChunkUtil(RAGFlowBaseUtil):
			
 
				+
			
 
				+    def __init__(self, dataset_id: str, document_id: str):
			
 
				+        super().__init__()
			
 
				+        self.dataset_id = dataset_id
			
 
				+        self.document_id = document_id
			
 
				+
			
 
				+    def add_chunk(self, dataset_name: Optional[str] = None, document_id: Optional[str] = None, content: str = None, important_keywords: list[str] = []):
			
 
				+        """
			
 
				+        添加文档分块
			
 
				+        """
			
 
				+        try:
			
 
				+            if not dataset_name or not document_id or not content:
			
 
				+                raise ValueError("数据集名称、文档ID和内容不能为空")
			
 
				+            chunk = DocumentUtil().get_document(dataset_name=dataset_name, document_id=document_id).add_chunk(content=content, important_keywords=important_keywords)
			
 
				+            return chunk
			
 
				+        except Exception as e:
			
 
				+            print(f"添加文档分块失败: {e}")
			
 
				+            raise e
			
 
				+    
			
 
				+    def delete_chunks(self, chunk_ids: list[str]):
			
 
				+        """
			
 
				+        删除文档分块
			
 
				+        """
			
 
				+        try:
			
 
				+            DocumentUtil().get_document(dataset_name=dataset_name, document_id=document_id).delete_chunks(chunk_ids)
			
 
				+        except Exception as e:
			
 
				+            print(f"删除文档分块失败: {e}")
			
 
				+            raise e
			
 
				+    
			
 
				+
			
 
				+    def list_chunks(self, keywords: str = None, page: int = 1, page_size: int = 30, id : str = None) -> list[Chunk]:
			
 
				+        """
			
 
				+        列出文档分块
			
 
				+        """
			
 
				+        try:
			
 
				+            chunks = DocumentUtil().get_document(dataset_name=dataset_name, document_id=document_id).list_chunks(keywords=keywords, page=page, page_size=page_size, id=id)
			
 
				+            return chunks
			
 
				+        except Exception as e:
			
 
				+            print(f"列出文档分块失败: {e}")
			
 
				+            raise e
			
 
				+
			
 
				+    def get_chunk(self, chunk_id: str) -> Chunk:
			
 
				+        """
			
 
				+        获取文档分块
			
 
				+        """
			
 
				+        _list = self.list_chunks(id=chunk_id)
			
 
				+        if len(_list) > 0:
			
 
				+            return _list[0]
			
 
				+        raise Exception("Chunk %s not found" % chunk_id)
			
 
				+    
			
 
				+
			
 
				+    def update_chunk(self, chunk_id: str, update_message: dict):
			
 
				+        """
			
 
				+        更新文档分块
			
 
				+        """
			
 
				+        try:
			
 
				+            self.get_chunk(chunk_id=chunk_id).update(update_message)
			
 
				+        except Exception as e:
			
 
				+            print(f"更新文档分块失败: {e}")
			
 
				+            raise e
			
 
				+    
			
 
				+    def retrieve(self, question: str, dataset_ids: list[str] = None, document_ids: list[str] = None, page: int = 1, page_size: int = 30, similarity_threshold: float = 0.2, vector_similarity_weight: float = 0.3, top_k: int = 1024, rerank_id: str = None, keyword: bool = False, cross_languages: list[str] = None, metadata_condition: dict = None) -> list[Chunk]:
			
 
				+        """
			
 
				+        检索文档分块
			
 
				+        """
			
 
				+        try:
			
 
				+            chunks = self.ragflow_client.retrieve(question=question, dataset_ids=dataset_ids, document_ids=document_ids, page=page, page_size=page_size, similarity_threshold=similarity_threshold, vector_similarity_weight=vector_similarity_weight, top_k=top_k, rerank_id=rerank_id, keyword=keyword, cross_languages=cross_languages, metadata_condition=metadata_condition)
			
 
				+            return chunks
			
 
				+        except Exception as e:
			
 
				+            print(f"检索文档分块失败: {e}")
			
 
				+            raise e
			
 
				+        
			
--- a/utils/ragflow_sdk/conf/rag_parser_config.py
+++ b/utils/ragflow_sdk/conf/rag_parser_config.py
@@ -0,0 +1,45 @@
 
				+class RagParserDefaults:
			
 
				+
			
 
				+    DATASET_PERMISSION="team"
			
 
				+
			
 
				+    DATASET_CHUNK_METHOD="naive"
			
 
				+
			
 
				+    DATASET_CONFIG_DICT = {
			
 
				+            "chunk_token_num": 256,
			
 
				+            "delimiter": "\n!?;。；！？",
			
 
				+            "html4excel": False,
			
 
				+            "layout_recognize": "Pro/Qwen/Qwen2.5-VL-7B-Instruct@SILICONFLOW",
			
 
				+            "auto_keywords": 5,
			
 
				+            "tag_kb_ids": [],
			
 
				+            "topn_tags": 3,
			
 
				+            "task_page_size": 4,
			
 
				+            "raptor": {
			
 
				+                "max_cluster": 64,
			
 
				+                "max_token": 256,
			
 
				+                "prompt": "Please summarize the following paragraphs. Be careful with the numbers, do not make things up. Paragraphs as following:\n      {cluster_content}\nThe above is the content you need to summarize.",
			
 
				+                "random_seed": 0,
			
 
				+                "threshold": 0.1,
			
 
				+                "use_raptor": True
			
 
				+            },
			
 
				+            "graphrag": {
			
 
				+                "resolution": True,
			
 
				+                "use_graphrag": True,
			
 
				+                "method": "general",
			
 
				+                "entity_types": [
			
 
				+                    "event",
			
 
				+                    "Book",
			
 
				+                    "Author",
			
 
				+                    "Illustrator",
			
 
				+                    "Series",
			
 
				+                    "Theme",
			
 
				+                    "Genre",
			
 
				+                    "Character",
			
 
				+                    "Setting",
			
 
				+                    "AgeGroup",
			
 
				+                    "Competency",
			
 
				+                    "ArtStyle",
			
 
				+                    "Award",
			
 
				+                    "Publisher"
			
 
				+                ]
			
 
				+            }
			
 
				+        }
			
--- a/utils/ragflow_sdk/dataset_util.py
+++ b/utils/ragflow_sdk/dataset_util.py
@@ -0,0 +1,71 @@
 
				+from typing import Optional
			
 
				+from ragflow_sdk import DataSet
			
 
				+from conf.settings import ragflow_settings, model_settings
			
 
				+from .conf.rag_parser_config import RagParserDefaults
			
 
				+from .base_util import RAGFlowBaseUtil
			
 
				+
			
 
				+
			
 
				+
			
 
				+class DataSetUtil(RAGFlowBaseUtil):
			
 
				+
			
 
				+    def __init__(self):
			
 
				+        super().__init__()
			
 
				+
			
 
				+    def create_dataset(self, chunk_method: str = RagParserDefaults.DATASET_CHUNK_METHOD,
			
 
				+        dataset_name: Optional[str] = None, dataset_desc: str = "", 
			
 
				+        embedding_model: str = f"{model_settings.embedding_model_name}@SILICONFLOW",
			
 
				+        parser_config: dict = RagParserDefaults.DATASET_CONFIG_DICT):
			
 
				+        """
			
 
				+        创建数据集
			
 
				+        """
			
 
				+        # 封装数据集参数
			
 
				+        parser_obj = DataSet.ParserConfig(self.ragflow_client, parser_config)
			
 
				+        # 创建数据集
			
 
				+        dataset = self.ragflow_client.create_dataset(
			
 
				+            name=dataset_name,
			
 
				+            description=dataset_desc,
			
 
				+            embedding_model=embedding_model,
			
 
				+            permission=RagParserDefaults.DATASET_PERMISSION, 
			
 
				+            chunk_method= chunk_method,
			
 
				+            parser_config=parser_obj
			
 
				+        )
			
 
				+        return dataset
			
 
				+
			
 
				+    def delete_dataset(self, ids: list[str] | None = None):
			
 
				+        """
			
 
				+        删除数据集
			
 
				+        """
			
 
				+        try:
			
 
				+            if ids is not None:
			
 
				+                self.ragflow_client.delete_datasets(ids)
			
 
				+        except Exception as e:
			
 
				+            print(f"删除数据集失败: {e}")
			
 
				+
			
 
				+    def get_dataset(self, name: Optional[str] = None):
			
 
				+        """
			
 
				+        获取数据集
			
 
				+        """
			
 
				+        try:
			
 
				+            dataset = self.ragflow_client.get_dataset(name=name)
			
 
				+        except Exception as e:
			
 
				+            print(f"获取数据集失败: {e}")
			
 
				+            return None
			
 
				+        return dataset
			
 
				+                
			
 
				+    def list_datasets(self, page: int = 1, page_size: int = 30, orderby: str = "create_time", desc: bool = True, id: str | None = None, name: str | None = None) -> list[DataSet]:
			
 
				+        """
			
 
				+        获取数据集列表
			
 
				+        """
			
 
				+        try:
			
 
				+            dataset_list = self.ragflow_client.list_datasets(
			
 
				+                page=page,
			
 
				+                page_size=page_size,
			
 
				+                orderby=orderby,
			
 
				+                desc=desc,
			
 
				+                id=id,
			
 
				+                name=name,
			
 
				+            )
			
 
				+        except Exception as e:
			
 
				+            print(f"获取数据集列表失败: {e}")
			
 
				+            return None
			
 
				+        return dataset_list
			
--- a/utils/ragflow_sdk/document_util.py
+++ b/utils/ragflow_sdk/document_util.py
@@ -0,0 +1,93 @@
 
				+from token import OP
			
 
				+from typing import Optional
			
 
				+from ragflow_sdk import DataSet, Document
			
 
				+from conf.settings import ragflow_settings
			
 
				+from .base_util import RAGFlowBaseUtil
			
 
				+from common.models.pagination import Pagination
			
 
				+
			
 
				+
			
 
				+
			
 
				+class DocumentUtil(RAGFlowBaseUtil):
			
 
				+
			
 
				+    def __init__(self):
			
 
				+        super().__init__()
			
 
				+        
			
 
				+
			
 
				+    def upload_documents(self, dataset_name: Optional[str] = None, document_list: list[dict] = None):
			
 
				+        """
			
 
				+        上传文档到数据集
			
 
				+        """
			
 
				+        try:
			
 
				+            if not document_list:
			
 
				+                raise ValueError("文档列表不能为空")
			
 
				+            # 上传文档到数据集
			
 
				+            doc_list = self.ragflow_client.get_dataset(name=dataset_name).upload_documents(document_list)
			
 
				+            return doc_list
			
 
				+        except Exception as e:
			
 
				+            print(f"上传文档到数据集失败: {e}")
			
 
				+            raise e
			
 
				+
			
 
				+    def list_documents(self, dataset_name: Optional[str] = None, pagination: Pagination = Pagination(), id: str = None, keywords: str = None) -> list[Document]:
			
 
				+        """
			
 
				+        列出数据集的文档
			
 
				+        """
			
 
				+        try:
			
 
				+            doc_list = self.ragflow_client.get_dataset(name=dataset_name).list_documents(id=id, keywords=keywords, **pagination.to_dict())
			
 
				+            return doc_list
			
 
				+        except Exception as e:
			
 
				+            print(f"列出数据集文档失败: {e}")
			
 
				+            raise e
			
 
				+
			
 
				+    def get_document(self, dataset_name: Optional[str] = None, document_id: Optional[str] = None) -> Document:
			
 
				+        """
			
 
				+        获取文档
			
 
				+        """
			
 
				+        _list = self.list_documents(dataset_name=dataset_name, id=document_id)
			
 
				+        if len(_list) > 0:
			
 
				+            return _list[0]
			
 
				+        raise Exception("Document %s not found" % document_id)
			
 
				+
			
 
				+    # Document.update(update_message:dict)
			
 
				+    def update_document(self, document: Document, update_message: dict):
			
 
				+        """
			
 
				+        更新文档
			
 
				+        """
			
 
				+        try:
			
 
				+            document.update(update_message)
			
 
				+        except Exception as e:
			
 
				+            print(f"更新文档失败: {e}")
			
 
				+            raise e 
			
 
				+
			
 
				+    def delete_document(self, dataset_name: Optional[str] = None, ids: list[str] = None):
			
 
				+        """
			
 
				+        删除文档
			
 
				+        """
			
 
				+        try:
			
 
				+            if not ids:
			
 
				+                raise ValueError("文档ID列表不能为空")
			
 
				+            self.ragflow_client.get_dataset(name=dataset_name).delete_documents(ids=ids)
			
 
				+        except Exception as e:
			
 
				+            print(f"删除文档失败: {e}")
			
 
				+            raise e
			
 
				+
			
 
				+    def async_parse_documents(self, dataset_name: Optional[str] = None,document_ids: list[str] = None):
			
 
				+        """
			
 
				+        异步解析文档
			
 
				+        """
			
 
				+        try:
			
 
				+            self.ragflow_client.get_dataset(name=dataset_name).async_parse_documents(document_ids=document_ids)
			
 
				+        except Exception as e:
			
 
				+            print(f"异步解析文档失败: {e}")
			
 
				+            raise e
			
 
				+    
			
 
				+    def parse_documents(self, dataset_name: Optional[str] = None,document_ids: list[str] = None) -> list[tuple[str, str, int, int]]:
			
 
				+        """
			
 
				+        解析文档
			
 
				+        """
			
 
				+        try:
			
 
				+            doc_list = self.ragflow_client.get_dataset(name=dataset_name).parse_documents(document_ids=document_ids)
			
 
				+            return doc_list
			
 
				+        except Exception as e:
			
 
				+            print(f"解析文档失败: {e}")
			
 
				+            raise e
			
 
				+
			
--- a/utils/ragflow_sdk/param.json
+++ b/utils/ragflow_sdk/param.json