3 месяцев назад · 771d7a081c
--- a/.env
+++ b/.env
@@ -33,7 +33,9 @@ INFINITY_DATABASE=book_image_db
 
															 INFINITY_USER=admin
														
 
															 INFINITY_PASSWORD=admin
														
 
															 INFINITY_TABLE_NAME=book_page_image
														
 
															-INFINITY_PAGE_DATASET_ID=90d73295f02411f0a76b0242c0a85002
														
 
															+INFINITY_RAGFLOW_DATABASE=default_db
														
 
															+INFINITY_PAGE_DATASET_ID=68dc10bdf3b611f0b1bd0efbd173881b
														
 
															+INFINITY_PAGE_TABLE_NAME=ragflow_67d93316eb1f11f0af39f2e22d6e0857_68dc10bdf3b611f0b1bd0efbd173881b
														
 
															 # MySQL配置
														
 
															 MYSQL_HOST=192.168.0.4
														
@@ -60,6 +62,6 @@ TAG_DOCUMENT_ID=3dda0a90f1e211f0a3b80242c0a85002
 
															 TAG_TABLE_NAME=ragflow_92162247e93e11f084830242ac1d0002_18caf531f04d11f095670242c0a85002  6d2e0990f28b11f0b5200242c0a85002
														
 
															 # LANGFUSE
														
 
															-LANGFUSE_PUBLIC_KEY=pk-lf-6918a148-be72-4211-a22d-183a23e6643e
														
 
															-LANGFUSE_SECRET_KEY=sk-lf-9c64d7ed-1618-4da9-a775-33e39b05448e
														
 
															-LANGFUSE_HOST=http://192.168.16.134:3000
														
 
															+# LANGFUSE_PUBLIC_KEY=pk-lf-6918a148-be72-4211-a22d-183a23e6643e
														
 
															+# LANGFUSE_SECRET_KEY=sk-lf-9c64d7ed-1618-4da9-a775-33e39b05448e
														
 
															+# LANGFUSE_HOST=http://192.168.16.134:3000
														
--- a/.trae/documents/修复DBUtils依赖问题.md
+++ b/.trae/documents/修复DBUtils依赖问题.md
@@ -0,0 +1,14 @@
 
															+## 1. 问题分析
														
 
															+
														
 
															+从错误信息和代码分析，我发现了以下几个问题：
														
 
															+
														
 
															+### 1.1 主要错误
														
 
															+
														
 
															+1. **`Connection.cursor() got an unexpected keyword argument 'cursorclass'`**
														
 
															+   - 错误发生在 `mysql_conn.py` 文件中
														
 
															+   - 原因：DBUtils 连接池返回的连接对象的 `cursor()` 方法不接受 `cursorclass` 参数
														
 
															+   - 解决：移除 `cursor()` 方法中的 `cursorclass` 参数
														
 
															+
														
 
															+2. **`KeyError: 'id'`**
														
 
															+   - 错误发生在 `chunk_update_job.py` 文件中
														
 
															+   - 原因：查询
														
--- a/.trae/documents/修复PDF解析工作流中的f-string格式错误.md
+++ b/.trae/documents/修复PDF解析工作流中的f-string格式错误.md
@@ -0,0 +1,21 @@
 
															+## 问题分析
														
 
															+
														
 
															+在 `pdf_parser_workflow.py` 文件中，`_parse_single_page` 方法使用了 f-string 来构建提示词，但提示词中包含了用于定义 JSON 格式的字面量大括号 `{}`。在 f-string 中，大括号被用于插入变量，因此 Python 解释器会尝试将这些字面量大括号解析为格式说明符，导致 `Invalid format specifier` 错误。
														
 
															+
														
 
															+## 修复方案
														
 
															+
														
 
															+将提示词中所有用于定义 JSON 格式的字面量大括号 `{}` 替换为转义形式 `{{}}`，这样 Python 解释器就会将它们视为普通字符而不是格式说明符。
														
 
															+
														
 
															+## 具体修改位置
														
 
															+
														
 
															+- 文件：`/Users/alair/project/ai/graph_rag_server/src/parser/pdf_parser/pdf_parser_workflow.py`
														
 
															+- 方法：`_parse_single_page`
														
 
															+- 行号：282-314
														
 
															+
														
 
															+## 修复内容
														
 
															+
														
 
															+将提示词中的 JSON 示例部分的所有大括号替换为双大括号，例如：
														
 
															+- `{` 替换为 `{{`
														
 
															+- `}` 替换为 `}}`
														
 
															+
														
 
															+这样修改后，f-string 就会正确解析变量 `{page["page_number"]}`，同时将 JSON 格式中的大括号视为普通字符输出。
														
--- a/D:\\project\\work\\ragflow_plugs\\book\\output\\temp\\request.txt
+++ b/D:\\project\\work\\ragflow_plugs\\book\\output\\temp\\request.txt
@@ -0,0 +1 @@
 
															+{'method': 'POST', 'url': 'http://192.168.0.103:9380/api/v1/datasets/68dc10bdf3b611f0b1bd0efbd173881b/documents', 'data': None, 'json': None, 'headers': None, 'files': True}
														
--- a/__pycache__/main.cpython-312.pyc
+++ b/__pycache__/main.cpython-312.pyc
--- a/doc/init.sql
+++ b/doc/init.sql
@@ -0,0 +1,19 @@
 
															+CREATE TABLE IF NOT EXISTS ragflow_chunk_record (
														
 
															+    id BIGINT AUTO_INCREMENT PRIMARY KEY COMMENT '主键ID',
														
 
															+	dataset_name VARCHAR(64) NOT NULL COMMENT '数据库ID',
														
 
															+	table_name VARCHAR(64) NOT NULL COMMENT '数据表ID',
														
 
															+	chunk_id VARCHAR(64) NOT NULL COMMENT '分块ID',
														
 
															+    cond VARCHAR(100) COMMENT '条件参数',
														
 
															+    update_data JSON COMMENT '数据参数',
														
 
															+    scheduled_time DATETIME NOT NULL COMMENT '计划执行时间（当前时间+20秒）',
														
 
															+    status VARCHAR(20) NOT NULL DEFAULT '0' COMMENT '执行状态：0:未执行/1:执行成功/2:执行失败',
														
 
															+	error_message VARCHAR(255) COMMENT '失败信息',
														
 
															+	executed_time DATETIME COMMENT '执行时间',
														
 
															+    created_at DATETIME DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
														
 
															+    updated_at DATETIME DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',
														
 
															+    INDEX idx_dataset_name (dataset_name),
														
 
															+    INDEX idx_table_name (table_name),
														
 
															+    INDEX idx_chunk_id (chunk_id),
														
 
															+    INDEX idx_scheduled_time (scheduled_time),
														
 
															+    INDEX idx_status (status)
														
 
															+) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='RagflowChunk记录表';
														
--- a/main.py
+++ b/main.py
@@ -4,44 +4,55 @@ from fastapi import FastAPI
 
															 from contextlib import asynccontextmanager
														
 
															 # 导入所有子应用
														
 
															-from api.search_infinity import app as search_app
														
 
															-from api.tag_manage import app as tag_app
														
 
															-from api.sdk.dataset_manage import app as dataset_app
														
 
															+from src.api.search_infinity import app as search_app
														
 
															+from src.api.tag_manage import app as tag_app
														
 
															+from src.api.sdk.dataset_manage import app as dataset_app
														
 
															 # 定义主应用的生命周期管理
														
 
															 @asynccontextmanager
														
 
															 async def main_lifespan(app: FastAPI):
														
 
															     """主应用生命周期管理"""
														
 
															-    from utils.infinity import get_client, close_client
														
 
															-    print("=== Infinity API Gateway 启动 ===")
														
 
															+    from src.utils.infinity import get_client, close_client
														
 
															     # 1. 初始化Infinity全局客户端（在服务启动时）
														
 
															     get_client(database="book_image_db")
														
 
															     print("✅ Infinity客户端已初始化")
														
 
															     # 2. 初始化MySQL全局客户端
														
 
															-    from utils.mysql import init_global_mysql_client, close_global_mysql_client
														
 
															+    from src.utils.mysql import init_global_mysql_client, close_global_mysql_client
														
 
															     init_global_mysql_client()
														
 
															     print("✅ MySQL客户端已初始化")
														
 
															     # 3. 初始化MinIO全局客户端并校验存储桶
														
 
															-    from utils.file.minio.minio_util import init_minio_client, close_minio_client
														
 
															+    from src.utils.file.minio.minio_util import init_minio_client, close_minio_client
														
 
															     init_minio_client(check_bucket=True)
														
 
															     print("✅ MinIO客户端已初始化并校验存储桶")
														
 
															+
														
 
															+    # 4. 启动Chunk更新定时任务
														
 
															+    from src.job.chunk_update_job import start_scheduler, shutdown_scheduler
														
 
															+    start_scheduler()
														
 
															+    print("✅ Chunk update scheduler started")
														
 
															     yield
														
 
															-    print("=== Infinity API Gateway 关闭 ===")
														
 
															-    # 1. 关闭Infinity全局客户端（在服务关闭时）
														
 
															+    # 1. 关闭Chunk更新定时任务
														
 
															+    shutdown_scheduler()
														
 
															+    print("✅ Chunk update scheduler shutdown")
														
 
															+
														
 
															+    # 2. 关闭MinIO全局客户端
														
 
															+    close_minio_client()
														
 
															+    print("✅ MinIO客户端已关闭")
														
 
															+
														
 
															+    # 3. 关闭MySQL全局客户端
														
 
															+    close_global_mysql_client()
														
 
															+    print("✅ MySQL客户端已关闭")
														
 
															+
														
 
															+    # 4. 关闭Infinity全局客户端（在服务关闭时）
														
 
															     close_client()
														
 
															     print("✅ Infinity客户端已关闭")
														
 
															-    # 2. 关闭MySQL全局客户端
														
 
															-    close_global_mysql_client()
														
 
															-    print("✅ MySQL客户端已关闭")
														
 
															+
														
 
															-    # 3. 关闭MinIO全局客户端
														
 
															-    close_minio_client()
														
 
															-    print("✅ MinIO客户端已关闭")
														
 
															+
														
 
															 # 创建主应用
														
 
															 main_app = FastAPI(
														
--- a/requirements.txt
+++ b/requirements.txt
@@ -7,4 +7,7 @@ Pillow
 
															 python-dotenv
														
 
															 elasticsearch==8.11.1
														
 
															 infinity-emb
														
 
															-pymysql
														
 
															+pymysql
														
 
															+dbutils
														
 
															+apscheduler
														
 
															+dashscope
														
--- a/src/.env.example
+++ b/src/.env.example
--- a/src/.gitignore
+++ b/src/.gitignore
--- a/src/HTTP
+++ b/src/HTTP
--- a/src/__init__.py
+++ b/src/__init__.py
--- a/src/agent/test_image_agent.py
+++ b/src/agent/test_image_agent.py
@@ -1,15 +1,9 @@
 
															 from langchain.chat_models import init_chat_model
														
 
															 from langchain.messages import SystemMessage, HumanMessage
														
 
															-import sys
														
 
															-import os
														
 
															 from PIL import Image
														
 
															-
														
 
															-# 添加项目根目录到Python路径
														
 
															-sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
														
 
															-
														
 
															-from utils.infinity_util import InfinityVectorDB
														
 
															-from model.multimodal_embedding import Embedding
														
 
															-from conf.settings import model_settings, ragflow_settings, vector_db_settings
														
 
															+from src.utils.infinity_util import InfinityVectorDB
														
 
															+from src.model.multimodal_embedding import Embedding
														
 
															+from src.conf.settings import model_settings, ragflow_settings, vector_db_settings
														
 
															 system_prompt = """
														
 
															 【角色设定】 你是一位拥有丰富经验的儿童绘本编辑与阅读推广人，擅长从视觉美学、儿童心理学和文学创作三个维度深度解读绘本。
														
--- a/src/api/__init__.py
+++ b/src/api/__init__.py
--- a/src/api/dataset/__init__.py
+++ b/src/api/dataset/__init__.py
--- a/src/api/dataset/services/__init__.py
+++ b/src/api/dataset/services/__init__.py
--- a/src/api/dataset/services/dataset_manage_service.py
+++ b/src/api/dataset/services/dataset_manage_service.py
@@ -10,8 +10,8 @@
 
															 import os
														
 
															 import tempfile
														
 
															 from typing import Dict, Any, Optional
														
 
															-from parser.pdf_parser.pdf_parser_workflow import PDFParsingWorkflow
														
 
															-from conf.settings import vector_db_settings
														
 
															+from src.parser.pdf_parser.pdf_parser_workflow import PDFParsingWorkflow
														
 
															+from src.conf.settings import vector_db_settings
														
 
															 class DatasetManageService:
														
--- a/src/api/db/__init__.py
+++ b/src/api/db/__init__.py
--- a/src/api/db/services/__init__.py
+++ b/src/api/db/services/__init__.py
--- a/src/api/db/services/infinity_search_service.py
+++ b/src/api/db/services/infinity_search_service.py
@@ -1,9 +1,9 @@
 
															 from typing import Dict, Any, List
														
 
															-from conf.settings import vector_db_settings
														
 
															-from utils.infinity import InfinityClient
														
 
															-from utils.file.image_util import image_util
														
 
															-from model.multimodal_embedding import get_embedding_model
														
 
															-from utils.infinity.result_util import convert_to_basic_types
														
 
															+from src.conf.settings import vector_db_settings
														
 
															+from src.utils.infinity import InfinityClient
														
 
															+from src.utils.file.image_util import image_util
														
 
															+from src.model.multimodal_embedding import get_embedding_model
														
 
															+from src.utils.infinity.result_util import convert_to_basic_types
														
 
															 class InfinitySearchService:
														
 
															     def __init__(self, infinity_client: InfinityClient, vector_field: str = None, match_field: str = None, match_type: str = None, table_name: str = None):
														
--- a/src/api/db/services/tag_service.py
+++ b/src/api/db/services/tag_service.py
@@ -1,8 +1,8 @@
 
															 from typing import List, Dict, Any, Optional
														
 
															 from abc import ABC, abstractmethod
														
 
															-from utils.ragflow_sdk.chunk_util import ChunkUtil
														
 
															-from utils.infinity import InfinityClient
														
 
															-from conf.settings import tag_search_settings
														
 
															+from src.utils.ragflow.ragflow_service import RAGFlowService
														
 
															+from src.utils.infinity import InfinityClient
														
 
															+from src.conf.settings import tag_search_settings
														
@@ -61,8 +61,8 @@ class TagServiceImpl(TagService):
 
															         """
														
 
															         self.tag_dataset_id=tag_search_settings.tag_dataset_id
														
 
															         self.tag_document_id=tag_search_settings.tag_document_id
														
 
															+        self.ragflow_service = RAGFlowService()
														
 
															         self.infinity_client = infinity_client
														
 
															-        self.chunk_util = ChunkUtil(self.tag_dataset_id, self.tag_document_id)
														
 
															     def create_tag(self, tag_data: Dict[str, Any]) -> Dict[str, Any]:
														
 
															         """
														
@@ -78,8 +78,11 @@ class TagServiceImpl(TagService):
 
															         tag_desc = tag_data["description"]
														
 
															         age_range = tag_data["age_range"]
														
 
															         # 步骤1：将分块数据写入ragflow
														
 
															-        chunk = self.chunk_util.add_chunk(document_id=self.tag_document_id, content=tag_desc, important_keywords=[age_range])
														
 
															-        chunk_id = chunk["id"]
														
 
															+        chunk = self.ragflow_service.create_chunk(dataset_id=self.tag_dataset_id,
														
 
															+                                                  document_id=self.tag_document_id,
														
 
															+                                                  content=tag_desc,
														
 
															+                                                  important_keywords=[age_range])
														
 
															+        chunk_id = chunk["chunk"]["id"]
														
 
															         # 步骤2： 调用infinity的update方法，将标签更新到块数据中
														
 
															         res = self.infinity_client.update(f"id = {chunk_id}", {"tag_kwd": tag_name})
														
 
															         if res["code"] != 0:
														
@@ -116,11 +119,15 @@ class TagServiceImpl(TagService):
 
															             tag_desc = tag_data["description"]
														
 
															             age_range = tag_data["age_range"]
														
 
															             # 步骤1：将分块数据写入ragflow
														
 
															-            chunk = self.chunk_util.add_chunk(dataset_name="标签", document_id=self.tag_document_id, content=tag_desc, important_keywords=[age_range])
														
 
															-            print(f"分块数据写入成功, chunk_id: {chunk.id}")
														
 
															+            chunk = self.ragflow_service.create_chunk(dataset_id=self.tag_dataset_id,
														
 
															+                                                  document_id=self.tag_document_id,
														
 
															+                                                  content=tag_desc,
														
 
															+                                                  important_keywords=[age_range])
														
 
															+            chunk_id = chunk["chunk"]["id"]        
														
 
															+            print(f"分块数据写入成功, chunk_id: {chunk_id}")
														
 
															             # 步骤2： 调用infinity的update方法，将标签更新到块数据中
														
 
															             res = self.infinity_client.update(table_name="ragflow_92162247e93e11f084830242ac1d0002_18caf531f04d11f095670242c0a85002", 
														
 
															-                                              cond=f"id = '{chunk.id}'", 
														
 
															+                                              cond=f"id = '{chunk_id}'", 
														
 
															                                               data={"tag_kwd": tag_name},
														
 
															                                               database_name="default_db")
														
 
															             print(f"更新标签 {tag_name} 到 infinity 结果: {res}")
														
--- a/src/api/hybrid_search_mcp.py
+++ b/src/api/hybrid_search_mcp.py
@@ -3,19 +3,14 @@
 
															 混合检索MCP服务
														
 
															 使用fastmcp框架实现，提供图片解析后的向量化入库和混合检索功能
														
 
															 """
														
 
															-
														
 
															-import sys
														
 
															-import os
														
 
															 import requests
														
 
															 from io import BytesIO
														
 
															 from typing import List, Dict, Any
														
 
															 from fastmcp import FastMCP
														
 
															-# 添加项目根目录到Python路径
														
 
															-sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
														
 
															 from PIL import Image
														
 
															-from utils.infinity_util import InfinityVectorDB
														
 
															-from model.multimodal_embedding import Embedding
														
 
															-from conf.settings import model_settings, ragflow_settings, vector_db_settings
														
 
															+from src.utils.infinity_util import InfinityVectorDB
														
 
															+from src.model.multimodal_embedding import Embedding
														
 
															+from src.conf.settings import model_settings, ragflow_settings, vector_db_settings
														
--- a/src/api/sdk/__init__.py
+++ b/src/api/sdk/__init__.py
--- a/src/api/sdk/dataset_manage.py
+++ b/src/api/sdk/dataset_manage.py
@@ -8,7 +8,7 @@
 
															 from fastapi import FastAPI, HTTPException, UploadFile, File, Form
														
 
															 from typing import Dict, Any
														
 
															-from api.dataset.services.dataset_manage_service import DatasetManageService
														
 
															+from src.api.dataset.services.dataset_manage_service import DatasetManageService
														
 
															 # 创建 FastAPI 应用
														
@@ -49,7 +49,7 @@ async def parse_pdf(
 
															             pdf_filename=file.filename
														
 
															         )
														
 
															-        return {"success": True, "result": result}
														
 
															+        return {"success": True}
														
 
															     except HTTPException as e:
														
 
															         raise e
														
 
															     except Exception as e:
														
--- a/src/api/search_infinity.py
+++ b/src/api/search_infinity.py
@@ -2,8 +2,8 @@
 
															 from fastapi import FastAPI, HTTPException
														
 
															 from typing import List, Dict, Any, Optional
														
 
															-from api.db.services.infinity_search_service import InfinitySearchService
														
 
															-from utils.infinity import get_client
														
 
															+from src.api.db.services.infinity_search_service import InfinitySearchService
														
 
															+from src.utils.infinity import get_client
														
 
															 # 创建FastAPI应用
														
--- a/src/api/tag_manage.py
+++ b/src/api/tag_manage.py
@@ -1,14 +1,12 @@
 
															 # 标签管理API服务
														
 
															-
														
 
															-from fastapi import FastAPI, HTTPException, UploadFile, File
														
 
															-from typing import List, Dict, Any, Optional
														
 
															-from api.db.services.tag_service import TagServiceFactory
														
 
															-from utils.infinity import get_client
														
 
															-from utils.excel_util import excel_util
														
 
															-from pydantic import BaseModel
														
 
															 import os
														
 
															 import tempfile
														
 
															-
														
 
															+from pydantic import BaseModel
														
 
															+from fastapi import FastAPI, HTTPException, UploadFile, File
														
 
															+from typing import List, Dict, Any, Optional
														
 
															+from src.api.db.services.tag_service import TagServiceFactory
														
 
															+from src.utils.infinity import get_client
														
 
															+from src.utils.excel_util import excel_util
														
 
															 # 创建FastAPI应用
														
 
															 app = FastAPI(
														
--- a/src/common/models/pagination.py
+++ b/src/common/models/pagination.py
@@ -1,5 +1,4 @@
 
															 from pydantic import BaseModel, Field
														
 
															-from typing import Optional
														
 
															 class Pagination(BaseModel):
														
 
															     """通用分页与过滤模型"""
														
--- a/src/conf/__init__.py
+++ b/src/conf/__init__.py
--- a/src/conf/age_level.json
+++ b/src/conf/age_level.json
--- a/src/conf/config.py
+++ b/src/conf/config.py
--- a/src/conf/infinity_mapping.json
+++ b/src/conf/infinity_mapping.json
--- a/src/conf/rag_parser_config.py
+++ b/src/conf/rag_parser_config.py
--- a/src/conf/settings.py
+++ b/src/conf/settings.py
@@ -74,6 +74,8 @@ class VectorDBSettings(BaseSettings):
 
															     infinity_database: str = Field(default="test", alias="INFINITY_DATABASE")
														
 
															     infinity_table_name: str = Field(default="test", alias="INFINITY_TABLE_NAME")
														
 
															     infinity_page_dataset_id: str = Field(default="", alias="INFINITY_PAGE_DATASET_ID")
														
 
															+    infinity_page_table_name: str = Field(default="", alias="INFINITY_PAGE_TABLE_NAME")
														
 
															+    infinity_ragflow_database: str = Field(default="default_db", alias="INFINITY_RAGFLOW_DATABASE")
														
 
															     model_config = SettingsConfigDict(
														
 
															         env_file=".env",
														
--- a/src/ee.json
+++ b/src/ee.json
--- a/src/job/chunk_update_job.py
+++ b/src/job/chunk_update_job.py
@@ -0,0 +1,131 @@
 
															+"""
														
 
															+Chunk 更新定时任务
														
 
															+
														
 
															+该模块负责处理 ragflow_chunk_record 表中的定时任务，包括：
														
 
															+- 定期查询到期的任务
														
 
															+- 执行任务逻辑
														
 
															+- 更新任务状态
														
 
															+"""
														
 
															+import time
														
 
															+import json
														
 
															+from datetime import datetime
														
 
															+from apscheduler.schedulers.background import BackgroundScheduler
														
 
															+from apscheduler.triggers.interval import IntervalTrigger
														
 
															+from src.utils.mysql import get_global_mysql_client
														
 
															+from src.utils.infinity import get_client
														
 
															+
														
 
															+# 初始化调度器
														
 
															+_scheduler = None
														
 
															+
														
 
															+class ChunkUpdateJob:
														
 
															+    """Chunk 更新定时任务服务"""
														
 
															+    
														
 
															+    def __init__(self):
														
 
															+        """初始化定时任务服务"""
														
 
															+        self.mysql_client = get_global_mysql_client()
														
 
															+        self.infinity_client = get_client()
														
 
															+    
														
 
															+    def process_due_tasks(self):
														
 
															+        """处理到期的任务"""
														
 
															+        try:
														
 
															+            # 查询状态为"未执行"且计划时间小于等于当前时间的任务
														
 
															+            current_time = datetime.now()
														
 
															+            tasks = self.mysql_client.fetch_all(
														
 
															+                "SELECT id, database_name, table_name, chunk_id, cond, update_data FROM ragflow_chunk_record "
														
 
															+                "WHERE status = %s AND scheduled_time <= %s",
														
 
															+                ["未执行", current_time]
														
 
															+            )
														
 
															+            
														
 
															+            # 处理每个任务
														
 
															+            for task in tasks:
														
 
															+                task_id = task["id"]
														
 
															+                database_name = task["database_name"]
														
 
															+                table_name = task["table_name"]
														
 
															+                chunk_id = task["chunk_id"]
														
 
															+                cond = task["cond"]
														
 
															+                data = task["update_data"]
														
 
															+                
														
 
															+                try:
														
 
															+                    # 执行任务逻辑
														
 
															+                    self._execute_task(database_name, table_name, chunk_id, cond, data)
														
 
															+                    
														
 
															+                    # 更新任务状态为"已执行"
														
 
															+                    self.mysql_client.execute(
														
 
															+                        "UPDATE ragflow_chunk_record SET status = %s, executed_time = %s WHERE id = %s",
														
 
															+                        ["已执行", datetime.now(), task_id]
														
 
															+                    )
														
 
															+                    
														
 
															+                    print(f"Task {task_id} executed successfully")
														
 
															+                except Exception as e:
														
 
															+                    # 更新任务状态为"执行失败"
														
 
															+                    self.mysql_client.execute(
														
 
															+                        "UPDATE ragflow_chunk_record SET status = %s, error_message = %s, executed_time = %s WHERE id = %s",
														
 
															+                        ["执行失败", str(e), datetime.now(), task_id]
														
 
															+                    )
														
 
															+                    
														
 
															+                    print(f"Task {task_id} execution failed: {e}")
														
 
															+        except Exception as e:
														
 
															+            print(f"Failed to process due tasks: {e}")
														
 
															+    
														
 
															+    def _execute_task(self, database_name: str, table_name: str, chunk_id: str, 
														
 
															+                      cond: str, data: dict) -> None:
														
 
															+        """
														
 
															+        执行具体的任务逻辑
														
 
															+        
														
 
															+        Args:
														
 
															+            database_name: 数据库名称
														
 
															+            table_name: 表名称
														
 
															+            chunk_id: Chunk ID
														
 
															+            cond: 条件字符串
														
 
															+            data: 数据字典
														
 
															+        """
														
 
															+        # TODO: 根据业务需求实现具体的任务执行逻辑
														
 
															+        # 示例：更新 Infinity 中的 Chunk 数据
														
 
															+        try:
														
 
															+            # 使用 Infinity 客户端执行更新操作
														
 
															+            # 这里需要根据实际的 Infinity API 进行调整
														
 
															+            if cond and data:
														
 
															+                self.infinity_client.update(
														
 
															+                    table_name=table_name,
														
 
															+                    cond=cond,
														
 
															+                    data=json.loads(data),
														
 
															+                    database_name=database_name
														
 
															+                )
														
 
															+            print(f"Updated chunk {chunk_id} in {database_name}.{table_name}")
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"Failed to update chunk {chunk_id}: {e}")
														
 
															+
														
 
															+
														
 
															+def start_scheduler():
														
 
															+    """启动定时任务调度器"""
														
 
															+    global _scheduler
														
 
															+    
														
 
															+    if _scheduler is None:
														
 
															+        # 创建调度器
														
 
															+        _scheduler = BackgroundScheduler()
														
 
															+        
														
 
															+        # 创建任务实例
														
 
															+        chunk_update_job = ChunkUpdateJob()
														
 
															+        
														
 
															+        # 添加定时任务，每5秒执行一次
														
 
															+        _scheduler.add_job(
														
 
															+            func=chunk_update_job.process_due_tasks,
														
 
															+            trigger=IntervalTrigger(seconds=30),
														
 
															+            id="chunk_update_job",
														
 
															+            name="Process due chunk update tasks",
														
 
															+            replace_existing=True
														
 
															+        )
														
 
															+        
														
 
															+        # 启动调度器
														
 
															+        _scheduler.start()
														
 
															+        print("✅ Chunk update scheduler started")
														
 
															+
														
 
															+
														
 
															+def shutdown_scheduler():
														
 
															+    """关闭定时任务调度器"""
														
 
															+    global _scheduler
														
 
															+    
														
 
															+    if _scheduler is not None:
														
 
															+        _scheduler.shutdown()
														
 
															+        _scheduler = None
														
 
															+        print("✅ Chunk update scheduler shutdown")
														
--- a/src/model/__init__.py
+++ b/src/model/__init__.py
--- a/src/model/jina_rerank.py
+++ b/src/model/jina_rerank.py
--- a/src/model/multimodal_embedding.py
+++ b/src/model/multimodal_embedding.py
@@ -4,9 +4,9 @@ import base64
 
															 import io
														
 
															 from langchain_openai import OpenAIEmbeddings
														
 
															 from dashscope import MultiModalEmbedding
														
 
															-from conf.settings import model_settings
														
 
															+from src.conf.settings import model_settings
														
 
															 from langfuse import observe
														
 
															-from utils.file.image_util import image_util
														
 
															+from src.utils.file.image_util import image_util
														
 
															 class Embedding:
														
 
															     """Embedding模型工具"""
														
--- a/src/model/openai_chat_model.py
+++ b/src/model/openai_chat_model.py
@@ -1,7 +1,7 @@
 
															 from typing import Optional, Dict, Any
														
 
															 from langchain.chat_models import init_chat_model
														
 
															 from langchain_core.messages import AIMessage, HumanMessage, SystemMessage
														
 
															-from conf.settings import model_settings
														
 
															+from src.conf.settings import model_settings
														
 
															 class OpenAIChatModel:
														
 
															     """
														
--- a/src/model/qwen_vl.py
+++ b/src/model/qwen_vl.py
@@ -3,7 +3,7 @@ from PIL import Image
 
															 import base64
														
 
															 import io
														
 
															 from langchain.chat_models import init_chat_model
														
 
															-from conf.settings import model_settings
														
 
															+from src.conf.settings import model_settings
														
 
															 from langfuse.langchain import CallbackHandler
														
 
															 class QWenVLParser:
														
--- a/src/model/tracked_multi_embedding.py
+++ b/src/model/tracked_multi_embedding.py
@@ -1,6 +1,6 @@
 
															 from model.multimodal_embedding import Embedding
														
 
															 from PIL import Image
														
 
															-from utils.decorators.langfuse_trace_embedding import langfuse_trace_embedding
														
 
															+from src.utils.decorators.langfuse_trace_embedding import langfuse_trace_embedding
														
 
															 class TrackedMultiEmbeddings(Embedding):
														
--- a/src/model/tracked_openai_embeddings.py
+++ b/src/model/tracked_openai_embeddings.py
@@ -1,5 +1,5 @@
 
															 from langchain_openai import OpenAIEmbeddings
														
 
															-from utils.decorators.langfuse_trace_embedding import langfuse_trace_embedding
														
 
															+from src.utils.decorators.langfuse_trace_embedding import langfuse_trace_embedding
														
 
															 class TrackedOpenAIEmbeddings(OpenAIEmbeddings):
														
--- a/src/model_output.md
+++ b/src/model_output.md
--- a/src/parser/image_parser/__init__.py
+++ b/src/parser/image_parser/__init__.py
--- a/src/parser/image_parser/image_parser_workflow.py
+++ b/src/parser/image_parser/image_parser_workflow.py
@@ -2,25 +2,19 @@
 
															 """
														
 
															 图片解析工作流
														
 
															 """
														
 
															-
														
 
															-import sys
														
 
															-import os
														
 
															 import concurrent.futures
														
 
															 from concurrent.futures import ThreadPoolExecutor
														
 
															 from PIL import Image
														
 
															 import requests
														
 
															-# 添加项目根目录到Python路径
														
 
															-sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
														
 
															-
														
 
															 from langgraph.graph import StateGraph, START, END
														
 
															 from typing import List, Dict, Any, Annotated
														
 
															 from pydantic import BaseModel, Field, ConfigDict
														
 
															-from model.qwen_vl import QWenVLParser
														
 
															-from utils.ragflow.ragflow_service import RAGFlowService
														
 
															-from model.multimodal_embedding import Embedding
														
 
															-from utils.minio.image_util import image_util
														
 
															-from conf.settings import model_settings
														
 
															-from utils.infinity import get_client
														
 
															+from src.model.qwen_vl import QWenVLParser
														
 
															+from src.utils.ragflow.ragflow_service import RAGFlowService
														
 
															+from src.model.multimodal_embedding import Embedding
														
 
															+from src.utils.file.image_util import image_util
														
 
															+from src.conf.settings import model_settings
														
 
															+from src.utils.infinity import get_client
														
 
															 # 定义工作流状态类
														
 
															 class ImageParsingState(BaseModel):
														
--- a/src/parser/pdf_parser/__init__.py
+++ b/src/parser/pdf_parser/__init__.py
--- a/src/parser/pdf_parser/pdf_parser_workflow.py
+++ b/src/parser/pdf_parser/pdf_parser_workflow.py
@@ -5,14 +5,15 @@ from concurrent.futures import ThreadPoolExecutor
 
															 from langgraph.graph import StateGraph, START, END
														
 
															 from typing import List, Dict, Any
														
 
															 from pydantic import BaseModel, Field, ConfigDict
														
 
															-from parser.pdf_parser.pdf_splitter import PDFSplitter
														
 
															-from model.qwen_vl import QWenVLParser
														
 
															-from utils.ragflow.ragflow_service import RAGFlowService
														
 
															-from model.multimodal_embedding import Embedding
														
 
															-from conf.settings import model_settings, vector_db_settings
														
 
															-from utils.infinity import get_client
														
 
															+from src.parser.pdf_parser.pdf_splitter import PDFSplitter
														
 
															+from src.model.qwen_vl import QWenVLParser
														
 
															+from src.utils.ragflow.ragflow_service import RAGFlowService
														
 
															+from src.utils.ragflow.chunk_record import get_chunk_record_service
														
 
															+from src.model.multimodal_embedding import Embedding
														
 
															+from src.conf.settings import model_settings, vector_db_settings, minio_settings
														
 
															+from src.utils.infinity import get_client
														
 
															 from langfuse.langchain import CallbackHandler
														
 
															-from conf.rag_parser_config import RagParserDefaults
														
 
															+from src.conf.rag_parser_config import RagParserDefaults
														
 
															 # 定义工作流状态类
														
 
															 class PDFParsingState(BaseModel):
														
@@ -258,9 +259,12 @@ class PDFParsingWorkflow:
 
															     def _parse_single_page(self, page: Dict[str, Any], model_name: str) -> Dict[str, Any]:
														
 
															         """解析单个页面（用于并行处理）"""
														
 
															-        prompt = """
														
 
															+        page_number = page["page_number"]
														
 
															+        image = page["image"]
														
 
															+        prompt = f"""
														
 
															             角色定位：你是一位顶尖的儿童绘本分析师与视觉工程专家，擅长将插画视觉信息转化为高精度的结构化元数据。
														
 
															             任务描述：请深度解析提供的绘本页面，不仅提取基本要素，还要进行“像素级”的特征拆解。重点关注角色的微表情、服饰纹理、环境光效、构图视角及整体艺术风格。
														
 
															+            当前提取页码为：{page_number}
														
 
															             提取维度：
														
 
															             艺术风格 (Style)：包括笔触（如水彩、蜡笔）、线条粗细、整体色调偏好。
														
 
															             角色特征 (Character)：五官细节、肢体动作的动态感、衣物材质、标志性配饰。
														
@@ -277,44 +281,41 @@ class PDFParsingWorkflow:
 
															             描述精度：单条描述需包含具体视觉属性（颜色、形状、质感），字数控制在50字以内。
														
 
															             格式要求：严谨按照指定的JSON结构输出。  
														
 
															             json格式：
														
 
															-            {
														
 
															-                "page_meta": {
														
 
															-                "page_number": 1,
														
 
															+            {{
														
 
															+                "page_meta": {{
														
 
															+                "page_number": {page_number},
														
 
															                 "content_text": "页面原文本内容",
														
 
															-                "overall_style": {
														
 
															+                "overall_style": {{
														
 
															                     "art_medium": "艺术媒介（如：手绘水彩、矢量平涂、3D渲染）",
														
 
															                     "color_palette": ["主色调1", "主色调2"],
														
 
															                     "lighting": "光影描述（如：柔和侧光、清晨自然光）",
														
 
															                     "composition": "构图（如：三分法、对角线构图、大远景）"
														
 
															-                    }
														
 
															-                },
														
 
															+                    }}
														
 
															+                }},
														
 
															                 "elements": [
														
 
															-                    {
														
 
															+                    {{
														
 
															                         "element_name": "元素名称（如：小兔子）",
														
 
															                         "character_name": "角色名称（如果有，没有的话，角色名称为空字符串）",
														
 
															                         "category": "分类（角色/场景/道具）",
														
 
															                         "spatial_layer": "所在层级（前景/中景/背景）",
														
 
															-                        "visual_attributes": {
														
 
															+                        "visual_attributes": {{
														
 
															                             "appearance": "外貌细节描述（发型、五官、材质感）",
														
 
															                             "action_emotion": "行为动作与情感流露",
														
 
															                             "color_detail": "像素级颜色描述（如：淡茱萸粉、薄荷绿）",
														
 
															                             "ability_tag": "如果为角色，其表现出的正面能力/特质"
														
 
															-                        },
														
 
															-                        "content_tags": {
														
 
															+                        }},
														
 
															+                        "content_tags": {{
														
 
															                             "theme": ["自然", "社交", "生活常识"], 
														
 
															                             "object": ["动物", "服装", "植物"],
														
 
															                             "emotion": ["快乐", "勇敢"]
														
 
															-                        },
														
 
															+                        }},
														
 
															                         "ability_tags": ["语言表达", "逻辑思维", "自我认知"],
														
 
															                         "description": "综合性简洁描述（50字内）"
														
 
															-                    }
														
 
															+                    }}
														
 
															                 ]
														
 
															-            }
														
 
															+            }}
														
 
															             """
														
 
															-        page_number = page["page_number"]
														
 
															-        image = page["image"]
														
 
															-        
														
 
															         print(f"开始解析第 {page_number} 页")
														
 
															         # 使用QWEN VL模型解析图像
														
@@ -380,6 +381,8 @@ class PDFParsingWorkflow:
 
															             page_number = parsed_result.get("page_number")
														
 
															             text = parsed_result.get("content", "")
														
 
															             image_path = state.split_pages[i].get("image_path")
														
 
															+            # 截取url中的图片名
														
 
															+            img_id = f"{vector_db_settings.infinity_page_dataset_id}-{os.path.basename(image_path).split(".")[0]}"
														
 
															             # 上传单页到RagFlow Chunk
														
 
															             chunk = self.ragflow_service.create_chunk(dataset_id=state.page_dataset_id, 
														
@@ -387,10 +390,15 @@ class PDFParsingWorkflow:
 
															                                               content=text)
														
 
															             chunk_id = chunk["chunk"]["id"]
														
 
															             print(f"上传第 {page_number} 页，Chunk ID: {chunk_id}")
														
 
															-            # # 睡眠50ms，避免上传过快
														
 
															-            # time.sleep(0.05)
														
 
															-            # result = get_client().update(database_name=state.dataset_name, table_name="", cond=f"id = '{chunk_id}'", data={"img_id": img_id})
														
 
															-            # print(f"更新第 {page_number} 页，Chunk ID: {chunk_id}，结果: {result}")
														
 
															+
														
 
															+            # 记录到定时任务表
														
 
															+            get_chunk_record_service().record_chunk_add(
														
 
															+                database_name=vector_db_settings.infinity_ragflow_database,
														
 
															+                table_name=vector_db_settings.infinity_page_table_name,
														
 
															+                chunk_id=chunk_id,
														
 
															+                cond=f"id = '{chunk_id}'",
														
 
															+                data={"img_id": img_id}
														
 
															+            )
														
 
															     def _vectorize_store_node(self, state: PDFParsingState) -> Dict[str, Any]:
														
 
															         """向量化入库节点"""
														
--- a/src/parser/pdf_parser/pdf_splitter.py
+++ b/src/parser/pdf_parser/pdf_splitter.py
--- a/src/parser/pdf_parser/test_service.py
+++ b/src/parser/pdf_parser/test_service.py
--- a/src/private_key.pem
+++ b/src/private_key.pem
--- a/src/prompt/parser/page_parse_prompt.py
+++ b/src/prompt/parser/page_parse_prompt.py
--- a/src/public_key.pem
+++ b/src/public_key.pem
--- a/src/utils/__init__.py
+++ b/src/utils/__init__.py
--- a/src/utils/asymmetric_encryption.py
+++ b/src/utils/asymmetric_encryption.py
--- a/src/utils/decorators/langfuse_trace_embedding.py
+++ b/src/utils/decorators/langfuse_trace_embedding.py
--- a/src/utils/decorators/singleton.py
+++ b/src/utils/decorators/singleton.py
--- a/src/utils/excel_util.py
+++ b/src/utils/excel_util.py
--- a/utils/file/minio/__init__.py
+++ b/utils/file/minio/__init__.py
--- a/src/utils/file/file_utils.py
+++ b/src/utils/file/file_utils.py
@@ -4,5 +4,5 @@ import os
 
															 def generate_unique_filename(filename: str) -> str:
														
 
															     """生成唯一文件名，避免重复"""
														
 
															     ext = os.path.splitext(filename)[1]
														
 
															-    unique_id = str(uuid.uuid4())
														
 
															+    unique_id = str(uuid.uuid4()).replace("-", "")
														
 
															     return f"{unique_id}{ext}"
														
--- a/src/utils/file/image_util.py
+++ b/src/utils/file/image_util.py
@@ -8,8 +8,8 @@ import re
 
															 from typing import List
														
 
															 from io import BytesIO
														
 
															 from PIL import Image
														
 
															-from utils.file.minio.minio_util import MinIOUtil
														
 
															-from utils.file.file_utils import generate_unique_filename
														
 
															+from src.utils.file.minio.minio_util import MinIOUtil
														
 
															+from src.utils.file.file_utils import generate_unique_filename
														
 
															 class ImageUtil:
														
--- a/src/utils/file/minio/__init__.py
+++ b/src/utils/file/minio/__init__.py
--- a/src/utils/file/minio/minio_util.py
+++ b/src/utils/file/minio/minio_util.py
@@ -1,8 +1,8 @@
 
															 from minio import Minio
														
 
															 from typing import BinaryIO
														
 
															 from datetime import timedelta
														
 
															-from conf.settings import minio_settings
														
 
															-from utils.file.file_utils import generate_unique_filename
														
 
															+from src.conf.settings import minio_settings
														
 
															+from src.utils.file.file_utils import generate_unique_filename
														
 
															 # 全局MinIO客户端实例
														
 
															 _global_minio_client = None
														
--- a/src/utils/http_client.py
+++ b/src/utils/http_client.py
--- a/src/utils/infinity/README.md
+++ b/src/utils/infinity/README.md
--- a/src/utils/infinity/__init__.py
+++ b/src/utils/infinity/__init__.py
--- a/src/utils/infinity/client.py
+++ b/src/utils/infinity/client.py
@@ -3,7 +3,7 @@ from infinity.common import ConflictType
 
															 from typing import Dict, Any, List, Optional
														
 
															 import threading
														
 
															 from contextlib import contextmanager
														
 
															-from conf.settings import vector_db_settings
														
 
															+from src.conf.settings import vector_db_settings
														
 
															 from .pool import InfinityConnectionPool
														
 
															 class InfinityClient:
														
--- a/src/utils/infinity/pool.py
+++ b/src/utils/infinity/pool.py
@@ -4,7 +4,7 @@ from typing import Dict, Any, List, Optional
 
															 import threading
														
 
															 import time
														
 
															 from contextlib import contextmanager
														
 
															-from conf.settings import vector_db_settings
														
 
															+from src.conf.settings import vector_db_settings
														
 
															 class InfinityConnectionPool:
														
 
															     """
														
--- a/src/utils/infinity/result_util.py
+++ b/src/utils/infinity/result_util.py
--- a/src/utils/infinity/test_infinity.py
+++ b/src/utils/infinity/test_infinity.py
--- a/src/utils/mysql/__init__.py
+++ b/src/utils/mysql/__init__.py
--- a/src/utils/mysql/mysql_conn.py
+++ b/src/utils/mysql/mysql_conn.py
@@ -13,7 +13,7 @@ from pymysql.cursors import DictCursor
 
															 from typing import Any, List, Dict, Optional, Union
														
 
															 from contextlib import contextmanager
														
 
															 from .mysql_pool import get_mysql_pool, MySQLPool
														
 
															-from utils.decorators.singleton import singleton
														
 
															+from src.utils.decorators.singleton import singleton
														
 
															 @singleton
														
 
															 class MySQLConnection:
														
@@ -66,13 +66,13 @@ class MySQLConnection:
 
															         获取游标上下文管理器
														
 
															         Args:
														
 
															-            cursorclass: 游标类型
														
 
															+            cursorclass: 游标类型，默认为DictCursor
														
 
															         Yields:
														
 
															             MySQL 游标对象
														
 
															         """
														
 
															         conn = self._get_connection()
														
 
															-        cursor = conn.cursor(cursorclass=cursorclass)
														
 
															+        cursor = conn.cursor(cursorclass)
														
 
															         try:
														
 
															             yield cursor
														
--- a/src/utils/mysql/mysql_pool.py
+++ b/src/utils/mysql/mysql_pool.py
@@ -10,7 +10,7 @@ MySQL 连接池配置
 
															 import pymysql
														
 
															 from pymysql.cursors import DictCursor
														
 
															 from dbutils.pooled_db import PooledDB
														
 
															-from conf.settings import mysql_settings
														
 
															+from src.conf.settings import mysql_settings
														
 
															 # 单例装饰器
														
 
															 class singleton:
														
--- a/src/utils/ragflow/__init__.py
+++ b/src/utils/ragflow/__init__.py
--- a/src/utils/ragflow/agent_service.py
+++ b/src/utils/ragflow/agent_service.py
--- a/src/utils/ragflow/chat_service.py
+++ b/src/utils/ragflow/chat_service.py
--- a/src/utils/ragflow/chunk_record.py
+++ b/src/utils/ragflow/chunk_record.py
@@ -0,0 +1,74 @@
 
															+"""
														
 
															+RagFlow Chunk 上传记录管理模块
														
 
															+
														
 
															+该模块负责处理 RagFlow Chunk 上传记录的数据库操作，包括：
														
 
															+- 记录 Chunk 上传任务到定时任务表
														
 
															+- 提供统一的接口供外部调用
														
 
															+"""
														
 
															+import json
														
 
															+from typing import Dict, Any, Optional
														
 
															+from src.utils.mysql import get_global_mysql_client
														
 
															+from datetime import datetime, timedelta
														
 
															+
														
 
															+class ChunkRecordService:
														
 
															+    """Chunk 上传记录服务"""
														
 
															+    
														
 
															+    def __init__(self):
														
 
															+        """初始化 Chunk 记录服务"""
														
 
															+        self.mysql_client = get_global_mysql_client()
														
 
															+    
														
 
															+    def record_chunk_add(self, database_name: str, table_name: str, chunk_id: str,
														
 
															+                         cond: Optional[str] = None, data: Dict[str, Any] = {}) -> None:
														
 
															+        """
														
 
															+        记录 Chunk 上传信息到 MySQL 定时任务表
														
 
															+        
														
 
															+        Args:
														
 
															+            database_name: 数据库 ID
														
 
															+            table_name: 数据表 ID
														
 
															+            chunk_id: 上传成功返回的 Chunk ID
														
 
															+            image_path: 图片路径
														
 
															+            cond: 条件字符串，由调用方传递
														
 
															+            data: 数据字符串，由调用方传递或自动生成
														
 
															+        """
														
 
															+        # 计算20秒后的时间
														
 
															+        scheduled_time = datetime.now() + timedelta(seconds=60)
														
 
															+
														
 
															+        # 判断cond与data不能为空
														
 
															+        if not cond and not data:
														
 
															+            raise ValueError("cond and data must be provided")
														
 
															+        
														
 
															+        # 准备插入数据（所有记录status固定为"未执行"）
														
 
															+        insert_data = {
														
 
															+            "database_name": database_name,
														
 
															+            "table_name": table_name,
														
 
															+            "chunk_id": chunk_id,
														
 
															+            "cond": cond,
														
 
															+            "update_data": json.dumps(data),
														
 
															+            "scheduled_time": scheduled_time,
														
 
															+            "status": "未执行"
														
 
															+        }
														
 
															+        
														
 
															+        try:
														
 
															+            # 插入记录到 MySQL 定时任务表
														
 
															+            self.mysql_client.execute(
														
 
															+                "INSERT INTO ragflow_chunk_record (database_name, table_name, chunk_id, cond, update_data, scheduled_time, status) "
														
 
															+                "VALUES (%(database_name)s, %(table_name)s, %(chunk_id)s, %(cond)s, %(update_data)s, %(scheduled_time)s, %(status)s)",
														
 
															+                insert_data
														
 
															+            )
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"Failed to record chunk upload: {e}")
														
 
															+
														
 
															+# 创建全局实例
														
 
															+_chunk_record_service = None
														
 
															+
														
 
															+def get_chunk_record_service() -> ChunkRecordService:
														
 
															+    """
														
 
															+    获取 Chunk 记录服务实例（单例模式）
														
 
															+    
														
 
															+    Returns:
														
 
															+        ChunkRecordService 实例
														
 
															+    """
														
 
															+    global _chunk_record_service
														
 
															+    if _chunk_record_service is None:
														
 
															+        _chunk_record_service = ChunkRecordService()
														
 
															+    return _chunk_record_service
														
--- a/src/utils/ragflow/chunk_service.py
+++ b/src/utils/ragflow/chunk_service.py
--- a/src/utils/ragflow/dataset_service.py
+++ b/src/utils/ragflow/dataset_service.py
--- a/src/utils/ragflow/document_service.py
+++ b/src/utils/ragflow/document_service.py
--- a/src/utils/ragflow/file_service.py
+++ b/src/utils/ragflow/file_service.py
--- a/src/utils/ragflow/openai_service.py
+++ b/src/utils/ragflow/openai_service.py
--- a/src/utils/ragflow/ragflow_service.py
+++ b/src/utils/ragflow/ragflow_service.py
@@ -5,15 +5,15 @@ from dataclasses import dataclass
 
															 sys.path.append(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__)))))
														
 
															-from utils.http_client import HTTPClient
														
 
															-from conf.settings import ragflow_settings
														
 
															-from utils.ragflow.dataset_service import DatasetService
														
 
															-from utils.ragflow.document_service import DocumentService
														
 
															-from utils.ragflow.chunk_service import ChunkService
														
 
															-from utils.ragflow.chat_service import ChatService
														
 
															-from utils.ragflow.agent_service import AgentService
														
 
															-from utils.ragflow.file_service import FileService
														
 
															-from utils.ragflow.openai_service import OpenAICompatibleService
														
 
															+from src.utils.http_client import HTTPClient
														
 
															+from src.conf.settings import ragflow_settings
														
 
															+from src.utils.ragflow.dataset_service import DatasetService
														
 
															+from src.utils.ragflow.document_service import DocumentService
														
 
															+from src.utils.ragflow.chunk_service import ChunkService
														
 
															+from src.utils.ragflow.chat_service import ChatService
														
 
															+from src.utils.ragflow.agent_service import AgentService
														
 
															+from src.utils.ragflow.file_service import FileService
														
 
															+from src.utils.ragflow.openai_service import OpenAICompatibleService
														
 
															 @dataclass
														
 
															 class DocumentInfo:
														
--- a/src/workflow/search/dataset_search_workflow.py
+++ b/src/workflow/search/dataset_search_workflow.py
@@ -2,12 +2,12 @@ from concurrent.futures import ThreadPoolExecutor
 
															 from langgraph.graph import StateGraph, START, END
														
 
															 from typing import List, Dict, Any
														
 
															 from pydantic import BaseModel, Field, ConfigDict
														
 
															-from model.qwen_vl import QWenVLParser
														
 
															-from model.openai_chat_model import OpenAIChatModel
														
 
															-from utils.ragflow.ragflow_service import RAGFlowService
														
 
															-from model.multimodal_embedding import Embedding
														
 
															-from conf.settings import model_settings, vector_db_settings
														
 
															-from utils.infinity import get_client
														
 
															+from src.model.qwen_vl import QWenVLParser
														
 
															+from src.model.openai_chat_model import OpenAIChatModel
														
 
															+from src.utils.ragflow.ragflow_service import RAGFlowService
														
 
															+from src.model.multimodal_embedding import Embedding
														
 
															+from src.conf.settings import model_settings, vector_db_settings
														
 
															+from src.utils.infinity import get_client
														
 
															 from langfuse.langchain import CallbackHandler
														
 
															 # 定义工作流状态类
														
--- a/test/test_mysql.py
+++ b/test/test_mysql.py
--- a/test/test_ragflow_http_api.py
+++ b/test/test_ragflow_http_api.py
--- a/test/test_search.py
+++ b/test/test_search.py
--- a/test/test_upload_tag.py
+++ b/test/test_upload_tag.py
--- a/utils/ragflow_sdk/__init__.py
+++ b/utils/ragflow_sdk/__init__.py
@@ -1,9 +0,0 @@
 
															-from .dataset_util import DataSetUtil
														
 
															-from .document_util import DocumentUtil
														
 
															-from .chunk_util import ChunkUtil
														
 
															-
														
 
															-__all__ = [
														
 
															-    "DataSetUtil",
														
 
															-    "DocumentUtil",
														
 
															-    "ChunkUtil"
														
 
															-]
														
--- a/utils/ragflow_sdk/base_util.py
+++ b/utils/ragflow_sdk/base_util.py
@@ -1,17 +0,0 @@
 
															-from ragflow_sdk import RAGFlow
														
 
															-from conf.settings import ragflow_settings
														
 
															-
														
 
															-
														
 
															-class RAGFlowBaseUtil:
														
 
															-    """
														
 
															-    RAGFlow 工具类基础类，封装了 RAGFlow 客户端初始化逻辑
														
 
															-    """
														
 
															-    
														
 
															-    def __init__(self):
														
 
															-        """
														
 
															-        初始化 RAGFlow 客户端
														
 
															-        """
														
 
															-        self.ragflow_client = RAGFlow(
														
 
															-            api_key=ragflow_settings.ragflow_api_key,
														
 
															-            base_url=ragflow_settings.ragflow_api_url
														
 
															-        )
														
--- a/utils/ragflow_sdk/chunk_util.py
+++ b/utils/ragflow_sdk/chunk_util.py
@@ -1,80 +0,0 @@
 
															-from typing import Optional
														
 
															-from ragflow_sdk import Chunk
														
 
															-from utils.ragflow_sdk.document_util import DocumentUtil
														
 
															-from .base_util import RAGFlowBaseUtil
														
 
															-
														
 
															-
														
 
															-
														
 
															-class ChunkUtil(RAGFlowBaseUtil):
														
 
															-
														
 
															-    def __init__(self, dataset_id: str, document_id: str):
														
 
															-        super().__init__()
														
 
															-        self.dataset_id = dataset_id
														
 
															-        self.document_id = document_id
														
 
															-
														
 
															-    def add_chunk(self, dataset_name: Optional[str] = None, document_id: Optional[str] = None, content: str = None, important_keywords: list[str] = []):
														
 
															-        """
														
 
															-        添加文档分块
														
 
															-        """
														
 
															-        try:
														
 
															-            if not dataset_name or not document_id or not content:
														
 
															-                raise ValueError("数据集名称、文档ID和内容不能为空")
														
 
															-            chunk = DocumentUtil().get_document(dataset_name=dataset_name, document_id=document_id).add_chunk(content=content, important_keywords=important_keywords)
														
 
															-            return chunk
														
 
															-        except Exception as e:
														
 
															-            print(f"添加文档分块失败: {e}")
														
 
															-            raise e
														
 
															-    
														
 
															-    def delete_chunks(self, chunk_ids: list[str]):
														
 
															-        """
														
 
															-        删除文档分块
														
 
															-        """
														
 
															-        try:
														
 
															-            DocumentUtil().get_document(dataset_name=dataset_name, document_id=document_id).delete_chunks(chunk_ids)
														
 
															-        except Exception as e:
														
 
															-            print(f"删除文档分块失败: {e}")
														
 
															-            raise e
														
 
															-    
														
 
															-
														
 
															-    def list_chunks(self, keywords: str = None, page: int = 1, page_size: int = 30, id : str = None) -> list[Chunk]:
														
 
															-        """
														
 
															-        列出文档分块
														
 
															-        """
														
 
															-        try:
														
 
															-            chunks = DocumentUtil().get_document(dataset_name=dataset_name, document_id=document_id).list_chunks(keywords=keywords, page=page, page_size=page_size, id=id)
														
 
															-            return chunks
														
 
															-        except Exception as e:
														
 
															-            print(f"列出文档分块失败: {e}")
														
 
															-            raise e
														
 
															-
														
 
															-    def get_chunk(self, chunk_id: str) -> Chunk:
														
 
															-        """
														
 
															-        获取文档分块
														
 
															-        """
														
 
															-        _list = self.list_chunks(id=chunk_id)
														
 
															-        if len(_list) > 0:
														
 
															-            return _list[0]
														
 
															-        raise Exception("Chunk %s not found" % chunk_id)
														
 
															-    
														
 
															-
														
 
															-    def update_chunk(self, chunk_id: str, update_message: dict):
														
 
															-        """
														
 
															-        更新文档分块
														
 
															-        """
														
 
															-        try:
														
 
															-            self.get_chunk(chunk_id=chunk_id).update(update_message)
														
 
															-        except Exception as e:
														
 
															-            print(f"更新文档分块失败: {e}")
														
 
															-            raise e
														
 
															-    
														
 
															-    def retrieve(self, question: str, dataset_ids: list[str] = None, document_ids: list[str] = None, page: int = 1, page_size: int = 30, similarity_threshold: float = 0.2, vector_similarity_weight: float = 0.3, top_k: int = 1024, rerank_id: str = None, keyword: bool = False, cross_languages: list[str] = None, metadata_condition: dict = None) -> list[Chunk]:
														
 
															-        """
														
 
															-        检索文档分块
														
 
															-        """
														
 
															-        try:
														
 
															-            chunks = self.ragflow_client.retrieve(question=question, dataset_ids=dataset_ids, document_ids=document_ids, page=page, page_size=page_size, similarity_threshold=similarity_threshold, vector_similarity_weight=vector_similarity_weight, top_k=top_k, rerank_id=rerank_id, keyword=keyword, cross_languages=cross_languages, metadata_condition=metadata_condition)
														
 
															-            return chunks
														
 
															-        except Exception as e:
														
 
															-            print(f"检索文档分块失败: {e}")
														
 
															-            raise e
														
 
															-        
														
--- a/utils/ragflow_sdk/conf/rag_parser_config.py
+++ b/utils/ragflow_sdk/conf/rag_parser_config.py
@@ -1,45 +0,0 @@
 
															-class RagParserDefaults:
														
 
															-
														
 
															-    DATASET_PERMISSION="team"
														
 
															-
														
 
															-    DATASET_CHUNK_METHOD="naive"
														
 
															-
														
 
															-    DATASET_CONFIG_DICT = {
														
 
															-            "chunk_token_num": 256,
														
 
															-            "delimiter": "\n!?;。；！？",
														
 
															-            "html4excel": False,
														
 
															-            "layout_recognize": "Pro/Qwen/Qwen2.5-VL-7B-Instruct@SILICONFLOW",
														
 
															-            "auto_keywords": 5,
														
 
															-            "tag_kb_ids": [],
														
 
															-            "topn_tags": 3,
														
 
															-            "task_page_size": 4,
														
 
															-            "raptor": {
														
 
															-                "max_cluster": 64,
														
 
															-                "max_token": 256,
														
 
															-                "prompt": "Please summarize the following paragraphs. Be careful with the numbers, do not make things up. Paragraphs as following:\n      {cluster_content}\nThe above is the content you need to summarize.",
														
 
															-                "random_seed": 0,
														
 
															-                "threshold": 0.1,
														
 
															-                "use_raptor": True
														
 
															-            },
														
 
															-            "graphrag": {
														
 
															-                "resolution": True,
														
 
															-                "use_graphrag": True,
														
 
															-                "method": "general",
														
 
															-                "entity_types": [
														
 
															-                    "event",
														
 
															-                    "Book",
														
 
															-                    "Author",
														
 
															-                    "Illustrator",
														
 
															-                    "Series",
														
 
															-                    "Theme",
														
 
															-                    "Genre",
														
 
															-                    "Character",
														
 
															-                    "Setting",
														
 
															-                    "AgeGroup",
														
 
															-                    "Competency",
														
 
															-                    "ArtStyle",
														
 
															-                    "Award",
														
 
															-                    "Publisher"
														
 
															-                ]
														
 
															-            }
														
 
															-        }
														
--- a/utils/ragflow_sdk/dataset_util.py
+++ b/utils/ragflow_sdk/dataset_util.py
@@ -1,71 +0,0 @@
 
															-from typing import Optional
														
 
															-from ragflow_sdk import DataSet
														
 
															-from conf.settings import ragflow_settings, model_settings
														
 
															-from .conf.rag_parser_config import RagParserDefaults
														
 
															-from .base_util import RAGFlowBaseUtil
														
 
															-
														
 
															-
														
 
															-
														
 
															-class DataSetUtil(RAGFlowBaseUtil):
														
 
															-
														
 
															-    def __init__(self):
														
 
															-        super().__init__()
														
 
															-
														
 
															-    def create_dataset(self, chunk_method: str = RagParserDefaults.DATASET_CHUNK_METHOD,
														
 
															-        dataset_name: Optional[str] = None, dataset_desc: str = "", 
														
 
															-        embedding_model: str = f"{model_settings.embedding_model_name}@SILICONFLOW",
														
 
															-        parser_config: dict = RagParserDefaults.DATASET_CONFIG_DICT):
														
 
															-        """
														
 
															-        创建数据集
														
 
															-        """
														
 
															-        # 封装数据集参数
														
 
															-        parser_obj = DataSet.ParserConfig(self.ragflow_client, parser_config)
														
 
															-        # 创建数据集
														
 
															-        dataset = self.ragflow_client.create_dataset(
														
 
															-            name=dataset_name,
														
 
															-            description=dataset_desc,
														
 
															-            embedding_model=embedding_model,
														
 
															-            permission=RagParserDefaults.DATASET_PERMISSION, 
														
 
															-            chunk_method= chunk_method,
														
 
															-            parser_config=parser_obj
														
 
															-        )
														
 
															-        return dataset
														
 
															-
														
 
															-    def delete_dataset(self, ids: list[str] | None = None):
														
 
															-        """
														
 
															-        删除数据集
														
 
															-        """
														
 
															-        try:
														
 
															-            if ids is not None:
														
 
															-                self.ragflow_client.delete_datasets(ids)
														
 
															-        except Exception as e:
														
 
															-            print(f"删除数据集失败: {e}")
														
 
															-
														
 
															-    def get_dataset(self, name: Optional[str] = None):
														
 
															-        """
														
 
															-        获取数据集
														
 
															-        """
														
 
															-        try:
														
 
															-            dataset = self.ragflow_client.get_dataset(name=name)
														
 
															-        except Exception as e:
														
 
															-            print(f"获取数据集失败: {e}")
														
 
															-            return None
														
 
															-        return dataset
														
 
															-                
														
 
															-    def list_datasets(self, page: int = 1, page_size: int = 30, orderby: str = "create_time", desc: bool = True, id: str | None = None, name: str | None = None) -> list[DataSet]:
														
 
															-        """
														
 
															-        获取数据集列表
														
 
															-        """
														
 
															-        try:
														
 
															-            dataset_list = self.ragflow_client.list_datasets(
														
 
															-                page=page,
														
 
															-                page_size=page_size,
														
 
															-                orderby=orderby,
														
 
															-                desc=desc,
														
 
															-                id=id,
														
 
															-                name=name,
														
 
															-            )
														
 
															-        except Exception as e:
														
 
															-            print(f"获取数据集列表失败: {e}")
														
 
															-            return None
														
 
															-        return dataset_list
														
--- a/utils/ragflow_sdk/document_util.py
+++ b/utils/ragflow_sdk/document_util.py
@@ -1,93 +0,0 @@
 
															-from token import OP
														
 
															-from typing import Optional
														
 
															-from ragflow_sdk import DataSet, Document
														
 
															-from conf.settings import ragflow_settings
														
 
															-from .base_util import RAGFlowBaseUtil
														
 
															-from common.models.pagination import Pagination
														
 
															-
														
 
															-
														
 
															-
														
 
															-class DocumentUtil(RAGFlowBaseUtil):
														
 
															-
														
 
															-    def __init__(self):
														
 
															-        super().__init__()
														
 
															-        
														
 
															-
														
 
															-    def upload_documents(self, dataset_name: Optional[str] = None, document_list: list[dict] = None):
														
 
															-        """
														
 
															-        上传文档到数据集
														
 
															-        """
														
 
															-        try:
														
 
															-            if not document_list:
														
 
															-                raise ValueError("文档列表不能为空")
														
 
															-            # 上传文档到数据集
														
 
															-            doc_list = self.ragflow_client.get_dataset(name=dataset_name).upload_documents(document_list)
														
 
															-            return doc_list
														
 
															-        except Exception as e:
														
 
															-            print(f"上传文档到数据集失败: {e}")
														
 
															-            raise e
														
 
															-
														
 
															-    def list_documents(self, dataset_name: Optional[str] = None, pagination: Pagination = Pagination(), id: str = None, keywords: str = None) -> list[Document]:
														
 
															-        """
														
 
															-        列出数据集的文档
														
 
															-        """
														
 
															-        try:
														
 
															-            doc_list = self.ragflow_client.get_dataset(name=dataset_name).list_documents(id=id, keywords=keywords, **pagination.to_dict())
														
 
															-            return doc_list
														
 
															-        except Exception as e:
														
 
															-            print(f"列出数据集文档失败: {e}")
														
 
															-            raise e
														
 
															-
														
 
															-    def get_document(self, dataset_name: Optional[str] = None, document_id: Optional[str] = None) -> Document:
														
 
															-        """
														
 
															-        获取文档
														
 
															-        """
														
 
															-        _list = self.list_documents(dataset_name=dataset_name, id=document_id)
														
 
															-        if len(_list) > 0:
														
 
															-            return _list[0]
														
 
															-        raise Exception("Document %s not found" % document_id)
														
 
															-
														
 
															-    # Document.update(update_message:dict)
														
 
															-    def update_document(self, document: Document, update_message: dict):
														
 
															-        """
														
 
															-        更新文档
														
 
															-        """
														
 
															-        try:
														
 
															-            document.update(update_message)
														
 
															-        except Exception as e:
														
 
															-            print(f"更新文档失败: {e}")
														
 
															-            raise e 
														
 
															-
														
 
															-    def delete_document(self, dataset_name: Optional[str] = None, ids: list[str] = None):
														
 
															-        """
														
 
															-        删除文档
														
 
															-        """
														
 
															-        try:
														
 
															-            if not ids:
														
 
															-                raise ValueError("文档ID列表不能为空")
														
 
															-            self.ragflow_client.get_dataset(name=dataset_name).delete_documents(ids=ids)
														
 
															-        except Exception as e:
														
 
															-            print(f"删除文档失败: {e}")
														
 
															-            raise e
														
 
															-
														
 
															-    def async_parse_documents(self, dataset_name: Optional[str] = None,document_ids: list[str] = None):
														
 
															-        """
														
 
															-        异步解析文档
														
 
															-        """
														
 
															-        try:
														
 
															-            self.ragflow_client.get_dataset(name=dataset_name).async_parse_documents(document_ids=document_ids)
														
 
															-        except Exception as e:
														
 
															-            print(f"异步解析文档失败: {e}")
														
 
															-            raise e
														
 
															-    
														
 
															-    def parse_documents(self, dataset_name: Optional[str] = None,document_ids: list[str] = None) -> list[tuple[str, str, int, int]]:
														
 
															-        """
														
 
															-        解析文档
														
 
															-        """
														
 
															-        try:
														
 
															-            doc_list = self.ragflow_client.get_dataset(name=dataset_name).parse_documents(document_ids=document_ids)
														
 
															-            return doc_list
														
 
															-        except Exception as e:
														
 
															-            print(f"解析文档失败: {e}")
														
 
															-            raise e
														
 
															-
	`@@ -0,0 +1 @@`
			`+{'method': 'POST', 'url': 'http://192.168.0.103:9380/api/v1/datasets/68dc10bdf3b611f0b1bd0efbd173881b/documents', 'data': None, 'json': None, 'headers': None, 'files': True}`