преди 3 месеца · 5ef1502c14
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1,175 @@
 
															+### Python template
														
 
															+# Byte-compiled / optimized / DLL files
														
 
															+__pycache__/
														
 
															+*.py[cod]
														
 
															+*$py.class
														
 
															+
														
 
															+# C extensions
														
 
															+*.so
														
 
															+
														
 
															+# Distribution / packaging
														
 
															+.Python
														
 
															+build/
														
 
															+develop-eggs/
														
 
															+dist/
														
 
															+downloads/
														
 
															+eggs/
														
 
															+.eggs/
														
 
															+lib/
														
 
															+lib64/
														
 
															+parts/
														
 
															+sdist/
														
 
															+var/
														
 
															+wheels/
														
 
															+share/python-wheels/
														
 
															+*.egg-info/
														
 
															+.installed.cfg
														
 
															+*.egg
														
 
															+MANIFEST
														
 
															+
														
 
															+# PyInstaller
														
 
															+#  Usually these files are written by a python script from a template
														
 
															+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
														
 
															+*.manifest
														
 
															+*.spec
														
 
															+
														
 
															+# Installer logs
														
 
															+pip-log.txt
														
 
															+pip-delete-this-directory.txt
														
 
															+
														
 
															+# Unit test / coverage reports
														
 
															+htmlcov/
														
 
															+.tox/
														
 
															+.nox/
														
 
															+.coverage
														
 
															+.coverage.*
														
 
															+.cache
														
 
															+nosetests.xml
														
 
															+coverage.xml
														
 
															+*.cover
														
 
															+*.py,cover
														
 
															+.hypothesis/
														
 
															+.pytest_cache/
														
 
															+cover/
														
 
															+
														
 
															+# Translations
														
 
															+*.mo
														
 
															+*.pot
														
 
															+
														
 
															+# Django stuff:
														
 
															+*.log
														
 
															+local_settings.py
														
 
															+db.sqlite3
														
 
															+db.sqlite3-journal
														
 
															+
														
 
															+# Flask stuff:
														
 
															+instance/
														
 
															+.webassets-cache
														
 
															+
														
 
															+# Scrapy stuff:
														
 
															+.scrapy
														
 
															+
														
 
															+# Sphinx documentation
														
 
															+docs/_build/
														
 
															+
														
 
															+# PyBuilder
														
 
															+.pybuilder/
														
 
															+target/
														
 
															+
														
 
															+# Jupyter Notebook
														
 
															+.ipynb_checkpoints
														
 
															+
														
 
															+# IPython
														
 
															+profile_default/
														
 
															+ipython_config.py
														
 
															+
														
 
															+# pyenv
														
 
															+#   For a library or package, you might want to ignore these files since the code is
														
 
															+#   intended to run in multiple environments; otherwise, check them in:
														
 
															+# .python-version
														
 
															+
														
 
															+# pipenv
														
 
															+#   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
														
 
															+#   However, in case of collaboration, if having platform-specific dependencies or dependencies
														
 
															+#   having no cross-platform support, pipenv may install dependencies that don't work, or not
														
 
															+#   install all needed dependencies.
														
 
															+#Pipfile.lock
														
 
															+
														
 
															+# poetry
														
 
															+#   Similar to Pipfile.lock, it is generally recommended to include poetry.lock in version control.
														
 
															+#   This is especially recommended for binary packages to ensure reproducibility, and is more
														
 
															+#   commonly ignored for libraries.
														
 
															+#   https://python-poetry.org/docs/basic-usage/#commit-your-poetrylock-file-to-version-control
														
 
															+#poetry.lock
														
 
															+
														
 
															+# pdm
														
 
															+#   Similar to Pipfile.lock, it is generally recommended to include pdm.lock in version control.
														
 
															+#pdm.lock
														
 
															+#   pdm stores project-wide configurations in .pdm.toml, but it is recommended to not include it
														
 
															+#   in version control.
														
 
															+#   https://pdm.fming.dev/latest/usage/project/#working-with-version-control
														
 
															+.pdm.toml
														
 
															+.pdm-python
														
 
															+.pdm-build/
														
 
															+
														
 
															+# PEP 582; used by e.g. github.com/David-OConnor/pyflow and github.com/pdm-project/pdm
														
 
															+__pypackages__/
														
 
															+
														
 
															+# Celery stuff
														
 
															+celerybeat-schedule
														
 
															+celerybeat.pid
														
 
															+
														
 
															+# SageMath parsed files
														
 
															+*.sage.py
														
 
															+
														
 
															+# Environments
														
 
															+.env
														
 
															+.env.home
														
 
															+.env.example
														
 
															+.venv
														
 
															+env/
														
 
															+venv/
														
 
															+ENV/
														
 
															+env.bak/
														
 
															+venv.bak/
														
 
															+
														
 
															+# Spyder project settings
														
 
															+.spyderproject
														
 
															+.spyproject
														
 
															+
														
 
															+# Rope project settings
														
 
															+.ropeproject
														
 
															+
														
 
															+# mkdocs documentation
														
 
															+/site
														
 
															+
														
 
															+# mypy
														
 
															+.mypy_cache/
														
 
															+.dmypy.json
														
 
															+dmypy.json
														
 
															+
														
 
															+# Pyre type checker
														
 
															+.pyre/
														
 
															+
														
 
															+# pytype static type analyzer
														
 
															+.pytype/
														
 
															+
														
 
															+# Cython debug symbols
														
 
															+cython_debug/
														
 
															+
														
 
															+# PyCharm
														
 
															+#  JetBrains specific template is maintained in a separate JetBrains.gitignore that can
														
 
															+#  be found at https://github.com/github/gitignore/blob/main/Global/JetBrains.gitignore
														
 
															+#  and can be added to the global gitignore or merged into this file.  For a more nuclear
														
 
															+#  option (not recommended) you can uncomment the following to ignore the entire idea folder.
														
 
															+#.idea/
														
 
															+.idea
														
 
															+
														
 
															+.trae
														
 
															+src/agent
														
 
															+src/prompt
														
 
															+src/workflow
														
 
															+src/private_key.pem
														
 
															+src/public_key.pem
														
 
															+test/
														
 
															+requirements.txt.bak
														
--- a/doc/api_keys.sql
+++ b/doc/api_keys.sql
@@ -0,0 +1,13 @@
 
															+-- 创建 API 密钥表
														
 
															+CREATE TABLE IF NOT EXISTS api_keys (
														
 
															+    id INT AUTO_INCREMENT PRIMARY KEY,
														
 
															+    api_key VARCHAR(255) NOT NULL UNIQUE,
														
 
															+    created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
														
 
															+    expired_at TIMESTAMP NULL,
														
 
															+    is_active BOOLEAN DEFAULT TRUE,
														
 
															+    INDEX idx_api_key (api_key),
														
 
															+    INDEX idx_is_active (is_active)
														
 
															+) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
														
 
															+
														
 
															+-- 插入一个示例 API 密钥（仅供测试使用）
														
 
															+INSERT IGNORE INTO api_keys (api_key, is_active) VALUES ('sk-test1234567890', TRUE);
														
--- a/doc/init.sql
+++ b/doc/init.sql
@@ -0,0 +1,48 @@
 
															+-- 创建 RagflowChunk记录表
														
 
															+CREATE TABLE IF NOT EXISTS ragflow_chunk_record (
														
 
															+    id BIGINT AUTO_INCREMENT PRIMARY KEY COMMENT '主键ID',
														
 
															+	database_name VARCHAR(64) NOT NULL COMMENT '数据库ID',
														
 
															+	table_name VARCHAR(255) NOT NULL COMMENT '数据表ID',
														
 
															+	chunk_id VARCHAR(64) NOT NULL COMMENT '分块ID',
														
 
															+    cond VARCHAR(100) COMMENT '条件参数',
														
 
															+    update_data JSON COMMENT '数据参数',
														
 
															+    scheduled_time DATETIME NOT NULL COMMENT '计划执行时间（当前时间+20秒）',
														
 
															+    status VARCHAR(20) NOT NULL DEFAULT '0' COMMENT '执行状态：0:未执行/1:执行成功/2:执行失败',
														
 
															+	error_message VARCHAR(255) COMMENT '失败信息',
														
 
															+	executed_time DATETIME COMMENT '执行时间',
														
 
															+    created_at DATETIME DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
														
 
															+    updated_at DATETIME DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',
														
 
															+    INDEX idx_dataset_name (database_name),
														
 
															+    INDEX idx_table_name (table_name),
														
 
															+    INDEX idx_chunk_id (chunk_id),
														
 
															+    INDEX idx_scheduled_time (scheduled_time),
														
 
															+    INDEX idx_status (status)
														
 
															+) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='RagflowChunk记录表';
														
 
															+
														
 
															+-- 创建 维度知识库关联表
														
 
															+CREATE TABLE IF NOT EXISTS dimensional_knowledge (
														
 
															+    id INT AUTO_INCREMENT PRIMARY KEY,
														
 
															+    dimensional_id VARCHAR(64) NOT NULL UNIQUE COMMENT "维度id",
														
 
															+    dimensional_name  VARCHAR(255) NOT NULL COMMENT "维度名称",
														
 
															+    knowledge_id VARCHAR(64) NOT NULL UNIQUE COMMENT "知识库id",
														
 
															+    created_at DATETIME DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
														
 
															+    updated_at DATETIME DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',
														
 
															+    is_active BOOLEAN DEFAULT TRUE COMMENT "是否有效",
														
 
															+    INDEX idx_dimensional_id (dimensional_id),
														
 
															+    INDEX idx_knowledge_id (knowledge_id),
														
 
															+    INDEX idx_is_active (is_active)
														
 
															+) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
														
 
															+
														
 
															+-- 创建 API 密钥表
														
 
															+CREATE TABLE IF NOT EXISTS api_keys (
														
 
															+    id INT AUTO_INCREMENT PRIMARY KEY COMMENT "主键ID",
														
 
															+    api_key VARCHAR(255) NOT NULL UNIQUE COMMENT "API密钥",
														
 
															+    created_at DATETIME DEFAULT CURRENT_TIMESTAMP COMMENT "创建时间",
														
 
															+    expired_at DATETIME NULL COMMENT "过期时间",
														
 
															+    is_active BOOLEAN DEFAULT TRUE COMMENT "是否有效",
														
 
															+    INDEX idx_api_key (api_key),
														
 
															+    INDEX idx_is_active (is_active)
														
 
															+) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci;
														
 
															+
														
 
															+-- 插入一个示例 API 密钥（仅供测试使用）
														
 
															+INSERT IGNORE INTO api_keys (api_key, is_active) VALUES ('sk-test1234567890', TRUE);
														
--- a/docker/Dockerfile
+++ b/docker/Dockerfile
@@ -0,0 +1,37 @@
 
															+# 使用官方 Python 3.12 slim 镜像作为基础镜像
														
 
															+FROM python:3.12-slim
														
 
															+
														
 
															+# 设置工作目录
														
 
															+WORKDIR /app
														
 
															+
														
 
															+# 设置环境变量
														
 
															+ENV PYTHONDONTWRITEBYTECODE=1 \
														
 
															+    PYTHONUNBUFFERED=1 \
														
 
															+    TZ=Asia/Shanghai
														
 
															+
														
 
															+# 安装系统依赖
														
 
															+# build-essential: 编译依赖
														
 
															+# curl: 网络工具
														
 
															+# libgl1-mesa-glx: OpenCV 等库可能需要
														
 
															+RUN apt-get update && apt-get install -y --no-install-recommends \
														
 
															+    build-essential \
														
 
															+    curl \
														
 
															+    libgl1-mesa-glx \
														
 
															+    libglib2.0-0 \
														
 
															+    && rm -rf /var/lib/apt/lists/*
														
 
															+
														
 
															+# 复制依赖文件
														
 
															+COPY requirements.txt .
														
 
															+
														
 
															+# 处理 Windows 特有依赖 (pywin32) 并安装依赖
														
 
															+RUN sed -i '/pywin32/d' requirements.txt && \
														
 
															+    pip install --no-cache-dir -r requirements.txt
														
 
															+
														
 
															+# 复制项目代码
														
 
															+COPY . .
														
 
															+
														
 
															+# 暴露端口
														
 
															+EXPOSE 18001
														
 
															+
														
 
															+# 启动命令
														
 
															+CMD ["python", "main.py"]
														
--- a/docker/docker-compose.yml
+++ b/docker/docker-compose.yml
@@ -0,0 +1,20 @@
 
															+version: '3.8'
														
 
															+
														
 
															+services:
														
 
															+  rag-server:
														
 
															+    container_name: book-rag-server
														
 
															+    build:
														
 
															+      context: ..
														
 
															+      dockerfile: docker/Dockerfile
														
 
															+    restart: always
														
 
															+    ports:
														
 
															+      - "18001:18001"
														
 
															+    volumes:
														
 
															+      - ./.env:/app/.env
														
 
															+      # 开发环境下可取消注释以下行以挂载源码
														
 
															+      # - ../src:/app/src
														
 
															+    environment:
														
 
															+      - TZ=Asia/Shanghai
														
 
															+    # 如果依赖的服务在宿主机(localhost)，请取消注释以下配置并使用 host.docker.internal 作为主机名
														
 
															+    # extra_hosts:
														
 
															+    #   - "host.docker.internal:host-gateway"
														
--- a/docker/start.bat
+++ b/docker/start.bat
@@ -0,0 +1,25 @@
 
															+@echo off
														
 
															+cd /d "%~dp0"
														
 
															+
														
 
															+echo Starting Book RAG Server...
														
 
															+
														
 
															+REM Check for docker-compose or docker compose
														
 
															+where docker-compose >nul 2>nul
														
 
															+if %errorlevel% equ 0 (
														
 
															+    set CMD=docker-compose
														
 
															+) else (
														
 
															+    set CMD=docker compose
														
 
															+)
														
 
															+
														
 
															+echo Using command: %CMD%
														
 
															+%CMD% up -d --build
														
 
															+
														
 
															+if %errorlevel% equ 0 (
														
 
															+    echo.
														
 
															+    echo [SUCCESS] Service started successfully!
														
 
															+    echo You can view logs with: %CMD% logs -f
														
 
															+) else (
														
 
															+    echo.
														
 
															+    echo [ERROR] Failed to start service.
														
 
															+    pause
														
 
															+)
														
--- a/docker/start.sh
+++ b/docker/start.sh
@@ -0,0 +1,34 @@
 
															+#!/bin/bash
														
 
															+
														
 
															+# 切换到脚本所在目录
														
 
															+cd "$(dirname "$0")"
														
 
															+
														
 
															+# 检查 docker 命令
														
 
															+if ! command -v docker &> /dev/null; then
														
 
															+    echo "Error: docker could not be found."
														
 
															+    exit 1
														
 
															+fi
														
 
															+
														
 
															+# 检查 docker-compose 命令 (支持 docker-compose 和 docker compose)
														
 
															+if command -v docker-compose &> /dev/null; then
														
 
															+    DOCKER_COMPOSE_CMD="docker-compose"
														
 
															+elif docker compose version &> /dev/null; then
														
 
															+    DOCKER_COMPOSE_CMD="docker compose"
														
 
															+else
														
 
															+    echo "Error: docker-compose could not be found."
														
 
															+    exit 1
														
 
															+fi
														
 
															+
														
 
															+echo "Starting Book RAG Server with $DOCKER_COMPOSE_CMD..."
														
 
															+
														
 
															+# 构建并启动服务
														
 
															+$DOCKER_COMPOSE_CMD up -d --build
														
 
															+
														
 
															+# 检查启动状态
														
 
															+if [ $? -eq 0 ]; then
														
 
															+    echo "✅ Service started successfully!"
														
 
															+    echo "You can verify the logs with: $DOCKER_COMPOSE_CMD logs -f"
														
 
															+else
														
 
															+    echo "❌ Failed to start service."
														
 
															+    exit 1
														
 
															+fi
														
--- a/main.py
+++ b/main.py
@@ -0,0 +1,122 @@
 
															+# 主应用入口，整合多个 FastAPI 应用
														
 
															+import uvicorn
														
 
															+from fastapi import FastAPI
														
 
															+from contextlib import asynccontextmanager
														
 
															+
														
 
															+# 导入所有子应用
														
 
															+from src.api.sdk.search_infinity import app as search_app
														
 
															+from src.api.sdk.tag_manage import app as tag_app
														
 
															+from src.api.sdk.dataset_manage import app as dataset_app
														
 
															+from src.api.sdk.api_manage import app as api_manage_app
														
 
															+from src.api.sdk.dify_dataset_manage import app as dify_dataset_manage_app
														
 
															+
														
 
															+# 导入认证中间件
														
 
															+from src.utils.auth import verify_api_key
														
 
															+
														
 
															+# 定义主应用的生命周期管理
														
 
															+@asynccontextmanager
														
 
															+async def main_lifespan(app: FastAPI):
														
 
															+    """主应用生命周期管理"""
														
 
															+    from src.utils.infinity import get_client, close_client
														
 
															+    # 1. 初始化Infinity全局客户端（在服务启动时）
														
 
															+    get_client(database="book_image_db", min_connections=5, max_connections=10)
														
 
															+    print("✅ Infinity客户端已初始化")
														
 
															+    
														
 
															+    # 2. 初始化MySQL全局客户端
														
 
															+    from src.utils.mysql import init_global_mysql_client, close_global_mysql_client
														
 
															+    init_global_mysql_client()
														
 
															+    print("✅ MySQL客户端已初始化")
														
 
															+    
														
 
															+    # 3. 初始化MinIO全局客户端并校验存储桶
														
 
															+    from src.utils.file.minio.minio_util import init_minio_client, close_minio_client
														
 
															+    init_minio_client(check_bucket=True)
														
 
															+    print("✅ MinIO客户端已初始化并校验存储桶")
														
 
															+
														
 
															+    # 4. 启动Chunk更新定时任务
														
 
															+    from src.job.chunk_update_job import start_scheduler, shutdown_scheduler
														
 
															+    start_scheduler()
														
 
															+    print("✅ Chunk update scheduler started")
														
 
															+    
														
 
															+    yield
														
 
															+
														
 
															+    # 1. 关闭Chunk更新定时任务
														
 
															+    shutdown_scheduler()
														
 
															+    print("✅ Chunk update scheduler shutdown")
														
 
															+
														
 
															+    # 2. 关闭MinIO全局客户端
														
 
															+    close_minio_client()
														
 
															+    print("✅ MinIO客户端已关闭")
														
 
															+
														
 
															+    # 3. 关闭MySQL全局客户端
														
 
															+    close_global_mysql_client()
														
 
															+    print("✅ MySQL客户端已关闭")
														
 
															+
														
 
															+    # 4. 关闭Infinity全局客户端（在服务关闭时）
														
 
															+    close_client()
														
 
															+    print("✅ Infinity客户端已关闭")
														
 
															+    
														
 
															+
														
 
															+    
														
 
															+
														
 
															+
														
 
															+# 创建主应用
														
 
															+main_app = FastAPI(
														
 
															+    title="Infinity API Gateway",
														
 
															+    description="整合多个 FastAPI 应用的 API 网关",
														
 
															+    version="1.0.0",
														
 
															+    lifespan=main_lifespan
														
 
															+)
														
 
															+
														
 
															+# 添加认证中间件
														
 
															+main_app.middleware("http")(verify_api_key)
														
 
															+# 挂载子应用
														
 
															+# 1. 搜索 API - 访问路径: /search/*
														
 
															+main_app.mount("/search", search_app, name="search_api")
														
 
															+# 2. 标签管理 API - 访问路径: /tag/*
														
 
															+main_app.mount("/tag", tag_app, name="tag_api")
														
 
															+# 3. 数据集管理 API - 访问路径: /dataset/*
														
 
															+main_app.mount("/dataset", dataset_app, name="dataset_api")
														
 
															+# 4. API 管理 - 访问路径: /api/*
														
 
															+main_app.mount("/api", api_manage_app, name="api_manage")
														
 
															+# 5. Dify 数据集管理 API - 访问路径: /dify_dataset/*
														
 
															+main_app.mount("/dify_dataset", dify_dataset_manage_app, name="dify_dataset_manage")
														
 
															+
														
 
															+from src.common.result import Result
														
 
															+
														
 
															+# 主应用根路径
														
 
															+@main_app.get("/")
														
 
															+async def root():
														
 
															+    """API 网关根路径"""
														
 
															+    data = {
														
 
															+        "message": "Welcome to GRAPH_RAG API Gateway",
														
 
															+        "available_apps": {
														
 
															+            "search_api": "访问路径: /search, 文档: /search/docs",
														
 
															+            "hybrid_http_api": "访问路径: /hybrid, 文档: /hybrid/docs",
														
 
															+            "tag_api": "访问路径: /tag, 文档: /tag/docs",
														
 
															+            "dataset_api": "访问路径: /dataset, 文档: /dataset/docs",
														
 
															+            "api_manage": "访问路径: /api, 文档: /api/docs"
														
 
															+        }
														
 
															+    }
														
 
															+    return Result.success(data=data, message="欢迎访问 GRAPH_RAG API Gateway")
														
 
															+
														
 
															+# 健康检查端点
														
 
															+@main_app.get("/health")
														
 
															+async def health_check():
														
 
															+    """主应用健康检查"""
														
 
															+    data = {"status": "healthy", "service": "Infinity API Gateway"}
														
 
															+    return Result.success(data=data, message="服务健康")
														
 
															+
														
 
															+if __name__ == "__main__":
														
 
															+    print("=== 启动 GRAPH_RAG API Gateway ===")
														
 
															+    """启动主应用"""
														
 
															+    uvicorn.run(
														
 
															+        "main:main_app",  # 应用路径: 模块名:应用实例名
														
 
															+        host="0.0.0.0",   # 允许所有IP访问
														
 
															+        port=18001,         # 服务端口
														
 
															+        reload=False,       # 开发模式下自动重载
														
 
															+        workers=1,         # 生产环境可根据需要增加
														
 
															+        log_level="info",   # 日志级别
														
 
															+        limit_concurrency=100,  # 并发连接限制
														
 
															+        timeout_keep_alive=30,  # 保持连接超时
														
 
															+        timeout_graceful_shutdown=10  # 优雅关闭超时
														
 
															+    )
														
--- a/requirements.txt
+++ b/requirements.txt
@@ -0,0 +1,180 @@
 
															+aiohappyeyeballs==2.6.1
														
 
															+aiohttp==3.13.3
														
 
															+aiosignal==1.4.0
														
 
															+annotated-doc==0.0.4
														
 
															+annotated-types==0.7.0
														
 
															+anyio==4.12.0
														
 
															+APScheduler==3.11.2
														
 
															+argon2-cffi==25.1.0
														
 
															+argon2-cffi-bindings==25.1.0
														
 
															+attrs==25.4.0
														
 
															+Authlib==1.6.6
														
 
															+backoff==2.2.1
														
 
															+beartype==0.22.9
														
 
															+cachetools==6.2.4
														
 
															+certifi==2026.1.4
														
 
															+cffi==2.0.0
														
 
															+charset-normalizer==3.4.4
														
 
															+click==8.3.1
														
 
															+cloudpickle==3.1.2
														
 
															+colorama==0.4.6
														
 
															+cryptography==46.0.3
														
 
															+cyclopts==4.4.4
														
 
															+dashscope==1.25.5
														
 
															+dataclasses-json==0.6.7
														
 
															+datrie==0.8.3
														
 
															+DBUtils==3.1.2
														
 
															+diskcache==5.6.3
														
 
															+distro==1.9.0
														
 
															+dnspython==2.8.0
														
 
															+docstring_parser==0.17.0
														
 
															+docutils==0.22.4
														
 
															+elastic-transport==8.17.1
														
 
															+elasticsearch==8.11.1
														
 
															+email-validator==2.3.0
														
 
															+et_xmlfile==2.0.0
														
 
															+exceptiongroup==1.3.1
														
 
															+fakeredis==2.33.0
														
 
															+fastapi==0.128.0
														
 
															+fastmcp==2.14.2
														
 
															+filelock==3.20.2
														
 
															+frozenlist==1.8.0
														
 
															+fsspec==2025.12.0
														
 
															+googleapis-common-protos==1.72.0
														
 
															+greenlet==3.3.0
														
 
															+h11==0.16.0
														
 
															+hanziconv==0.3.2
														
 
															+hf-xet==1.2.0
														
 
															+httpcore==1.0.9
														
 
															+httpx==0.28.1
														
 
															+httpx-sse==0.4.3
														
 
															+huggingface_hub==1.2.3
														
 
															+idna==3.11
														
 
															+importlib_metadata==8.7.1
														
 
															+infinity-sdk==0.6.15
														
 
															+infinity_emb==0.0.77
														
 
															+jaraco.classes==3.4.0
														
 
															+jaraco.context==6.0.2
														
 
															+jaraco.functools==4.4.0
														
 
															+jiter==0.12.0
														
 
															+joblib==1.5.3
														
 
															+jsonpatch==1.33
														
 
															+jsonpointer==3.0.0
														
 
															+jsonschema==4.26.0
														
 
															+jsonschema-path==0.3.4
														
 
															+jsonschema-specifications==2025.9.1
														
 
															+keyring==25.7.0
														
 
															+langchain==1.2.0
														
 
															+langchain-classic==1.0.1
														
 
															+langchain-community==0.4.1
														
 
															+langchain-core==1.2.6
														
 
															+langchain-mcp-adapters==0.2.1
														
 
															+langchain-openai==1.1.6
														
 
															+langchain-text-splitters==1.1.0
														
 
															+langfuse==3.12.0
														
 
															+langgraph==1.0.5
														
 
															+langgraph-checkpoint==3.0.1
														
 
															+langgraph-prebuilt==1.0.5
														
 
															+langgraph-sdk==0.3.1
														
 
															+langsmith==0.6.0
														
 
															+lupa==2.6
														
 
															+markdown-it-py==4.0.0
														
 
															+marshmallow==3.26.2
														
 
															+mcp==1.25.0
														
 
															+mdurl==0.1.2
														
 
															+minio==7.2.20
														
 
															+more-itertools==10.8.0
														
 
															+multidict==6.7.0
														
 
															+mypy_extensions==1.1.0
														
 
															+nltk==3.9.2
														
 
															+numpy==1.26.4
														
 
															+ollama==0.6.1
														
 
															+openai==2.14.0
														
 
															+openapi-pydantic==0.5.1
														
 
															+openpyxl==3.1.5
														
 
															+opentelemetry-api==1.39.1
														
 
															+opentelemetry-exporter-otlp-proto-common==1.39.1
														
 
															+opentelemetry-exporter-otlp-proto-http==1.39.1
														
 
															+opentelemetry-exporter-prometheus==0.60b1
														
 
															+opentelemetry-instrumentation==0.60b1
														
 
															+opentelemetry-proto==1.39.1
														
 
															+opentelemetry-sdk==1.39.1
														
 
															+opentelemetry-semantic-conventions==0.60b1
														
 
															+orjson==3.11.5
														
 
															+ormsgpack==1.12.1
														
 
															+packaging==25.0
														
 
															+pandas==2.3.3
														
 
															+pathable==0.4.4
														
 
															+pathvalidate==3.3.1
														
 
															+pdf2image==1.17.0
														
 
															+pillow==12.1.0
														
 
															+platformdirs==4.5.1
														
 
															+polars-lts-cpu==1.33.1
														
 
															+prometheus_client==0.23.1
														
 
															+propcache==0.4.1
														
 
															+protobuf==6.33.4
														
 
															+py-key-value-aio==0.3.0
														
 
															+py-key-value-shared==0.3.0
														
 
															+pyarrow==22.0.0
														
 
															+pycparser==2.23
														
 
															+pycryptodome==3.23.0
														
 
															+pydantic==2.12.5
														
 
															+pydantic-settings==2.12.0
														
 
															+pydantic_core==2.41.5
														
 
															+pydocket==0.16.3
														
 
															+Pygments==2.19.2
														
 
															+PyJWT==2.10.1
														
 
															+PyMuPDF==1.26.7
														
 
															+PyMySQL==1.1.2
														
 
															+pyperclip==1.11.0
														
 
															+python-dateutil==2.9.0.post0
														
 
															+python-dotenv==1.2.1
														
 
															+python-json-logger==4.0.0
														
 
															+python-multipart==0.0.21
														
 
															+pytz==2025.2
														
 
															+pywin32==311
														
 
															+pywin32-ctypes==0.2.3
														
 
															+PyYAML==6.0.3
														
 
															+ragflow-sdk==0.23.1
														
 
															+readerwriterlock==1.0.9
														
 
															+redis==7.1.0
														
 
															+referencing==0.36.2
														
 
															+regex==2025.11.3
														
 
															+requests==2.32.5
														
 
															+requests-toolbelt==1.0.0
														
 
															+rich==14.2.0
														
 
															+rich-rst==1.3.2
														
 
															+rpds-py==0.30.0
														
 
															+setuptools==80.9.0
														
 
															+shellingham==1.5.4
														
 
															+six==1.17.0
														
 
															+sniffio==1.3.1
														
 
															+sortedcontainers==2.4.0
														
 
															+SQLAlchemy==2.0.45
														
 
															+sqlglot==28.5.0
														
 
															+sqlglotrs==0.10.0
														
 
															+sse-starlette==3.1.2
														
 
															+starlette==0.50.0
														
 
															+tenacity==9.1.2
														
 
															+thrift==0.22.0
														
 
															+tiktoken==0.12.0
														
 
															+tqdm==4.67.1
														
 
															+typer==0.21.1
														
 
															+typer-slim==0.21.0
														
 
															+typing-inspect==0.9.0
														
 
															+typing-inspection==0.4.2
														
 
															+typing_extensions==4.15.0
														
 
															+tzdata==2025.3
														
 
															+tzlocal==5.3.1
														
 
															+urllib3==2.6.2
														
 
															+uuid_utils==0.12.0
														
 
															+uvicorn==0.40.0
														
 
															+websocket-client==1.9.0
														
 
															+websockets==15.0.1
														
 
															+wheel==0.45.1
														
 
															+wrapt==1.17.3
														
 
															+xlrd==2.0.2
														
 
															+xxhash==3.6.0
														
 
															+yarl==1.22.0
														
 
															+zipp==3.23.0
														
 
															+zstandard==0.25.0
														
--- a/src/__init__.py
+++ b/src/__init__.py
--- a/src/api/__init__.py
+++ b/src/api/__init__.py
--- a/src/api/dataset/__init__.py
+++ b/src/api/dataset/__init__.py
--- a/src/api/dataset/models/__init__.py
+++ b/src/api/dataset/models/__init__.py
--- a/src/api/dataset/models/dify_models.py
+++ b/src/api/dataset/models/dify_models.py
@@ -0,0 +1,56 @@
 
															+from pydantic import BaseModel, Field
														
 
															+from typing import List, Optional, Any, Literal
														
 
															+
														
 
															+class Condition(BaseModel):
														
 
															+    """
														
 
															+    筛选条件对象
														
 
															+    """
														
 
															+    name: List[str] = Field(
														
 
															+        ..., 
														
 
															+        description="需要筛选的 metadata 名称路径", 
														
 
															+        example=["category", "tag"]
														
 
															+    )
														
 
															+    comparison_operator: str = Field(
														
 
															+        ..., 
														
 
															+        description="比较操作符，如 contains, equal, empty 等", 
														
 
															+        example="contains"
														
 
															+    )
														
 
															+    value: Optional[str] = Field(
														
 
															+        None, 
														
 
															+        description="对比值。当操作符为 empty, not empty, null, not null 时可省略", 
														
 
															+        example="AI"
														
 
															+    )
														
 
															+
														
 
															+class MetadataCondition(BaseModel):
														
 
															+    """元数据筛选条件（可选）"""
														
 
															+    logical_operator: Literal["and", "or"] = Field(
														
 
															+        default="and", 
														
 
															+        description="组合条件的逻辑运算符"
														
 
															+    )
														
 
															+    conditions: List[Condition] = Field(
														
 
															+        default_factory=list, 
														
 
															+        description="具体的筛选条件列表"
														
 
															+    )
														
 
															+
														
 
															+class RetrievalSetting(BaseModel):
														
 
															+    """检索设置"""
														
 
															+    top_k: int = Field(default=5, description="返回最相关的结果数量")
														
 
															+    score_threshold: float = Field(default=0.0, description="分数阈值筛选")
														
 
															+
														
 
															+class RetrievalRequest(BaseModel):
														
 
															+    """Dify 发送的检索请求体"""
														
 
															+    knowledge_id: str = Field(..., description="知识库ID")
														
 
															+    query: str = Field(..., description="查询字符串")
														
 
															+    retrieval_setting: RetrievalSetting
														
 
															+    metadata_condition: Optional[MetadataCondition] = None
														
 
															+
														
 
															+class Record(BaseModel):
														
 
															+    """单条检索结果记录"""
														
 
															+    content: str = Field(..., description="文本内容")
														
 
															+    score: float = Field(..., description="相关性分数 (0.0 - 1.0)")
														
 
															+    title: str = Field(..., description="文档标题")
														
 
															+    metadata: Optional[dict] = Field(default=None, description="其他元数据")
														
 
															+
														
 
															+class RetrievalResponse(BaseModel):
														
 
															+    """返回给 Dify 的响应体"""
														
 
															+    records: List[Record]
														
--- a/src/api/dataset/services/__init__.py
+++ b/src/api/dataset/services/__init__.py
--- a/src/api/dataset/services/dataset_manage_service.py
+++ b/src/api/dataset/services/dataset_manage_service.py
@@ -0,0 +1,56 @@
 
															+"""
														
 
															+数据集管理服务
														
 
															+
														
 
															+该文件提供数据集管理功能，支持：
														
 
															+- PDF文件解析
														
 
															+- 数据集创建和管理
														
 
															+- 调用PDF解析工作流
														
 
															+"""
														
 
															+
														
 
															+import os
														
 
															+import tempfile
														
 
															+from typing import Dict, Any, Optional
														
 
															+from src.parser.pdf_parser.pdf_parser_workflow import PDFParsingWorkflow
														
 
															+from src.conf.settings import vector_db_settings
														
 
															+
														
 
															+
														
 
															+class DatasetManageService:
														
 
															+    """数据集管理服务类"""
														
 
															+    
														
 
															+    def __init__(self):
														
 
															+        """初始化数据集管理服务"""
														
 
															+        self.pdf_workflow = PDFParsingWorkflow()
														
 
															+    
														
 
															+    def parse_pdf(self, series_name: str, pdf_file: bytes, pdf_filename: str) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        解析PDF文件
														
 
															+        
														
 
															+        Args:
														
 
															+            series_name: 系列名
														
 
															+            pdf_file: PDF文件字节数据
														
 
															+            pdf_filename: PDF文件名
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: 解析结果
														
 
															+        """
														
 
															+        try:
														
 
															+            # 创建临时文件，使用原始文件名称
														
 
															+            temp_dir = tempfile.gettempdir()
														
 
															+            temp_file_path = os.path.join(temp_dir, pdf_filename)
														
 
															+            with open(temp_file_path, 'wb') as temp_file:
														
 
															+                temp_file.write(pdf_file)
														
 
															+            
														
 
															+            try:
														
 
															+                # 运行PDF解析工作流
														
 
															+                result = self.pdf_workflow.run(
														
 
															+                    pdf_path=temp_file_path,
														
 
															+                    page_dataset_id=vector_db_settings.infinity_page_dataset_id,
														
 
															+                    dataset_name=series_name
														
 
															+                )
														
 
															+                
														
 
															+                return result
														
 
															+            finally:
														
 
															+                # 删除临时文件
														
 
															+                os.unlink(temp_file_path)
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"解析PDF文件失败: {str(e)}")
														
--- a/src/api/dataset/services/dify_knowledge_service.py
+++ b/src/api/dataset/services/dify_knowledge_service.py
@@ -0,0 +1,79 @@
 
															+import json
														
 
															+from src.conf.settings import vector_db_settings
														
 
															+from src.utils.infinity import InfinityClient
														
 
															+from src.utils.file.image_util import image_util
														
 
															+from src.model.multimodal_embedding import get_embedding_model
														
 
															+from src.utils.infinity.result_util import convert_to_langchain_docs
														
 
															+from src.api.dataset.models.dify_models import RetrievalRequest
														
 
															+from src.conf.settings import vector_db_settings
														
 
															+
														
 
															+class DifyKnowledgeService:
														
 
															+    def __init__(self, infinity_client: InfinityClient, vector_field: str = None, match_field: str = None, match_type: str = None, table_name: str = None):
														
 
															+        self.infinity_client = infinity_client
														
 
															+        # 输出字段
														
 
															+        self.output_fields = [
														
 
															+                    "file_name",
														
 
															+                    "page_number",
														
 
															+                    "content",
														
 
															+                    "image_path",
														
 
															+                    "dataset_id",
														
 
															+                    "document_id",
														
 
															+                    "_similarity"
														
 
															+                ]
														
 
															+        self.vector_field = vector_field or "dense_vector_1024"
														
 
															+        self.match_field = match_field or "content"
														
 
															+        self.match_type = match_type or "cosine"
														
 
															+        self.table_name = table_name or vector_db_settings.infinity_table_name
														
 
															+
														
 
															+    def dify_database_search(self, request: RetrievalRequest):
														
 
															+        """
														
 
															+        执行Dify数据库搜索
														
 
															+    
														
 
															+        Args:
														
 
															+            retrievalRequest: 搜索查询参数
														
 
															+        
														
 
															+        Returns:
														
 
															+            搜索结果，转换为基本类型以便序列化
														
 
															+        """
														
 
															+        try:
														
 
															+            if request.knowledge_id:
														
 
															+                # table_name = f"{vector_db_settings.infinity_dataset_prefix}{request.knowledge_id}"
														
 
															+                table_name = self.table_name
														
 
															+            else:
														
 
															+                # 抛出异常
														
 
															+                raise Exception("knowledge_id不能为空")
														
 
															+            # 获取检索参数,并解析为json
														
 
															+            try:
														
 
															+                query = json.loads(request.query)
														
 
															+                # 检查query是否包含match_image或match_text
														
 
															+                if "match_image" in query or "matching_text" in query:
														
 
															+                    input_image = query.get("match_image")
														
 
															+                    input_text = query.get("matching_text")
														
 
															+            except json.JSONDecodeError:
														
 
															+                input_text = request.query
														
 
															+
														
 
															+            retrieval_setting = request.retrieval_setting
														
 
															+
														
 
															+            # 1.处理image_url为image: Image.Image
														
 
															+            image = image_util._url_to_image(input_image)
														
 
															+            # 多模态向量
														
 
															+            query_vector = get_embedding_model().get_multimodal_embedding(text=input_text, image=image)
														
 
															+            # 构建搜索查询
														
 
															+            search_query = {
														
 
															+                "vector_field": self.vector_field,
														
 
															+                "query_vector": query_vector,
														
 
															+                "topn": retrieval_setting.top_k,
														
 
															+                "knn_params": {
														
 
															+                    "ef": str(retrieval_setting.top_k * 10),
														
 
															+                    "threshold": str(retrieval_setting.score_threshold)
														
 
															+                }
														
 
															+            }
														
 
															+            # 执行搜索
														
 
															+            result = self.infinity_client.vector_search(table_name, self.output_fields, search_query)  
														
 
															+            # 将结果转换为基本类型，处理可能的复杂类型
														
 
															+            result_dict = result.to_result()
														
 
															+            # 递归转换所有复杂类型为基本类型
														
 
															+            return convert_to_langchain_docs(result_dict)
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"搜索失败: {str(e)}")
														
 
															+
														
--- a/src/api/db/__init__.py
+++ b/src/api/db/__init__.py
--- a/src/api/db/services/__init__.py
+++ b/src/api/db/services/__init__.py
@@ -0,0 +1,3 @@
 
															+# from api.db.services.infinity_search_service import InfinitySearchService
														
 
															+
														
 
															+# search_service = InfinitySearchService()
														
--- a/src/api/db/services/infinity_search_service.py
+++ b/src/api/db/services/infinity_search_service.py
@@ -0,0 +1,97 @@
 
															+from typing import Dict, Any, List
														
 
															+from src.conf.settings import vector_db_settings
														
 
															+from src.utils.infinity import InfinityClient
														
 
															+from src.utils.file.image_util import image_util
														
 
															+from src.model.multimodal_embedding import get_embedding_model
														
 
															+from src.utils.infinity.result_util import convert_to_basic_types
														
 
															+
														
 
															+class InfinitySearchService:
														
 
															+    def __init__(self, infinity_client: InfinityClient, vector_field: str = None, match_field: str = None, match_type: str = None, table_name: str = None):
														
 
															+        self.infinity_client = infinity_client
														
 
															+        # 输出字段
														
 
															+        self.output_fields = [
														
 
															+                    "file_name",
														
 
															+                    "page_number",
														
 
															+                    "content",
														
 
															+                    "image_path",
														
 
															+                    "dataset_id",
														
 
															+                    "document_id"
														
 
															+                ]
														
 
															+        self.vector_field = vector_field or "dense_vector_1024"
														
 
															+        self.match_field = match_field or "content"
														
 
															+        self.match_type = match_type or "cosine"
														
 
															+        self.table_name = table_name or vector_db_settings.infinity_table_name
														
 
															+
														
 
															+    def search(self, search_query: Dict[str, Any]) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        执行Infinity数据库搜索
														
 
															+    
														
 
															+        Args:
														
 
															+            search_query: 搜索查询参数
														
 
															+        
														
 
															+        Returns:
														
 
															+            搜索结果，转换为基本类型以便序列化
														
 
															+        """
														
 
															+        try:
														
 
															+            # 执行搜索
														
 
															+            result = self.infinity_client.search(self.table_name, self.output_fields, search_query)
														
 
															+            # 将结果转换为基本类型，处理可能的复杂类型
														
 
															+            result_dict = result.to_result()
														
 
															+            # 递归转换所有复杂类型为基本类型
														
 
															+            return convert_to_basic_types(result_dict)
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"搜索失败: {str(e)}")
														
 
															+
														
 
															+    def vector_search(self, search_query: Dict[str, Any]):
														
 
															+        """
														
 
															+        执行Infinity数据库向量检索
														
 
															+    
														
 
															+        Args:
														
 
															+            search_query: 向量检索查询参数
														
 
															+        
														
 
															+        Returns:
														
 
															+            向量检索结果，转换为基本类型以便序列化
														
 
															+        """
														
 
															+        try:
														
 
															+            # 1.处理image_url为image: Image.Image
														
 
															+            image = image_util._url_to_image(search_query["image_url"])
														
 
															+            # 2.将图片进行向量化
														
 
															+            query_vector = get_embedding_model().get_multimodal_embedding(search_query["matching_text"], image)
														
 
															+
														
 
															+            search_query["vector_field"] = self.vector_field
														
 
															+            search_query["query_vector"] = query_vector
														
 
															+            # 执行向量检索
														
 
															+            result = self.infinity_client.vector_search(self.table_name, self.output_fields, search_query)
														
 
															+            # 将结果转换为基本类型，处理可能的复杂类型
														
 
															+            result_dict = result.to_result()
														
 
															+            # 递归转换所有复杂类型为基本类型
														
 
															+            return convert_to_basic_types(result_dict)
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"向量检索失败: {str(e)}")
														
 
															+
														
 
															+    def hybrid_search(self, search_query: Dict[str, Any]):
														
 
															+        """
														
 
															+        执行Infinity数据库混合检索
														
 
															+    
														
 
															+        Args:
														
 
															+            search_query: 混合检索查询参数
														
 
															+        
														
 
															+        Returns:
														
 
															+            混合检索结果，转换为基本类型以便序列化
														
 
															+        """
														
 
															+        try:
														
 
															+            # 1.处理image_url为image: Image.Image
														
 
															+            image = image_util._url_to_image(search_query["image_url"])
														
 
															+            # 2.将图片进行向量化
														
 
															+            query_vector = get_embedding_model().get_multimodal_embedding(search_query["matching_text"], image)
														
 
															+            search_query["vector_field"] = self.vector_field
														
 
															+            search_query["query_vector"] = query_vector
														
 
															+            search_query["match_field"] = self.match_field
														
 
															+            # 执行混合检索
														
 
															+            result = self.infinity_client.hybrid_search(self.table_name, self.output_fields, search_query)
														
 
															+            # 将结果转换为基本类型，处理可能的复杂类型
														
 
															+            result_dict = result.to_result()
														
 
															+            # 递归转换所有复杂类型为基本类型
														
 
															+            return convert_to_basic_types(result_dict)
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"混合检索失败: {str(e)}")
														
--- a/src/api/db/services/tag_service.py
+++ b/src/api/db/services/tag_service.py
@@ -0,0 +1,214 @@
 
															+from typing import List, Dict, Any, Optional
														
 
															+from abc import ABC, abstractmethod
														
 
															+from src.utils.ragflow.ragflow_service import RAGFlowService
														
 
															+from src.utils.infinity import InfinityClient
														
 
															+from src.conf.settings import tag_search_settings
														
 
															+
														
 
															+
														
 
															+
														
 
															+class TagService(ABC):
														
 
															+    """标签管理服务接口"""
														
 
															+    
														
 
															+    @abstractmethod
														
 
															+    def create_tag(self, tag_data: Dict[str, Any]) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        新增标签
														
 
															+        
														
 
															+        Args:
														
 
															+            tag_data: 标签数据，包含标签名称、描述等信息
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: 创建成功的标签信息
														
 
															+        """
														
 
															+        pass
														
 
															+    
														
 
															+    @abstractmethod
														
 
															+    def upload_tags(self, tags_data: List[Dict[str, Any]]) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        批量上传标签
														
 
															+        
														
 
															+        Args:
														
 
															+            tags_data: 标签数据列表，每个元素包含标签名称、描述等信息
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: 上传结果，包含成功数量、失败数量等信息
														
 
															+        """
														
 
															+        pass
														
 
															+    
														
 
															+    @abstractmethod
														
 
															+    def delete_tag(self, tag_id: str) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        删除标签
														
 
															+        
														
 
															+        Args:
														
 
															+            tag_id: 标签ID
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: 删除结果
														
 
															+        """
														
 
															+        pass
														
 
															+
														
 
															+
														
 
															+class TagServiceImpl(TagService):
														
 
															+    """标签管理服务实现"""
														
 
															+    
														
 
															+    def __init__(self, infinity_client: InfinityClient):
														
 
															+        """
														
 
															+        初始化标签服务
														
 
															+        
														
 
															+        Args:
														
 
															+            db_client: 数据库客户端实例
														
 
															+        """
														
 
															+        self.tag_dataset_id=tag_search_settings.tag_dataset_id
														
 
															+        self.tag_document_id=tag_search_settings.tag_document_id
														
 
															+        self.ragflow_service = RAGFlowService()
														
 
															+        self.infinity_client = infinity_client
														
 
															+    
														
 
															+    def create_tag(self, tag_data: Dict[str, Any]) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        新增标签
														
 
															+        
														
 
															+        Args:
														
 
															+            tag_data: 标签数据，包含标签名称、描述等信息
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: 创建成功的标签信息
														
 
															+        """
														
 
															+        tag_name = tag_data["name"]
														
 
															+        tag_desc = tag_data["description"]
														
 
															+        age_range = tag_data["age_range"]
														
 
															+        # 步骤1：将分块数据写入ragflow
														
 
															+        chunk = self.ragflow_service.create_chunk(dataset_id=self.tag_dataset_id,
														
 
															+                                                  document_id=self.tag_document_id,
														
 
															+                                                  content=tag_desc,
														
 
															+                                                  important_keywords=[age_range])
														
 
															+        chunk_id = chunk["chunk"]["id"]
														
 
															+        # 步骤2： 调用infinity的update方法，将标签更新到块数据中
														
 
															+        res = self.infinity_client.update(f"id = {chunk_id}", {"tag_kwd": tag_name})
														
 
															+        if res["code"] != 0:
														
 
															+            raise Exception(f"更新标签到infinity失败: {res}")
														
 
															+        
														
 
															+        # 返回创建成功的标签信息
														
 
															+        return {
														
 
															+            "name": tag_name,
														
 
															+            "description": tag_desc,
														
 
															+            "age_range": age_range,
														
 
															+            "chunk_id": chunk_id,
														
 
															+            "ragflow_chunk": chunk,
														
 
															+            "infinity_update_result": res
														
 
															+        }
														
 
															+    
														
 
															+    def upload_tags(self, tags_data: List[Dict[str, Any]]) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        批量上传标签
														
 
															+        
														
 
															+        Args:
														
 
															+            tags_data: 标签数据列表，每个元素包含一级标签、二级标签、三级标签、标签描述等信息
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: 上传结果，包含成功数量、失败数量等信息
														
 
															+        """
														
 
															+        success_count = 0
														
 
															+        fail_count = 0
														
 
															+        failed_tags = []
														
 
															+
														
 
															+        tag_data_list = self.get_tag_data(tags_data)
														
 
															+        # 标签数据入库
														
 
															+        for tag_data in tag_data_list:
														
 
															+            tag_name = tag_data["name"]
														
 
															+            tag_desc = tag_data["description"]
														
 
															+            age_range = tag_data["age_range"]
														
 
															+            # 步骤1：将分块数据写入ragflow
														
 
															+            chunk = self.ragflow_service.create_chunk(dataset_id=self.tag_dataset_id,
														
 
															+                                                  document_id=self.tag_document_id,
														
 
															+                                                  content=tag_desc,
														
 
															+                                                  important_keywords=[age_range])
														
 
															+            chunk_id = chunk["chunk"]["id"]        
														
 
															+            print(f"分块数据写入成功, chunk_id: {chunk_id}")
														
 
															+            # 步骤2： 调用infinity的update方法，将标签更新到块数据中
														
 
															+            res = self.infinity_client.update(table_name="ragflow_92162247e93e11f084830242ac1d0002_18caf531f04d11f095670242c0a85002", 
														
 
															+                                              cond=f"id = '{chunk_id}'", 
														
 
															+                                              data={"tag_kwd": tag_name},
														
 
															+                                              database_name="default_db")
														
 
															+            print(f"更新标签 {tag_name} 到 infinity 结果: {res}")
														
 
															+            if res.error_code == 0:
														
 
															+                print(f"标签 {tag_name} 更新到 infinity 成功")
														
 
															+                success_count += 1
														
 
															+            else:
														
 
															+                fail_count += 1
														
 
															+                failed_tags.append({"age_range": age_range, "tag_name": tag_name, "tag_desc": tag_desc, "error": res})
														
 
															+        return {
														
 
															+            "success": True,
														
 
															+            "total": len(tags_data),
														
 
															+            "success_count": success_count,
														
 
															+            "fail_count": fail_count,
														
 
															+            "failed_tags": failed_tags
														
 
															+        }
														
 
															+    
														
 
															+    def delete_tag(self, tag_id: str) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        删除标签
														
 
															+        
														
 
															+        Args:
														
 
															+            tag_id: 标签ID
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: 删除结果
														
 
															+        """
														
 
															+        pass
														
 
															+
														
 
															+    def get_tag_data(self, tags_data: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
														
 
															+        import json
														
 
															+        import os
														
 
															+        
														
 
															+        # 读取年龄段配置文件
														
 
															+        age_level_path = os.path.join(os.path.dirname(os.path.dirname(os.path.dirname(os.path.dirname(__file__)))), "conf", "age_level.json")
														
 
															+        with open(age_level_path, "r", encoding="utf-8") as f:
														
 
															+            age_level_map = json.load(f)
														
 
															+        
														
 
															+        # 存储转换后的标签数据
														
 
															+        formatted_tags = []
														
 
															+        
														
 
															+        # 遍历标签数据列表，验证每个标签数据是否符合要求，并按照要求格式输出
														
 
															+        for tag_data in tags_data:
														
 
															+            # 提取标签数据
														
 
															+            age_level_code = tag_data.get("年龄分级", "")  # 年龄分级编码
														
 
															+            one_tag = tag_data.get("一级标签", "")  # 一级标签
														
 
															+            two_tag = tag_data.get("二级标签", "")  # 二级标签
														
 
															+            three_tag = tag_data.get("三级标签", "")  # 三级标签
														
 
															+            tag_desc = tag_data.get("标签描述", "")  # 标签描述
														
 
															+                
														
 
															+            # 生成标签名称：一级标签_二级标签_三级标签
														
 
															+            tag_name = f"{one_tag}_{two_tag}_{three_tag}"
														
 
															+                
														
 
															+            # 获取年龄段
														
 
															+            age_range = age_level_map.get(age_level_code, "")
														
 
															+                
														
 
															+            # 构建最终标签数据
														
 
															+            formatted_tag_data = {
														
 
															+                "name": tag_name,
														
 
															+                "description": tag_desc,
														
 
															+                "age_range": age_range
														
 
															+            }
														
 
															+            
														
 
															+            # 将转换后的标签数据添加到列表中
														
 
															+            formatted_tags.append(formatted_tag_data)
														
 
															+        
														
 
															+        # 返回转换后的标签数据集合
														
 
															+        return formatted_tags
														
 
															+
														
 
															+class TagServiceFactory:
														
 
															+    """标签服务工厂类"""
														
 
															+    
														
 
															+    @staticmethod
														
 
															+    def create_tag_service(db_client) -> TagService:
														
 
															+        """
														
 
															+        创建标签服务实例
														
 
															+        
														
 
															+        Args:
														
 
															+            db_client: 数据库客户端实例
														
 
															+            
														
 
															+        Returns:
														
 
															+            TagService: 标签服务实例
														
 
															+        """
														
 
															+        return TagServiceImpl(db_client)
														
--- a/src/api/mcp/__init__.py
+++ b/src/api/mcp/__init__.py
--- a/src/api/mcp/hybrid_search_mcp.py
+++ b/src/api/mcp/hybrid_search_mcp.py
@@ -0,0 +1,98 @@
 
															+#!/usr/bin/env python3
														
 
															+"""
														
 
															+混合检索MCP服务
														
 
															+使用fastmcp框架实现，提供图片解析后的向量化入库和混合检索功能
														
 
															+"""
														
 
															+import requests
														
 
															+from io import BytesIO
														
 
															+from typing import List, Dict, Any
														
 
															+from fastmcp import FastMCP
														
 
															+from PIL import Image
														
 
															+from src.utils.infinity_util import InfinityVectorDB
														
 
															+from src.model.multimodal_embedding import Embedding
														
 
															+from src.conf.settings import model_settings, ragflow_settings, vector_db_settings
														
 
															+
														
 
															+
														
 
															+
														
 
															+# 初始化fastmcp应用
														
 
															+mcp = FastMCP("Multi_Vector_Search")
														
 
															+
														
 
															+# 初始化向量数据库
														
 
															+vector_db = InfinityVectorDB()
														
 
															+
														
 
															+# 初始化多模态嵌入模型
														
 
															+embedding_model = Embedding(
														
 
															+    model_name=model_settings.multimodal_embedding_model_name,
														
 
															+    api_key=model_settings.dashscope_api_key
														
 
															+)
														
 
															+
														
 
															+@mcp.tool(name="hybrid_search")
														
 
															+def hybrid_search(request: Dict[str, Any]) -> Dict[str, Any]:
														
 
															+    """
														
 
															+    混合检索API
														
 
															+    使用文本查询和向量查询进行混合检索
														
 
															+    """
														
 
															+    try:
														
 
															+        # 解析请求参数
														
 
															+        text_query = request["text_query"]
														
 
															+        image_url = request["image"]
														
 
															+        topn = request.get("topn", 2)
														
 
															+        
														
 
															+        print(f"开始混合检索，数据库: {vector_db_settings.infinity_database}, 知识库id: {ragflow_settings.dataset_id}, 文本查询: {text_query}, 返回数量: {topn}")
														
 
															+        
														
 
															+        # 构建索引名称
														
 
															+        index_name = f"pdf_documents_{ragflow_settings.dataset_id}"        
														
 
															+        print(f"开始生成多模态嵌入，文本长度: {len(text_query)}")
														
 
															+        
														
 
															+        # 处理image_url为image: Image.Image
														
 
															+        if isinstance(image_url, str):
														
 
															+                # 下载图片
														
 
															+                response = requests.get(image_url)
														
 
															+                response.raise_for_status()  # 检查HTTP状态码
														
 
															+    
														
 
															+                # 将响应内容转换为字节流
														
 
															+                image_bytes = BytesIO(response.content)
														
 
															+    
														
 
															+                # 创建Image对象
														
 
															+                image = Image.open(image_bytes)
														
 
															+        
														
 
															+        # 生成多模态嵌入向量
														
 
															+        embedding = embedding_model.get_multimodal_embedding(text_query, image)
														
 
															+        
														
 
															+        print(f"多模态嵌入生成完成，向量长度: {len(embedding)}")
														
 
															+        
														
 
															+        # 执行混合检索
														
 
															+        result = vector_db.hybrid_search(
														
 
															+            index_name=index_name,
														
 
															+            match_method="dense",
														
 
															+            vector_field="dense_vector_1024",
														
 
															+            query_vector=embedding,
														
 
															+            element_type="float",
														
 
															+            metric_type="cosine",
														
 
															+            topn=topn,
														
 
															+            text_query=text_query,
														
 
															+            text_field="content"
														
 
															+        )
														
 
															+        
														
 
															+        print(f"混合检索完成，总命中数: {result.get('total', 0)}")
														
 
															+        
														
 
															+        # 返回成功响应
														
 
															+        return {
														
 
															+            "success": True,
														
 
															+            "message": "混合检索成功",
														
 
															+            "output": result.get("output", []),
														
 
															+            "total": result.get("total", topn)
														
 
															+        }
														
 
															+    except Exception as e:
														
 
															+        print(f"混合检索失败: {str(e)}")
														
 
															+        return {
														
 
															+            "success": False,
														
 
															+            "message": str(e)
														
 
															+        }
														
 
															+
														
 
															+
														
 
															+if __name__ == "__main__":
														
 
															+    mcp.run(transport="sse", host="0.0.0.0", port=18000)
														
 
															+    # 启动HTTP服务器，使用uvicorn运行FastAPI应用
														
 
															+    # import uvicorn
														
 
															+    # uvicorn.run(mcp.http_app, host="0.0.0.0", port=18000, transport="stdio")
														
--- a/src/api/sdk/__init__.py
+++ b/src/api/sdk/__init__.py
--- a/src/api/sdk/api_manage.py
+++ b/src/api/sdk/api_manage.py
@@ -0,0 +1,139 @@
 
															+"""
														
 
															+API key management endpoints
														
 
															+"""
														
 
															+from fastapi import FastAPI, HTTPException, Depends
														
 
															+from typing import List, Dict, Any, Optional
														
 
															+from src.utils.mysql import get_global_mysql_client
														
 
															+from datetime import datetime, timedelta
														
 
															+import secrets
														
 
															+import string
														
 
															+from src.common.result import Result
														
 
															+
														
 
															+app = FastAPI(
														
 
															+    title="API Key Management",
														
 
															+    description="API for managing API keys",
														
 
															+    version="1.0.0"
														
 
															+)
														
 
															+
														
 
															+
														
 
															+def generate_api_key() -> str:
														
 
															+    """
														
 
															+    Generate a new API key in format sk-<random-string>
														
 
															+    """
														
 
															+    # Generate random string
														
 
															+    alphabet = string.ascii_letters + string.digits
														
 
															+    random_string = ''.join(secrets.choice(alphabet) for _ in range(32))
														
 
															+    return f"sk-{random_string}"
														
 
															+
														
 
															+
														
 
															+@app.post("/generate")
														
 
															+async def generate_api_key_endpoint(expiry_days: Optional[int] = None):
														
 
															+    """
														
 
															+    Generate a new API key
														
 
															+    """
														
 
															+    try:
														
 
															+        api_key = generate_api_key()
														
 
															+        mysql_client = get_global_mysql_client()
														
 
															+        
														
 
															+        # Calculate expiration date if provided
														
 
															+        expired_at = None
														
 
															+        if expiry_days:
														
 
															+            expired_at = datetime.now() + timedelta(days=expiry_days)
														
 
															+        
														
 
															+        # Insert API key into database
														
 
															+        query = """
														
 
															+        INSERT INTO api_keys (api_key, expired_at, is_active)
														
 
															+        VALUES (%s, %s, TRUE)
														
 
															+        """
														
 
															+        mysql_client.execute(query, [api_key, expired_at])
														
 
															+        
														
 
															+        data = {
														
 
															+            "api_key": api_key,
														
 
															+            "created_at": datetime.now().isoformat(),
														
 
															+            "expired_at": expired_at.isoformat() if expired_at else None
														
 
															+        }
														
 
															+        
														
 
															+        return Result.success(data=data, message="API key 生成成功")
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        return Result.error(code=500, message=f"生成 API key 失败: {str(e)}")
														
 
															+
														
 
															+
														
 
															+@app.get("/list")
														
 
															+async def list_api_keys():
														
 
															+    """
														
 
															+    List all API keys
														
 
															+    """
														
 
															+    try:
														
 
															+        mysql_client = get_global_mysql_client()
														
 
															+        query = """
														
 
															+        SELECT id, api_key, created_at, expired_at, is_active
														
 
															+        FROM api_keys
														
 
															+        ORDER BY created_at DESC
														
 
															+        """
														
 
															+        result = mysql_client.fetch_all(query)
														
 
															+        
														
 
															+        return Result.success(data=result, message="获取 API keys 成功")
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        return Result.error(code=500, message=f"获取 API keys 失败: {str(e)}")
														
 
															+
														
 
															+
														
 
															+@app.put("/toggle/{api_key_id}")
														
 
															+async def toggle_api_key(api_key_id: int):
														
 
															+    """
														
 
															+    Toggle API key activation status
														
 
															+    """
														
 
															+    try:
														
 
															+        mysql_client = get_global_mysql_client()
														
 
															+        
														
 
															+        # Check if API key exists
														
 
															+        query = "SELECT is_active FROM api_keys WHERE id = %s"
														
 
															+        result = mysql_client.fetch_one(query, [api_key_id])
														
 
															+        
														
 
															+        if not result:
														
 
															+            return Result.error(code=404, message="API key 不存在")
														
 
															+        
														
 
															+        # Toggle status
														
 
															+        new_status = not result["is_active"]
														
 
															+        update_query = "UPDATE api_keys SET is_active = %s WHERE id = %s"
														
 
															+        mysql_client.execute(update_query, [new_status, api_key_id])
														
 
															+        
														
 
															+        data = {
														
 
															+            "api_key_id": api_key_id,
														
 
															+            "is_active": new_status
														
 
															+        }
														
 
															+        
														
 
															+        return Result.success(data=data, message="API key 状态更新成功")
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        return Result.error(code=500, message=f"更新 API key 状态失败: {str(e)}")
														
 
															+
														
 
															+
														
 
															+@app.delete("/delete/{api_key_id}")
														
 
															+async def delete_api_key(api_key_id: int):
														
 
															+    """
														
 
															+    Delete API key
														
 
															+    """
														
 
															+    try:
														
 
															+        mysql_client = get_global_mysql_client()
														
 
															+        
														
 
															+        # Check if API key exists
														
 
															+        query = "SELECT id FROM api_keys WHERE id = %s"
														
 
															+        result = mysql_client.fetch_one(query, [api_key_id])
														
 
															+        
														
 
															+        if not result:
														
 
															+            return Result.error(code=404, message="API key 不存在")
														
 
															+        
														
 
															+        # Delete API key
														
 
															+        delete_query = "DELETE FROM api_keys WHERE id = %s"
														
 
															+        mysql_client.execute(delete_query, [api_key_id])
														
 
															+        
														
 
															+        data = {
														
 
															+            "api_key_id": api_key_id
														
 
															+        }
														
 
															+        
														
 
															+        return Result.success(data=data, message="API key 删除成功")
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        return Result.error(code=500, message=f"删除 API key 失败: {str(e)}")
														
--- a/src/api/sdk/dataset_manage.py
+++ b/src/api/sdk/dataset_manage.py
@@ -0,0 +1,54 @@
 
															+"""
														
 
															+数据集管理 API
														
 
															+
														
 
															+该文件提供数据集管理的 API 接口，支持：
														
 
															+- PDF 文件上传和解析
														
 
															+- 数据集创建
														
 
															+"""
														
 
															+
														
 
															+from fastapi import FastAPI, UploadFile, File, Form
														
 
															+from src.api.dataset.services.dataset_manage_service import DatasetManageService
														
 
															+from src.common.result import Result
														
 
															+
														
 
															+
														
 
															+# 创建 FastAPI 应用
														
 
															+app = FastAPI(
														
 
															+    title="数据集管理 API",
														
 
															+    description="数据集管理服务，提供 PDF 解析和数据集创建功能",
														
 
															+    version="1.0.0"
														
 
															+)
														
 
															+
														
 
															+# 创建数据集管理服务实例
														
 
															+dataset_service = DatasetManageService()
														
 
															+
														
 
															+
														
 
															+@app.post("/parse-pdf")
														
 
															+async def parse_pdf(
														
 
															+    file: UploadFile = File(...),
														
 
															+    series_name: str = Form(...)
														
 
															+    
														
 
															+):
														
 
															+    """
														
 
															+    解析 PDF 文件接口
														
 
															+    
														
 
															+    - **file**: PDF 文件附件
														
 
															+    - **series_name**: 系列名
														
 
															+    """
														
 
															+    try:
														
 
															+        # 验证文件格式
														
 
															+        if not file.filename.endswith((".pdf", ".PDF")):
														
 
															+            return Result.error(code=400, message="只支持 PDF 格式的文件")
														
 
															+        
														
 
															+        # 读取文件内容
														
 
															+        file_content = await file.read()
														
 
															+        
														
 
															+        # 调用解析 PDF 方法
														
 
															+        result = dataset_service.parse_pdf(
														
 
															+            series_name=series_name,
														
 
															+            pdf_file=file_content,
														
 
															+            pdf_filename=file.filename
														
 
															+        )
														
 
															+        
														
 
															+        return Result.success(data=result, message="PDF 解析成功")
														
 
															+    except Exception as e:
														
 
															+        return Result.error(code=500, message=f"解析 PDF 文件失败: {str(e)}")
														
--- a/src/api/sdk/dify_dataset_manage.py
+++ b/src/api/sdk/dify_dataset_manage.py
@@ -0,0 +1,28 @@
 
															+import uvicorn
														
 
															+from fastapi import FastAPI
														
 
															+from src.api.dataset.models.dify_models import RetrievalRequest, RetrievalResponse, Record
														
 
															+from src.api.dataset.services.dify_knowledge_service import DifyKnowledgeService
														
 
															+from src.utils.infinity import get_client
														
 
															+
														
 
															+app = FastAPI(    
														
 
															+    title="Dify External Knowledge API",
														
 
															+    description="基于Infinity向量数据库的搜索API服务",
														
 
															+    version="1.0.0"
														
 
															+    )
														
 
															+
														
 
															+
														
 
															+@app.post("/retrieval", response_model=RetrievalResponse)
														
 
															+async def retrieval(request: RetrievalRequest):
														
 
															+    # 打印收到的筛选条件，方便调试
														
 
															+    dify_knowledge_service = DifyKnowledgeService(infinity_client=get_client())
														
 
															+    result = dify_knowledge_service.dify_database_search(request)
														
 
															+    records = [Record(
														
 
															+        content=item.page_content,
														
 
															+        score=item.metadata["SIMILARITY"],
														
 
															+        title=item.metadata["file_name"],
														
 
															+        metadata=item.metadata
														
 
															+    ) for item in result]
														
 
															+    return RetrievalResponse(records=records)
														
 
															+
														
 
															+if __name__ == "__main__":
														
 
															+    uvicorn.run("main:app", host="0.0.0.0", port=8000, reload=True)
														
--- a/src/api/sdk/search_infinity.py
+++ b/src/api/sdk/search_infinity.py
@@ -0,0 +1,78 @@
 
															+# Infinity搜索API服务
														
 
															+
														
 
															+from fastapi import FastAPI, HTTPException
														
 
															+from typing import List, Dict, Any, Optional
														
 
															+from src.api.db.services.infinity_search_service import InfinitySearchService
														
 
															+from src.utils.infinity import get_client
														
 
															+from src.common.result import Result
														
 
															+from src.utils.async_utils import run_in_threadpool
														
 
															+
														
 
															+
														
 
															+# 创建FastAPI应用
														
 
															+
														
 
															+app = FastAPI(
														
 
															+    title="Infinity Search API",
														
 
															+    description="基于Infinity向量数据库的搜索API服务",
														
 
															+    version="1.0.0"
														
 
															+)
														
 
															+
														
 
															+# 请求模型
														
 
															+from pydantic import BaseModel
														
 
															+
														
 
															+class SearchRequest(BaseModel):
														
 
															+    """搜索请求模型"""
														
 
															+    search_query: Dict[str, Any]
														
 
															+
														
 
															+# 1. 普通搜索接口
														
 
															+@app.post("/text")
														
 
															+async def search(request: SearchRequest):
														
 
															+    """
														
 
															+    普通搜索接口
														
 
															+    
														
 
															+    - **table_name**: 表名
														
 
															+    - **output_fields**: 要返回的字段列表
														
 
															+    - **query**: 查询条件，包含field、query和topn字段
														
 
															+    - **database_name**: 数据库名称（可选，默认使用客户端配置的数据库）
														
 
															+    """
														
 
															+    try:
														
 
															+        search_service = InfinitySearchService(infinity_client=get_client())
														
 
															+        result = await run_in_threadpool(search_service.search, request.search_query)
														
 
															+        return Result.success(data=result, message="搜索成功")
														
 
															+    except Exception as e:
														
 
															+        return Result.error(code=500, message=f"搜索失败: {str(e)}")
														
 
															+
														
 
															+# 2. 向量搜索接口
														
 
															+@app.post("/vector")
														
 
															+async def vector_search(request: SearchRequest):
														
 
															+    """
														
 
															+    向量搜索接口
														
 
															+    
														
 
															+    - **table_name**: 表名
														
 
															+    - **output_fields**: 要返回的字段列表
														
 
															+    - **query**: 查询条件，包含vector_field、query_vector和topn字段
														
 
															+    - **database_name**: 数据库名称（可选，默认使用客户端配置的数据库）
														
 
															+    """
														
 
															+    try:
														
 
															+        search_service = InfinitySearchService(infinity_client=get_client())
														
 
															+        result = await run_in_threadpool(search_service.vector_search, request.search_query)
														
 
															+        return Result.success(data=result, message="向量搜索成功")
														
 
															+    except Exception as e:
														
 
															+        return Result.error(code=500, message=f"向量搜索失败: {str(e)}")
														
 
															+
														
 
															+# 3. 混合搜索接口
														
 
															+@app.post("/hybrid")
														
 
															+async def hybrid_search(request: SearchRequest):
														
 
															+    """
														
 
															+    混合搜索接口
														
 
															+    
														
 
															+    - **table_name**: 表名
														
 
															+    - **output_fields**: 要返回的字段列表
														
 
															+    - **query**: 查询条件，包含vector_field、query_vector、field、query、topn和fusion_weight字段
														
 
															+    - **database_name**: 数据库名称（可选，默认使用客户端配置的数据库）
														
 
															+    """
														
 
															+    try:
														
 
															+        search_service = InfinitySearchService(infinity_client=get_client())
														
 
															+        result = await run_in_threadpool(search_service.hybrid_search, request.search_query)
														
 
															+        return Result.success(data=result, message="混合搜索成功")
														
 
															+    except Exception as e:
														
 
															+        return Result.error(code=500, message=f"混合搜索失败: {str(e)}")
														
--- a/src/api/sdk/tag_manage.py
+++ b/src/api/sdk/tag_manage.py
@@ -0,0 +1,93 @@
 
															+# 标签管理API服务
														
 
															+import os
														
 
															+import tempfile
														
 
															+from pydantic import BaseModel
														
 
															+from fastapi import FastAPI, HTTPException, UploadFile, File
														
 
															+from typing import List, Dict, Any, Optional
														
 
															+from src.api.db.services.tag_service import TagServiceFactory
														
 
															+from src.utils.infinity import get_client
														
 
															+from src.utils.excel_util import excel_util
														
 
															+from src.common.result import Result
														
 
															+
														
 
															+
														
 
															+# 创建FastAPI应用
														
 
															+app = FastAPI(
														
 
															+    title="标签管理 API",
														
 
															+    description="标签管理服务，提供标签上传、查询、删除等功能",
														
 
															+    version="1.0.0"
														
 
															+)
														
 
															+
														
 
															+
														
 
															+# 请求模型
														
 
															+class TagCreateRequest(BaseModel):
														
 
															+    """创建标签请求模型"""
														
 
															+    name: str  # 标签名称，格式：一级标签_二级标签_三级标签
														
 
															+    description: str  # 标签描述
														
 
															+    age_range: str  # 年龄段，如：0-2、2-3等
														
 
															+
														
 
															+
														
 
															+# 1. 标签上传接口
														
 
															+@app.post("/upload")
														
 
															+async def upload_tags(file: UploadFile = File(...)):
														
 
															+    """
														
 
															+    批量上传标签接口
														
 
															+    
														
 
															+    - **file**: Excel格式的标签文件，包含年龄分级、一级标签、二级标签、三级标签、标签描述字段
														
 
															+    
														
 
															+    Excel文件格式要求：
														
 
															+    - 支持 .xlsx 和 .xls 格式
														
 
															+    - 第一行为表头，包含：年龄分级、一级标签、二级标签、三级标签、标签描述
														
 
															+    - 年龄分级字段值应为 L1-L8 之间的一个（如 L1、L2 等）
														
 
															+    """
														
 
															+    try:
														
 
															+        # 验证文件格式
														
 
															+        file_ext = os.path.splitext(file.filename)[1].lower()
														
 
															+        if file_ext not in [".xlsx", ".xls"]:
														
 
															+            return Result.error(code=400, message=f"不支持的文件格式 {file_ext}，只支持 .xlsx 和 .xls 格式")
														
 
															+        
														
 
															+        # 创建临时文件
														
 
															+        with tempfile.NamedTemporaryFile(suffix=file_ext, delete=False) as temp_file:
														
 
															+            temp_file.write(await file.read())
														
 
															+            temp_file_path = temp_file.name
														
 
															+        
														
 
															+        try:
														
 
															+            # 解析Excel文件获取标签数据
														
 
															+            tags_data = excel_util.parse_excel(file_path=temp_file_path)
														
 
															+            
														
 
															+            # 使用工厂类创建标签服务实例
														
 
															+            tag_service = TagServiceFactory.create_tag_service(get_client())
														
 
															+            
														
 
															+            # 调用批量上传标签方法
														
 
															+            result = tag_service.upload_tags(tags_data)
														
 
															+            
														
 
															+            return Result.success(data=result, message="标签上传成功")
														
 
															+        finally:
														
 
															+            # 删除临时文件
														
 
															+            os.unlink(temp_file_path)
														
 
															+    except Exception as e:
														
 
															+        return Result.error(code=500, message=f"标签上传失败: {str(e)}")
														
 
															+
														
 
															+
														
 
															+# 2. 新增标签接口
														
 
															+@app.post("/create")
														
 
															+async def create_tag(request: TagCreateRequest):
														
 
															+    """
														
 
															+    新增标签接口
														
 
															+    
														
 
															+    - **name**: 标签名称，格式为：一级标签_二级标签_三级标签
														
 
															+    - **description**: 标签描述，详细说明标签的含义和用途
														
 
															+    - **age_range**: 年龄段，如：0-2、2-3、3-4等
														
 
															+    """
														
 
															+    try:
														
 
															+        # 使用工厂类创建标签服务实例
														
 
															+        tag_service = TagServiceFactory.create_tag_service(get_client())
														
 
															+        
														
 
															+        # 调用创建标签方法
														
 
															+        tag_data = request.model_dump()
														
 
															+        result = tag_service.create_tag(tag_data)
														
 
															+        
														
 
															+        return Result.success(data=result, message="标签创建成功")
														
 
															+    except KeyError as e:
														
 
															+        return Result.error(code=400, message=f"缺少必填字段: {str(e)}")
														
 
															+    except Exception as e:
														
 
															+        return Result.error(code=500, message=f"创建标签失败: {str(e)}")
														
--- a/src/common/__init__.py
+++ b/src/common/__init__.py
--- a/src/common/models/__init__.py
+++ b/src/common/models/__init__.py
--- a/src/common/models/pagination.py
+++ b/src/common/models/pagination.py
@@ -0,0 +1,10 @@
 
															+from pydantic import BaseModel, Field
														
 
															+
														
 
															+class Pagination(BaseModel):
														
 
															+    """通用分页与过滤模型"""
														
 
															+    page: int = Field(default=1, ge=1, description="当前页码")
														
 
															+    page_size: int = Field(default=30, ge=1, le=100, description="每页条数")
														
 
															+    
														
 
															+    def to_dict(self):
														
 
															+        """过滤掉 None 值，转化为 API 要求的字典"""
														
 
															+        return {k: v for k, v in self.model_dump().items() if v is not None}
														
--- a/src/common/result.py
+++ b/src/common/result.py
@@ -0,0 +1,62 @@
 
															+"""
														
 
															+Unified API response template
														
 
															+"""
														
 
															+from typing import Optional, Any, Dict, List
														
 
															+from fastapi.responses import JSONResponse
														
 
															+
														
 
															+
														
 
															+class Result:
														
 
															+    """
														
 
															+    Unified API response class
														
 
															+    """
														
 
															+    
														
 
															+    @staticmethod
														
 
															+    def success(data: Any = None, message: str = "操作成功", total: int = 0, page: int = 1) -> JSONResponse:
														
 
															+        """
														
 
															+        Success response
														
 
															+        """
														
 
															+        return JSONResponse(
														
 
															+            status_code=200,
														
 
															+            content={
														
 
															+                "code": 200,
														
 
															+                "success": True,
														
 
															+                "message": message,
														
 
															+                "data": data,
														
 
															+                "total": total,
														
 
															+                "page": page
														
 
															+            }
														
 
															+        )
														
 
															+    
														
 
															+    @staticmethod
														
 
															+    def error(code: int = 400, message: str = "操作失败", data: Any = None) -> JSONResponse:
														
 
															+        """
														
 
															+        Error response
														
 
															+        """
														
 
															+        return JSONResponse(
														
 
															+            status_code=code,
														
 
															+            content={
														
 
															+                "code": code,
														
 
															+                "success": False,
														
 
															+                "message": message,
														
 
															+                "data": data,
														
 
															+                "total": 0,
														
 
															+                "page": 1
														
 
															+            }
														
 
															+        )
														
 
															+    
														
 
															+    @staticmethod
														
 
															+    def pagination(data: List[Any], total: int, page: int, message: str = "操作成功") -> JSONResponse:
														
 
															+        """
														
 
															+        Pagination response
														
 
															+        """
														
 
															+        return JSONResponse(
														
 
															+            status_code=200,
														
 
															+            content={
														
 
															+                "code": 200,
														
 
															+                "success": True,
														
 
															+                "message": message,
														
 
															+                "data": data,
														
 
															+                "total": total,
														
 
															+                "page": page
														
 
															+            }
														
 
															+        )
														
--- a/src/conf/__init__.py
+++ b/src/conf/__init__.py
--- a/src/conf/age_level.json
+++ b/src/conf/age_level.json
@@ -0,0 +1,10 @@
 
															+{
														
 
															+    "L1": [0, 1 ,2],
														
 
															+    "L2": [2, 3],
														
 
															+    "L3": [3, 4],
														
 
															+    "L4": [4, 5],
														
 
															+    "L5": [5, 6],
														
 
															+    "L6": [6, 7, 8, 9, 10],
														
 
															+    "L7": [10, 11, 12, 13, 14],
														
 
															+    "L8": [14, 15, 16, 17, 18, 19, 20]
														
 
															+}
														
--- a/src/conf/infinity_mapping.json
+++ b/src/conf/infinity_mapping.json
@@ -0,0 +1,56 @@
 
															+[
														
 
															+                {
														
 
															+                    "name": "id",
														
 
															+                    "type": "varchar",
														
 
															+                    "default": "",
														
 
															+                    "comment": "文档ID"
														
 
															+                },
														
 
															+                {
														
 
															+                    "name": "file_name",
														
 
															+                    "type": "varchar",
														
 
															+                    "default": "",
														
 
															+                    "comment": "文件名"
														
 
															+                },
														
 
															+                {
														
 
															+                    "name": "file_page_count",
														
 
															+                    "type": "int",
														
 
															+                    "default": 0,
														
 
															+                    "comment": "文件总页数"
														
 
															+                },
														
 
															+                {
														
 
															+                    "name": "page_number",
														
 
															+                    "type": "int",
														
 
															+                    "default": 0,
														
 
															+                    "comment": "页码"
														
 
															+                },
														
 
															+                {
														
 
															+                    "name": "content",
														
 
															+                    "type": "varchar",
														
 
															+                    "default": "",
														
 
															+                    "comment": "文本内容"
														
 
															+                },
														
 
															+                {
														
 
															+                    "name": "image_id",
														
 
															+                    "type": "varchar",
														
 
															+                    "default": "",
														
 
															+                    "comment": "图片id"
														
 
															+                },
														
 
															+                {
														
 
															+                    "name": "dense_vector_1024",
														
 
															+                    "type": "vector,1024,float",
														
 
															+                    "default": [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
														
 
															+                    "comment": "1024维向量"
														
 
															+                },
														
 
															+                {
														
 
															+                    "name": "dataset_id",
														
 
															+                    "type": "varchar",
														
 
															+                    "default": "",
														
 
															+                    "comment": "数据集ID"
														
 
															+                },
														
 
															+                {
														
 
															+                    "name": "document_id",
														
 
															+                    "type": "varchar",
														
 
															+                    "default": "",
														
 
															+                    "comment": "RAGFlow文档ID"
														
 
															+                }
														
 
															+            ]
														
--- a/src/conf/rag_parser_config.py
+++ b/src/conf/rag_parser_config.py
@@ -0,0 +1,48 @@
 
															+class RagParserDefaults:
														
 
															+
														
 
															+    DATASET_PERMISSION="team"
														
 
															+
														
 
															+    DATASET_CHUNK_METHOD="naive"
														
 
															+
														
 
															+    DATASET_CONFIG_DICT = {
														
 
															+            "chunk_token_num": 256,
														
 
															+            "delimiter": "\n!?;。；！？",
														
 
															+            "html4excel": False,
														
 
															+            "layout_recognize": "DeepDOC",
														
 
															+            "auto_keywords": 5,
														
 
															+            "tag_kb_ids": [],
														
 
															+            "topn_tags": 3,
														
 
															+            "task_page_size": 4,
														
 
															+            "raptor": {
														
 
															+                "max_cluster": 64,
														
 
															+                "max_token": 256,
														
 
															+                "prompt": "Please summarize the following paragraphs. Be careful with the numbers, do not make things up. Paragraphs as following:\n      {cluster_content}\nThe above is the content you need to summarize.",
														
 
															+                "random_seed": 0,
														
 
															+                "threshold": 0.1,
														
 
															+                "use_raptor": True
														
 
															+            },
														
 
															+            "graphrag": {
														
 
															+                "resolution": True,
														
 
															+                "use_graphrag": True,
														
 
															+                "method": "general",
														
 
															+                "entity_types": [
														
 
															+                    "person",
														
 
															+                    "geo",
														
 
															+                    "event",
														
 
															+                    "Book",
														
 
															+                    "Author",
														
 
															+                    "Illustrator",
														
 
															+                    "Series",
														
 
															+                    "Theme",
														
 
															+                    "Genre",
														
 
															+                    "Character",
														
 
															+                    "Setting",
														
 
															+                    "AgeGroup",
														
 
															+                    "Competency",
														
 
															+                    "ArtStyle",
														
 
															+                    "Award",
														
 
															+                    "Publisher",
														
 
															+                    "Role"
														
 
															+                ]
														
 
															+            }
														
 
															+        }
														
--- a/src/conf/settings.py
+++ b/src/conf/settings.py
@@ -0,0 +1,151 @@
 
															+"""配置管理模块，使用 pydantic-settings 从.env文件加载环境变量"""
														
 
															+
														
 
															+from pydantic_settings import BaseSettings, SettingsConfigDict
														
 
															+from pydantic import Field
														
 
															+from typing import List
														
 
															+
														
 
															+
														
 
															+class AppSettings(BaseSettings):
														
 
															+    """应用配置类"""
														
 
															+    log_level: str = Field(default="INFO", alias="LOG_LEVEL")
														
 
															+    
														
 
															+    model_config = SettingsConfigDict(
														
 
															+        env_file=".env",
														
 
															+        env_file_encoding="utf-8",
														
 
															+        case_sensitive=False,
														
 
															+        extra="ignore"
														
 
															+    )
														
 
															+
														
 
															+class ModelSettings(BaseSettings):
														
 
															+    """模型配置类"""
														
 
															+    model_provider: str = Field(default="openai", alias="MODEL_PROVIDER")
														
 
															+    model_name: str = Field(default="Qwen/Qwen3-VL-8B-Instruct", alias="MODEL_NAME")
														
 
															+    chat_model_name: str = Field(default="deepseek-ai/DeepSeek-V3.2", alias="CHAT_MODEL_NAME")
														
 
															+    embedding_model_name: str = Field(default="Qwen/Qwen3-Embedding-0.6B", alias="EMBEDDING_MODEL_NAME")
														
 
															+    base_url: str = Field(default="https://api.openai.com/v1", alias="BASE_URL")
														
 
															+    api_key: str = Field(default="", alias="API_KEY")
														
 
															+    rank_model_name: str = Field(default="Qwen/Qwen3-Reranker-0.6B", alias="RANK_MODEL_NAME")
														
 
															+    multimodal_embedding_model_name: str = Field(default="qwen2.5-vl-embedding", alias="MULTIMODAL_EMBEDDING_MODEL_NAME")
														
 
															+    dashscope_api_key: str = Field(default="", alias="DASHSCOPE_API_KEY")
														
 
															+    
														
 
															+    model_config = SettingsConfigDict(
														
 
															+        env_file=".env",
														
 
															+        env_file_encoding="utf-8",
														
 
															+        case_sensitive=False,
														
 
															+        extra="ignore"
														
 
															+    )
														
 
															+
														
 
															+class RagflowSettings(BaseSettings):
														
 
															+    """RAGFLOW配置类"""
														
 
															+    ragflow_api_url: str = Field(default="http://192.168.16.134/", alias="RAGFLOW_API_URL")
														
 
															+    ragflow_api_key: str = Field(default="", alias="RAGFLOW_API_KEY")
														
 
															+    dataset_id: str = Field(default="", alias="DATASET_ID")
														
 
															+    ragflow_user_name: str = Field(default="", alias="RAGFLOW_USER_NAME")
														
 
															+    ragflow_passwd: str = Field(default="", alias="RAGFLOW_PASSWD")
														
 
															+    
														
 
															+    model_config = SettingsConfigDict(
														
 
															+        env_file=".env",
														
 
															+        env_file_encoding="utf-8",
														
 
															+        case_sensitive=False,
														
 
															+        extra="ignore"
														
 
															+    )
														
 
															+
														
 
															+class MinioSettings(BaseSettings):
														
 
															+    """MinIO配置类"""
														
 
															+    minio_endpoint: str = Field(default="http://localhost:9000", alias="MINIO_ENDPOINT")
														
 
															+    minio_access_key: str = Field(default="minioadmin", alias="MINIO_ACCESS_KEY")
														
 
															+    minio_secret_key: str = Field(default="minioadmin", alias="MINIO_SECRET_KEY")
														
 
															+    minio_bucket_name: str = Field(default="ragflow", alias="MINIO_BUCKET_NAME")
														
 
															+    minio_secure: bool = Field(default=False, alias="MINIO_SECURE")
														
 
															+    
														
 
															+    model_config = SettingsConfigDict(
														
 
															+        env_file=".env",
														
 
															+        env_file_encoding="utf-8",
														
 
															+        case_sensitive=False,
														
 
															+        extra="ignore"
														
 
															+    )
														
 
															+
														
 
															+class VectorDBSettings(BaseSettings):
														
 
															+    """向量数据库配置类"""
														
 
															+    vector_db_type: str = Field(default="es", alias="VECTOR_DB_TYPE")
														
 
															+    infinity_host: str = Field(default="192.168.16.134", alias="INFINITY_HOST")
														
 
															+    infinity_port: int = Field(default=23820, alias="INFINITY_PORT")
														
 
															+    infinity_sdk_port: int = Field(default=23817, alias="INFINITY_SDK_PORT")
														
 
															+    infinity_user: str = Field(default="admin", alias="INFINITY_USER")
														
 
															+    infinity_password: str = Field(default="admin", alias="INFINITY_PASSWORD")
														
 
															+    infinity_database: str = Field(default="test", alias="INFINITY_DATABASE")
														
 
															+    infinity_table_name: str = Field(default="test", alias="INFINITY_TABLE_NAME")
														
 
															+    infinity_page_dataset_id: str = Field(default="", alias="INFINITY_PAGE_DATASET_ID")
														
 
															+    infinity_page_table_name: str = Field(default="", alias="INFINITY_PAGE_TABLE_NAME")
														
 
															+    infinity_ragflow_database: str = Field(default="default_db", alias="INFINITY_RAGFLOW_DATABASE")
														
 
															+    infinity_dataset_prefix: str = Field(default="ragbook_", alias="INFINITY_DATASET_PREFIX")
														
 
															+    
														
 
															+    model_config = SettingsConfigDict(
														
 
															+        env_file=".env",
														
 
															+        env_file_encoding="utf-8",
														
 
															+        case_sensitive=False,
														
 
															+        extra="ignore"
														
 
															+    )
														
 
															+
														
 
															+class MysqlSettings(BaseSettings):
														
 
															+    """MySQL配置类"""
														
 
															+    mysql_host: str = Field(default="localhost", alias="MYSQL_HOST")
														
 
															+    mysql_port: int = Field(default=3306, alias="MYSQL_PORT")
														
 
															+    mysql_user: str = Field(default="root", alias="MYSQL_USER")
														
 
															+    mysql_password: str = Field(default="", alias="MYSQL_PASSWORD")
														
 
															+    mysql_database: str = Field(default="", alias="MYSQL_DATABASE")
														
 
															+    mysql_charset: str = Field(default="utf8mb4", alias="MYSQL_CHARSET")
														
 
															+    mysql_pool_size: int = Field(default=10, alias="MYSQL_POOL_SIZE")
														
 
															+
														
 
															+    model_config = SettingsConfigDict(
														
 
															+        env_file=".env",
														
 
															+        env_file_encoding="utf-8",
														
 
															+        case_sensitive=False,
														
 
															+        extra="ignore"
														
 
															+    )
														
 
															+
														
 
															+
														
 
															+class TagSearchSettings(BaseSettings):
														
 
															+    """标签搜索配置类"""
														
 
															+    tag_db_name: str = Field(default="tag_db", alias="TAG_DB_NAME")
														
 
															+    tag_table_name: str = Field(default="tag_table", alias="TAG_TABLE_NAME")
														
 
															+    tag_document_id: str = Field(default="", alias="TAG_DOCUMENT_ID")
														
 
															+    tag_dataset_id: str = Field(default="", alias="TAG_DATASET_ID")
														
 
															+    
														
 
															+    model_config = SettingsConfigDict(
														
 
															+        env_file=".env",
														
 
															+        env_file_encoding="utf-8",
														
 
															+        case_sensitive=False,
														
 
															+        extra="ignore"
														
 
															+    )
														
 
															+
														
 
															+
														
 
															+class EsSettings(BaseSettings):
														
 
															+    """Elasticsearch配置类"""
														
 
															+    es_nodes: List[str] = Field(default=["http://localhost:9200"], alias="ES_NODES")
														
 
															+    es_username: str = Field(default="", alias="ES_USERNAME")
														
 
															+    es_password: str = Field(default="", alias="ES_PASSWORD")
														
 
															+    es_index_name: str = Field(default="rag_documents", alias="ES_INDEX_NAME")
														
 
															+    es_connections_per_node: int = Field(default=20, alias="ES_CONNECTIONS_PER_NODE")
														
 
															+    es_max_retries: int = Field(default=3, alias="ES_MAX_RETRIES")
														
 
															+    es_retry_on_timeout: bool = Field(default=True, alias="ES_RETRY_ON_TIMEOUT")
														
 
															+    es_timeout: int = Field(default=30, alias="ES_TIMEOUT")
														
 
															+    es_verify_certs: bool = Field(default=False, alias="ES_VERIFY_CERTS")
														
 
															+    
														
 
															+    model_config = SettingsConfigDict(
														
 
															+        env_file=".env",
														
 
															+        env_file_encoding="utf-8",
														
 
															+        case_sensitive=False,
														
 
															+        extra="ignore"
														
 
															+    )
														
 
															+
														
 
															+
														
 
															+# 创建配置实例
														
 
															+model_settings = ModelSettings()
														
 
															+ragflow_settings = RagflowSettings()
														
 
															+app_settings = AppSettings()
														
 
															+minio_settings = MinioSettings()
														
 
															+vector_db_settings = VectorDBSettings()
														
 
															+mysql_settings = MysqlSettings()
														
 
															+tag_search_settings = TagSearchSettings()
														
 
															+es_settings = EsSettings()
														
--- a/src/job/__init__.py
+++ b/src/job/__init__.py
--- a/src/job/chunk_update_job.py
+++ b/src/job/chunk_update_job.py
@@ -0,0 +1,129 @@
 
															+"""
														
 
															+Chunk 更新定时任务
														
 
															+
														
 
															+该模块负责处理 ragflow_chunk_record 表中的定时任务，包括：
														
 
															+- 定期查询到期的任务
														
 
															+- 执行任务逻辑
														
 
															+- 更新任务状态
														
 
															+"""
														
 
															+import time
														
 
															+import json
														
 
															+from datetime import datetime
														
 
															+from apscheduler.schedulers.background import BackgroundScheduler
														
 
															+from apscheduler.triggers.interval import IntervalTrigger
														
 
															+from src.utils.mysql import get_global_mysql_client
														
 
															+from src.utils.infinity import get_client
														
 
															+
														
 
															+# 初始化调度器
														
 
															+_scheduler = None
														
 
															+
														
 
															+class ChunkUpdateJob:
														
 
															+    """Chunk 更新定时任务服务"""
														
 
															+    
														
 
															+    def __init__(self):
														
 
															+        """初始化定时任务服务"""
														
 
															+        self.mysql_client = get_global_mysql_client()
														
 
															+        self.infinity_client = get_client()
														
 
															+    
														
 
															+    def process_due_tasks(self):
														
 
															+        """处理到期的任务"""
														
 
															+        try:
														
 
															+            # 查询状态为"未执行"且计划时间小于等于当前时间的任务
														
 
															+            current_time = datetime.now()
														
 
															+            tasks = self.mysql_client.fetch_all(
														
 
															+                "SELECT id, database_name, table_name, chunk_id, cond, update_data FROM ragflow_chunk_record "
														
 
															+                "WHERE status = %s AND scheduled_time <= %s",
														
 
															+                ["未执行", current_time]
														
 
															+            )
														
 
															+            
														
 
															+            # 处理每个任务
														
 
															+            for task in tasks:
														
 
															+                task_id = task["id"]
														
 
															+                database_name = task["database_name"]
														
 
															+                table_name = task["table_name"]
														
 
															+                chunk_id = task["chunk_id"]
														
 
															+                cond = task["cond"]
														
 
															+                data = task["update_data"]
														
 
															+                
														
 
															+                try:
														
 
															+                    # 执行任务逻辑
														
 
															+                    self._execute_task(database_name, table_name, chunk_id, cond, data)
														
 
															+                    
														
 
															+                    # 更新任务状态为"已执行"
														
 
															+                    self.mysql_client.execute(
														
 
															+                        "UPDATE ragflow_chunk_record SET status = %s, executed_time = %s WHERE id = %s",
														
 
															+                        ["已执行", datetime.now(), task_id]
														
 
															+                    )
														
 
															+                    
														
 
															+                    print(f"Task {task_id} executed successfully")
														
 
															+                except Exception as e:
														
 
															+                    # 更新任务状态为"执行失败"
														
 
															+                    self.mysql_client.execute(
														
 
															+                        "UPDATE ragflow_chunk_record SET status = %s, error_message = %s, executed_time = %s WHERE id = %s",
														
 
															+                        ["执行失败", str(e), datetime.now(), task_id]
														
 
															+                    )
														
 
															+                    
														
 
															+                    print(f"Task {task_id} execution failed: {e}")
														
 
															+        except Exception as e:
														
 
															+            print(f"Failed to process due tasks: {e}")
														
 
															+    
														
 
															+    def _execute_task(self, database_name: str, table_name: str, chunk_id: str, 
														
 
															+                      cond: str, data: dict) -> None:
														
 
															+        """
														
 
															+        执行具体的任务逻辑
														
 
															+        
														
 
															+        Args:
														
 
															+            database_name: 数据库名称
														
 
															+            table_name: 表名称
														
 
															+            chunk_id: Chunk ID
														
 
															+            cond: 条件字符串
														
 
															+            data: 数据字典
														
 
															+        """
														
 
															+        try:
														
 
															+            # 使用 Infinity 客户端执行更新操作
														
 
															+            # 这里需要根据实际的 Infinity API 进行调整
														
 
															+            if cond and data:
														
 
															+                self.infinity_client.update(
														
 
															+                    table_name=table_name,
														
 
															+                    cond=cond,
														
 
															+                    data=json.loads(data),
														
 
															+                    database_name=database_name
														
 
															+                )
														
 
															+            print(f"Updated chunk {chunk_id} in {database_name}.{table_name}")
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"Failed to update chunk {chunk_id}: {e}")
														
 
															+
														
 
															+
														
 
															+def start_scheduler():
														
 
															+    """启动定时任务调度器"""
														
 
															+    global _scheduler
														
 
															+    
														
 
															+    if _scheduler is None:
														
 
															+        # 创建调度器
														
 
															+        _scheduler = BackgroundScheduler()
														
 
															+        
														
 
															+        # 创建任务实例
														
 
															+        chunk_update_job = ChunkUpdateJob()
														
 
															+        
														
 
															+        # 添加定时任务，每5秒执行一次
														
 
															+        _scheduler.add_job(
														
 
															+            func=chunk_update_job.process_due_tasks,
														
 
															+            trigger=IntervalTrigger(seconds=30),
														
 
															+            id="chunk_update_job",
														
 
															+            name="Process due chunk update tasks",
														
 
															+            replace_existing=True
														
 
															+        )
														
 
															+        
														
 
															+        # 启动调度器
														
 
															+        _scheduler.start()
														
 
															+        print("✅ Chunk update scheduler started")
														
 
															+
														
 
															+
														
 
															+def shutdown_scheduler():
														
 
															+    """关闭定时任务调度器"""
														
 
															+    global _scheduler
														
 
															+    
														
 
															+    if _scheduler is not None:
														
 
															+        _scheduler.shutdown()
														
 
															+        _scheduler = None
														
 
															+        print("✅ Chunk update scheduler shutdown")
														
--- a/src/model/__init__.py
+++ b/src/model/__init__.py
--- a/src/model/jina_rerank.py
+++ b/src/model/jina_rerank.py
@@ -0,0 +1,133 @@
 
															+from __future__ import annotations
														
 
															+
														
 
															+from copy import deepcopy
														
 
															+from typing import Any, Dict, List, Optional, Sequence, Union
														
 
															+
														
 
															+import requests
														
 
															+from langchain_core.callbacks import Callbacks
														
 
															+from langchain_core.documents import BaseDocumentCompressor, Document
														
 
															+from langchain_core.utils import get_from_dict_or_env
														
 
															+from pydantic import ConfigDict, model_validator
														
 
															+
														
 
															+JINA_API_URL: str = "https://api.jina.ai/v1/rerank"
														
 
															+
														
 
															+
														
 
															+class JinaRerank(BaseDocumentCompressor):
														
 
															+    """Document compressor that uses `Jina Rerank API` with support for custom base_url."""
														
 
															+
														
 
															+    session: Any = None
														
 
															+    """Requests session to communicate with API."""
														
 
															+    top_n: Optional[int] = 3
														
 
															+    """Number of documents to return."""
														
 
															+    model: str = "jina-reranker-v1-base-en"
														
 
															+    """Model to use for reranking."""
														
 
															+    jina_api_key: Optional[str] = None
														
 
															+    """Jina API key. Must be specified directly or via environment variable 
														
 
															+        JINA_API_KEY."""
														
 
															+    user_agent: str = "langchain"
														
 
															+    """Identifier for the application making the request."""
														
 
															+    base_url: str = JINA_API_URL
														
 
															+    """Base URL for the Jina API. Defaults to JINA_API_URL."""
														
 
															+
														
 
															+    model_config = ConfigDict(
														
 
															+        arbitrary_types_allowed=True,
														
 
															+        extra="forbid",
														
 
															+    )
														
 
															+
														
 
															+    @model_validator(mode="before")
														
 
															+    @classmethod
														
 
															+    def validate_environment(cls, values: Dict) -> Any:
														
 
															+        """Validate that api key exists in environment."""
														
 
															+        jina_api_key = get_from_dict_or_env(values, "jina_api_key", "JINA_API_KEY")
														
 
															+        user_agent = values.get("user_agent", "langchain")
														
 
															+        session = requests.Session()
														
 
															+        session.headers.update(
														
 
															+            {
														
 
															+                "Authorization": f"Bearer {jina_api_key}",
														
 
															+                "Accept-Encoding": "identity",
														
 
															+                "Content-type": "application/json",
														
 
															+                "user-agent": user_agent,
														
 
															+            }
														
 
															+        )
														
 
															+        values["session"] = session
														
 
															+        return values
														
 
															+
														
 
															+    def rerank(
														
 
															+        self,
														
 
															+        documents: Sequence[Union[str, Document, dict]],
														
 
															+        query: str,
														
 
															+        *,
														
 
															+        model: Optional[str] = None,
														
 
															+        top_n: Optional[int] = -1,
														
 
															+        max_chunks_per_doc: Optional[int] = None,
														
 
															+    ) -> List[Dict[str, Any]]:
														
 
															+        """Returns an ordered list of documents ordered by their relevance to the provided query.
														
 
															+
														
 
															+        Args:
														
 
															+            query: The query to use for reranking.
														
 
															+            documents: A sequence of documents to rerank.
														
 
															+            model: The model to use for re-ranking. Default to self.model.
														
 
															+            top_n : The number of results to return. If None returns all results.
														
 
															+                Defaults to self.top_n.
														
 
															+            max_chunks_per_doc : The maximum number of chunks derived from a document.
														
 
															+        """  # noqa: E501
														
 
															+        if len(documents) == 0:  # to avoid empty api call
														
 
															+            return []
														
 
															+        docs = [
														
 
															+            doc.page_content if isinstance(doc, Document) else doc for doc in documents
														
 
															+        ]
														
 
															+        model = model or self.model
														
 
															+        top_n = top_n if (top_n is None or top_n > 0) else self.top_n
														
 
															+        data = {
														
 
															+            "query": query,
														
 
															+            "documents": docs,
														
 
															+            "model": model,
														
 
															+            "top_n": top_n,
														
 
															+        }
														
 
															+
														
 
															+        # 构建完整的API路径
														
 
															+        api_url = self.base_url.rstrip('/') + '/rerank'
														
 
															+        resp = self.session.post(
														
 
															+            api_url,
														
 
															+            json=data,
														
 
															+        ).json()
														
 
															+
														
 
															+        if "results" not in resp:
														
 
															+            raise RuntimeError(resp["detail"])
														
 
															+
														
 
															+        results = resp["results"]
														
 
															+        result_dicts = []
														
 
															+        for res in results:
														
 
															+            result_dicts.append(
														
 
															+                {
														
 
															+                    "index": res["index"],
														
 
															+                    "relevance_score": res["relevance_score"],
														
 
															+                }
														
 
															+            )
														
 
															+        return result_dicts
														
 
															+
														
 
															+    def compress_documents(
														
 
															+        self,
														
 
															+        documents: Sequence[Document],
														
 
															+        query: str,
														
 
															+        top_n: Optional[int] = None,
														
 
															+        callbacks: Optional[Callbacks] = None,
														
 
															+    ) -> Sequence[Document]:
														
 
															+        """
														
 
															+        Compress documents using Jina's Rerank API.
														
 
															+
														
 
															+        Args:
														
 
															+            documents: A sequence of documents to compress.
														
 
															+            query: The query to use for compressing the documents.
														
 
															+            callbacks: Callbacks to run during the compression process.
														
 
															+
														
 
															+        Returns:
														
 
															+            A sequence of compressed documents.
														
 
															+        """
														
 
															+        compressed = []
														
 
															+        for res in self.rerank(documents=documents, query=query, top_n=top_n):
														
 
															+            doc = documents[res["index"]]
														
 
															+            doc_copy = Document(doc.page_content, metadata=deepcopy(doc.metadata))
														
 
															+            doc_copy.metadata["relevance_score"] = res["relevance_score"]
														
 
															+            compressed.append(doc_copy)
														
 
															+        return compressed
														
--- a/src/model/multimodal_embedding.py
+++ b/src/model/multimodal_embedding.py
@@ -0,0 +1,167 @@
 
															+from typing import List
														
 
															+from PIL import Image
														
 
															+import base64
														
 
															+import io
														
 
															+from langchain_openai import OpenAIEmbeddings
														
 
															+from dashscope import MultiModalEmbedding
														
 
															+from src.conf.settings import model_settings
														
 
															+from langfuse import observe
														
 
															+from src.utils.file.image_util import image_util
														
 
															+
														
 
															+class Embedding:
														
 
															+    """Embedding模型工具"""
														
 
															+    
														
 
															+    def __init__(self, model_name: str = None, multi_model_name: str = None, api_key: str = None, dashscope_api_key: str = None):
														
 
															+        """
														
 
															+        初始化Embedding模型
														
 
															+        
														
 
															+        Args:
														
 
															+            model_name: 模型名称，若为None则使用配置文件中的值
														
 
															+            api_key: API密钥，若为None则使用配置文件中的值
														
 
															+        """
														
 
															+        # 获取模型配置
														
 
															+        self.model_provider = model_settings.model_provider
														
 
															+        self.model_name = model_name or model_settings.model_name
														
 
															+        self.multi_model_name = multi_model_name or model_settings.multimodal_embedding_model_name
														
 
															+        self.base_url = model_settings.base_url
														
 
															+        self.api_key = api_key or model_settings.api_key
														
 
															+        self.dashscope_api_key = dashscope_api_key or model_settings.dashscope_api_key
														
 
															+    
														
 
															+    @observe(name="text_embedding", as_type="embedding")
														
 
															+    def get_text_embedding(self, text: str) -> List[float]:
														
 
															+        """
														
 
															+        获取文本的embedding
														
 
															+        
														
 
															+        Args:
														
 
															+            text: 要获取embedding的文本
														
 
															+            
														
 
															+        Returns:
														
 
															+            List[float]: 文本的embedding向量
														
 
															+        """
														
 
															+        try:
														
 
															+            # 使用langchain_openai初始化OpenAI Embeddings模型
														
 
															+            embeddings = OpenAIEmbeddings(
														
 
															+                model=self.model_name,
														
 
															+                base_url=self.base_url,
														
 
															+                api_key=self.api_key
														
 
															+            )
														
 
															+            embedding = embeddings.embed_query(text)
														
 
															+            return embedding
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"文本embedding生成失败: {str(e)}")
														
 
															+    
														
 
															+    @observe(name="texts_embedding", as_type="embedding")
														
 
															+    def get_texts_embedding(self, texts: List[str]) -> List[List[float]]:
														
 
															+        """
														
 
															+        获取多个文本的embedding
														
 
															+        
														
 
															+        Args:
														
 
															+            texts: 要获取embedding的文本列表
														
 
															+            
														
 
															+        Returns:
														
 
															+            List[List[float]]: 文本列表的embedding向量列表
														
 
															+        """
														
 
															+        try:
														
 
															+            # 使用langchain_openai初始化OpenAI Embeddings模型
														
 
															+            embeddings = OpenAIEmbeddings(
														
 
															+                model=self.model_name,
														
 
															+                base_url=self.base_url,
														
 
															+                api_key=self.api_key
														
 
															+            )
														
 
															+            embeddings = embeddings.embed_documents(texts)
														
 
															+            return embeddings
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"多个文本embedding生成失败: {str(e)}")
														
 
															+    
														
 
															+    @observe(name="image_embedding", as_type="embedding")
														
 
															+    def get_image_embedding(self, image: Image.Image) -> List[float]:
														
 
															+        """
														
 
															+        获取图像的embedding
														
 
															+        
														
 
															+        Args:
														
 
															+            image: PIL图像对象
														
 
															+            
														
 
															+        Returns:
														
 
															+            List[float]: 图像的embedding向量
														
 
															+        """
														
 
															+        try:
														
 
															+            # 将图像转换为base64
														
 
															+            buffer = io.BytesIO()
														
 
															+            image.save(buffer, format="PNG")
														
 
															+            buffer.seek(0)
														
 
															+            
														
 
															+            # 压缩图片字节流
														
 
															+            compressed_bytes = image_util._compress_image_to_bytes(buffer)
														
 
															+            
														
 
															+            image_base64 = base64.b64encode(compressed_bytes).decode("utf-8")
														
 
															+            # 构建输入项
														
 
															+            item = [
														
 
															+                {
														
 
															+                    "image": f"data:image/png;base64,{image_base64}"
														
 
															+                }
														
 
															+            ]
														
 
															+            response = MultiModalEmbedding.call(
														
 
															+                model=self.multi_model_name,
														
 
															+                api_key=self.dashscope_api_key,
														
 
															+                input=item
														
 
															+            )
														
 
															+            if response.status_code == 200:
														
 
															+                return response.output["embeddings"][0]["embedding"]
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"图像embedding生成失败: {str(e)}")
														
 
															+
														
 
															+    @observe(name="multimodal_embedding", as_type="embedding")
														
 
															+    def get_multimodal_embedding(self, text: str, image: Image.Image) -> List[float]:
														
 
															+        """
														
 
															+        获取多模态（文本+图像）的embedding
														
 
															+        
														
 
															+        Args:
														
 
															+            text: 文本内容
														
 
															+            image: PIL图像对象
														
 
															+            
														
 
															+        Returns:
														
 
															+            List[float]: 多模态的embedding向量
														
 
															+        """
														
 
															+        try:
														
 
															+            item = []
														
 
															+            if image is not None:
														
 
															+                buffer = io.BytesIO()
														
 
															+                image.save(buffer, format="PNG")
														
 
															+                buffer.seek(0)
														
 
															+            
														
 
															+                # 压缩图片字节流
														
 
															+                compressed_bytes = image_util._compress_image_to_bytes(buffer)
														
 
															+            
														
 
															+                image_base64 = base64.b64encode(compressed_bytes).decode("utf-8")
														
 
															+                item.append({'image': f"data:image/png;base64,{image_base64}"})
														
 
															+            # 判断text部位None或者不为空字符串
														
 
															+            if text is not None and text.strip() != "":
														
 
															+                item.append({'text': text})
														
 
															+        
														
 
															+            response = MultiModalEmbedding.call(
														
 
															+                model=self.multi_model_name,
														
 
															+                api_key=self.dashscope_api_key,
														
 
															+                input=item
														
 
															+            )
														
 
															+            
														
 
															+            if response.status_code == 200:
														
 
															+                return response.output["embeddings"][0]["embedding"]
														
 
															+            else:
														
 
															+                raise Exception(f"Error: {response.message}")   
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"多模态embedding生成失败: {str(e)}")
														
 
															+
														
 
															+# 全局单例
														
 
															+def get_embedding_model() -> Embedding:
														
 
															+    """
														
 
															+    获取全局单例的Embedding模型
														
 
															+    
														
 
															+    Returns:
														
 
															+        Embedding: 全局单例的Embedding模型
														
 
															+    """
														
 
															+    return Embedding(
														
 
															+        model_name=model_settings.embedding_model_name,
														
 
															+        multi_model_name=model_settings.multimodal_embedding_model_name,
														
 
															+        api_key=model_settings.api_key,
														
 
															+        dashscope_api_key=model_settings.dashscope_api_key
														
 
															+    )
														
--- a/src/model/openai_chat_model.py
+++ b/src/model/openai_chat_model.py
@@ -0,0 +1,109 @@
 
															+from typing import Optional, Dict, Any
														
 
															+from langchain.chat_models import init_chat_model
														
 
															+from langchain_core.messages import AIMessage, HumanMessage, SystemMessage
														
 
															+from src.conf.settings import model_settings
														
 
															+
														
 
															+class OpenAIChatModel:
														
 
															+    """
														
 
															+    OpenAI 风格的聊天模型封装
														
 
															+    
														
 
															+    基于 langchain 的 init_chat_model 实现，
														
 
															+    默认使用 deepseek-r1 模型，支持用户指定其他模型。
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(
														
 
															+        self,
														
 
															+        model_provider: str = model_settings.model_provider,
														
 
															+        model_name: str = model_settings.chat_model_name,
														
 
															+        api_key: Optional[str] = model_settings.api_key,
														
 
															+        base_url: Optional[str] = model_settings.base_url,
														
 
															+        temperature: float = 0.7,
														
 
															+        max_tokens: Optional[int] = None,
														
 
															+        **kwargs
														
 
															+    ):
														
 
															+        """
														
 
															+        初始化 OpenAI Chat 模型
														
 
															+        
														
 
															+        Args:
														
 
															+            model_name: 模型名称，默认为 "deepseek-r1"
														
 
															+            api_key: API 密钥
														
 
															+            base_url: API 基础 URL
														
 
															+            temperature: 生成文本的随机性，范围 0-2，默认为 0.7
														
 
															+            max_tokens: 最大生成 token 数
														
 
															+            **kwargs: 其他参数
														
 
															+        """
														
 
															+        # 使用 langchain 的 init_chat_model 初始化模型
														
 
															+        self.chat_model = init_chat_model(
														
 
															+            model_provider=model_provider,
														
 
															+            model=model_name,
														
 
															+            api_key=api_key,
														
 
															+            base_url=base_url,
														
 
															+            temperature=temperature,
														
 
															+            max_tokens=max_tokens,
														
 
															+            **kwargs
														
 
															+        )
														
 
															+    
														
 
															+    def get_chat_model(self):
														
 
															+        """
														
 
															+        获取聊天模型实例
														
 
															+        
														
 
															+        Returns:
														
 
															+            聊天模型实例（由 langchain.init_chat_model 返回的类型）
														
 
															+        """
														
 
															+        return self.chat_model
														
 
															+    
														
 
															+    def generate_response(
														
 
															+        self,
														
 
															+        prompt: str,
														
 
															+        system_prompt: Optional[str] = None,
														
 
															+        **kwargs
														
 
															+    ) -> str:
														
 
															+        """
														
 
															+        生成响应
														
 
															+        
														
 
															+        Args:
														
 
															+            prompt: 用户提示
														
 
															+            system_prompt: 系统提示
														
 
															+            **kwargs: 其他参数
														
 
															+            
														
 
															+        Returns:
														
 
															+            str: 生成的响应
														
 
															+        """
														
 
															+        # 构建消息列表
														
 
															+        messages = []
														
 
															+        
														
 
															+        # 添加系统提示（如果有）
														
 
															+        if system_prompt:
														
 
															+            messages.append(SystemMessage(content=system_prompt))
														
 
															+        
														
 
															+        # 添加用户提示
														
 
															+        messages.append(HumanMessage(content=prompt))
														
 
															+        
														
 
															+        # 生成响应
														
 
															+        response = self.chat_model.invoke(messages, **kwargs)
														
 
															+        
														
 
															+        # 解析响应
														
 
															+        if isinstance(response, AIMessage):
														
 
															+            return response.content
														
 
															+        else:
														
 
															+            # 对于其他类型的响应，尝试获取内容
														
 
															+            return str(response)
														
 
															+    
														
 
															+    def chat(
														
 
															+        self,
														
 
															+        prompt: str,
														
 
															+        system_prompt: Optional[str] = None,
														
 
															+        **kwargs
														
 
															+    ) -> str:
														
 
															+        """
														
 
															+        聊天接口（别名，向后兼容）
														
 
															+        
														
 
															+        Args:
														
 
															+            prompt: 用户提示
														
 
															+            system_prompt: 系统提示
														
 
															+            **kwargs: 其他参数
														
 
															+            
														
 
															+        Returns:
														
 
															+            str: 生成的响应
														
 
															+        """
														
 
															+        return self.generate_response(prompt, system_prompt, **kwargs)
														
--- a/src/model/qwen_vl.py
+++ b/src/model/qwen_vl.py
@@ -0,0 +1,162 @@
 
															+from typing import Dict, Any
														
 
															+from PIL import Image
														
 
															+import base64
														
 
															+import io
														
 
															+from langchain.chat_models import init_chat_model
														
 
															+from src.conf.settings import model_settings
														
 
															+from langfuse.langchain import CallbackHandler
														
 
															+
														
 
															+class QWenVLParser:
														
 
															+    """QWEN VL模型图像解析工具"""
														
 
															+    
														
 
															+    def __init__(self, model_name: str = None):
														
 
															+        """
														
 
															+        初始化QWEN VL模型解析器
														
 
															+        
														
 
															+        Args:
														
 
															+            model_name: 模型名称，若为None则使用配置文件中的值
														
 
															+        """
														
 
															+        # 获取模型配置
														
 
															+        self.model_provider = model_settings.model_provider
														
 
															+        self.model_name = model_name or model_settings.model_name
														
 
															+        self.base_url = model_settings.base_url
														
 
															+        self.api_key = model_settings.api_key
														
 
															+        self.langfuse_handler = CallbackHandler()
														
 
															+        # 使用langchain的init_chat_model初始化模型
														
 
															+        self.model = init_chat_model(
														
 
															+            model_provider=self.model_provider,
														
 
															+            model=self.model_name,
														
 
															+            base_url=self.base_url,
														
 
															+            api_key=self.api_key
														
 
															+        )
														
 
															+    
														
 
															+    def image_to_base64(self, image: Image.Image) -> str:
														
 
															+        """
														
 
															+        将PIL图像转换为base64编码字符串
														
 
															+        
														
 
															+        Args:
														
 
															+            image: PIL图像对象
														
 
															+            
														
 
															+        Returns:
														
 
															+            str: base64编码的图像字符串
														
 
															+        """
														
 
															+        buffer = io.BytesIO()
														
 
															+        image.save(buffer, format="PNG")
														
 
															+        return base64.b64encode(buffer.getvalue()).decode("utf-8")
														
 
															+    
														
 
															+    def parse_image(self, image: Image.Image, page_number: int, prompt: str = "请详细描述图像中的内容") -> Dict[str, Any]:
														
 
															+        """
														
 
															+        使用OpenAI模型解析图像内容
														
 
															+        
														
 
															+        Args:
														
 
															+            image: PIL图像对象
														
 
															+            page_number: 页码
														
 
															+            prompt: 提示词
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict: 包含解析结果的字典，包含:
														
 
															+                - page_number: 页码
														
 
															+                - content: 解析内容
														
 
															+                - model: 使用的模型名称
														
 
															+        """
														
 
															+        try:
														
 
															+            # 将图像转换为base64
														
 
															+            image_base64 = self.image_to_base64(image)
														
 
															+            
														
 
															+            # 构建消息，符合OpenAI API格式
														
 
															+            messages = [
														
 
															+                {
														
 
															+                    "role": "user",
														
 
															+                    "content": [
														
 
															+                        {
														
 
															+                            "type": "text",
														
 
															+                            "text": prompt
														
 
															+                        },
														
 
															+                        {
														
 
															+                            "type": "image_url",
														
 
															+                            "image_url": {
														
 
															+                                "url": f"data:image/png;base64,{image_base64}"
														
 
															+                            }
														
 
															+                        }
														
 
															+                    ]
														
 
															+                }
														
 
															+            ]
														
 
															+            
														
 
															+            # 使用langchain模型调用OpenAI API
														
 
															+            response = self.model.invoke(input=messages, config={"callbacks": [self.langfuse_handler]})
														
 
															+            
														
 
															+            # 提取解析结果
														
 
															+            content = response.content
														
 
															+            
														
 
															+            return {
														
 
															+                "page_number": page_number,
														
 
															+                "content": content,
														
 
															+                "model": self.model_name
														
 
															+            }
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"图像解析失败（页码：{page_number}）: {str(e)}")
														
 
															+    
														
 
															+    def parse_image_path(self, image_path: str, page_number: int, prompt: str = "请详细描述图像中的内容") -> Dict[str, Any]:
														
 
															+        """
														
 
															+        使用OpenAI模型解析图像内容
														
 
															+        
														
 
															+        Args:
														
 
															+            image_path: 图像路径
														
 
															+            page_number: 页码
														
 
															+            prompt: 提示词
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict: 包含解析结果的字典，包含:
														
 
															+                - page_number: 页码
														
 
															+                - content: 解析内容
														
 
															+                - model: 使用的模型名称
														
 
															+        """
														
 
															+        try: 
														
 
															+            # 构建消息，符合OpenAI API格式
														
 
															+            messages = [
														
 
															+                {
														
 
															+                    "role": "user",
														
 
															+                    "content": [
														
 
															+                        {
														
 
															+                            "type": "text",
														
 
															+                            "text": prompt
														
 
															+                        },
														
 
															+                        {
														
 
															+                            "type": "image_url",
														
 
															+                            "image_url": {
														
 
															+                                "url": f"{image_path}"
														
 
															+                            }
														
 
															+                        }
														
 
															+                    ]
														
 
															+                }
														
 
															+            ]
														
 
															+            
														
 
															+            # 使用langchain模型调用OpenAI API
														
 
															+            response = self.model.invoke(messages)
														
 
															+            
														
 
															+            # 提取解析结果
														
 
															+            content = response.content
														
 
															+            
														
 
															+            return {
														
 
															+                "page_number": page_number,
														
 
															+                "content": content,
														
 
															+                "model": self.model_name
														
 
															+            }
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"图像解析失败（页码：{page_number}）: {str(e)}")
														
 
															+    
														
 
															+    def parse_image_bytes(self, image_bytes: io.BytesIO, page_number: int, prompt: str = "请详细描述图像中的内容") -> Dict[str, Any]:
														
 
															+        """
														
 
															+        使用OpenAI模型解析图像字节流
														
 
															+        
														
 
															+        Args:
														
 
															+            image_bytes: 图像字节流
														
 
															+            page_number: 页码
														
 
															+            prompt: 提示词
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict: 包含解析结果的字典
														
 
															+        """
														
 
															+        # 将字节流转换为PIL图像
														
 
															+        image = Image.open(image_bytes)
														
 
															+        return self.parse_image(image, page_number, prompt)
														
--- a/src/model/tracked_multi_embedding.py
+++ b/src/model/tracked_multi_embedding.py
@@ -0,0 +1,21 @@
 
															+from model.multimodal_embedding import Embedding
														
 
															+from PIL import Image
														
 
															+from src.utils.decorators.langfuse_trace_embedding import langfuse_trace_embedding
														
 
															+
														
 
															+class TrackedMultiEmbeddings(Embedding):
														
 
															+    
														
 
															+    @langfuse_trace_embedding(name="multi-embed-query")
														
 
															+    def embed_query(self, text: str):
														
 
															+        return super().get_text_embedding(text)
														
 
															+
														
 
															+    @langfuse_trace_embedding(name="multi-embed-documents")
														
 
															+    def embed_documents(self, texts: list[str]):
														
 
															+        return super().get_texts_embedding(texts)
														
 
															+
														
 
															+    @langfuse_trace_embedding(name="multi-embed-image")
														
 
															+    def embed_image(self, image: Image):
														
 
															+        return super().get_image_embedding(image)
														
 
															+
														
 
															+    @langfuse_trace_embedding(name="multi-embed-multimodal")
														
 
															+    def embed_multimodal(self, text: str, image: Image):
														
 
															+        return super().get_multimodal_embedding(text, image)
														
--- a/src/model/tracked_openai_embeddings.py
+++ b/src/model/tracked_openai_embeddings.py
@@ -0,0 +1,12 @@
 
															+from langchain_openai import OpenAIEmbeddings
														
 
															+from src.utils.decorators.langfuse_trace_embedding import langfuse_trace_embedding
														
 
															+
														
 
															+class TrackedOpenAIEmbeddings(OpenAIEmbeddings):
														
 
															+    
														
 
															+    @langfuse_trace_embedding(name="openai-embed-query")
														
 
															+    def embed_query(self, text: str):
														
 
															+        return super().embed_query(text)
														
 
															+
														
 
															+    @langfuse_trace_embedding(name="openai-embed-documents")
														
 
															+    def embed_documents(self, texts: list[str]):
														
 
															+        return super().embed_documents(texts)
														
--- a/src/parser/__init__.py
+++ b/src/parser/__init__.py
--- a/src/parser/image_parser/__init__.py
+++ b/src/parser/image_parser/__init__.py
--- a/src/parser/image_parser/image_parser_workflow.py
+++ b/src/parser/image_parser/image_parser_workflow.py
@@ -0,0 +1,304 @@
 
															+#!/usr/bin/env python3
														
 
															+"""
														
 
															+图片解析工作流
														
 
															+"""
														
 
															+import concurrent.futures
														
 
															+from concurrent.futures import ThreadPoolExecutor
														
 
															+from PIL import Image
														
 
															+import requests
														
 
															+from langgraph.graph import StateGraph, START, END
														
 
															+from typing import List, Dict, Any, Annotated
														
 
															+from pydantic import BaseModel, Field, ConfigDict
														
 
															+from src.model.qwen_vl import QWenVLParser
														
 
															+from src.utils.ragflow.ragflow_service import RAGFlowService
														
 
															+from src.model.multimodal_embedding import Embedding
														
 
															+from src.utils.file.image_util import image_util
														
 
															+from src.conf.settings import model_settings
														
 
															+from src.utils.infinity import get_client
														
 
															+
														
 
															+# 定义工作流状态类
														
 
															+class ImageParsingState(BaseModel):
														
 
															+    """图片解析工作流状态"""
														
 
															+    model_config = ConfigDict(arbitrary_types_allowed=True)
														
 
															+    zip_file_path: str = Field(..., description="图片压缩包路径")
														
 
															+    book_name: str = Field(..., description="书名")
														
 
															+    dataset_id: str = Field(..., description="数据集ID")
														
 
															+    ragflow_service: RAGFlowService = Field(default_factory=RAGFlowService, description="RAGFLOW服务")
														
 
															+    embedding_model: Embedding = Field(default_factory=Embedding, description="多模态嵌入模型实例")
														
 
															+    document_id: str = Field(default="", description="文档ID")
														
 
															+    split_images: List[Dict[str, Any]] = Field(default_factory=list, description="拆分后的图片列表，包含图片URL和页码信息")
														
 
															+    parsed_results: List[Dict[str, Any]] = Field(default_factory=list, description="解析结果列表")
														
 
															+    vectorized_results: List[Dict[str, Any]] = Field(default_factory=list, description="向量化结果列表")
														
 
															+    processed_images: int = Field(default=0, description="已处理的图片数量")
														
 
															+    vectorized_images: int = Field(default=0, description="已向量化的图片数量")
														
 
															+    is_complete: bool = Field(default=False, description="是否处理完成")
														
 
															+
														
 
															+# 创建工作流构建器
														
 
															+class ImageParsingWorkflow:
														
 
															+    """图片解析工作流"""
														
 
															+    
														
 
															+    def __init__(self, model_name: str = "Qwen/Qwen3-VL-8B-Instruct"):
														
 
															+        """
														
 
															+        初始化图片解析工作流
														
 
															+        
														
 
															+        Args:
														
 
															+            model_name: QWEN VL模型名称
														
 
															+        """
														
 
															+        self.model_name = model_name
														
 
															+        self.workflow = self._build_workflow()
														
 
															+    
														
 
															+    def _build_workflow(self):
														
 
															+        """构建langgraph工作流，实现基于条件路由的并行处理"""
														
 
															+        # 创建状态图
														
 
															+        graph = StateGraph(ImageParsingState)
														
 
															+        
														
 
															+        # 添加节点
														
 
															+        graph.add_node("upload_images", self._upload_images_node)
														
 
															+        graph.add_node("parse_image", self._parse_image_node)
														
 
															+        graph.add_node("vectorize_store", self._vectorize_store_node)
														
 
															+        graph.add_node("complete", self._complete_node)
														
 
															+        
														
 
															+        # 定义边
														
 
															+        graph.add_edge(START, "upload_images")
														
 
															+        graph.add_edge("upload_images", "parse_image")
														
 
															+        
														
 
															+        # 添加条件边：判断是否继续解析
														
 
															+        graph.add_conditional_edges(
														
 
															+            "parse_image",
														
 
															+            self._should_continue_parsing,
														
 
															+            {
														
 
															+                "continue": "parse_image",
														
 
															+                "complete": "vectorize_store"
														
 
															+            }
														
 
															+        )
														
 
															+        
														
 
															+        graph.add_edge("vectorize_store", "complete")
														
 
															+        graph.add_edge("complete", END)
														
 
															+        
														
 
															+        # 编译工作流
														
 
															+        return graph.compile()
														
 
															+    
														
 
															+    def _upload_images_node(self, state: ImageParsingState) -> Dict[str, Any]:
														
 
															+        """上传图片节点，调用image_util处理图片压缩包"""
														
 
															+        print(f"开始处理图片压缩包: {state.zip_file_path}")
														
 
															+        
														
 
															+        try:
														
 
															+            # 调用image_util处理图片压缩包，获取图片URL列表
														
 
															+            image_urls = image_util.process_image_zip(
														
 
															+                state.zip_file_path,
														
 
															+                state.book_name
														
 
															+            )
														
 
															+            
														
 
															+            print(f"图片压缩包处理完成，共 {len(image_urls)} 张图片")
														
 
															+            
														
 
															+            # 构建split_images列表，格式与PDF解析工作流保持一致
														
 
															+            split_images = []
														
 
															+            for i, url in enumerate(image_urls):
														
 
															+                split_images.append({
														
 
															+                    "page_number": i + 1,
														
 
															+                    "image_url": url,
														
 
															+                    "image": None  # 稍后在解析时加载
														
 
															+                })
														
 
															+            
														
 
															+            return {
														
 
															+                "split_images": split_images,
														
 
															+                "processed_images": 0,
														
 
															+                "is_complete": False
														
 
															+            }
														
 
															+        except Exception as e:
														
 
															+            print(f"处理图片压缩包时出错: {str(e)}")
														
 
															+            raise
														
 
															+    
														
 
															+    def _parse_single_page(self, image_info: Dict[str, Any], model_name: str) -> Dict[str, Any]:
														
 
															+        """解析单个图片（用于并行处理）"""
														
 
															+        prompt = """
														
 
															+            你是一个画本类童书的创作者，创作的内容适合0-12岁的儿童
														
 
															+            任务：你需要根据现有童书插画与内容，提取出插画中的各种要素、行为、情感，并针对每个要素进行独立描述
														
 
															+            注意：描述内容要积极正向，符合社会主义核心价值观
														
 
															+            输出要求：
														
 
															+            1.以json的格式输出，结构为：
														
 
															+            {
														
 
															+                "page_number": 页码,
														
 
															+                "content": 页面原文本内容,
														
 
															+                "elements": [
														
 
															+                    {
														
 
															+                        "element": "元素描述",
														
 
															+                        "description": "详细描述"
														
 
															+                    },
														
 
															+                    ...
														
 
															+                ]
														
 
															+            }
														
 
															+            2.每个要素的描述要简洁明了，不超过50个中文字符
														
 
															+            3.每个元素的描述要与插画中的元素相关，不能脱离插画而独立存在
														
 
															+            4.每个元素的描述要符合社会价值观，不能包含任何负面或不道德的内容
														
 
															+            """
														
 
															+        
														
 
															+        page_number = image_info["page_number"]
														
 
															+        image_url = image_info["image_url"]
														
 
															+        
														
 
															+        print(f"开始解析第 {page_number} 页，图片URL: {image_url}")
														
 
															+        
														
 
															+        try:
														
 
															+            # 从URL加载图片
														
 
															+            response = requests.get(image_url, timeout=30)
														
 
															+            response.raise_for_status()
														
 
															+            image = Image.open(requests.get(image_url, stream=True).raw)
														
 
															+            
														
 
															+            # 使用QWEN VL模型解析图像
														
 
															+            parser = QWenVLParser(model_name)
														
 
															+            result = parser.parse_image(image, page_number, prompt)
														
 
															+            
														
 
															+            print(f"第 {page_number} 页解析完成")
														
 
															+            return result
														
 
															+        except Exception as e:
														
 
															+            print(f"解析第 {page_number} 页时出错: {str(e)}")
														
 
															+            raise
														
 
															+    
														
 
															+    def _parse_image_node(self, state: ImageParsingState) -> Dict[str, Any]:
														
 
															+        """解析图像节点，使用并行处理"""
														
 
															+        if not state.split_images:
														
 
															+            return state.dict()
														
 
															+        
														
 
															+        print(f"开始并行解析 {len(state.split_images)} 张图片")
														
 
															+        
														
 
															+        parsed_results = []
														
 
															+        
														
 
															+        # 使用ThreadPoolExecutor实现并行处理
														
 
															+        with ThreadPoolExecutor(max_workers=4) as executor:
														
 
															+            # 提交所有图片解析任务
														
 
															+            future_to_image = {
														
 
															+                executor.submit(self._parse_single_page, image_info, self.model_name): image_info
														
 
															+                for image_info in state.split_images
														
 
															+            }
														
 
															+            
														
 
															+            # 收集解析结果
														
 
															+            for future in concurrent.futures.as_completed(future_to_image):
														
 
															+                try:
														
 
															+                    result = future.result()
														
 
															+                    parsed_results.append(result)
														
 
															+                except Exception as e:
														
 
															+                    image_info = future_to_image[future]
														
 
															+                    print(f"解析第 {image_info['page_number']} 页时出错: {str(e)}")
														
 
															+        
														
 
															+        # 按页码排序结果
														
 
															+        parsed_results.sort(key=lambda x: x["page_number"])
														
 
															+        
														
 
															+        print(f"所有图片解析完成，共解析 {len(parsed_results)} 张图片")
														
 
															+        
														
 
															+        return {
														
 
															+            "split_images": state.split_images,  # 保留split_images，以便后续访问图片
														
 
															+            "parsed_results": parsed_results,
														
 
															+            "processed_images": len(parsed_results),
														
 
															+            "is_complete": True
														
 
															+        }
														
 
															+    
														
 
															+    def _should_continue_parsing(self, state: ImageParsingState) -> str:
														
 
															+        """判断是否继续解析"""
														
 
															+        # 由于我们使用了并行处理，parse_image_node会一次性处理所有图片
														
 
															+        # 所以这里总是返回"complete"
														
 
															+        return "complete"
														
 
															+    
														
 
															+    def _vectorize_store_node(self, state: ImageParsingState) -> Dict[str, Any]:
														
 
															+        """向量化入库节点"""
														
 
															+        print(f"开始向量化入库，共 {len(state.parsed_results)} 张图片")
														
 
															+        
														
 
															+        # 创建索引（如果不存在）
														
 
															+        index_name = f"image_documents_{state.dataset_id}"
														
 
															+        state.vector_db.create_index(index_name)
														
 
															+        
														
 
															+        # 准备要入库的文档列表
														
 
															+        documents_to_store = []
														
 
															+        
														
 
															+        # 获取文件名和总页数
														
 
															+        file_name = f"{state.book_name}.zip"
														
 
															+        file_page_count = len(state.split_images)
														
 
															+        
														
 
															+        # 遍历所有解析结果，生成向量化文档
														
 
															+        for i, parsed_result in enumerate(state.parsed_results):
														
 
															+            try:
														
 
															+                page_number = parsed_result.get("page_number")
														
 
															+                text = parsed_result.get("content", "")
														
 
															+                image_url = state.split_images[i].get("image_url")
														
 
															+                
														
 
															+                # 从URL加载图片
														
 
															+                image = None
														
 
															+                try:
														
 
															+                    response = requests.get(image_url, timeout=30)
														
 
															+                    response.raise_for_status()
														
 
															+                    image = Image.open(requests.get(image_url, stream=True).raw)
														
 
															+                except Exception as e:
														
 
															+                    print(f"加载图片 {image_url} 失败: {str(e)}")
														
 
															+                
														
 
															+                # 获取多模态嵌入向量
														
 
															+                print(f"正在生成第 {page_number} 页的多模态嵌入...")
														
 
															+                embedding = state.embedding_model.get_multimodal_embedding(text, image)
														
 
															+                
														
 
															+                # 生成1024维稠密向量
														
 
															+                dense_vector_1024 = embedding[:1024]  # 取前1024维
														
 
															+                
														
 
															+                # 创建文档
														
 
															+                document = {
														
 
															+                    "id": f"{state.document_id}_{page_number}" if state.document_id else f"image_{state.dataset_id}_{page_number}",
														
 
															+                    "file_name": file_name,
														
 
															+                    "file_page_count": file_page_count,
														
 
															+                    "page_number": page_number,
														
 
															+                    "content": text,
														
 
															+                    "image_path": image_url,  # 这里可以根据实际情况生成图片ID
														
 
															+                    "dense_vector_1024": dense_vector_1024,
														
 
															+                    "dataset_id": state.dataset_id,
														
 
															+                    "document_id": state.document_id
														
 
															+                }
														
 
															+                
														
 
															+                documents_to_store.append(document)
														
 
															+                print(f"第 {page_number} 页向量化完成")
														
 
															+            except Exception as e:
														
 
															+                print(f"第 {i+1} 页向量化失败: {str(e)}")
														
 
															+        
														
 
															+        # 批量入库
														
 
															+        if documents_to_store:
														
 
															+            print(f"开始入库，共 {len(documents_to_store)} 个文档")
														
 
															+            infinity_client = get_client()
														
 
															+            result = infinity_client.insert(index_name, documents_to_store)
														
 
															+            print(f"入库结果: {result}")
														
 
															+        
														
 
															+        return {
														
 
															+            "vectorized_results": documents_to_store,
														
 
															+            "vectorized_images": len(documents_to_store),
														
 
															+            "is_complete": True
														
 
															+        }
														
 
															+    
														
 
															+    def _complete_node(self, state: ImageParsingState) -> Dict[str, Any]:
														
 
															+        """完成节点"""
														
 
															+        print(f"图片解析工作流完成，共解析 {len(state.parsed_results)} 张图片，向量化 {state.vectorized_images} 张图片")
														
 
															+        return {
														
 
															+            "is_complete": True
														
 
															+        }
														
 
															+    
														
 
															+    def run(self, zip_file_path: str, book_name: str, dataset_id: str, ragflow_api_url: str, rag_flow_api_key: str) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        运行图片解析工作流
														
 
															+        
														
 
															+        Args:
														
 
															+            zip_file_path: 图片压缩包路径
														
 
															+            book_name: 书名
														
 
															+            dataset_id: 数据集ID
														
 
															+            ragflow_api_url: RAGFLOW API URL
														
 
															+            rag_flow_api_key: RAGFLOW API密钥
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict: 包含最终状态的字典
														
 
															+        """
														
 
															+        initial_state = ImageParsingState(
														
 
															+            zip_file_path=zip_file_path,
														
 
															+            book_name=book_name,
														
 
															+            dataset_id=dataset_id,
														
 
															+            embedding_model=Embedding(model_name=model_settings.multimodal_embedding_model_name, api_key=model_settings.dashscope_api_key),
														
 
															+            ragflow_service=RAGFlowService(base_url=ragflow_api_url, api_key=rag_flow_api_key)
														
 
															+        )
														
 
															+        result = self.workflow.invoke(initial_state)
														
 
															+        
														
 
															+        # 检查结果类型，如果是字典直接返回，否则调用dict()方法
														
 
															+        if isinstance(result, dict):
														
 
															+            return result
														
 
															+        else:
														
 
															+            return result.dict()
														
--- a/src/parser/pdf_parser/__init__.py
+++ b/src/parser/pdf_parser/__init__.py
--- a/src/parser/pdf_parser/pdf_parser_workflow.py
+++ b/src/parser/pdf_parser/pdf_parser_workflow.py
@@ -0,0 +1,501 @@
 
															+import os
														
 
															+import concurrent.futures
														
 
															+import time
														
 
															+from concurrent.futures import ThreadPoolExecutor
														
 
															+from langgraph.graph import StateGraph, START, END
														
 
															+from typing import List, Dict, Any
														
 
															+from pydantic import BaseModel, Field, ConfigDict
														
 
															+from src.parser.pdf_parser.pdf_splitter import PDFSplitter
														
 
															+from src.model.qwen_vl import QWenVLParser
														
 
															+from src.utils.ragflow.ragflow_service import RAGFlowService
														
 
															+from src.utils.ragflow.chunk_record import get_chunk_record_service
														
 
															+from src.model.multimodal_embedding import Embedding
														
 
															+from src.conf.settings import model_settings, vector_db_settings, minio_settings
														
 
															+from src.utils.infinity import get_client
														
 
															+from langfuse.langchain import CallbackHandler
														
 
															+from src.conf.rag_parser_config import RagParserDefaults
														
 
															+
														
 
															+# 定义工作流状态类
														
 
															+class PDFParsingState(BaseModel):
														
 
															+    """PDF解析工作流状态"""
														
 
															+    model_config = ConfigDict(arbitrary_types_allowed=True)
														
 
															+    pdf_path: str = Field(..., description="PDF文件路径")
														
 
															+    dataset_name: str = Field(..., description="数据集名称")
														
 
															+    dataset_id: str = Field(default="", description="RAGFLOW数据集ID")
														
 
															+    document_id: str = Field(default="", description="上传后的文档ID")
														
 
															+    page_dataset_id: str = Field(..., description="页面数据集ID")
														
 
															+    page_document_id: str = Field(default="", description="上传后的页面文档ID")
														
 
															+    split_pages: List[Dict[str, Any]] = Field(default_factory=list, description="拆分后的页面列表")
														
 
															+    current_page: Dict[str, Any] = Field(default_factory=dict, description="当前处理的页面")
														
 
															+    parsed_results: List[Dict[str, Any]] = Field(default_factory=list, description="解析结果列表")
														
 
															+    vectorized_results: List[Dict[str, Any]] = Field(default_factory=list, description="向量化结果列表")
														
 
															+    processed_pages: int = Field(default=0, description="已处理的页面数量")
														
 
															+    vectorized_pages: int = Field(default=0, description="已向量化的页面数量")
														
 
															+    is_complete: bool = Field(default=False, description="是否处理完成")
														
 
															+
														
 
															+# 创建工作流构建器
														
 
															+class PDFParsingWorkflow:
														
 
															+    """PDF扫描件拆分解析工作流"""
														
 
															+    
														
 
															+    def __init__(self, model_name: str = "Qwen/Qwen3-VL-8B-Instruct"):
														
 
															+        """
														
 
															+        初始化PDF解析工作流
														
 
															+        
														
 
															+        Args:
														
 
															+            model_name: QWEN VL模型名称
														
 
															+        """
														
 
															+        self.model_name = model_name
														
 
															+        self.workflow = self._build_workflow()
														
 
															+        self.ragflow_service = RAGFlowService()
														
 
															+        self.langfuse_handler = CallbackHandler()
														
 
															+        self.embedding_model = Embedding(model_name=model_settings.multimodal_embedding_model_name, api_key=model_settings.dashscope_api_key)
														
 
															+        
														
 
															+    
														
 
															+    def _build_workflow(self):
														
 
															+        """构建langgraph工作流，实现基于条件路由的并行处理"""
														
 
															+        # 创建状态图
														
 
															+        graph = StateGraph(PDFParsingState)
														
 
															+        
														
 
															+        # 添加查询知识库是否存在节点
														
 
															+        graph.add_node("get_ragflow_dataset", self.get_ragflow_dataset)
														
 
															+
														
 
															+        # 添加创建知识库节点
														
 
															+        graph.add_node("create_ragflow_dataset", self.create_ragflow_dataset)
														
 
															+
														
 
															+        # 添加上传文档节点
														
 
															+        graph.add_node("upload_document", self._upload_document_node)
														
 
															+
														
 
															+        # 添加上传图书页面文档节点
														
 
															+        graph.add_node("upload_page_document", self._upload_page_document_node)
														
 
															+        
														
 
															+        # 添加解析文档节点
														
 
															+        graph.add_node("parse_document", self._parse_document_node)
														
 
															+        
														
 
															+        # 添加拆分PDF节点
														
 
															+        graph.add_node("split_pdf", self._split_pdf_node)
														
 
															+        
														
 
															+        # 添加解析图像节点
														
 
															+        graph.add_node("parse_image", self._parse_image_node)
														
 
															+
														
 
															+        # 添加解析图书页面图像节点
														
 
															+        graph.add_node("create_ragflow_chunk", self.create_ragflow_chunk)
														
 
															+        
														
 
															+        # 添加向量化入库节点
														
 
															+        graph.add_node("vectorize_store", self._vectorize_store_node)
														
 
															+        
														
 
															+        # 添加完成节点
														
 
															+        graph.add_node("complete", self._complete_node)
														
 
															+        
														
 
															+        # 定义边
														
 
															+        # 查询知识库是否存在
														
 
															+        graph.add_edge(START, "get_ragflow_dataset")
														
 
															+        # 添加条件边，判断知识库是否存在
														
 
															+        graph.add_conditional_edges(
														
 
															+            "get_ragflow_dataset",
														
 
															+            self._check_dataset_exists,
														
 
															+            {
														
 
															+                "exists": "upload_document",
														
 
															+                "not_exists": "create_ragflow_dataset"
														
 
															+            }
														
 
															+        )
														
 
															+        # 添加解析文档边
														
 
															+        graph.add_edge("create_ragflow_dataset", "upload_document")
														
 
															+        graph.add_edge("upload_document", "parse_document")
														
 
															+        graph.add_edge("upload_document", "upload_page_document")
														
 
															+        graph.add_edge("parse_document", "split_pdf")
														
 
															+        # 定义图片解析边
														
 
															+        graph.add_edge("split_pdf", "parse_image")
														
 
															+        
														
 
															+        # 添加条件边：判断是否继续解析
														
 
															+        graph.add_conditional_edges(
														
 
															+            "parse_image",
														
 
															+            self._should_continue_parsing,
														
 
															+            {
														
 
															+                "continue": "parse_image",
														
 
															+                "complete": "vectorize_store",
														
 
															+            }
														
 
															+        )
														
 
															+        
														
 
															+        # 添加从vectorize_store到create_ragflow_chunk的边
														
 
															+        graph.add_edge("vectorize_store", "create_ragflow_chunk")
														
 
															+        
														
 
															+        graph.add_edge("create_ragflow_chunk", "complete")
														
 
															+        
														
 
															+        graph.add_edge("complete", END)
														
 
															+        
														
 
															+        # 编译工作流
														
 
															+        return graph.compile()
														
 
															+    
														
 
															+    def get_ragflow_dataset(self, state: PDFParsingState) -> str:
														
 
															+        """获取RAGFLOW数据集ID"""
														
 
															+        try:
														
 
															+            dataset = self.ragflow_service.get_dataset(name=state.dataset_name)
														
 
															+            dataset_id = dataset["id"] if dataset else ""
														
 
															+            print(f"数据集 {state.dataset_name} 的ID为: {dataset_id}")
														
 
															+            return {
														
 
															+                "dataset_id": dataset_id
														
 
															+            }
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"获取数据集ID时出错: {str(e)}")
														
 
															+
														
 
															+    def _check_dataset_exists(self, state: PDFParsingState) -> str:
														
 
															+        """检查RAGFLOW数据集是否存在"""
														
 
															+        # 判断state.dataset_id是否为空，为空则返回"not_exists"，否则返回"exists"
														
 
															+        if state.dataset_id == "":
														
 
															+            return "not_exists"
														
 
															+        else:
														
 
															+            return "exists"
														
 
															+        
														
 
															+    def create_ragflow_dataset(self, state: PDFParsingState) -> str:
														
 
															+        """创建RAGFLOW数据集"""      
														
 
															+        print(f"开始创建数据集: {state.dataset_name}")
														
 
															+        
														
 
															+        try: 
														
 
															+            # 创建数据集
														
 
															+            dataset = self.ragflow_service.create_dataset(name=state.dataset_name, description="",
														
 
															+                                             permission=RagParserDefaults.DATASET_PERMISSION,
														
 
															+                                             chunk_method=RagParserDefaults.DATASET_CHUNK_METHOD,
														
 
															+                                             parser_config=RagParserDefaults.DATASET_CONFIG_DICT)
														
 
															+            dataset_id = dataset["id"]                     
														
 
															+            print(f"数据集创建成功，数据集ID: {dataset_id}")
														
 
															+            return {
														
 
															+                "dataset_id": dataset_id
														
 
															+            }
														
 
															+        except Exception as e:
														
 
															+            print(f"创建数据集时出错: {str(e)}")
														
 
															+            raise
														
 
															+
														
 
															+    def _upload_document_node(self, state: PDFParsingState) -> Dict[str, Any]:
														
 
															+        """RAGFLOW上传文档节点"""
														
 
															+        print(f"开始上传文档到数据集 {state.dataset_id}: {state.pdf_path}")
														
 
															+        
														
 
															+        try:
														
 
															+            # 上传文档
														
 
															+            document_info_list = self.ragflow_service.upload_document(
														
 
															+                dataset_id=state.dataset_id,
														
 
															+                file_path=state.pdf_path
														
 
															+            )
														
 
															+            
														
 
															+            # 检查响应
														
 
															+            if document_info_list and len(document_info_list) > 0:
														
 
															+                document_id = document_info_list[0]["id"]
														
 
															+                print(f"文档上传成功，文档ID: {document_id}")
														
 
															+                return {
														
 
															+                    "document_id": document_id,
														
 
															+                }
														
 
															+            else:
														
 
															+                print("文档上传失败: 未返回有效的文档信息")
														
 
															+                raise Exception("文档上传失败: 未返回有效的文档信息")
														
 
															+        except Exception as e:
														
 
															+            print(f"上传文档时出错: {str(e)}")
														
 
															+            raise
														
 
															+
														
 
															+    def _upload_page_document_node(self, state: PDFParsingState) -> Dict[str, Any]:
														
 
															+        """RAGFLOW上传页面文档节点"""
														
 
															+        print(f"开始上传页面文档到数据集 {state.dataset_id}: {state.pdf_path}")
														
 
															+        
														
 
															+        try:
														
 
															+            # 上传文档
														
 
															+            document_info_list = self.ragflow_service.upload_document(
														
 
															+                dataset_id=state.page_dataset_id,
														
 
															+                file_path=state.pdf_path
														
 
															+            ) 
														
 
															+            
														
 
															+            # 检查响应
														
 
															+            if document_info_list and len(document_info_list) > 0:
														
 
															+                page_document_id = document_info_list[0]["id"]
														
 
															+                print(f"文档上传成功，文档ID: {page_document_id}")
														
 
															+                return {
														
 
															+                    "page_document_id": page_document_id,
														
 
															+                }
														
 
															+            else:
														
 
															+                print("文档上传失败: 未返回有效的文档信息")
														
 
															+                raise Exception("文档上传失败: 未返回有效的文档信息")
														
 
															+        except Exception as e:
														
 
															+            print(f"上传文档时出错: {str(e)}")
														
 
															+            raise
														
 
															+
														
 
															+    def _parse_document_node(self, state: PDFParsingState) -> Dict[str, Any]:
														
 
															+        """RAGFLOW文档解析节点"""
														
 
															+        print(f"开始解析文档 {state.dataset_id}: {state.document_id}")
														
 
															+        
														
 
															+        try:        
														
 
															+            # 解析文档
														
 
															+            parse_success = self.ragflow_service.parse_document(
														
 
															+                dataset_id=state.dataset_id,
														
 
															+                document_ids=[state.document_id]
														
 
															+            )
														
 
															+            
														
 
															+            # 检查响应parse_success为bool
														
 
															+            if parse_success:
														
 
															+                print(f"文档解析成功，文档ID: {state.document_id}")
														
 
															+                # 返回空列表，因为parsed_results字段期望是列表类型
														
 
															+                return {
														
 
															+                    "parsed_results": []
														
 
															+                }
														
 
															+            else:
														
 
															+                print("文档解析失败: 未返回有效的解析结果")
														
 
															+                raise Exception("文档解析失败: 未返回有效的解析结果")
														
 
															+        except Exception as e:
														
 
															+            print(f"解析文档时出错: {str(e)}")
														
 
															+            raise
														
 
															+    
														
 
															+    def _split_pdf_node(self, state: PDFParsingState) -> Dict[str, Any]:
														
 
															+        """拆分PDF节点"""
														
 
															+        print(f"开始拆分PDF: {state.pdf_path}")
														
 
															+        
														
 
															+        # 拆分PDF
														
 
															+        splitter = PDFSplitter()
														
 
															+        split_pages = splitter.split_pdf(state.pdf_path)
														
 
															+        
														
 
															+        print(f"PDF拆分完成，共 {len(split_pages)} 页")
														
 
															+        
														
 
															+        return {
														
 
															+            "split_pages": split_pages,
														
 
															+            "parsed_results": [],
														
 
															+            "processed_pages": 0,
														
 
															+            "is_complete": False
														
 
															+        }
														
 
															+    
														
 
															+    def _parse_single_page(self, page: Dict[str, Any], model_name: str) -> Dict[str, Any]:
														
 
															+        """解析单个页面（用于并行处理）"""
														
 
															+        page_number = page["page_number"]
														
 
															+        image = page["image"]
														
 
															+        prompt = f"""
														
 
															+            角色定位：你是一位顶尖的儿童绘本分析师与视觉工程专家，擅长将插画视觉信息转化为高精度的结构化元数据。
														
 
															+            任务描述：请深度解析提供的绘本页面，不仅提取基本要素，还要进行“像素级”的特征拆解。重点关注角色的微表情、服饰纹理、环境光效、构图视角及整体艺术风格。
														
 
															+            当前提取页码为：{page_number}
														
 
															+            提取维度：
														
 
															+            艺术风格 (Style)：包括笔触（如水彩、蜡笔）、线条粗细、整体色调偏好。
														
 
															+            角色特征 (Character)：五官细节、肢体动作的动态感、衣物材质、标志性配饰。
														
 
															+            空间构图 (Composition)：透视关系（仰拍/俯拍）、视觉焦点、前景/中景/背景的层次。
														
 
															+            物品与环境 (Object & Environment)：物体的精确形状、材质光泽、环境中的自然元素（风吹草动的方向等）。
														
 
															+            内容标签 (content_tags)：请从以下三个维度进行打标：
														
 
															+            主题维度（如：自然探索、家庭学校、科学科普、传统文化）
														
 
															+            具体对象（如：昆虫、交通工具、五官、家具）
														
 
															+            情感氛围（如：惊喜、友爱、好奇、安静）
														
 
															+            能力标签 (ability_tags)：请严格参照以下教育能力模型，根据图中元素体现的教育价值进行选择：
														
 
															+            [语言表达、逻辑思维、数理逻辑、空间想象、艺术创造、身体协调、自我认知、社会交往、自然观察、情绪管理]。
														
 
															+            输出约束：
														
 
															+            保持描述积极向上，符合0-12岁儿童阅读的安全标准。
														
 
															+            描述精度：单条描述需包含具体视觉属性（颜色、形状、质感），字数控制在50字以内。
														
 
															+            格式要求：严谨按照指定的JSON结构输出。  
														
 
															+            json格式：
														
 
															+            {{
														
 
															+                "page_meta": {{
														
 
															+                "page_number": {page_number},
														
 
															+                "content_text": "页面原文本内容",
														
 
															+                "overall_style": {{
														
 
															+                    "art_medium": "艺术媒介（如：手绘水彩、矢量平涂、3D渲染）",
														
 
															+                    "color_palette": ["主色调1", "主色调2"],
														
 
															+                    "lighting": "光影描述（如：柔和侧光、清晨自然光）",
														
 
															+                    "composition": "构图（如：三分法、对角线构图、大远景）"
														
 
															+                    }}
														
 
															+                }},
														
 
															+                "elements": [
														
 
															+                    {{
														
 
															+                        "element_name": "元素名称（如：小兔子）",
														
 
															+                        "character_name": "角色名称（如果有，没有的话，角色名称为空字符串）",
														
 
															+                        "category": "分类（角色/场景/道具）",
														
 
															+                        "spatial_layer": "所在层级（前景/中景/背景）",
														
 
															+                        "visual_attributes": {{
														
 
															+                            "appearance": "外貌细节描述（发型、五官、材质感）",
														
 
															+                            "action_emotion": "行为动作与情感流露",
														
 
															+                            "color_detail": "像素级颜色描述（如：淡茱萸粉、薄荷绿）",
														
 
															+                            "ability_tag": "如果为角色，其表现出的正面能力/特质"
														
 
															+                        }},
														
 
															+                        "content_tags": {{
														
 
															+                            "theme": ["自然", "社交", "生活常识"], 
														
 
															+                            "object": ["动物", "服装", "植物"],
														
 
															+                            "emotion": ["快乐", "勇敢"]
														
 
															+                        }},
														
 
															+                        "ability_tags": ["语言表达", "逻辑思维", "自我认知"],
														
 
															+                        "description": "综合性简洁描述（50字内）"
														
 
															+                    }}
														
 
															+                ]
														
 
															+            }}
														
 
															+            """
														
 
															+        
														
 
															+        print(f"开始解析第 {page_number} 页")
														
 
															+        
														
 
															+        # 使用QWEN VL模型解析图像
														
 
															+        parser = QWenVLParser(model_name)
														
 
															+        result = parser.parse_image(image, page_number, prompt)
														
 
															+        
														
 
															+        print(f"第 {page_number} 页解析完成")
														
 
															+        return result
														
 
															+
														
 
															+    def _parse_image_node(self, state: PDFParsingState) -> Dict[str, Any]:
														
 
															+        """解析图像节点，使用并行处理"""
														
 
															+        if not state.split_pages:
														
 
															+            return state.dict()
														
 
															+        
														
 
															+        print(f"开始并行解析 {len(state.split_pages)} 页")
														
 
															+        
														
 
															+        parsed_results = []
														
 
															+        
														
 
															+        # 使用ThreadPoolExecutor实现并行处理
														
 
															+        with ThreadPoolExecutor(max_workers=5, thread_name_prefix="parse_page_") as executor:
														
 
															+            # 提交所有页面解析任务
														
 
															+            future_to_page = {
														
 
															+                executor.submit(self._parse_single_page, page, self.model_name): page
														
 
															+                for page in state.split_pages
														
 
															+            }
														
 
															+            
														
 
															+            # 收集解析结果
														
 
															+            for future in concurrent.futures.as_completed(future_to_page):
														
 
															+                try:
														
 
															+                    result = future.result()
														
 
															+                    parsed_results.append(result)
														
 
															+                except Exception as e:
														
 
															+                    page = future_to_page[future]
														
 
															+                    print(f"解析第 {page['page_number']} 页时出错: {str(e)}")
														
 
															+        
														
 
															+        # 按页码排序结果
														
 
															+        parsed_results.sort(key=lambda x: x["page_number"])
														
 
															+        
														
 
															+        print(f"所有页面解析完成，共解析 {len(parsed_results)} 页")
														
 
															+        
														
 
															+        return {
														
 
															+            "split_pages": state.split_pages,  # 保留split_pages，以便后续访问图片
														
 
															+            "parsed_results": parsed_results,
														
 
															+            "processed_pages": len(parsed_results),
														
 
															+            "is_complete": True
														
 
															+        }
														
 
															+    
														
 
															+
														
 
															+    
														
 
															+    def _should_continue_parsing(self, state: PDFParsingState) -> str:
														
 
															+        """判断是否继续解析"""
														
 
															+        # 由于我们使用了并行处理，parse_image_node会一次性处理所有页面
														
 
															+        # 所以这里总是返回"complete"
														
 
															+        return "complete"
														
 
															+    
														
 
															+    def create_ragflow_chunk(self, state: PDFParsingState):
														
 
															+        """单页上传节点"""
														
 
															+        print(f"开始单页上传，共 {len(state.parsed_results)} 页")
														
 
															+        
														
 
															+        # 遍历所有解析结果，上传单页
														
 
															+         # 遍历所有解析结果，生成向量化文档
														
 
															+        for i, parsed_result in enumerate(state.parsed_results):
														
 
															+            page_number = parsed_result.get("page_number")
														
 
															+            text = parsed_result.get("content", "")
														
 
															+            image_path = state.split_pages[i].get("image_path")
														
 
															+            # 截取url中的图片名
														
 
															+            img_id = f"{vector_db_settings.infinity_page_dataset_id}-{os.path.basename(image_path).split(".")[0]}.png"
														
 
															+            
														
 
															+            # 上传单页到RagFlow Chunk
														
 
															+            chunk = self.ragflow_service.create_chunk(dataset_id=state.page_dataset_id, 
														
 
															+                                              document_id=state.page_document_id, 
														
 
															+                                              content=text)
														
 
															+            chunk_id = chunk["chunk"]["id"]
														
 
															+            print(f"上传第 {page_number} 页，Chunk ID: {chunk_id}")
														
 
															+
														
 
															+            # 记录到定时任务表
														
 
															+            get_chunk_record_service().record_chunk_add(
														
 
															+                database_name=vector_db_settings.infinity_ragflow_database,
														
 
															+                table_name=vector_db_settings.infinity_page_table_name,
														
 
															+                chunk_id=chunk_id,
														
 
															+                cond=f"id = '{chunk_id}'",
														
 
															+                data={"img_id": img_id}
														
 
															+            )
														
 
															+
														
 
															+    def _vectorize_store_node(self, state: PDFParsingState) -> Dict[str, Any]:
														
 
															+        """向量化入库节点"""
														
 
															+        print(f"开始向量化入库，共 {len(state.parsed_results)} 页")
														
 
															+        
														
 
															+        # 创建索引（如果不存在）
														
 
															+        index_name = f"{vector_db_settings.infinity_table_name}"
														
 
															+        # get_client().create_index()
														
 
															+        
														
 
															+        # 准备要入库的文档列表
														
 
															+        documents_to_store = []
														
 
															+        
														
 
															+        # 获取文件名和总页数
														
 
															+        file_name = os.path.basename(state.pdf_path)
														
 
															+        file_page_count = len(state.split_pages)
														
 
															+        
														
 
															+        # 遍历所有解析结果，生成向量化文档
														
 
															+        for i, parsed_result in enumerate(state.parsed_results):
														
 
															+            try:
														
 
															+                page_number = parsed_result.get("page_number")
														
 
															+                text = parsed_result.get("content", "")
														
 
															+                image = state.split_pages[i].get("image")
														
 
															+                
														
 
															+                image_path = state.split_pages[i].get("image_path")
														
 
															+
														
 
															+                # 获取多模态嵌入向量
														
 
															+                print(f"正在生成第 {page_number} 页的多模态嵌入...")
														
 
															+                embedding = self.embedding_model.get_multimodal_embedding(text, image)
														
 
															+                
														
 
															+                # 生成1024维稠密向量（如果嵌入向量维度不是1024，这里需要处理）
														
 
															+                dense_vector_1024 = embedding[:1024]  # 取前1024维
														
 
															+                
														
 
															+                # 创建文档
														
 
															+                document = {
														
 
															+                    "id": f"{state.document_id}_{page_number}",
														
 
															+                    "file_name": file_name,
														
 
															+                    "file_page_count": file_page_count,
														
 
															+                    "page_number": page_number,
														
 
															+                    "content": text,
														
 
															+                    "image_path": image_path,
														
 
															+                    "dense_vector_1024": dense_vector_1024,
														
 
															+                    "dataset_id": state.dataset_id,
														
 
															+                    "document_id": state.document_id
														
 
															+                }
														
 
															+                
														
 
															+                documents_to_store.append(document)
														
 
															+                print(f"第 {page_number} 页向量化完成")
														
 
															+            except Exception as e:
														
 
															+                print(f"第 {i+1} 页向量化失败: {str(e)}")
														
 
															+        
														
 
															+        # 批量入库
														
 
															+        if documents_to_store:
														
 
															+            print(f"开始入库，共 {len(documents_to_store)} 个文档")
														
 
															+            result = get_client().insert(
														
 
															+                table_name=vector_db_settings.infinity_table_name,
														
 
															+                documents=documents_to_store,
														
 
															+                database_name=vector_db_settings.infinity_database
														
 
															+            )
														
 
															+            print(f"入库结果: {result}")
														
 
															+        
														
 
															+        return {
														
 
															+            "vectorized_results": documents_to_store,
														
 
															+            "vectorized_pages": len(documents_to_store),
														
 
															+            "is_complete": True
														
 
															+        }
														
 
															+    
														
 
															+    def _complete_node(self, state: PDFParsingState) -> Dict[str, Any]:
														
 
															+        """完成节点"""
														
 
															+        print(f"PDF解析工作流完成，共解析 {len(state.parsed_results)} 页，向量化 {state.vectorized_pages} 页")
														
 
															+        # 判断ragflow是否解析成功
														
 
															+
														
 
															+        return {
														
 
															+            "is_complete": True
														
 
															+        }
														
 
															+    
														
 
															+    def run(self, pdf_path: str, page_dataset_id: str, dataset_name: str) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        运行PDF解析工作流
														
 
															+        
														
 
															+        Args:
														
 
															+            pdf_path: PDF文件路径
														
 
															+            page_dataset_id: 数据集ID
														
 
															+            ragflow_api_url: RAGFLOW API URL
														
 
															+            rag_flow_api_key: RAGFLOW API密钥
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict: 包含最终状态的字典
														
 
															+        """
														
 
															+        initial_state = PDFParsingState(
														
 
															+            pdf_path=pdf_path,
														
 
															+            page_dataset_id=page_dataset_id,
														
 
															+            dataset_name=dataset_name
														
 
															+        )
														
 
															+        result = self.workflow.invoke(initial_state, config={"callbacks": [self.langfuse_handler]})
														
 
															+        
														
 
															+        # 检查结果类型，如果是字典直接返回，否则调用dict()方法
														
 
															+        if isinstance(result, dict):
														
 
															+            return result
														
 
															+        else:
														
 
															+            return result.dict()
														
--- a/src/parser/pdf_parser/pdf_splitter.py
+++ b/src/parser/pdf_parser/pdf_splitter.py
@@ -0,0 +1,90 @@
 
															+import fitz
														
 
															+from PIL import Image
														
 
															+import io
														
 
															+from typing import List, Dict, Tuple
														
 
															+from src.conf.settings import vector_db_settings
														
 
															+
														
 
															+class PDFSplitter:
														
 
															+    """PDF扫描件按页拆分工具"""
														
 
															+    
														
 
															+    @staticmethod
														
 
															+    def split_pdf(pdf_path: str) -> List[Dict[str, any]]:
														
 
															+        """
														
 
															+        将PDF按页拆分，转换为图像并记录页码，同时保存图片到MinIO
														
 
															+        
														
 
															+        Args:
														
 
															+            pdf_path: PDF文件路径
														
 
															+            
														
 
															+        Returns:
														
 
															+            List[Dict]: 包含每一页信息的列表，每个字典包含:
														
 
															+                - page_number: 页码
														
 
															+                - image: PIL图像对象
														
 
															+                - image_bytes: 图像字节流
														
 
															+                - image_path: MinIO中保存的图片URL
														
 
															+        """
														
 
															+        import os
														
 
															+        from utils.file.minio.minio_util import MinIOUtil
														
 
															+        
														
 
															+        try:
														
 
															+            # 初始化MinioUtil
														
 
															+            minio_util = MinIOUtil()
														
 
															+            
														
 
															+            # 打开PDF文件
														
 
															+            pdf_document = fitz.open(pdf_path)
														
 
															+            
														
 
															+            # 获取PDF文件名（不含扩展名）
														
 
															+            pdf_filename = os.path.splitext(os.path.basename(pdf_path))[0]
														
 
															+            
														
 
															+            result = []
														
 
															+            for page_num in range(len(pdf_document)):
														
 
															+                # 获取页面
														
 
															+                page = pdf_document[page_num]
														
 
															+                # 页码从1开始
														
 
															+                page_number = page_num + 1
														
 
															+                
														
 
															+                # 将页面转换为图像
														
 
															+                # 使用较高分辨率，DPI=300
														
 
															+                pix = page.get_pixmap(dpi=300)
														
 
															+                
														
 
															+                # 将fitz pixmap转换为PIL图像
														
 
															+                image = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
														
 
															+                
														
 
															+                # 将图像转换为字节流，便于后续处理
														
 
															+                image_bytes = io.BytesIO()
														
 
															+                image.save(image_bytes, format='PNG')
														
 
															+                image_bytes.seek(0)
														
 
															+                
														
 
															+                # 生成图片文件名
														
 
															+                image_filename = f"{pdf_filename}_{page_number}.png"
														
 
															+                
														
 
															+                # 重置字节流指针
														
 
															+                image_bytes.seek(0)
														
 
															+                
														
 
															+                # 上传图片到MinIO，获取URL
														
 
															+                image_url = minio_util.custom_upload_file(file=image_bytes, original_filename=image_filename, bucket_name=vector_db_settings.infinity_page_dataset_id)
														
 
															+                
														
 
															+                result.append({
														
 
															+                    "page_number": page_number,
														
 
															+                    "image": image,
														
 
															+                    "image_bytes": image_bytes,
														
 
															+                    "image_path": image_url
														
 
															+                })
														
 
															+            
														
 
															+            # 关闭PDF文件
														
 
															+            pdf_document.close()
														
 
															+            # 将result根据page_number排序
														
 
															+            result.sort(key=lambda x: x["page_number"])
														
 
															+            return result
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"PDF拆分失败: {str(e)}")
														
 
															+    
														
 
															+    @staticmethod
														
 
															+    def save_page_image(image: Image.Image, output_path: str) -> None:
														
 
															+        """
														
 
															+        保存单页图像
														
 
															+        
														
 
															+        Args:
														
 
															+            image: PIL图像对象
														
 
															+            output_path: 输出文件路径
														
 
															+        """
														
 
															+        image.save(output_path, format='PNG')
														
--- a/src/parser/pdf_parser/test_service.py
+++ b/src/parser/pdf_parser/test_service.py
@@ -0,0 +1,58 @@
 
															+from .main import PDFParsingService
														
 
															+
														
 
															+def test_service_initialization():
														
 
															+    """测试服务初始化"""
														
 
															+    print("测试服务初始化...")
														
 
															+    try:
														
 
															+        service = PDFParsingService()
														
 
															+        print("✓ 服务初始化成功")
														
 
															+        return True
														
 
															+    except Exception as e:
														
 
															+        print(f"✗ 服务初始化失败: {str(e)}")
														
 
															+        return False
														
 
															+
														
 
															+def test_module_imports():
														
 
															+    """测试模块导入"""
														
 
															+    print("测试模块导入...")
														
 
															+    
														
 
															+    modules_to_test = [
														
 
															+        ("pdf_splitter", ".pdf_splitter"),
														
 
															+        ("qwen_vl", ".qwen_vl"),
														
 
															+        ("workflow", ".workflow"),
														
 
															+        ("main", ".main")
														
 
															+    ]
														
 
															+    
														
 
															+    all_imported = True
														
 
															+    for module_name, module_path in modules_to_test:
														
 
															+        try:
														
 
															+            __import__(module_path, fromlist=["*"], level=1)
														
 
															+            print(f"✓ {module_name} 模块导入成功")
														
 
															+        except Exception as e:
														
 
															+            print(f"✗ {module_name} 模块导入失败: {str(e)}")
														
 
															+            all_imported = False
														
 
															+    
														
 
															+    return all_imported
														
 
															+
														
 
															+def main():
														
 
															+    """测试主函数"""
														
 
															+    print("开始测试PDF解析服务...")
														
 
															+    print("=" * 50)
														
 
															+    
														
 
															+    # 测试模块导入
														
 
															+    module_test = test_module_imports()
														
 
															+    print()
														
 
															+    
														
 
															+    # 测试服务初始化
														
 
															+    init_test = test_service_initialization()
														
 
															+    print()
														
 
															+    
														
 
															+    print("=" * 50)
														
 
															+    if module_test and init_test:
														
 
															+        print("✓ 所有测试通过！服务可以正常使用")
														
 
															+        print("\n使用示例:")
														
 
															+        print("python -m services.pdf_parser.main --pdf_path <pdf文件路径> --output <输出json路径>")
														
 
															+    else:
														
 
															+        print("✗ 测试失败！请检查错误信息")
														
 
															+
														
 
															+if __name__ == "__main__":
														
 
															+    main()
														
--- a/src/utils/__init__.py
+++ b/src/utils/__init__.py
@@ -0,0 +1,11 @@
 
															+# 从分离的模块中导入所有组件，确保向后兼容性
														
 
															+from .infinity.pool import InfinityConnectionPool
														
 
															+from .infinity.client import InfinityClient, get_client, close_client
														
 
															+
														
 
															+# 重新导出所有组件，使它们可以从包级别访问
														
 
															+__all__ = [
														
 
															+    'InfinityConnectionPool',
														
 
															+    'InfinityClient',
														
 
															+    'get_client',
														
 
															+    'close_client'
														
 
															+]
														
--- a/src/utils/asymmetric_encryption.py
+++ b/src/utils/asymmetric_encryption.py
@@ -0,0 +1,151 @@
 
															+from cryptography.hazmat.primitives import serialization, hashes
														
 
															+from cryptography.hazmat.primitives.asymmetric import rsa, padding
														
 
															+from cryptography.hazmat.backends import default_backend
														
 
															+from typing import Tuple, Optional
														
 
															+import base64
														
 
															+
														
 
															+
														
 
															+class AsymmetricEncryption:
														
 
															+    """非对称加密工具类，使用RSA算法"""
														
 
															+
														
 
															+    @staticmethod
														
 
															+    def generate_key_pair(key_size: int = 2048) -> Tuple[bytes, bytes]:
														
 
															+        """
														
 
															+        生成RSA密钥对
														
 
															+        
														
 
															+        Args:
														
 
															+            key_size: 密钥大小，默认为2048位
														
 
															+        
														
 
															+        Returns:
														
 
															+            Tuple[bytes, bytes]: (私钥PEM格式，公钥PEM格式)
														
 
															+        """
														
 
															+        # 生成私钥
														
 
															+        private_key = rsa.generate_private_key(
														
 
															+            public_exponent=65537,
														
 
															+            key_size=key_size,
														
 
															+            backend=default_backend()
														
 
															+        )
														
 
															+        
														
 
															+        # 生成公钥
														
 
															+        public_key = private_key.public_key()
														
 
															+        
														
 
															+        # 将私钥序列化为PEM格式
														
 
															+        private_pem = private_key.private_bytes(
														
 
															+            encoding=serialization.Encoding.PEM,
														
 
															+            format=serialization.PrivateFormat.TraditionalOpenSSL,
														
 
															+            encryption_algorithm=serialization.NoEncryption()
														
 
															+        )
														
 
															+        
														
 
															+        # 将公钥序列化为PEM格式
														
 
															+        public_pem = public_key.public_bytes(
														
 
															+            encoding=serialization.Encoding.PEM,
														
 
															+            format=serialization.PublicFormat.SubjectPublicKeyInfo
														
 
															+        )
														
 
															+        
														
 
															+        return private_pem, public_pem
														
 
															+    
														
 
															+    @staticmethod
														
 
															+    def encrypt(message: str, public_key_pem: bytes) -> str:
														
 
															+        """
														
 
															+        使用公钥加密数据
														
 
															+        
														
 
															+        Args:
														
 
															+            message: 要加密的明文
														
 
															+            public_key_pem: 公钥PEM格式
														
 
															+        
														
 
															+        Returns:
														
 
															+            str: 加密后的base64编码字符串
														
 
															+        """
														
 
															+        # 加载公钥
														
 
															+        public_key = serialization.load_pem_public_key(
														
 
															+            public_key_pem,
														
 
															+            backend=default_backend()
														
 
															+        )
														
 
															+        
														
 
															+        # 加密数据
														
 
															+        encrypted = public_key.encrypt(
														
 
															+            message.encode('utf-8'),
														
 
															+            padding.OAEP(
														
 
															+                mgf=padding.MGF1(algorithm=hashes.SHA256()),
														
 
															+                algorithm=hashes.SHA256(),
														
 
															+                label=None
														
 
															+            )
														
 
															+        )
														
 
															+        
														
 
															+        # 返回base64编码的加密数据
														
 
															+        return base64.b64encode(encrypted).decode('utf-8')
														
 
															+    
														
 
															+    @staticmethod
														
 
															+    def decrypt(encrypted_message: str, private_key_pem: bytes) -> str:
														
 
															+        """
														
 
															+        使用私钥解密数据
														
 
															+        
														
 
															+        Args:
														
 
															+            encrypted_message: 加密后的base64编码字符串
														
 
															+            private_key_pem: 私钥PEM格式
														
 
															+        
														
 
															+        Returns:
														
 
															+            str: 解密后的明文
														
 
															+        """
														
 
															+        # 加载私钥
														
 
															+        private_key = serialization.load_pem_private_key(
														
 
															+            private_key_pem,
														
 
															+            password=None,
														
 
															+            backend=default_backend()
														
 
															+        )
														
 
															+        
														
 
															+        # 解码base64加密数据
														
 
															+        encrypted = base64.b64decode(encrypted_message)
														
 
															+        
														
 
															+        # 解密数据
														
 
															+        decrypted = private_key.decrypt(
														
 
															+            encrypted,
														
 
															+            padding.OAEP(
														
 
															+                mgf=padding.MGF1(algorithm=hashes.SHA256()),
														
 
															+                algorithm=hashes.SHA256(),
														
 
															+                label=None
														
 
															+            )
														
 
															+        )
														
 
															+        
														
 
															+        # 返回解密后的明文
														
 
															+        return decrypted.decode('utf-8')
														
 
															+    
														
 
															+    @staticmethod
														
 
															+    def save_key_to_file(key_pem: bytes, file_path: str) -> None:
														
 
															+        """
														
 
															+        将密钥保存到文件
														
 
															+        
														
 
															+        Args:
														
 
															+            key_pem: 密钥PEM格式
														
 
															+            file_path: 文件路径
														
 
															+        """
														
 
															+        with open(file_path, 'wb') as f:
														
 
															+            f.write(key_pem)
														
 
															+    
														
 
															+    @staticmethod
														
 
															+    def load_key_from_file(file_path: str) -> bytes:
														
 
															+        """
														
 
															+        从文件加载密钥
														
 
															+        
														
 
															+        Args:
														
 
															+            file_path: 文件路径
														
 
															+        
														
 
															+        Returns:
														
 
															+            bytes: 密钥PEM格式
														
 
															+        """
														
 
															+        with open(file_path, 'rb') as f:
														
 
															+            return f.read()
														
 
															+    
														
 
															+    @staticmethod
														
 
															+    def generate_key_pair_and_save(private_key_path: str, public_key_path: str, key_size: int = 2048) -> None:
														
 
															+        """
														
 
															+        生成密钥对并保存到文件
														
 
															+        
														
 
															+        Args:
														
 
															+            private_key_path: 私钥文件路径
														
 
															+            public_key_path: 公钥文件路径
														
 
															+            key_size: 密钥大小，默认为2048位
														
 
															+        """
														
 
															+        private_pem, public_pem = AsymmetricEncryption.generate_key_pair(key_size)
														
 
															+        AsymmetricEncryption.save_key_to_file(private_pem, private_key_path)
														
 
															+        AsymmetricEncryption.save_key_to_file(public_pem, public_key_path)
														
--- a/src/utils/async_utils.py
+++ b/src/utils/async_utils.py
@@ -0,0 +1,33 @@
 
															+"""
														
 
															+Async utility functions for running blocking operations
														
 
															+"""
														
 
															+import asyncio
														
 
															+from concurrent.futures import ThreadPoolExecutor
														
 
															+from typing import Any, Callable
														
 
															+
														
 
															+
														
 
															+# Create a thread pool executor
														
 
															+executor = ThreadPoolExecutor(max_workers=10)
														
 
															+
														
 
															+
														
 
															+async def run_in_threadpool(func: Callable[..., Any], *args, **kwargs) -> Any:
														
 
															+    """
														
 
															+    Run a blocking function in a thread pool
														
 
															+    
														
 
															+    Args:
														
 
															+        func: Blocking function to run
														
 
															+        *args: Arguments to pass to the function
														
 
															+        **kwargs: Keyword arguments to pass to the function
														
 
															+        
														
 
															+    Returns:
														
 
															+        Result of the function
														
 
															+    """
														
 
															+    loop = asyncio.get_event_loop()
														
 
															+    return await loop.run_in_executor(executor, func, *args, **kwargs)
														
 
															+
														
 
															+
														
 
															+def close_executor():
														
 
															+    """
														
 
															+    Close the thread pool executor
														
 
															+    """
														
 
															+    executor.shutdown(wait=True)
														
--- a/src/utils/auth.py
+++ b/src/utils/auth.py
@@ -0,0 +1,57 @@
 
															+"""
														
 
															+Authentication middleware for API key verification
														
 
															+"""
														
 
															+from fastapi import HTTPException, Request
														
 
															+from fastapi.middleware.cors import CORSMiddleware
														
 
															+from fastapi.middleware.gzip import GZipMiddleware
														
 
															+from src.common.result import Result
														
 
															+from src.utils.mysql import get_global_mysql_client
														
 
															+from datetime import datetime
														
 
															+
														
 
															+
														
 
															+async def verify_api_key(request: Request, call_next):
														
 
															+    """
														
 
															+    Verify API key from Authorization header
														
 
															+    """
														
 
															+    # Skip authentication for health check and root endpoints
														
 
															+    if request.url.path in ["/", "/health"]:
														
 
															+        response = await call_next(request)
														
 
															+        return response
														
 
															+    
														
 
															+    # Get Authorization header
														
 
															+    auth_header = request.headers.get("Authorization")
														
 
															+    if not auth_header:
														
 
															+        return Result.error(code=401, message="参数缺少api_key")
														
 
															+    
														
 
															+    # Check if header has Bearer prefix
														
 
															+    if not auth_header.startswith("Bearer "):
														
 
															+        return Result.error(code=401, message="Authorization header must be in format: Bearer {API_KEY}")
														
 
															+    
														
 
															+    # Extract API key
														
 
															+    api_key = auth_header.split(" ")[1]
														
 
															+    
														
 
															+    # Validate API key
														
 
															+    try:
														
 
															+        mysql_client = get_global_mysql_client()
														
 
															+        query = """
														
 
															+        SELECT id, is_active, expired_at 
														
 
															+        FROM api_keys 
														
 
															+        WHERE api_key = %s
														
 
															+        """
														
 
															+        result = mysql_client.fetch_one(query, [api_key])
														
 
															+        
														
 
															+        if not result:
														
 
															+            return Result.error(code=401, message="api_key错误，请仔细检查您的api_key")
														
 
															+        
														
 
															+        if not result["is_active"]:
														
 
															+            return Result.error(code=401, message="api_key已被禁用")
														
 
															+        
														
 
															+        if result["expired_at"] and result["expired_at"] < datetime.now():
														
 
															+            return Result.error(code=401, message="api_key已过期")
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        return Result.error(code=500, message=f"认证错误: {str(e)}")
														
 
															+    
														
 
															+    # Continue processing request
														
 
															+    response = await call_next(request)
														
 
															+    return response
														
--- a/src/utils/decorators/__init__.py
+++ b/src/utils/decorators/__init__.py
--- a/src/utils/decorators/langfuse_trace_embedding.py
+++ b/src/utils/decorators/langfuse_trace_embedding.py
@@ -0,0 +1,45 @@
 
															+import functools
														
 
															+import time
														
 
															+from langfuse import Langfuse
														
 
															+
														
 
															+# 初始化 Langfuse 客户端
														
 
															+langfuse = Langfuse()
														
 
															+
														
 
															+def langfuse_trace_embedding(name="embedding-operation"):
														
 
															+    """
														
 
															+    用于追踪 Embedding 操作的装饰器
														
 
															+    """
														
 
															+    def decorator(func):
														
 
															+        @functools.wraps(func)
														
 
															+        def wrapper(*args, **kwargs):
														
 
															+            # 1. 获取输入参数（假设第一个参数是文本或文本列表）
														
 
															+            # 对于 embed_query(text) 或 embed_documents(texts)
														
 
															+            input_data = args[1] if len(args) > 1 else kwargs.get("text") or kwargs.get("texts")
														
 
															+            
														
 
															+            # 2. 在 Langfuse 中开启一个 Span
														
 
															+            # 如果当前上下文已有 Trace，它会自动关联；如果没有，它会创建新的 Trace
														
 
															+            span = langfuse.span(
														
 
															+                name=name,
														
 
															+                input=input_data,
														
 
															+                metadata={"function": func.__name__}
														
 
															+            )
														
 
															+            
														
 
															+            start_time = time.time()
														
 
															+            try:
														
 
															+                # 3. 执行真正的 Embedding 操作
														
 
															+                result = func(*args, **kwargs)
														
 
															+                
														
 
															+                # 4. 记录执行结果和耗时
														
 
															+                span.end(
														
 
															+                    output={
														
 
															+                        "vector_count": len(result) if isinstance(result, list) else 1,
														
 
															+                        "dimension": len(result[0]) if isinstance(result, list) and len(result) > 0 else len(result) if isinstance(result, list) else 0
														
 
															+                    }
														
 
															+                )
														
 
															+                return result
														
 
															+            except Exception as e:
														
 
															+                # 捕捉异常并记录到 Langfuse
														
 
															+                span.end(level="ERROR", status_message=str(e))
														
 
															+                raise e
														
 
															+        return wrapper
														
 
															+    return decorator
														
--- a/src/utils/decorators/singleton.py
+++ b/src/utils/decorators/singleton.py
@@ -0,0 +1,13 @@
 
															+# 单例装饰器
														
 
															+class singleton:
														
 
															+    """
														
 
															+    单例装饰器，确保类只有一个实例
														
 
															+    """
														
 
															+    def __init__(self, cls):
														
 
															+        self.cls = cls
														
 
															+        self._instance = None
														
 
															+    
														
 
															+    def __call__(self, *args, **kwargs):
														
 
															+        if self._instance is None:
														
 
															+            self._instance = self.cls(*args, **kwargs)
														
 
															+        return self._instance
														
--- a/src/utils/es/__init__.py
+++ b/src/utils/es/__init__.py
@@ -0,0 +1,18 @@
 
															+"""
														
 
															+Elasticsearch utility module
														
 
															+"""
														
 
															+from src.utils.es.client_manager import es_client_manager, ESClientManager
														
 
															+from src.utils.es.core.index_manager import index_manager, IndexManager
														
 
															+from src.utils.es.services.search_service import search_service, SearchService
														
 
															+from src.utils.es.bulk_helper import bulk_helper, BulkHelper
														
 
															+
														
 
															+__all__ = [
														
 
															+    "es_client_manager",
														
 
															+    "ESClientManager",
														
 
															+    "index_manager",
														
 
															+    "IndexManager",
														
 
															+    "search_service",
														
 
															+    "SearchService",
														
 
															+    "bulk_helper",
														
 
															+    "BulkHelper"
														
 
															+]
														
--- a/src/utils/es/bulk_helper.py
+++ b/src/utils/es/bulk_helper.py
@@ -0,0 +1,318 @@
 
															+"""
														
 
															+Elasticsearch bulk helper
														
 
															+Encapsulates efficient bulk import logic using helpers.bulk
														
 
															+"""
														
 
															+import logging
														
 
															+from typing import Dict, Any, Iterator, Optional
														
 
															+from elasticsearch import Elasticsearch
														
 
															+from elasticsearch.helpers import bulk, parallel_bulk
														
 
															+from src.conf.settings import es_settings
														
 
															+from src.utils.es.client_manager import es_client_manager
														
 
															+from src.utils.es.core.index_manager import index_manager
														
 
															+
														
 
															+logger = logging.getLogger(__name__)
														
 
															+
														
 
															+
														
 
															+class BulkHelper:
														
 
															+    """
														
 
															+    Elasticsearch bulk helper
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(self):
														
 
															+        """
														
 
															+        Initialize bulk helper
														
 
															+        """
														
 
															+        self.client = es_client_manager.get_client()
														
 
															+        self.index_name = es_settings.es_index_name
														
 
															+        # Ensure index is initialized
														
 
															+        index_manager.initialize_index()
														
 
															+    
														
 
															+    def generate_actions(self, documents: Iterator[Dict[str, Any]], doc_id_field: str = "id") -> Iterator[Dict[str, Any]]:
														
 
															+        """
														
 
															+        Generate bulk actions from documents
														
 
															+        
														
 
															+        Args:
														
 
															+            documents: Iterator of documents
														
 
															+            doc_id_field: Field to use as document ID
														
 
															+        
														
 
															+        Returns:
														
 
															+            Iterator[Dict[str, Any]]: Bulk actions
														
 
															+        """
														
 
															+        for doc in documents:
														
 
															+            action = {
														
 
															+                "_op_type": "index",
														
 
															+                "_index": self.index_name,
														
 
															+                "_source": doc
														
 
															+            }
														
 
															+            if doc_id_field in doc:
														
 
															+                action["_id"] = doc[doc_id_field]
														
 
															+            yield action
														
 
															+    
														
 
															+    def bulk_index(self, documents: Iterator[Dict[str, Any]], chunk_size: int = 1000, 
														
 
															+                   doc_id_field: str = "id") -> Dict[str, Any]:
														
 
															+        """
														
 
															+        Bulk index documents
														
 
															+        
														
 
															+        Args:
														
 
															+            documents: Iterator of documents
														
 
															+            chunk_size: Bulk chunk size
														
 
															+            doc_id_field: Field to use as document ID
														
 
															+        
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: Bulk operation result
														
 
															+        """
														
 
															+        try:
														
 
															+            actions = self.generate_actions(documents, doc_id_field)
														
 
															+            
														
 
															+            success, failed = bulk(
														
 
															+                self.client,
														
 
															+                actions,
														
 
															+                chunk_size=chunk_size,
														
 
															+                raise_on_error=False,
														
 
															+                raise_on_exception=False
														
 
															+            )
														
 
															+            
														
 
															+            result = {
														
 
															+                "success": success,
														
 
															+                "failed": len(failed),
														
 
															+                "errors": failed
														
 
															+            }
														
 
															+            
														
 
															+            if failed:
														
 
															+                logger.warning(f"Bulk index completed with {len(failed)} failures")
														
 
															+            else:
														
 
															+                logger.info(f"Bulk index completed successfully: {success} documents")
														
 
															+            
														
 
															+            return result
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error in bulk index: {e}")
														
 
															+            return {
														
 
															+                "success": 0,
														
 
															+                "failed": 0,
														
 
															+                "errors": [str(e)]
														
 
															+            }
														
 
															+    
														
 
															+    def parallel_bulk_index(self, documents: Iterator[Dict[str, Any]], chunk_size: int = 1000,
														
 
															+                           thread_count: int = 4, queue_size: int = 4, 
														
 
															+                           doc_id_field: str = "id") -> Dict[str, Any]:
														
 
															+        """
														
 
															+        Parallel bulk index documents
														
 
															+        
														
 
															+        Args:
														
 
															+            documents: Iterator of documents
														
 
															+            chunk_size: Bulk chunk size
														
 
															+            thread_count: Number of threads
														
 
															+            queue_size: Queue size
														
 
															+            doc_id_field: Field to use as document ID
														
 
															+        
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: Bulk operation result
														
 
															+        """
														
 
															+        try:
														
 
															+            actions = self.generate_actions(documents, doc_id_field)
														
 
															+            
														
 
															+            success = 0
														
 
															+            failed = []
														
 
															+            
														
 
															+            for ok, item in parallel_bulk(
														
 
															+                self.client,
														
 
															+                actions,
														
 
															+                chunk_size=chunk_size,
														
 
															+                thread_count=thread_count,
														
 
															+                queue_size=queue_size,
														
 
															+                raise_on_error=False,
														
 
															+                raise_on_exception=False
														
 
															+            ):
														
 
															+                if ok:
														
 
															+                    success += 1
														
 
															+                else:
														
 
															+                    failed.append(item)
														
 
															+            
														
 
															+            result = {
														
 
															+                "success": success,
														
 
															+                "failed": len(failed),
														
 
															+                "errors": failed
														
 
															+            }
														
 
															+            
														
 
															+            if failed:
														
 
															+                logger.warning(f"Parallel bulk index completed with {len(failed)} failures")
														
 
															+            else:
														
 
															+                logger.info(f"Parallel bulk index completed successfully: {success} documents")
														
 
															+            
														
 
															+            return result
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error in parallel bulk index: {e}")
														
 
															+            return {
														
 
															+                "success": 0,
														
 
															+                "failed": 0,
														
 
															+                "errors": [str(e)]
														
 
															+            }
														
 
															+    
														
 
															+    def bulk_update(self, documents: Iterator[Dict[str, Any]], doc_id_field: str = "id") -> Dict[str, Any]:
														
 
															+        """
														
 
															+        Bulk update documents
														
 
															+        
														
 
															+        Args:
														
 
															+            documents: Iterator of documents
														
 
															+            doc_id_field: Field to use as document ID
														
 
															+        
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: Bulk operation result
														
 
															+        """
														
 
															+        try:
														
 
															+            actions = []
														
 
															+            for doc in documents:
														
 
															+                if doc_id_field in doc:
														
 
															+                    action = {
														
 
															+                        "_op_type": "update",
														
 
															+                        "_index": self.index_name,
														
 
															+                        "_id": doc[doc_id_field],
														
 
															+                        "doc": doc
														
 
															+                    }
														
 
															+                    actions.append(action)
														
 
															+            
														
 
															+            success, failed = bulk(
														
 
															+                self.client,
														
 
															+                actions,
														
 
															+                chunk_size=1000,
														
 
															+                raise_on_error=False,
														
 
															+                raise_on_exception=False
														
 
															+            )
														
 
															+            
														
 
															+            result = {
														
 
															+                "success": success,
														
 
															+                "failed": len(failed),
														
 
															+                "errors": failed
														
 
															+            }
														
 
															+            
														
 
															+            if failed:
														
 
															+                logger.warning(f"Bulk update completed with {len(failed)} failures")
														
 
															+            else:
														
 
															+                logger.info(f"Bulk update completed successfully: {success} documents")
														
 
															+            
														
 
															+            return result
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error in bulk update: {e}")
														
 
															+            return {
														
 
															+                "success": 0,
														
 
															+                "failed": 0,
														
 
															+                "errors": [str(e)]
														
 
															+            }
														
 
															+    
														
 
															+    def bulk_delete(self, document_ids: Iterator[str]) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        Bulk delete documents
														
 
															+        
														
 
															+        Args:
														
 
															+            document_ids: Iterator of document IDs
														
 
															+        
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: Bulk operation result
														
 
															+        """
														
 
															+        try:
														
 
															+            actions = [
														
 
															+                {
														
 
															+                    "_op_type": "delete",
														
 
															+                    "_index": self.index_name,
														
 
															+                    "_id": doc_id
														
 
															+                }
														
 
															+                for doc_id in document_ids
														
 
															+            ]
														
 
															+            
														
 
															+            success, failed = bulk(
														
 
															+                self.client,
														
 
															+                actions,
														
 
															+                chunk_size=1000,
														
 
															+                raise_on_error=False,
														
 
															+                raise_on_exception=False
														
 
															+            )
														
 
															+            
														
 
															+            result = {
														
 
															+                "success": success,
														
 
															+                "failed": len(failed),
														
 
															+                "errors": failed
														
 
															+            }
														
 
															+            
														
 
															+            if failed:
														
 
															+                logger.warning(f"Bulk delete completed with {len(failed)} failures")
														
 
															+            else:
														
 
															+                logger.info(f"Bulk delete completed successfully: {success} documents")
														
 
															+            
														
 
															+            return result
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error in bulk delete: {e}")
														
 
															+            return {
														
 
															+                "success": 0,
														
 
															+                "failed": 0,
														
 
															+                "errors": [str(e)]
														
 
															+            }
														
 
															+    
														
 
															+    def bulk_upsert(self, documents: Iterator[Dict[str, Any]], doc_id_field: str = "id") -> Dict[str, Any]:
														
 
															+        """
														
 
															+        Bulk upsert documents (update if exists, index if not)
														
 
															+        
														
 
															+        Args:
														
 
															+            documents: Iterator of documents
														
 
															+            doc_id_field: Field to use as document ID
														
 
															+        
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: Bulk operation result
														
 
															+        """
														
 
															+        try:
														
 
															+            actions = []
														
 
															+            for doc in documents:
														
 
															+                if doc_id_field in doc:
														
 
															+                    action = {
														
 
															+                        "_op_type": "update",
														
 
															+                        "_index": self.index_name,
														
 
															+                        "_id": doc[doc_id_field],
														
 
															+                        "doc": doc,
														
 
															+                        "doc_as_upsert": True
														
 
															+                    }
														
 
															+                    actions.append(action)
														
 
															+            
														
 
															+            success, failed = bulk(
														
 
															+                self.client,
														
 
															+                actions,
														
 
															+                chunk_size=1000,
														
 
															+                raise_on_error=False,
														
 
															+                raise_on_exception=False
														
 
															+            )
														
 
															+            
														
 
															+            result = {
														
 
															+                "success": success,
														
 
															+                "failed": len(failed),
														
 
															+                "errors": failed
														
 
															+            }
														
 
															+            
														
 
															+            if failed:
														
 
															+                logger.warning(f"Bulk upsert completed with {len(failed)} failures")
														
 
															+            else:
														
 
															+                logger.info(f"Bulk upsert completed successfully: {success} documents")
														
 
															+            
														
 
															+            return result
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error in bulk upsert: {e}")
														
 
															+            return {
														
 
															+                "success": 0,
														
 
															+                "failed": 0,
														
 
															+                "errors": [str(e)]
														
 
															+            }
														
 
															+    
														
 
															+    def refresh_index(self) -> bool:
														
 
															+        """
														
 
															+        Refresh index to make changes visible
														
 
															+        
														
 
															+        Returns:
														
 
															+            bool: Refresh status
														
 
															+        """
														
 
															+        try:
														
 
															+            self.client.indices.refresh(index=self.index_name)
														
 
															+            return True
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error refreshing index: {e}")
														
 
															+            return False
														
 
															+
														
 
															+
														
 
															+# Create singleton instance
														
 
															+bulk_helper = BulkHelper()
														
--- a/src/utils/es/client_manager.py
+++ b/src/utils/es/client_manager.py
@@ -0,0 +1,80 @@
 
															+"""
														
 
															+Elasticsearch client manager
														
 
															+"""
														
 
															+from elasticsearch import Elasticsearch
														
 
															+from elasticsearch.exceptions import ConnectionError as ESConnectionError
														
 
															+from src.utils.decorators.singleton import singleton
														
 
															+from src.conf.settings import es_settings
														
 
															+
														
 
															+
														
 
															+@singleton
														
 
															+class ESClientManager:
														
 
															+    """
														
 
															+    Elasticsearch客户端管理器（单例模式）
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(self):
														
 
															+        """
														
 
															+        初始化ES客户端管理器
														
 
															+        """
														
 
															+        self.client = None
														
 
															+    
														
 
															+    def get_client(self) -> Elasticsearch:
														
 
															+        """
														
 
															+        获取Elasticsearch客户端实例
														
 
															+        
														
 
															+        Returns:
														
 
															+            Elasticsearch客户端实例
														
 
															+        """
														
 
															+        if self.client is None:
														
 
															+            self._initialize_client()
														
 
															+        return self.client
														
 
															+    
														
 
															+    def _initialize_client(self):
														
 
															+        """
														
 
															+        初始化Elasticsearch客户端
														
 
															+        """
														
 
															+        try:
														
 
															+            self.client = Elasticsearch(
														
 
															+                es_settings.es_nodes,
														
 
															+                basic_auth=(
														
 
															+                    es_settings.es_username,
														
 
															+                    es_settings.es_password
														
 
															+                ) if es_settings.es_username and es_settings.es_password else None,
														
 
															+                connections_per_node=es_settings.es_connections_per_node,
														
 
															+                max_retries=es_settings.es_max_retries,
														
 
															+                retry_on_timeout=es_settings.es_retry_on_timeout,
														
 
															+                request_timeout=es_settings.es_timeout,
														
 
															+                verify_certs=es_settings.es_verify_certs
														
 
															+            )
														
 
															+            print("✅ Elasticsearch客户端初始化成功")
														
 
															+        except ESConnectionError as e:
														
 
															+            print(f"❌ Elasticsearch连接失败: {e}")
														
 
															+            raise
														
 
															+        except Exception as e:
														
 
															+            print(f"❌ Elasticsearch初始化失败: {e}")
														
 
															+            raise
														
 
															+    
														
 
															+    def ping(self) -> bool:
														
 
															+        """
														
 
															+        健康检查
														
 
															+        
														
 
															+        Returns:
														
 
															+            bool: 连接状态
														
 
															+        """
														
 
															+        try:
														
 
															+            return self.get_client().ping()
														
 
															+        except Exception:
														
 
															+            return False
														
 
															+    
														
 
															+    def close(self):
														
 
															+        """
														
 
															+        关闭Elasticsearch客户端
														
 
															+        """
														
 
															+        if self.client:
														
 
															+            self.client.close()
														
 
															+            self.client = None
														
 
															+
														
 
															+
														
 
															+# 创建单例实例
														
 
															+es_client_manager = ESClientManager()
														
--- a/src/utils/es/core/__init__.py
+++ b/src/utils/es/core/__init__.py
@@ -0,0 +1,3 @@
 
															+"""
														
 
															+Elasticsearch core module
														
 
															+"""
														
--- a/src/utils/es/core/index_manager.py
+++ b/src/utils/es/core/index_manager.py
@@ -0,0 +1,224 @@
 
															+"""
														
 
															+Elasticsearch index manager
														
 
															+Responsible for index initialization, mapping definition, and maintenance
														
 
															+"""
														
 
															+import logging
														
 
															+from typing import Dict, Any
														
 
															+from elasticsearch import Elasticsearch
														
 
															+from elasticsearch.exceptions import RequestError
														
 
															+from src.conf.settings import es_settings
														
 
															+from src.utils.es.client_manager import es_client_manager
														
 
															+
														
 
															+logger = logging.getLogger(__name__)
														
 
															+
														
 
															+
														
 
															+class IndexManager:
														
 
															+    """
														
 
															+    Elasticsearch index manager
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(self):
														
 
															+        """
														
 
															+        Initialize index manager
														
 
															+        """
														
 
															+        self.client = es_client_manager.get_client()
														
 
															+        self.index_name = es_settings.es_index_name
														
 
															+    
														
 
															+    def get_mapping(self) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        Get index mapping definition
														
 
															+        
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: Mapping definition
														
 
															+        """
														
 
															+        return {
														
 
															+            "settings": {
														
 
															+                "number_of_shards": 3,
														
 
															+                "number_of_replicas": 0,
														
 
															+                "analysis": {
														
 
															+                    "analyzer": {
														
 
															+                        "ik_smart": {
														
 
															+                            "type": "custom",
														
 
															+                            "tokenizer": "ik_smart"
														
 
															+                        }
														
 
															+                    }
														
 
															+                }
														
 
															+            },
														
 
															+            "mappings": {
														
 
															+                "properties": {
														
 
															+                    "id": {
														
 
															+                        "type": "keyword"
														
 
															+                    },
														
 
															+                    "file_name": {
														
 
															+                        "type": "keyword"
														
 
															+                    },
														
 
															+                    "file_page_count": {
														
 
															+                        "type": "integer"
														
 
															+                    },
														
 
															+                    "page_number": {
														
 
															+                        "type": "integer"
														
 
															+                    },
														
 
															+                    "content": {
														
 
															+                        "type": "text",
														
 
															+                        "analyzer": "ik_smart"
														
 
															+                    },
														
 
															+                    "image_path": {
														
 
															+                        "type": "keyword"
														
 
															+                    },
														
 
															+                    "dense_vector_1024": {
														
 
															+                        "type": "dense_vector",
														
 
															+                        "dims": 1024,
														
 
															+                        "index": True,
														
 
															+                        "similarity": "cosine",
														
 
															+                        "index_options": {
														
 
															+                            "type": "hnsw",
														
 
															+                            "m": 24,
														
 
															+                            "ef_construction": 128
														
 
															+                        }
														
 
															+                    },
														
 
															+                    "dataset_id": {
														
 
															+                        "type": "keyword"
														
 
															+                    },
														
 
															+                    "document_id": {
														
 
															+                        "type": "keyword"
														
 
															+                    }
														
 
															+                }
														
 
															+            }
														
 
															+        }
														
 
															+    
														
 
															+    def index_exists(self) -> bool:
														
 
															+        """
														
 
															+        Check if index exists
														
 
															+        
														
 
															+        Returns:
														
 
															+            bool: Index existence status
														
 
															+        """
														
 
															+        try:
														
 
															+            return self.client.indices.exists(index=self.index_name)
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error checking index existence: {e}")
														
 
															+            return False
														
 
															+    
														
 
															+    def create_index(self) -> bool:
														
 
															+        """
														
 
															+        Create index with mapping
														
 
															+        
														
 
															+        Returns:
														
 
															+            bool: Creation status
														
 
															+        """
														
 
															+        try:
														
 
															+            if not self.index_exists():
														
 
															+                mapping = self.get_mapping()
														
 
															+                self.client.indices.create(
														
 
															+                    index=self.index_name,
														
 
															+                    body=mapping
														
 
															+                )
														
 
															+                logger.info(f"Created index {self.index_name} with mapping")
														
 
															+                return True
														
 
															+            else:
														
 
															+                logger.info(f"Index {self.index_name} already exists")
														
 
															+                return False
														
 
															+        except RequestError as e:
														
 
															+            logger.error(f"Error creating index: {e}")
														
 
															+            return False
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Unexpected error creating index: {e}")
														
 
															+            return False
														
 
															+    
														
 
															+    def update_mapping(self, mapping: Dict[str, Any]) -> bool:
														
 
															+        """
														
 
															+        Update index mapping
														
 
															+        
														
 
															+        Args:
														
 
															+            mapping: New mapping definition
														
 
															+        
														
 
															+        Returns:
														
 
															+            bool: Update status
														
 
															+        """
														
 
															+        try:
														
 
															+            if self.index_exists():
														
 
															+                self.client.indices.put_mapping(
														
 
															+                    index=self.index_name,
														
 
															+                    body=mapping
														
 
															+                )
														
 
															+                logger.info(f"Updated mapping for index {self.index_name}")
														
 
															+                return True
														
 
															+            else:
														
 
															+                logger.warning(f"Cannot update mapping: index {self.index_name} does not exist")
														
 
															+                return False
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error updating mapping: {e}")
														
 
															+            return False
														
 
															+    
														
 
															+    def delete_index(self) -> bool:
														
 
															+        """
														
 
															+        Delete index
														
 
															+        
														
 
															+        Returns:
														
 
															+            bool: Deletion status
														
 
															+        """
														
 
															+        try:
														
 
															+            if self.index_exists():
														
 
															+                self.client.indices.delete(index=self.index_name)
														
 
															+                logger.info(f"Deleted index {self.index_name}")
														
 
															+                return True
														
 
															+            else:
														
 
															+                logger.info(f"Index {self.index_name} does not exist, skipping deletion")
														
 
															+                return False
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error deleting index: {e}")
														
 
															+            return False
														
 
															+    
														
 
															+    def initialize_index(self) -> bool:
														
 
															+        """
														
 
															+        Initialize index (create if not exists)
														
 
															+        
														
 
															+        Returns:
														
 
															+            bool: Initialization status
														
 
															+        """
														
 
															+        try:
														
 
															+            if not self.index_exists():
														
 
															+                return self.create_index()
														
 
															+            else:
														
 
															+                logger.info(f"Index {self.index_name} already initialized")
														
 
															+                return True
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error initializing index: {e}")
														
 
															+            return False
														
 
															+    
														
 
															+    def get_index_stats(self) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        Get index statistics
														
 
															+        
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: Index statistics
														
 
															+        """
														
 
															+        try:
														
 
															+            if self.index_exists():
														
 
															+                return self.client.indices.stats(index=self.index_name)
														
 
															+            else:
														
 
															+                return {}
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error getting index stats: {e}")
														
 
															+            return {}
														
 
															+    
														
 
															+    def refresh_index(self) -> bool:
														
 
															+        """
														
 
															+        Refresh index to make recent changes visible
														
 
															+        
														
 
															+        Returns:
														
 
															+            bool: Refresh status
														
 
															+        """
														
 
															+        try:
														
 
															+            if self.index_exists():
														
 
															+                self.client.indices.refresh(index=self.index_name)
														
 
															+                return True
														
 
															+            else:
														
 
															+                return False
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error refreshing index: {e}")
														
 
															+            return False
														
 
															+
														
 
															+
														
 
															+# Create singleton instance
														
 
															+index_manager = IndexManager()
														
--- a/src/utils/es/services/__init__.py
+++ b/src/utils/es/services/__init__.py
@@ -0,0 +1,3 @@
 
															+"""
														
 
															+Elasticsearch services module
														
 
															+"""
														
--- a/src/utils/es/services/search_service.py
+++ b/src/utils/es/services/search_service.py
@@ -0,0 +1,326 @@
 
															+"""
														
 
															+Elasticsearch search service
														
 
															+Encapsulates business search logic including full-text, vector, and hybrid search
														
 
															+"""
														
 
															+import logging
														
 
															+from typing import Dict, Any, List, Optional
														
 
															+from elasticsearch import Elasticsearch
														
 
															+from src.conf.settings import es_settings
														
 
															+from src.utils.es.client_manager import es_client_manager
														
 
															+from src.utils.es.core.index_manager import index_manager
														
 
															+
														
 
															+logger = logging.getLogger(__name__)
														
 
															+
														
 
															+
														
 
															+class SearchService:
														
 
															+    """
														
 
															+    Elasticsearch search service
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(self):
														
 
															+        """
														
 
															+        Initialize search service
														
 
															+        """
														
 
															+        self.client = es_client_manager.get_client()
														
 
															+        self.index_name = es_settings.es_index_name
														
 
															+        # Ensure index is initialized
														
 
															+        index_manager.initialize_index()
														
 
															+    
														
 
															+    def full_text_search(self, query: str, fields: List[str] = None, size: int = 10) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        Full-text search
														
 
															+        
														
 
															+        Args:
														
 
															+            query: Search query
														
 
															+            fields: Fields to search in
														
 
															+            size: Number of results to return
														
 
															+        
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: Search results
														
 
															+        """
														
 
															+        try:
														
 
															+            if fields is None:
														
 
															+                fields = ["content"]
														
 
															+            
														
 
															+            search_body = {
														
 
															+                "size": size,
														
 
															+                "query": {
														
 
															+                    "multi_match": {
														
 
															+                        "query": query,
														
 
															+                        "fields": fields,
														
 
															+                        "type": "best_fields"
														
 
															+                    }
														
 
															+                }
														
 
															+            }
														
 
															+            
														
 
															+            response = self.client.search(
														
 
															+                index=self.index_name,
														
 
															+                body=search_body
														
 
															+            )
														
 
															+            
														
 
															+            return {
														
 
															+                "total": response["hits"]["total"]["value"],
														
 
															+                "hits": [
														
 
															+                    {
														
 
															+                        "id": hit["_id"],
														
 
															+                        "score": hit["_score"],
														
 
															+                        "source": hit["_source"]
														
 
															+                    }
														
 
															+                    for hit in response["hits"]["hits"]
														
 
															+                ]
														
 
															+            }
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error in full-text search: {e}")
														
 
															+            return {
														
 
															+                "total": 0,
														
 
															+                "hits": []
														
 
															+            }
														
 
															+    
														
 
															+    def vector_search(self, vector: List[float], size: int = 10) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        Vector search
														
 
															+        
														
 
															+        Args:
														
 
															+            vector: 1024-dimensional vector
														
 
															+            size: Number of results to return
														
 
															+        
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: Search results
														
 
															+        """
														
 
															+        try:
														
 
															+            # Validate vector dimensions
														
 
															+            if len(vector) != 1024:
														
 
															+                raise ValueError("Vector must be 1024-dimensional")
														
 
															+            
														
 
															+            search_body = {
														
 
															+                "size": size,
														
 
															+                "query": {
														
 
															+                    "knn": {
														
 
															+                        "dense_vector_1024": {
														
 
															+                            "vector": vector,
														
 
															+                            "k": size,
														
 
															+                            "num_candidates": 100
														
 
															+                        }
														
 
															+                    }
														
 
															+                }
														
 
															+            }
														
 
															+            
														
 
															+            response = self.client.search(
														
 
															+                index=self.index_name,
														
 
															+                body=search_body
														
 
															+            )
														
 
															+            
														
 
															+            return {
														
 
															+                "total": len(response["hits"]["hits"]),
														
 
															+                "hits": [
														
 
															+                    {
														
 
															+                        "id": hit["_id"],
														
 
															+                        "score": hit["_score"],
														
 
															+                        "source": hit["_source"]
														
 
															+                    }
														
 
															+                    for hit in response["hits"]["hits"]
														
 
															+                ]
														
 
															+            }
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error in vector search: {e}")
														
 
															+            return {
														
 
															+                "total": 0,
														
 
															+                "hits": []
														
 
															+            }
														
 
															+    
														
 
															+    def hybrid_search(self, query: str, vector: List[float], size: int = 10, fields: List[str] = None) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        Hybrid search combining full-text and vector search
														
 
															+        
														
 
															+        Args:
														
 
															+            query: Search query
														
 
															+            vector: 1024-dimensional vector
														
 
															+            size: Number of results to return
														
 
															+            fields: Fields to search in
														
 
															+        
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: Search results
														
 
															+        """
														
 
															+        try:
														
 
															+            # Validate vector dimensions
														
 
															+            if len(vector) != 1024:
														
 
															+                raise ValueError("Vector must be 1024-dimensional")
														
 
															+            
														
 
															+            if fields is None:
														
 
															+                fields = ["content"]
														
 
															+            
														
 
															+            search_body = {
														
 
															+                "size": size,
														
 
															+                "query": {
														
 
															+                    "bool": {
														
 
															+                        "should": [
														
 
															+                            {
														
 
															+                                "multi_match": {
														
 
															+                                    "query": query,
														
 
															+                                    "fields": fields,
														
 
															+                                    "type": "best_fields",
														
 
															+                                    "boost": 1.0
														
 
															+                                }
														
 
															+                            },
														
 
															+                            {
														
 
															+                                "knn": {
														
 
															+                                    "dense_vector_1024": {
														
 
															+                                        "vector": vector,
														
 
															+                                        "k": size,
														
 
															+                                        "num_candidates": 100,
														
 
															+                                        "boost": 1.0
														
 
															+                                    }
														
 
															+                                }
														
 
															+                            }
														
 
															+                        ]
														
 
															+                    }
														
 
															+                }
														
 
															+            }
														
 
															+            
														
 
															+            response = self.client.search(
														
 
															+                index=self.index_name,
														
 
															+                body=search_body
														
 
															+            )
														
 
															+            
														
 
															+            return {
														
 
															+                "total": response["hits"]["total"]["value"],
														
 
															+                "hits": [
														
 
															+                    {
														
 
															+                        "id": hit["_id"],
														
 
															+                        "score": hit["_score"],
														
 
															+                        "source": hit["_source"]
														
 
															+                    }
														
 
															+                    for hit in response["hits"]["hits"]
														
 
															+                ]
														
 
															+            }
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error in hybrid search: {e}")
														
 
															+            return {
														
 
															+                "total": 0,
														
 
															+                "hits": []
														
 
															+            }
														
 
															+    
														
 
															+    def search_with_filters(self, query: Optional[str] = None, vector: Optional[List[float]] = None, 
														
 
															+                          filters: Dict[str, Any] = None, size: int = 10) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        Search with filters
														
 
															+        
														
 
															+        Args:
														
 
															+            query: Search query
														
 
															+            vector: 1024-dimensional vector
														
 
															+            filters: Additional filters
														
 
															+            size: Number of results to return
														
 
															+        
														
 
															+        Returns:
														
 
															+            Dict[str, Any]: Search results
														
 
															+        """
														
 
															+        try:
														
 
															+            search_body = {
														
 
															+                "size": size,
														
 
															+                "query": {
														
 
															+                    "bool": {
														
 
															+                        "must": []
														
 
															+                    }
														
 
															+                }
														
 
															+            }
														
 
															+            
														
 
															+            # Add filters
														
 
															+            if filters:
														
 
															+                for field, value in filters.items():
														
 
															+                    search_body["query"]["bool"]["must"].append({
														
 
															+                        "term": {
														
 
															+                            field: value
														
 
															+                        }
														
 
															+                    })
														
 
															+            
														
 
															+            # Add search query
														
 
															+            if query:
														
 
															+                search_body["query"]["bool"]["must"].append({
														
 
															+                    "multi_match": {
														
 
															+                        "query": query,
														
 
															+                        "fields": ["content"],
														
 
															+                        "type": "best_fields"
														
 
															+                    }
														
 
															+                })
														
 
															+            
														
 
															+            # Add vector search
														
 
															+            if vector:
														
 
															+                if len(vector) != 1024:
														
 
															+                    raise ValueError("Vector must be 1024-dimensional")
														
 
															+                
														
 
															+                search_body["query"]["bool"]["must"].append({
														
 
															+                    "knn": {
														
 
															+                        "dense_vector_1024": {
														
 
															+                            "vector": vector,
														
 
															+                            "k": size,
														
 
															+                            "num_candidates": 100
														
 
															+                        }
														
 
															+                    }
														
 
															+                })
														
 
															+            
														
 
															+            response = self.client.search(
														
 
															+                index=self.index_name,
														
 
															+                body=search_body
														
 
															+            )
														
 
															+            
														
 
															+            return {
														
 
															+                "total": response["hits"]["total"]["value"],
														
 
															+                "hits": [
														
 
															+                    {
														
 
															+                        "id": hit["_id"],
														
 
															+                        "score": hit["_score"],
														
 
															+                        "source": hit["_source"]
														
 
															+                    }
														
 
															+                    for hit in response["hits"]["hits"]
														
 
															+                ]
														
 
															+            }
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error in search with filters: {e}")
														
 
															+            return {
														
 
															+                "total": 0,
														
 
															+                "hits": []
														
 
															+            }
														
 
															+    
														
 
															+    def get_document(self, document_id: str) -> Optional[Dict[str, Any]]:
														
 
															+        """
														
 
															+        Get document by ID
														
 
															+        
														
 
															+        Args:
														
 
															+            document_id: Document ID
														
 
															+        
														
 
															+        Returns:
														
 
															+            Optional[Dict[str, Any]]: Document source
														
 
															+        """
														
 
															+        try:
														
 
															+            response = self.client.get(
														
 
															+                index=self.index_name,
														
 
															+                id=document_id
														
 
															+            )
														
 
															+            return response["_source"]
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error getting document: {e}")
														
 
															+            return None
														
 
															+    
														
 
															+    def count_documents(self, query: Optional[Dict[str, Any]] = None) -> int:
														
 
															+        """
														
 
															+        Count documents matching query
														
 
															+        
														
 
															+        Args:
														
 
															+            query: Count query
														
 
															+        
														
 
															+        Returns:
														
 
															+            int: Document count
														
 
															+        """
														
 
															+        try:
														
 
															+            response = self.client.count(
														
 
															+                index=self.index_name,
														
 
															+                body={"query": query} if query else None
														
 
															+            )
														
 
															+            return response["count"]
														
 
															+        except Exception as e:
														
 
															+            logger.error(f"Error counting documents: {e}")
														
 
															+            return 0
														
 
															+
														
 
															+
														
 
															+# Create singleton instance
														
 
															+search_service = SearchService()
														
--- a/src/utils/excel_util.py
+++ b/src/utils/excel_util.py
@@ -0,0 +1,221 @@
 
															+"""
														
 
															+Excel 工具类
														
 
															+
														
 
															+该文件提供 Excel 解析功能，支持：
														
 
															+- 解析 .xlsx 和 .xls 格式的 Excel 文件
														
 
															+- 将 Excel 数据转换为 List[Dict[str, Any]] 格式
														
 
															+- 支持指定工作表
														
 
															+- 支持自定义表头行
														
 
															+"""
														
 
															+
														
 
															+from typing import List, Dict, Any, Optional
														
 
															+import os
														
 
															+
														
 
															+
														
 
															+try:
														
 
															+    from openpyxl import load_workbook
														
 
															+    from openpyxl.worksheet.worksheet import Worksheet
														
 
															+except ImportError:
														
 
															+    raise ImportError("openpyxl 库未安装，请使用 pip install openpyxl 安装")
														
 
															+
														
 
															+try:
														
 
															+    import xlrd
														
 
															+    from xlrd.sheet import Sheet
														
 
															+except ImportError:
														
 
															+    raise ImportError("xlrd 库未安装，请使用 pip install xlrd 安装")
														
 
															+
														
 
															+
														
 
															+class ExcelUtil:
														
 
															+    """
														
 
															+    Excel 工具类，用于解析 Excel 文件
														
 
															+    """
														
 
															+    
														
 
															+    @staticmethod
														
 
															+    def _parse_xlsx(file_path: str, sheet_name: Optional[str] = None, header_row: int = 0) -> List[Dict[str, Any]]:
														
 
															+        """
														
 
															+        解析 .xlsx 格式的 Excel 文件
														
 
															+        
														
 
															+        Args:
														
 
															+            file_path: Excel 文件路径
														
 
															+            sheet_name: 工作表名称，None 表示使用第一个工作表
														
 
															+            header_row: 表头所在行索引，默认第 0 行
														
 
															+            
														
 
															+        Returns:
														
 
															+            List[Dict[str, Any]]: 解析后的 Excel 数据
														
 
															+        """
														
 
															+        # 加载工作簿
														
 
															+        workbook = load_workbook(filename=file_path, read_only=True)
														
 
															+        
														
 
															+        # 获取工作表
														
 
															+        if sheet_name:
														
 
															+            sheet: Worksheet = workbook[sheet_name]
														
 
															+        else:
														
 
															+            sheet: Worksheet = workbook.active
														
 
															+        
														
 
															+        # 获取所有行数据
														
 
															+        rows = list(sheet.iter_rows(values_only=True))
														
 
															+        
														
 
															+        # 检查数据是否为空
														
 
															+        if not rows:
														
 
															+            return []
														
 
															+        
														
 
															+        # 检查表头行索引是否合法
														
 
															+        if header_row >= len(rows):
														
 
															+            raise ValueError(f"表头行索引 {header_row} 超出数据总行数 {len(rows)}")
														
 
															+        
														
 
															+        # 获取表头
														
 
															+        headers = rows[header_row]
														
 
															+        
														
 
															+        # 检查表头是否为空
														
 
															+        if not headers:
														
 
															+            return []
														
 
															+        
														
 
															+        # 解析数据行
														
 
															+        data: List[Dict[str, Any]] = []
														
 
															+        for row in rows[header_row + 1:]:
														
 
															+            if not row or all(cell is None for cell in row):
														
 
															+                continue
														
 
															+            
														
 
															+            # 创建数据字典
														
 
															+            row_data: Dict[str, Any] = {}
														
 
															+            for i, header in enumerate(headers):
														
 
															+                if i < len(row):
														
 
															+                    row_data[header] = row[i]
														
 
															+                else:
														
 
															+                    row_data[header] = None
														
 
															+            
														
 
															+            data.append(row_data)
														
 
															+        
														
 
															+        workbook.close()
														
 
															+        return data
														
 
															+    
														
 
															+    @staticmethod
														
 
															+    def _parse_xls(file_path: str, sheet_name: Optional[str] = None, header_row: int = 0) -> List[Dict[str, Any]]:
														
 
															+        """
														
 
															+        解析 .xls 格式的 Excel 文件
														
 
															+        
														
 
															+        Args:
														
 
															+            file_path: Excel 文件路径
														
 
															+            sheet_name: 工作表名称，None 表示使用第一个工作表
														
 
															+            header_row: 表头所在行索引，默认第 0 行
														
 
															+            
														
 
															+        Returns:
														
 
															+            List[Dict[str, Any]]: 解析后的 Excel 数据
														
 
															+        """
														
 
															+        # 打开工作簿
														
 
															+        workbook = xlrd.open_workbook(file_path)
														
 
															+        
														
 
															+        # 获取工作表
														
 
															+        if sheet_name:
														
 
															+            sheet: Sheet = workbook.sheet_by_name(sheet_name)
														
 
															+        else:
														
 
															+            sheet: Sheet = workbook.sheet_by_index(0)
														
 
															+        
														
 
															+        # 获取所有行数据
														
 
															+        rows = []
														
 
															+        for i in range(sheet.nrows):
														
 
															+            rows.append(sheet.row_values(i))
														
 
															+        
														
 
															+        # 检查数据是否为空
														
 
															+        if not rows:
														
 
															+            return []
														
 
															+        
														
 
															+        # 检查表头行索引是否合法
														
 
															+        if header_row >= len(rows):
														
 
															+            raise ValueError(f"表头行索引 {header_row} 超出数据总行数 {len(rows)}")
														
 
															+        
														
 
															+        # 获取表头
														
 
															+        headers = rows[header_row]
														
 
															+        
														
 
															+        # 检查表头是否为空
														
 
															+        if not headers:
														
 
															+            return []
														
 
															+        
														
 
															+        # 解析数据行
														
 
															+        data: List[Dict[str, Any]] = []
														
 
															+        for row in rows[header_row + 1:]:
														
 
															+            if not row or all(cell == '' or cell is None for cell in row):
														
 
															+                continue
														
 
															+            
														
 
															+            # 创建数据字典
														
 
															+            row_data: Dict[str, Any] = {}
														
 
															+            for i, header in enumerate(headers):
														
 
															+                if i < len(row):
														
 
															+                    row_data[header] = row[i]
														
 
															+                else:
														
 
															+                    row_data[header] = None
														
 
															+            
														
 
															+            data.append(row_data)
														
 
															+        
														
 
															+        return data
														
 
															+    
														
 
															+    @staticmethod
														
 
															+    def parse_excel(file_path: str, sheet_name: Optional[str] = None, header_row: int = 0) -> List[Dict[str, Any]]:
														
 
															+        """
														
 
															+        解析 Excel 文件，支持 .xlsx 和 .xls 格式
														
 
															+        
														
 
															+        Args:
														
 
															+            file_path: Excel 文件路径
														
 
															+            sheet_name: 工作表名称，None 表示使用第一个工作表
														
 
															+            header_row: 表头所在行索引，默认第 0 行
														
 
															+            
														
 
															+        Returns:
														
 
															+            List[Dict[str, Any]]: 解析后的 Excel 数据
														
 
															+        
														
 
															+        Raises:
														
 
															+            ValueError: 不支持的文件格式
														
 
															+            FileNotFoundError: 文件不存在
														
 
															+        """
														
 
															+        # 检查文件是否存在
														
 
															+        if not os.path.exists(file_path):
														
 
															+            raise FileNotFoundError(f"文件 {file_path} 不存在")
														
 
															+        
														
 
															+        # 获取文件扩展名
														
 
															+        file_ext = os.path.splitext(file_path)[1].lower()
														
 
															+        
														
 
															+        # 根据文件格式选择解析方法
														
 
															+        if file_ext == '.xlsx':
														
 
															+            return ExcelUtil._parse_xlsx(file_path, sheet_name, header_row)
														
 
															+        elif file_ext == '.xls':
														
 
															+            return ExcelUtil._parse_xls(file_path, sheet_name, header_row)
														
 
															+        else:
														
 
															+            raise ValueError(f"不支持的文件格式 {file_ext}，只支持 .xlsx 和 .xls 格式")
														
 
															+    
														
 
															+    @staticmethod
														
 
															+    def get_sheet_names(file_path: str) -> List[str]:
														
 
															+        """
														
 
															+        获取 Excel 文件中的所有工作表名称
														
 
															+        
														
 
															+        Args:
														
 
															+            file_path: Excel 文件路径
														
 
															+            
														
 
															+        Returns:
														
 
															+            List[str]: 工作表名称列表
														
 
															+        
														
 
															+        Raises:
														
 
															+            ValueError: 不支持的文件格式
														
 
															+            FileNotFoundError: 文件不存在
														
 
															+        """
														
 
															+        # 检查文件是否存在
														
 
															+        if not os.path.exists(file_path):
														
 
															+            raise FileNotFoundError(f"文件 {file_path} 不存在")
														
 
															+        
														
 
															+        # 获取文件扩展名
														
 
															+        file_ext = os.path.splitext(file_path)[1].lower()
														
 
															+        
														
 
															+        # 根据文件格式选择方法
														
 
															+        if file_ext == '.xlsx':
														
 
															+            workbook = load_workbook(filename=file_path, read_only=True)
														
 
															+            sheet_names = workbook.sheetnames
														
 
															+            workbook.close()
														
 
															+            return sheet_names
														
 
															+        elif file_ext == '.xls':
														
 
															+            workbook = xlrd.open_workbook(file_path)
														
 
															+            sheet_names = workbook.sheet_names()
														
 
															+            return sheet_names
														
 
															+        else:
														
 
															+            raise ValueError(f"不支持的文件格式 {file_ext}，只支持 .xlsx 和 .xls 格式")
														
 
															+
														
 
															+
														
 
															+# 单例模式实例
														
 
															+excel_util = ExcelUtil()
														
--- a/src/utils/file/__init__.py
+++ b/src/utils/file/__init__.py
--- a/src/utils/file/file_utils.py
+++ b/src/utils/file/file_utils.py
@@ -0,0 +1,8 @@
 
															+import uuid
														
 
															+import os
														
 
															+
														
 
															+def generate_unique_filename(filename: str) -> str:
														
 
															+    """生成唯一文件名，避免重复"""
														
 
															+    ext = os.path.splitext(filename)[1]
														
 
															+    unique_id = str(uuid.uuid4()).replace("-", "")
														
 
															+    return f"{unique_id}{ext}"
														
--- a/src/utils/file/image_util.py
+++ b/src/utils/file/image_util.py
@@ -0,0 +1,319 @@
 
															+#!/usr/bin/env python3
														
 
															+"""
														
 
															+图片处理工具类
														
 
															+"""
														
 
															+import os
														
 
															+import zipfile
														
 
															+import re
														
 
															+from typing import List
														
 
															+from io import BytesIO
														
 
															+from PIL import Image
														
 
															+from src.utils.file.minio.minio_util import MinIOUtil
														
 
															+from src.utils.file.file_utils import generate_unique_filename
														
 
															+
														
 
															+
														
 
															+class ImageUtil:
														
 
															+    """图片处理工具类"""
														
 
															+    
														
 
															+    def __init__(self):
														
 
															+        """初始化图片处理工具类"""
														
 
															+        self.minio_util = MinIOUtil()
														
 
															+
														
 
															+    # 将图片url转换为Image对象
														
 
															+    def _url_to_image(self, image_url: str) -> Image.Image:
														
 
															+        """
														
 
															+        将图片url转换为Image对象
														
 
															+        
														
 
															+        Args:
														
 
															+            image_url: 图片url
														
 
															+            
														
 
															+        Returns:
														
 
															+            Image.Image: 图片对象
														
 
															+        """
														
 
															+        import requests
														
 
															+
														
 
															+        # 处理image_url为image: Image.Image
														
 
															+        if isinstance(image_url, str):
														
 
															+            # 下载图片
														
 
															+            response = requests.get(image_url)
														
 
															+            response.raise_for_status()  # 检查HTTP状态码
														
 
															+    
														
 
															+            # 将响应内容转换为字节流
														
 
															+            image_bytes = BytesIO(response.content)
														
 
															+    
														
 
															+            # 创建Image对象
														
 
															+            image = Image.open(image_bytes)
														
 
															+            return image
														
 
															+    
														
 
															+    def process_image_zip(self, zip_file_path: str, book_name: str) -> List[str]:
														
 
															+        """
														
 
															+        处理图片压缩包，解压并将图片存入minio，返回按页码顺序排序的url集合
														
 
															+        
														
 
															+        Args:
														
 
															+            zip_file_path: 图片压缩包路径
														
 
															+            book_name: 书名，用于生成图片文件名
														
 
															+            
														
 
															+        Returns:
														
 
															+            List[str]: 按页码顺序排序的minio url集合
														
 
															+        """
														
 
															+        print(f"开始处理图片压缩包: {zip_file_path}")
														
 
															+        
														
 
															+        # 用于存储图片信息的列表，格式: (页码, url)
														
 
															+        image_info_list = []
														
 
															+        
														
 
															+        try:
														
 
															+            # 打开并解压压缩包
														
 
															+            with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
														
 
															+                # 获取压缩包中的所有文件名
														
 
															+                all_files = zip_ref.namelist()
														
 
															+                
														
 
															+                # 过滤出图片文件
														
 
															+                image_files = [
														
 
															+                    f for f in all_files 
														
 
															+                    if f.lower().endswith(('.png', '.jpg', '.jpeg', '.gif')) 
														
 
															+                    and not f.startswith('__MACOSX')  # 排除macOS生成的隐藏文件
														
 
															+                ]
														
 
															+                
														
 
															+                print(f"找到 {len(image_files)} 张图片")
														
 
															+                
														
 
															+                # 遍历所有图片文件
														
 
															+                for image_file in image_files:
														
 
															+                    try:
														
 
															+                        # 从文件名中提取页码
														
 
															+                        page_num = self._extract_page_number(image_file)
														
 
															+                        
														
 
															+                        # 生成符合要求的文件名：书名_页码，例如：莉莉兰的小虫虫_P1.png
														
 
															+                        _, ext = os.path.splitext(image_file)
														
 
															+                        new_filename = f"{book_name}_P{page_num}{ext}"
														
 
															+                        
														
 
															+                        print(f"处理图片: {image_file} -> {new_filename}, 页码: {page_num}")
														
 
															+                        
														
 
															+                        # 读取图片文件内容
														
 
															+                        with zip_ref.open(image_file) as f:
														
 
															+                            image_content = f.read()
														
 
															+                            
														
 
															+                        # 将图片内容转换为BytesIO流
														
 
															+                        image_stream = BytesIO(image_content)
														
 
															+                        
														
 
															+                        # 压缩图片
														
 
															+                        compressed_stream = self._compress_image(image_stream, new_filename)
														
 
															+                        
														
 
															+                        # 上传到minio
														
 
															+                        image_url = self.minio_util.upload_file(compressed_stream, new_filename)
														
 
															+                        
														
 
															+                        # 添加到图片信息列表
														
 
															+                        image_info_list.append((page_num, image_url))
														
 
															+                        
														
 
															+                    except Exception as e:
														
 
															+                        print(f"处理图片 {image_file} 失败: {str(e)}")
														
 
															+                        continue
														
 
															+            
														
 
															+            # 按页码顺序排序
														
 
															+            image_info_list.sort(key=lambda x: x[0])
														
 
															+            
														
 
															+            # 提取url列表
														
 
															+            image_urls = [url for _, url in image_info_list]
														
 
															+            
														
 
															+            print(f"图片压缩包处理完成，共处理 {len(image_urls)} 张图片")
														
 
															+            return image_urls
														
 
															+            
														
 
															+        except Exception as e:
														
 
															+            print(f"处理图片压缩包失败: {str(e)}")
														
 
															+            raise
														
 
															+    
														
 
															+    def _compress_image(self, image_stream: BytesIO, original_filename: str, max_size_kb: int = 5000) -> BytesIO:
														
 
															+        """
														
 
															+        压缩图片，确保最终压缩大小不超过max_size_kb
														
 
															+        使用尺寸调整和质量调整结合的方式，确保压缩效果
														
 
															+        
														
 
															+        Args:
														
 
															+            image_stream: 图片流
														
 
															+            original_filename: 原始文件名
														
 
															+            max_size_kb: 最大文件大小，单位KB
														
 
															+            
														
 
															+        Returns:
														
 
															+            BytesIO: 压缩后的图片流
														
 
															+        """
														
 
															+        # 检查图片大小
														
 
															+        image_stream.seek(0, 2)  # 移动到文件末尾
														
 
															+        current_size = image_stream.tell() / 1024  # 当前大小，单位KB
														
 
															+        original_stream_data = image_stream.getvalue()  # 保存原始流数据
														
 
															+        image_stream.seek(0)  # 回到文件开头
														
 
															+        
														
 
															+        # 严格目标大小，使用max_size_kb作为目标
														
 
															+        target_size = max_size_kb
														
 
															+        
														
 
															+        # 如果当前大小小于等于目标大小，直接返回
														
 
															+        if current_size <= target_size:
														
 
															+            return image_stream
														
 
															+        
														
 
															+        # 打开图片
														
 
															+        img = Image.open(image_stream)
														
 
															+        original_width, original_height = img.size
														
 
															+        
														
 
															+        # 获取原始图片格式
														
 
															+        original_format = img.format or 'JPEG'  # 默认使用JPEG格式
														
 
															+        
														
 
															+        # 使用LANCZOS高质量重采样算法
														
 
															+        resample_method = Image.Resampling.LANCZOS
														
 
															+        
														
 
															+        # 保存最佳结果
														
 
															+        best_result = None
														
 
															+        best_size = float('inf')
														
 
															+        
														
 
															+        # 辅助函数：获取指定尺寸和质量的压缩大小和字节流
														
 
															+        def get_compressed_data(width, height, quality_val):
														
 
															+            """
														
 
															+            获取指定尺寸和质量的压缩大小和字节流
														
 
															+            """
														
 
															+            # 调整图片尺寸
														
 
															+            resized_img = img.resize((width, height), resample_method)
														
 
															+            
														
 
															+            # 保存调整后的图片
														
 
															+            compressed_stream = BytesIO()
														
 
															+            resized_img.save(compressed_stream, format=original_format, quality=quality_val)
														
 
															+            compressed_stream.seek(0, 2)
														
 
															+            compressed_size = compressed_stream.tell() / 1024
														
 
															+            compressed_stream.seek(0)
														
 
															+            
														
 
															+            return compressed_size, compressed_stream.getvalue()
														
 
															+        
														
 
															+        # 主要压缩逻辑：逐步缩小尺寸和降低质量，直到符合要求
														
 
															+        # 尺寸调整为主，质量调整为辅
														
 
															+        sizes_to_try = []
														
 
															+        
														
 
															+        # 生成要尝试的尺寸列表（从原始尺寸开始，逐步缩小）
														
 
															+        current_try_width, current_try_height = original_width, original_height
														
 
															+        for i in range(15):  # 最多尝试15种尺寸
														
 
															+            sizes_to_try.append((current_try_width, current_try_height))
														
 
															+            # 每次缩小10%
														
 
															+            current_try_width = int(current_try_width * 0.9)
														
 
															+            current_try_height = int(current_try_height * 0.9)
														
 
															+            # 确保尺寸不小于原始尺寸的30%
														
 
															+            if current_try_width < original_width * 0.3 or current_try_height < original_height * 0.3:
														
 
															+                break
														
 
															+        
														
 
															+        # 质量级别列表（从高质量开始，逐步降低）
														
 
															+        quality_levels = [90, 85, 80, 75, 70, 65, 60]
														
 
															+        
														
 
															+        # 遍历所有尺寸和质量组合，寻找最佳结果
														
 
															+        for width, height in sizes_to_try:
														
 
															+            for quality in quality_levels:
														
 
															+                # 获取当前参数的压缩数据
														
 
															+                compressed_size, compressed_data = get_compressed_data(width, height, quality)
														
 
															+                
														
 
															+                # 更新最佳结果
														
 
															+                if compressed_size < best_size:
														
 
															+                    best_result = compressed_data
														
 
															+                    best_size = compressed_size
														
 
															+                    
														
 
															+                # 如果已经达到目标大小，直接返回
														
 
															+                if compressed_size <= target_size:
														
 
															+                    final_stream = BytesIO(compressed_data)
														
 
															+                    final_stream.seek(0)
														
 
															+                    return final_stream
														
 
															+        
														
 
															+        # 如果没有找到符合要求的结果，使用最佳结果
														
 
															+        if best_result is None:
														
 
															+            # 返回原始图片
														
 
															+            return BytesIO(original_stream_data)
														
 
															+        
														
 
															+        # 最终检查：如果最佳结果仍超过目标，使用最激进的压缩
														
 
															+        final_stream = BytesIO(best_result)
														
 
															+        final_stream.seek(0, 2)
														
 
															+        final_size = final_stream.tell() / 1024
														
 
															+        final_stream.seek(0)
														
 
															+        
														
 
															+        if final_size > target_size:
														
 
															+            # 使用最激进的压缩参数
														
 
															+            aggressive_width = int(original_width * 0.5)
														
 
															+            aggressive_height = int(original_height * 0.5)
														
 
															+            aggressive_quality = 50
														
 
															+            
														
 
															+            aggressive_size, aggressive_data = get_compressed_data(aggressive_width, aggressive_height, aggressive_quality)
														
 
															+            
														
 
															+            if aggressive_size < final_size:
														
 
															+                final_stream = BytesIO(aggressive_data)
														
 
															+                final_stream.seek(0)
														
 
															+        
														
 
															+        return final_stream
														
 
															+    
														
 
															+    def _compress_image_to_bytes(self, image_stream: BytesIO, max_size_kb: int = 5000) -> bytes:
														
 
															+        """
														
 
															+        压缩图片，将大于max_size_kb的图片压缩到max_size_kb以内，返回图片的字节流
														
 
															+        
														
 
															+        Args:
														
 
															+            image_stream: 图片流
														
 
															+            max_size_kb: 最大文件大小，单位KB
														
 
															+            
														
 
															+        Returns:
														
 
															+            bytes: 压缩后的图片字节流
														
 
															+        """
														
 
															+        # 创建一个临时文件名用于日志
														
 
															+        temp_filename = "temp_image"
														
 
															+        
														
 
															+        # 调用现有的压缩方法获取压缩后的BytesIO对象
														
 
															+        compressed_stream = self._compress_image(image_stream, temp_filename, max_size_kb)
														
 
															+        
														
 
															+        # 读取字节流并返回
														
 
															+        compressed_bytes = compressed_stream.getvalue()
														
 
															+        print(f"图片转换为字节流完成，字节大小为 {len(compressed_bytes)} 字节")
														
 
															+        
														
 
															+        return compressed_bytes
														
 
															+    
														
 
															+    def compress_image_bytes(self, image_bytes: bytes, max_size_kb: int = 5000) -> bytes:
														
 
															+        """
														
 
															+        压缩图片，将大于max_size_kb的图片压缩到max_size_kb以内，返回图片的字节流
														
 
															+        
														
 
															+        Args:
														
 
															+            image_bytes: 图片字节流
														
 
															+            max_size_kb: 最大文件大小，单位KB
														
 
															+            
														
 
															+        Returns:
														
 
															+            bytes: 压缩后的图片字节流
														
 
															+        """
														
 
															+        print(f"开始压缩图片，原大小为 {len(image_bytes) / 1024:.2f}KB")
														
 
															+        
														
 
															+        # 将字节流转换为BytesIO对象
														
 
															+        image_stream = BytesIO(image_bytes)
														
 
															+        
														
 
															+        # 调用现有的压缩方法
														
 
															+        compressed_bytes = self._compress_image_to_bytes(image_stream, max_size_kb)
														
 
															+        
														
 
															+        print(f"图片压缩完成，压缩后大小为 {len(compressed_bytes) / 1024:.2f}KB")
														
 
															+        
														
 
															+        return compressed_bytes
														
 
															+    
														
 
															+    def _extract_page_number(self, filename: str) -> int:
														
 
															+        """
														
 
															+        从文件名中提取页码
														
 
															+        
														
 
															+        Args:
														
 
															+            filename: 文件名
														
 
															+            
														
 
															+        Returns:
														
 
															+            int: 页码
														
 
															+        """
														
 
															+        # 提取文件名（不含路径）
														
 
															+        basename = os.path.basename(filename)
														
 
															+        
														
 
															+        # 使用正则表达式匹配页码
														
 
															+        # 匹配类似 P1, Page1, 001, 1 等格式的页码
														
 
															+        patterns = [
														
 
															+            r'P(\d+)',  # P1, P123
														
 
															+            r'Page(\d+)',  # Page1, Page123
														
 
															+            r'(\d+)\.(?:png|jpg|jpeg|gif)$',  # 1.png, 123.jpg
														
 
															+            r'(\d+)_',  # 1_, 123_
														
 
															+        ]
														
 
															+        
														
 
															+        for pattern in patterns:
														
 
															+            match = re.search(pattern, basename, re.IGNORECASE)
														
 
															+            if match:
														
 
															+                return int(match.group(1))
														
 
															+        
														
 
															+        # 如果没有匹配到页码，返回0
														
 
															+        return 0
														
 
															+
														
 
															+
														
 
															+# 单例模式
														
 
															+image_util = ImageUtil()
														
--- a/src/utils/file/minio/__init__.py
+++ b/src/utils/file/minio/__init__.py
--- a/src/utils/file/minio/minio_util.py
+++ b/src/utils/file/minio/minio_util.py
@@ -0,0 +1,189 @@
 
															+from minio import Minio
														
 
															+from typing import BinaryIO
														
 
															+from datetime import timedelta
														
 
															+from src.conf.settings import minio_settings
														
 
															+from src.utils.file.file_utils import generate_unique_filename
														
 
															+
														
 
															+# 全局MinIO客户端实例
														
 
															+_global_minio_client = None
														
 
															+
														
 
															+class MinIOUtil:
														
 
															+    def __init__(self, bucket_name: str = minio_settings.minio_bucket_name, check_bucket=False):
														
 
															+        self.client = Minio(
														
 
															+            endpoint=minio_settings.minio_endpoint,
														
 
															+            access_key=minio_settings.minio_access_key,
														
 
															+            secret_key=minio_settings.minio_secret_key,
														
 
															+            secure=False
														
 
															+        )
														
 
															+        self.bucket_name = bucket_name
														
 
															+        
														
 
															+        # 仅在明确要求时才校验存储桶
														
 
															+        if check_bucket:
														
 
															+            self._ensure_bucket_exists()
														
 
															+
														
 
															+    def _ensure_bucket_exists(self):
														
 
															+        """确保存储桶存在，若不存在则创建"""
														
 
															+        try:
														
 
															+            if not self.client.bucket_exists(self.bucket_name):
														
 
															+                self.client.make_bucket(self.bucket_name)
														
 
															+                print(f"Bucket '{self.bucket_name}' created successfully.")
														
 
															+            else:
														
 
															+                print(f"Bucket '{self.bucket_name}' already exists.")
														
 
															+        except Exception as e:
														
 
															+            raise RuntimeError(f"Failed to create bucket: {e}")
														
 
															+
														
 
															+    def close(self):
														
 
															+        """关闭MinIO客户端连接"""
														
 
															+        # MinIO客户端不需要显式关闭连接，此方法用于统一接口
														
 
															+        pass
														
 
															+
														
 
															+    def upload_file(self, file: BinaryIO, original_filename: str) -> str:
														
 
															+        """上传文件并返回URL"""
														
 
															+        try:
														
 
															+            # 生成唯一文件名，防止冲突
														
 
															+            unique_filename = generate_unique_filename(original_filename)
														
 
															+            content_type = self._get_content_type(original_filename)
														
 
															+            
														
 
															+            # 获取文件长度
														
 
															+            if hasattr(file, 'getbuffer'):
														
 
															+                # 对于BytesIO对象，获取其缓冲区大小
														
 
															+                length = file.getbuffer().nbytes
														
 
															+            elif hasattr(file, 'tell') and hasattr(file, 'seek'):
														
 
															+                # 对于支持seek/tell的文件对象，获取其大小
														
 
															+                current_pos = file.tell()
														
 
															+                file.seek(0, 2)  # 移动到文件末尾
														
 
															+                length = file.tell()
														
 
															+                file.seek(current_pos)  # 恢复到原始位置
														
 
															+            else:
														
 
															+                # 对于其他类型，使用-1让MinIO自动处理
														
 
															+                length = -1
														
 
															+            
														
 
															+            # 上传文件（支持大文件分块上传）
														
 
															+            self.client.put_object(
														
 
															+                bucket_name=self.bucket_name,
														
 
															+                object_name=unique_filename,
														
 
															+                data=file,
														
 
															+                length=length,
														
 
															+                content_type=content_type
														
 
															+            )
														
 
															+            
														
 
															+            # 生成公开可访问的URL（可选：设置过期时间或私有访问）
														
 
															+            url = self.client.get_presigned_url(
														
 
															+                method="GET",
														
 
															+                bucket_name=self.bucket_name,
														
 
															+                object_name=unique_filename,
														
 
															+                expires=timedelta(seconds=3600)  # 1小时有效期（可设为永久或更短）
														
 
															+            )
														
 
															+            
														
 
															+            return url
														
 
															+        except Exception as e:
														
 
															+            raise RuntimeError(f"File upload failed: {e}")
														
 
															+
														
 
															+    def custom_upload_file(self, file: BinaryIO, original_filename: str, bucket_name: str = None) -> str:
														
 
															+        """上传文件并返回URL"""
														
 
															+        try:
														
 
															+            if bucket_name is None:
														
 
															+                bucket_name = self.bucket_name
														
 
															+             # 生成唯一文件名，防止冲突
														
 
															+            unique_filename = generate_unique_filename(original_filename)
														
 
															+            content_type = self._get_content_type(original_filename)
														
 
															+            
														
 
															+            # 获取文件长度
														
 
															+            if hasattr(file, 'getbuffer'):
														
 
															+                # 对于BytesIO对象，获取其缓冲区大小
														
 
															+                length = file.getbuffer().nbytes
														
 
															+            elif hasattr(file, 'tell') and hasattr(file, 'seek'):
														
 
															+                # 对于支持seek/tell的文件对象，获取其大小
														
 
															+                current_pos = file.tell()
														
 
															+                file.seek(0, 2)  # 移动到文件末尾
														
 
															+                length = file.tell()
														
 
															+                file.seek(current_pos)  # 恢复到原始位置
														
 
															+            else:
														
 
															+                # 对于其他类型，使用-1让MinIO自动处理
														
 
															+                length = -1
														
 
															+            
														
 
															+            # 上传文件（支持大文件分块上传）
														
 
															+            self.client.put_object(
														
 
															+                bucket_name=bucket_name,
														
 
															+                object_name=unique_filename,
														
 
															+                data=file,
														
 
															+                length=length,
														
 
															+                content_type=content_type
														
 
															+            )
														
 
															+            
														
 
															+            url = f"{minio_settings.minio_endpoint}/{bucket_name}/{unique_filename}"
														
 
															+
														
 
															+            # # 生成公开可访问的URL（可选：设置过期时间或私有访问）
														
 
															+            # url = self.client.get_presigned_url(
														
 
															+            #     method="GET",
														
 
															+            #     bucket_name=self.bucket_name,
														
 
															+            #     object_name=custom_filename,
														
 
															+            #     expires=timedelta(seconds=3600)  # 1小时有效期（可设为永久或更短）
														
 
															+            # )
														
 
															+            
														
 
															+            return url
														
 
															+        except Exception as e:
														
 
															+            raise RuntimeError(f"File upload failed: {e}")
														
 
															+
														
 
															+    def download_file(self, object_name: str) -> BinaryIO:
														
 
															+        """下载文件并返回文件流"""
														
 
															+        try:
														
 
															+            response = self.client.get_object(
														
 
															+                bucket_name=self.bucket_name,
														
 
															+                object_name=object_name
														
 
															+            )
														
 
															+            return response
														
 
															+        except Exception as e:
														
 
															+            raise RuntimeError(f"File download failed: {e}")
														
 
															+
														
 
															+    def delete_file(self, object_name: str) -> bool:
														
 
															+        """删除文件"""
														
 
															+        try:
														
 
															+            self.client.remove_object(
														
 
															+                bucket_name=self.bucket_name,
														
 
															+                object_name=object_name
														
 
															+            )
														
 
															+            return True
														
 
															+        except Exception as e:
														
 
															+            print(f"Delete failed: {e}")
														
 
															+            return False
														
 
															+
														
 
															+    def _get_content_type(self, filename: str) -> str:
														
 
															+        """根据文件后缀推断MIME类型"""
														
 
															+        ext = filename.split('.')[-1].lower()
														
 
															+        mime_map = {
														
 
															+            'jpg': 'image/jpeg', 'jpeg': 'image/jpeg',
														
 
															+            'png': 'image/png', 'gif': 'image/gif',
														
 
															+            'pdf': 'application/pdf',
														
 
															+            'txt': 'text/plain',
														
 
															+            'mp4': 'video/mp4',
														
 
															+            'mp3': 'audio/mpeg'
														
 
															+        }
														
 
															+        return mime_map.get(ext, 'application/octet-stream')
														
 
															+
														
 
															+
														
 
															+def get_minio_client() -> MinIOUtil:
														
 
															+    """获取全局MinIO客户端实例"""
														
 
															+    global _global_minio_client
														
 
															+    if _global_minio_client is None:
														
 
															+        raise RuntimeError("MinIO client has not been initialized. Call init_minio_client() first.")
														
 
															+    return _global_minio_client
														
 
															+
														
 
															+
														
 
															+def init_minio_client(check_bucket=False) -> None:
														
 
															+    """初始化全局MinIO客户端
														
 
															+    
														
 
															+    Args:
														
 
															+        check_bucket: 是否在初始化时校验存储桶
														
 
															+    """
														
 
															+    global _global_minio_client
														
 
															+    if _global_minio_client is None:
														
 
															+        _global_minio_client = MinIOUtil(check_bucket=check_bucket)
														
 
															+
														
 
															+
														
 
															+def close_minio_client() -> None:
														
 
															+    """关闭全局MinIO客户端"""
														
 
															+    global _global_minio_client
														
 
															+    if _global_minio_client is not None:
														
 
															+        _global_minio_client.close()
														
 
															+        _global_minio_client = None
														
--- a/src/utils/http_client.py
+++ b/src/utils/http_client.py
@@ -0,0 +1,383 @@
 
															+import requests
														
 
															+import logging
														
 
															+import os
														
 
															+import json
														
 
															+from typing import Dict, Any, Optional
														
 
															+from urllib3.util.retry import Retry
														
 
															+from requests.adapters import HTTPAdapter
														
 
															+
														
 
															+# 配置日志
														
 
															+logging.basicConfig(level=logging.INFO)
														
 
															+logger = logging.getLogger(__name__)
														
 
															+
														
 
															+class HTTPClient:
														
 
															+    """HTTP请求工具类，用于发送各种HTTP请求"""
														
 
															+    
														
 
															+    def __init__(self, base_url: str, api_key: str = None, auth_type: str = 'bearer'):
														
 
															+        """
														
 
															+        初始化HTTP客户端
														
 
															+        
														
 
															+        Args:
														
 
															+            base_url: API基础URL
														
 
															+            api_key: API密钥
														
 
															+            auth_type: 认证类型，支持'bearer'和'basic'
														
 
															+        """
														
 
															+        self.base_url = base_url.rstrip('/')
														
 
															+        self.api_key = api_key
														
 
															+        self.session = requests.Session()
														
 
															+        
														
 
															+        # 设置请求超时（秒）
														
 
															+        self.timeout = 30
														
 
															+        
														
 
															+        # 配置重试机制
														
 
															+        retry_strategy = Retry(
														
 
															+            total=3,  # 最大重试次数
														
 
															+            backoff_factor=1,  # 重试间隔：1秒、2秒、4秒
														
 
															+            status_forcelist=[502, 503, 504],  # 重试的状态码（移除500，避免过多无效重试）
														
 
															+            allowed_methods=["GET", "POST", "PUT", "DELETE"]  # 允许重试的方法
														
 
															+        )
														
 
															+        
														
 
															+        # 创建HTTP适配器并设置重试策略
														
 
															+        adapter = HTTPAdapter(max_retries=retry_strategy)
														
 
															+        
														
 
															+        # 将适配器应用到所有请求
														
 
															+        self.session.mount("http://", adapter)
														
 
															+        self.session.mount("https://", adapter)
														
 
															+        
														
 
															+        # 设置默认请求头
														
 
															+        if self.api_key:
														
 
															+            if auth_type == 'bearer':
														
 
															+                self.session.headers.update({
														
 
															+                    'Authorization': f'Bearer {self.api_key}'
														
 
															+                })
														
 
															+            elif auth_type == 'basic':
														
 
															+                # 处理Basic Auth，格式为"username:password"
														
 
															+                self.session.headers.update({
														
 
															+                    'Authorization': f'Basic {self.api_key}'
														
 
															+                })
														
 
															+        
														
 
															+        self.session.headers.update({
														
 
															+            'Content-Type': 'application/json'
														
 
															+        })
														
 
															+    
														
 
															+    def post(self, endpoint: str, data: Optional[Dict] = None, 
														
 
															+             json_data: Optional[Dict] = None, files: Optional[Dict] = None,
														
 
															+             headers: Optional[Dict] = None) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        发送POST请求
														
 
															+        
														
 
															+        Args:
														
 
															+            endpoint: API端点路径（以/开头）
														
 
															+            data: 表单数据
														
 
															+            json_data: JSON数据
														
 
															+            files: 文件数据
														
 
															+            headers: 自定义请求头
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict: 响应JSON数据
														
 
															+        
														
 
															+        Raises:
														
 
															+            requests.exceptions.RequestException: 请求失败时抛出
														
 
															+        """
														
 
															+        url = f"{self.base_url}{endpoint}"
														
 
															+        
														
 
															+        # 记录请求日志
														
 
															+        request_info = {
														
 
															+            "method": "POST",
														
 
															+            "url": url,
														
 
															+            "data": data,
														
 
															+            "json": json_data,
														
 
															+            "headers": headers,
														
 
															+            "files": files is not None  # 不记录文件内容，只记录是否有文件
														
 
															+        }
														
 
															+        # 将请求报文写入D:\project\work\ragflow_plugs\book\output\temp下的request.txt文件
														
 
															+        with open(r"D:\project\work\ragflow_plugs\book\output\temp\request.txt", "w", encoding="utf-8") as f:
														
 
															+            f.write(str(request_info))
														
 
															+        
														
 
															+        logger.info(f"Sending request: {request_info}")
														
 
															+        
														
 
															+        try:
														
 
															+            # 当上传文件时，不使用默认的Content-Type: application/json头
														
 
															+            # 让requests库自动生成正确的multipart/form-data头
														
 
															+            if files:
														
 
															+                # 创建一个临时会话，不包含默认的Content-Type头
														
 
															+                temp_session = requests.Session()
														
 
															+                
														
 
															+                # 复制认证头
														
 
															+                if self.api_key:
														
 
															+                    auth_header = self.session.headers.get('Authorization')
														
 
															+                    if auth_header:
														
 
															+                        temp_session.headers.update({'Authorization': auth_header})
														
 
															+                
														
 
															+                # 使用临时会话发送请求
														
 
															+                response = temp_session.post(
														
 
															+                    url=url,
														
 
															+                    data=data,
														
 
															+                    json=json_data,
														
 
															+                    files=files,
														
 
															+                    headers=headers,
														
 
															+                    timeout=self.timeout  # 添加超时参数
														
 
															+                )
														
 
															+            else:
														
 
															+                # 正常请求，使用默认会话
														
 
															+                response = self.session.post(
														
 
															+                    url=url,
														
 
															+                    data=data,
														
 
															+                    json=json_data,
														
 
															+                    headers=headers,
														
 
															+                    timeout=self.timeout  # 添加超时参数
														
 
															+                )
														
 
															+            
														
 
															+            # 记录响应日志
														
 
															+            response_info = {
														
 
															+                "status_code": response.status_code,
														
 
															+                "url": url,
														
 
															+                "headers": dict(response.headers),
														
 
															+                "content_length": len(response.content)
														
 
															+            }
														
 
															+            logger.info(f"Received response: {response_info}")
														
 
															+            
														
 
															+            response.raise_for_status()  # 抛出HTTP错误
														
 
															+            return response.json()
														
 
															+        except Exception as e:
														
 
															+            # 记录错误日志
														
 
															+            logger.error(f"Request failed: {str(e)}")
														
 
															+            raise
														
 
															+    
														
 
															+    def get(self, endpoint: str, params: Optional[Dict] = None,
														
 
															+            headers: Optional[Dict] = None) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        发送GET请求
														
 
															+        
														
 
															+        Args:
														
 
															+            endpoint: API端点路径（以/开头）
														
 
															+            params: 查询参数
														
 
															+            headers: 自定义请求头
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict: 响应JSON数据
														
 
															+        
														
 
															+        Raises:
														
 
															+            requests.exceptions.RequestException: 请求失败时抛出
														
 
															+        """
														
 
															+        url = f"{self.base_url}{endpoint}"
														
 
															+        
														
 
															+        # 记录请求日志
														
 
															+        request_info = {
														
 
															+            "method": "GET",
														
 
															+            "url": url,
														
 
															+            "params": params,
														
 
															+            "headers": headers
														
 
															+        }
														
 
															+        logger.info(f"Sending request: {request_info}")
														
 
															+        
														
 
															+        try:
														
 
															+            response = self.session.get(
														
 
															+                url=url,
														
 
															+                params=params,
														
 
															+                headers=headers,
														
 
															+                timeout=self.timeout  # 添加超时参数
														
 
															+            )
														
 
															+            
														
 
															+            # 记录响应日志
														
 
															+            response_info = {
														
 
															+                "status_code": response.status_code,
														
 
															+                "url": url,
														
 
															+                "headers": dict(response.headers),
														
 
															+                "content_length": len(response.content)
														
 
															+            }
														
 
															+            logger.info(f"Received response: {response_info}")
														
 
															+            
														
 
															+            response.raise_for_status()  # 抛出HTTP错误
														
 
															+            return response.json()
														
 
															+        except Exception as e:
														
 
															+            # 记录错误日志
														
 
															+            logger.error(f"Request failed: {str(e)}")
														
 
															+            raise
														
 
															+    
														
 
															+    def get_json(self, endpoint: str, json_data: Optional[Dict] = None,
														
 
															+                headers: Optional[Dict] = None) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        发送带有JSON数据的GET请求
														
 
															+        
														
 
															+        Args:
														
 
															+            endpoint: API端点路径（以/开头）
														
 
															+            json_data: JSON数据
														
 
															+            headers: 自定义请求头
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict: 响应JSON数据
														
 
															+        
														
 
															+        Raises:
														
 
															+            requests.exceptions.RequestException: 请求失败时抛出
														
 
															+        """
														
 
															+        url = f"{self.base_url}{endpoint}"
														
 
															+        
														
 
															+        # 记录请求日志
														
 
															+        request_info = {
														
 
															+            "method": "GET",
														
 
															+            "url": url,
														
 
															+            "json": json_data,
														
 
															+            "headers": headers
														
 
															+        }
														
 
															+        logger.info(f"Sending request: {request_info}")
														
 
															+        
														
 
															+        try:
														
 
															+            response = self.session.get(
														
 
															+                url=url,
														
 
															+                json=json_data,
														
 
															+                headers=headers,
														
 
															+                timeout=self.timeout  # 添加超时参数
														
 
															+            )
														
 
															+            
														
 
															+            # 记录响应日志
														
 
															+            response_info = {
														
 
															+                "status_code": response.status_code,
														
 
															+                "url": url,
														
 
															+                "headers": dict(response.headers),
														
 
															+                "content_length": len(response.content)
														
 
															+            }
														
 
															+            logger.info(f"Received response: {response_info}")
														
 
															+            
														
 
															+            response.raise_for_status()  # 抛出HTTP错误
														
 
															+            # 将response.content转换为JSON
														
 
															+            return json.loads(response.content.decode('utf-8'))
														
 
															+        except Exception as e:
														
 
															+            # 记录错误日志
														
 
															+            logger.error(f"Request failed: {str(e)}")
														
 
															+            raise
														
 
															+    
														
 
															+    def put(self, endpoint: str, data: Optional[Dict] = None, 
														
 
															+            json_data: Optional[Dict] = None, headers: Optional[Dict] = None) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        发送PUT请求
														
 
															+        
														
 
															+        Args:
														
 
															+            endpoint: API端点路径（以/开头）
														
 
															+            data: 表单数据
														
 
															+            json_data: JSON数据
														
 
															+            headers: 自定义请求头
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict: 响应JSON数据
														
 
															+        
														
 
															+        Raises:
														
 
															+            requests.exceptions.RequestException: 请求失败时抛出
														
 
															+        """
														
 
															+        url = f"{self.base_url}{endpoint}"
														
 
															+        
														
 
															+        # 记录请求日志
														
 
															+        request_info = {
														
 
															+            "method": "PUT",
														
 
															+            "url": url,
														
 
															+            "data": data,
														
 
															+            "json": json_data,
														
 
															+            "headers": headers
														
 
															+        }
														
 
															+        logger.info(f"Sending request: {request_info}")
														
 
															+        
														
 
															+        try:
														
 
															+            response = self.session.put(
														
 
															+                url=url,
														
 
															+                data=data,
														
 
															+                json=json_data,
														
 
															+                headers=headers,
														
 
															+                timeout=self.timeout  # 添加超时参数
														
 
															+            )
														
 
															+            
														
 
															+            # 记录响应日志
														
 
															+            response_info = {
														
 
															+                "status_code": response.status_code,
														
 
															+                "url": url,
														
 
															+                "headers": dict(response.headers),
														
 
															+                "content_length": len(response.content)
														
 
															+            }
														
 
															+            logger.info(f"Received response: {response_info}")
														
 
															+            
														
 
															+            response.raise_for_status()  # 抛出HTTP错误
														
 
															+            return response.json()
														
 
															+        except Exception as e:
														
 
															+            # 记录错误日志
														
 
															+            logger.error(f"Request failed: {str(e)}")
														
 
															+            raise
														
 
															+    
														
 
															+    def delete(self, endpoint: str, data: Optional[Dict] = None, 
														
 
															+               json_data: Optional[Dict] = None, headers: Optional[Dict] = None) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        发送DELETE请求
														
 
															+        
														
 
															+        Args:
														
 
															+            endpoint: API端点路径（以/开头）
														
 
															+            data: 表单数据
														
 
															+            json_data: JSON数据
														
 
															+            headers: 自定义请求头
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict: 响应JSON数据
														
 
															+        
														
 
															+        Raises:
														
 
															+            requests.exceptions.RequestException: 请求失败时抛出
														
 
															+        """
														
 
															+        url = f"{self.base_url}{endpoint}"
														
 
															+        
														
 
															+        # 记录请求日志
														
 
															+        request_info = {
														
 
															+            "method": "DELETE",
														
 
															+            "url": url,
														
 
															+            "data": data,
														
 
															+            "json": json_data,
														
 
															+            "headers": headers
														
 
															+        }
														
 
															+        logger.info(f"Sending request: {request_info}")
														
 
															+        
														
 
															+        try:
														
 
															+            response = self.session.delete(
														
 
															+                url=url,
														
 
															+                data=data,
														
 
															+                json=json_data,
														
 
															+                headers=headers,
														
 
															+                timeout=self.timeout  # 添加超时参数
														
 
															+            )
														
 
															+            
														
 
															+            # 记录响应日志
														
 
															+            response_info = {
														
 
															+                "status_code": response.status_code,
														
 
															+                "url": url,
														
 
															+                "headers": dict(response.headers),
														
 
															+                "content_length": len(response.content)
														
 
															+            }
														
 
															+            logger.info(f"Received response: {response_info}")
														
 
															+            
														
 
															+            response.raise_for_status()  # 抛出HTTP错误
														
 
															+            return response.json()
														
 
															+        except Exception as e:
														
 
															+            # 记录错误日志
														
 
															+            logger.error(f"Request failed: {str(e)}")
														
 
															+            raise
														
 
															+    
														
 
															+    def upload_file(self, endpoint: str, file_path: str, file_field_name: str = 'file',
														
 
															+                   data: Optional[Dict] = None, headers: Optional[Dict] = None) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        上传文件
														
 
															+        
														
 
															+        Args:
														
 
															+            endpoint: API端点路径（以/开头）
														
 
															+            file_path: 本地文件路径
														
 
															+            file_field_name: 表单字段名称
														
 
															+            data: 额外的表单数据
														
 
															+            headers: 自定义请求头
														
 
															+            
														
 
															+        Returns:
														
 
															+            Dict: 响应JSON数据
														
 
															+        
														
 
															+        Raises:
														
 
															+            requests.exceptions.RequestException: 请求失败时抛出
														
 
															+        """
														
 
															+        # 打开文件并构建files字典
														
 
															+        with open(file_path, 'rb') as f:
														
 
															+            files = {
														
 
															+                file_field_name: (os.path.basename(file_path), f)
														
 
															+            }
														
 
															+            
														
 
															+            # 发送POST请求
														
 
															+            return self.post(endpoint, data=data, files=files, headers=headers)
														
--- a/src/utils/infinity/README.md
+++ b/src/utils/infinity/README.md
@@ -0,0 +1,527 @@
 
															+# Infinity Python API客户端（带连接池）
														
 
															+
														
 
															+这是一个基于Infinity数据库的Python API客户端，带有连接池机制，旨在保障高并发下的高可用性。
														
 
															+
														
 
															+## 设计特点
														
 
															+
														
 
															+1. **并发连接管理**：支持多线程并发访问
														
 
															+2. **连接自动回收和复用**：避免频繁创建和关闭连接
														
 
															+3. **连接超时和心跳检测**：自动检测和清理无效连接
														
 
															+4. **动态调整连接数量**：根据负载自动调整连接数
														
 
															+5. **线程安全**：所有操作都是线程安全的
														
 
															+6. **易用的API**：提供简洁易用的数据库操作接口
														
 
															+
														
 
															+## 目录结构
														
 
															+
														
 
															+```
														
 
															+└── utils/infinity/
														
 
															+    ├── __init__.py    # 主入口，导入并重新导出所有组件
														
 
															+    ├── client.py      # 客户端实现，包含数据库操作方法
														
 
															+    ├── pool.py        # 连接池实现，包含连接管理和心跳检测
														
 
															+    ├── README.md      # 说明文档
														
 
															+    └── test_infinity.py  # 测试脚本
														
 
															+```
														
 
															+
														
 
															+## 安装依赖
														
 
															+
														
 
															+```bash
														
 
															+# 安装Infinity Python SDK
														
 
															+pip install infinity-sdk
														
 
															+```
														
 
															+
														
 
															+## 快速开始
														
 
															+
														
 
															+### 1. 基本使用
														
 
															+
														
 
															+```python
														
 
															+from utils.infinity import InfinityClient
														
 
															+
														
 
															+# 创建客户端实例
														
 
															+client = InfinityClient(
														
 
															+    host="192.168.16.134",
														
 
															+    port="23817",
														
 
															+    database="default_db",
														
 
															+    min_connections=2,
														
 
															+    max_connections=10
														
 
															+)
														
 
															+
														
 
															+# 获取所有数据库
														
 
															+databases = client.get_databases()
														
 
															+print(f"Databases: {databases}")
														
 
															+
														
 
															+# 获取指定数据库的所有表
														
 
															+tables = client.get_tables(database_name="image_db")
														
 
															+print(f"Tables: {tables}")
														
 
															+
														
 
															+# 关闭客户端
														
 
															+client.close()
														
 
															+```
														
 
															+
														
 
															+### 2. 使用全局客户端（单例模式）
														
 
															+
														
 
															+```python
														
 
															+from utils.infinity import get_client, close_client
														
 
															+
														
 
															+# 获取全局客户端实例
														
 
															+client = get_client()
														
 
															+
														
 
															+# 使用客户端
														
 
															+databases = client.get_databases()
														
 
															+print(f"Databases: {databases}")
														
 
															+
														
 
															+# 关闭全局客户端
														
 
															+close_client()
														
 
															+```
														
 
															+
														
 
															+### 3. 使用连接上下文
														
 
															+
														
 
															+连接上下文管理器是一种更安全、更高效的使用连接方式，它会确保连接在使用完毕后自动释放回连接池，避免连接泄漏。
														
 
															+
														
 
															+#### 完整示例
														
 
															+
														
 
															+```python
														
 
															+from utils.infinity import InfinityClient
														
 
															+
														
 
															+def main():
														
 
															+    # 创建客户端实例
														
 
															+    client = InfinityClient(database="test_db")
														
 
															+    
														
 
															+    try:
														
 
															+        # 使用连接上下文获取连接
														
 
															+        with client.get_connection() as conn:
														
 
															+            print("=== 连接上下文示例 ===")
														
 
															+            
														
 
															+            # 1. 获取所有数据库
														
 
															+            databases = conn.get_databases()
														
 
															+            print(f"1. 所有数据库: {databases}")
														
 
															+            
														
 
															+            # 2. 获取当前数据库的所有表
														
 
															+            tables = conn.get_tables()
														
 
															+            print(f"2. 当前数据库表: {tables}")
														
 
															+            
														
 
															+            # 3. 创建新表（如果不存在）
														
 
															+            table_name = "example_table"
														
 
															+            print(f"3. 创建表: {table_name}")
														
 
															+            
														
 
															+            # 定义表结构
														
 
															+            fields = [
														
 
															+                {"name": "id", "type": "INT", "is_primary_key": True},
														
 
															+                {"name": "name", "type": "VARCHAR(100)"},
														
 
															+                {"name": "value", "type": "FLOAT"}
														
 
															+            ]
														
 
															+            
														
 
															+            # 先检查表是否存在，如果存在则删除
														
 
															+            if table_name in tables:
														
 
															+                conn.drop_table(table_name)
														
 
															+                print(f"   - 表 {table_name} 已存在，已删除")
														
 
															+            
														
 
															+            # 创建新表
														
 
															+            conn.create_table(table_name, fields)
														
 
															+            print(f"   - 表 {table_name} 创建成功")
														
 
															+            
														
 
															+            # 4. 插入数据
														
 
															+            print(f"4. 向表 {table_name} 插入数据")
														
 
															+            
														
 
															+            # 准备插入的数据
														
 
															+            documents = [
														
 
															+                {"id": 1, "name": "示例1", "value": 10.5},
														
 
															+                {"id": 2, "name": "示例2", "value": 20.3},
														
 
															+                {"id": 3, "name": "示例3", "value": 15.7}
														
 
															+            ]
														
 
															+            
														
 
															+            # 执行插入操作
														
 
															+            conn.insert(table_name, documents)
														
 
															+            print(f"   - 成功插入 {len(documents)} 条数据")
														
 
															+            
														
 
															+            # 5. 执行搜索查询
														
 
															+            print(f"5. 查询表 {table_name} 中的数据")
														
 
															+            
														
 
															+            # 构建查询
														
 
															+            search_query = {
														
 
															+                "field": "name",
														
 
															+                "query": "示例",
														
 
															+                "topn": 2
														
 
															+            }
														
 
															+            
														
 
															+            # 执行查询
														
 
															+            result = conn.search(table_name, ["id", "name", "value"], search_query)
														
 
															+            print(f"   - 查询结果: {result}")
														
 
															+            
														
 
															+            # 6. 执行向量检索（示例，实际需要向量字段）
														
 
															+            print(f"6. 执行向量检索（示例）")
														
 
															+            
														
 
															+            try:
														
 
															+                # 注意：此示例仅用于演示API用法，实际使用需要表中存在向量字段
														
 
															+                vector_query = {
														
 
															+                    "vector_field": "vector",  # 假设存在向量字段
														
 
															+                    "query_vector": [0.1, 0.2, 0.3],
														
 
															+                    "topn": 2
														
 
															+                }
														
 
															+                vector_result = conn.vector_search(table_name, ["id", "name", "value"], vector_query)
														
 
															+                print(f"   - 向量检索结果: {vector_result}")
														
 
															+            except Exception as e:
														
 
															+                print(f"   - 向量检索示例失败（预期行为，因为表中没有向量字段）: {e}")
														
 
															+            
														
 
															+            # 7. 再次查看所有表
														
 
															+            updated_tables = conn.get_tables()
														
 
															+            print(f"7. 更新后的表列表: {updated_tables}")
														
 
															+            
														
 
															+            print("\n✅ 所有操作执行完成")
														
 
															+        
														
 
															+        # 8. 连接已自动释放回连接池
														
 
															+        print("\n✅ 连接已自动释放回连接池")
														
 
															+        
														
 
															+    except Exception as e:
														
 
															+        print(f"\n❌ 操作失败: {e}")
														
 
															+    finally:
														
 
															+        # 关闭客户端
														
 
															+        client.close()
														
 
															+        print("✅ 客户端已关闭")
														
 
															+
														
 
															+if __name__ == "__main__":
														
 
															+    main()
														
 
															+```
														
 
															+
														
 
															+#### 多操作上下文示例
														
 
															+
														
 
															+```python
														
 
															+from utils.infinity import InfinityClient
														
 
															+
														
 
															+# 创建客户端实例
														
 
															+client = InfinityClient(database="test_db")
														
 
															+
														
 
															+# 示例：在同一个连接上下文中执行多个相关操作
														
 
															+try:
														
 
															+    with client.get_connection() as conn:
														
 
															+        # 操作1：创建表
														
 
															+        conn.create_table("temp_table", [
														
 
															+            {"name": "id", "type": "INT", "is_primary_key": True},
														
 
															+            {"name": "data", "type": "VARCHAR(255)"}
														
 
															+        ])
														
 
															+        
														
 
															+        # 操作2：插入数据
														
 
															+        conn.insert("temp_table", [{"id": 1, "data": "test1"}, {"id": 2, "data": "test2"}])
														
 
															+        
														
 
															+        # 操作3：查询数据
														
 
															+        search_query = {
														
 
															+            "field": "data",
														
 
															+            "query": "test",
														
 
															+            "topn": 2
														
 
															+        }
														
 
															+        result = conn.search("temp_table", ["id", "data"], search_query)
														
 
															+        print(f"查询结果: {result}")
														
 
															+        
														
 
															+        # 操作4：删除表
														
 
															+        conn.drop_table("temp_table")
														
 
															+        
														
 
															+        print("✅ 所有相关操作在同一个连接上下文中完成")
														
 
															+except Exception as e:
														
 
															+    print(f"❌ 操作失败: {e}")
														
 
															+finally:
														
 
															+    client.close()
														
 
															+```
														
 
															+
														
 
															+#### 异常处理上下文示例
														
 
															+
														
 
															+```python
														
 
															+from utils.infinity import InfinityClient
														
 
															+
														
 
															+# 创建客户端实例
														
 
															+client = InfinityClient(database="test_db")
														
 
															+
														
 
															+try:
														
 
															+    with client.get_connection() as conn:
														
 
															+        # 执行可能失败的操作
														
 
															+        conn.create_table("error_table", [
														
 
															+            {"name": "id", "type": "INT", "is_primary_key": True},
														
 
															+            {"name": "invalid_field", "type": "INVALID_TYPE"}  # 无效字段类型
														
 
															+        ])
														
 
															+        
														
 
															+    # 注意：如果上面的操作失败，代码不会执行到这里
														
 
															+    print("✅ 操作成功")
														
 
															+except Exception as e:
														
 
															+    # 捕获并处理异常
														
 
															+    print(f"❌ 操作失败，已捕获异常: {e}")
														
 
															+finally:
														
 
															+    # 无论操作是否成功，客户端都会被关闭
														
 
															+    client.close()
														
 
															+    print("✅ 客户端已关闭")
														
 
															+```
														
 
															+
														
 
															+### 4. 搜索示例
														
 
															+
														
 
															+```python
														
 
															+from utils.infinity import InfinityClient
														
 
															+
														
 
															+client = InfinityClient(database="image_db")
														
 
															+
														
 
															+# 执行搜索查询
														
 
															+result = client.search(
														
 
															+    table_name="pdf_documents_table",
														
 
															+    output_fields=["id", "title", "content"],
														
 
															+    query={
														
 
															+        "field": "content",
														
 
															+        "query": "儿童绘本",
														
 
															+        "topn": 5
														
 
															+    }
														
 
															+)
														
 
															+
														
 
															+print(f"Search result: {result}")
														
 
															+
														
 
															+client.close()
														
 
															+```
														
 
															+
														
 
															+### 5. 混合检索示例
														
 
															+
														
 
															+```python
														
 
															+from utils.infinity import InfinityClient
														
 
															+
														
 
															+client = InfinityClient(database="image_db")
														
 
															+
														
 
															+# 执行混合检索
														
 
															+result = client.hybrid_search(
														
 
															+    table_name="pdf_documents_table",
														
 
															+    output_fields=["id", "title", "content", "score"],
														
 
															+    query={
														
 
															+        "vector_field": "dense_vector_1024",
														
 
															+        "query_vector": [0.1, 0.2, 0.3, ...],  # 实际向量
														
 
															+        "field": "content",
														
 
															+        "query": "儿童绘本",
														
 
															+        "topn": 5,
														
 
															+        "fusion_weight": 0.5
														
 
															+    }
														
 
															+)
														
 
															+
														
 
															+print(f"Hybrid search result: {result}")
														
 
															+
														
 
															+client.close()
														
 
															+```
														
 
															+
														
 
															+### 6. 向量检索示例
														
 
															+
														
 
															+```python
														
 
															+from utils.infinity import InfinityClient
														
 
															+
														
 
															+client = InfinityClient(database="image_db")
														
 
															+
														
 
															+# 执行向量检索
														
 
															+result = client.vector_search(
														
 
															+    table_name="pdf_documents_table",
														
 
															+    output_fields=["id", "title", "content", "score"],
														
 
															+    query={
														
 
															+        "vector_field": "dense_vector_1024",
														
 
															+        "query_vector": [0.1, 0.2, 0.3, ...],  # 实际向量
														
 
															+        "topn": 5
														
 
															+    }
														
 
															+)
														
 
															+
														
 
															+print(f"Vector search result: {result}")
														
 
															+
														
 
															+client.close()
														
 
															+```
														
 
															+
														
 
															+## 核心功能
														
 
															+
														
 
															+### 数据库操作
														
 
															+
														
 
															+- `get_databases()`: 获取所有数据库
														
 
															+- `create_database(database_name)`: 创建数据库
														
 
															+- `drop_database(database_name)`: 删除数据库
														
 
															+- `use_database(database_name)`: 切换数据库
														
 
															+
														
 
															+### 表操作
														
 
															+
														
 
															+- `get_tables(database_name=None)`: 获取所有表
														
 
															+- `create_table(table_name, fields, database_name=None)`: 创建表
														
 
															+- `drop_table(table_name, database_name=None)`: 删除表
														
 
															+
														
 
															+### 文档操作
														
 
															+
														
 
															+- `insert(table_name, documents, database_name=None)`: 插入文档
														
 
															+
														
 
															+### 检索操作
														
 
															+
														
 
															+- `search(table_name, output_fields, query, database_name=None)`: 搜索文档
														
 
															+  - `table_name`: 表名
														
 
															+  - `output_fields`: 要返回的字段列表
														
 
															+  - `query`: 查询条件，包含`field`、`query`和`topn`字段
														
 
															+  - `database_name`: 数据库名称（可选，默认使用客户端配置的数据库）
														
 
															+
														
 
															+- `hybrid_search(table_name, output_fields, query, database_name=None)`: 混合检索
														
 
															+  - `table_name`: 表名
														
 
															+  - `output_fields`: 要返回的字段列表
														
 
															+  - `query`: 查询条件，包含`vector_field`、`query_vector`、`field`、`query`、`topn`和`fusion_weight`字段
														
 
															+  - `database_name`: 数据库名称（可选，默认使用客户端配置的数据库）
														
 
															+
														
 
															+- `vector_search(table_name, output_fields, query, database_name=None)`: 向量检索
														
 
															+  - `table_name`: 表名
														
 
															+  - `output_fields`: 要返回的字段列表
														
 
															+  - `query`: 查询条件，包含`vector_field`、`query_vector`和`topn`字段
														
 
															+  - `database_name`: 数据库名称（可选，默认使用客户端配置的数据库）
														
 
															+
														
 
															+### 连接池管理
														
 
															+
														
 
															+- `get_status()`: 获取连接池状态
														
 
															+- `close()`: 关闭所有连接
														
 
															+
														
 
															+## 配置参数
														
 
															+
														
 
															+### InfinityClient 配置
														
 
															+
														
 
															+| 参数 | 类型 | 默认值 | 说明 |
														
 
															+|------|------|--------|------|
														
 
															+| host | str | "192.168.16.134" | Infinity服务地址 |
														
 
															+| port | str | "23817" | Infinity服务端口 |
														
 
															+| database | str | "default_db" | 数据库名称 |
														
 
															+| min_connections | int | 2 | 最小连接数 |
														
 
															+| max_connections | int | 10 | 最大连接数 |
														
 
															+
														
 
															+### InfinityConnectionPool 配置
														
 
															+
														
 
															+| 参数 | 类型 | 默认值 | 说明 |
														
 
															+|------|------|--------|------|
														
 
															+| host | str | "192.168.16.134" | Infinity服务地址 |
														
 
															+| port | str | "23817" | Infinity服务端口 |
														
 
															+| database | str | "default_db" | 数据库名称 |
														
 
															+| min_connections | int | 2 | 最小连接数 |
														
 
															+| max_connections | int | 10 | 最大连接数 |
														
 
															+| connection_timeout | int | 30 | 连接超时时间（秒） |
														
 
															+| idle_timeout | int | 300 | 空闲连接超时时间（秒） |
														
 
															+| heartbeat_interval | int | 60 | 心跳检测间隔（秒） |
														
 
															+
														
 
															+## 连接池状态
														
 
															+
														
 
															+可以通过 `get_status()` 方法获取连接池的状态信息：
														
 
															+
														
 
															+```python
														
 
															+from utils.infinity import InfinityClient
														
 
															+
														
 
															+client = InfinityClient()
														
 
															+status = client.get_status()
														
 
															+print(f"Connection pool status: {status}")
														
 
															+```
														
 
															+
														
 
															+输出示例：
														
 
															+
														
 
															+```
														
 
															+Connection pool status: {
														
 
															+    "total_connections": 5,
														
 
															+    "available_connections": 3,
														
 
															+    "in_use_connections": 2,
														
 
															+    "min_connections": 2,
														
 
															+    "max_connections": 10
														
 
															+}
														
 
															+```
														
 
															+
														
 
															+## 高并发使用建议
														
 
															+
														
 
															+1. **调整连接池大小**：根据实际并发量调整 `min_connections` 和 `max_connections`
														
 
															+2. **使用全局客户端**：在多线程环境中使用全局客户端实例
														
 
															+3. **合理设置超时时间**：根据网络环境和数据库性能调整超时参数
														
 
															+4. **使用连接上下文**：使用 `with client.get_connection()` 确保连接正确释放
														
 
															+5. **定期检查连接池状态**：监控连接池状态，及时调整配置
														
 
															+
														
 
															+## 异常处理
														
 
															+
														
 
															+```python
														
 
															+from utils.infinity import InfinityClient
														
 
															+
														
 
															+try:
														
 
															+    client = InfinityClient()
														
 
															+    databases = client.get_databases()
														
 
															+    print(f"Databases: {databases}")
														
 
															+except Exception as e:
														
 
															+    print(f"Error: {e}")
														
 
															+finally:
														
 
															+    client.close()
														
 
															+```
														
 
															+
														
 
															+## 最佳实践
														
 
															+
														
 
															+1. **在应用启动时初始化客户端**：避免频繁创建和销毁客户端
														
 
															+2. **在应用关闭时关闭客户端**：释放所有连接资源
														
 
															+3. **使用连接上下文管理连接**：确保连接正确释放
														
 
															+4. **监控连接池状态**：及时发现和解决连接问题
														
 
															+5. **根据负载调整连接池大小**：避免连接过多或不足
														
 
															+
														
 
															+## 与现有代码集成
														
 
															+
														
 
															+可以将此客户端与现有代码无缝集成，替换直接使用Infinity SDK的地方：
														
 
															+
														
 
															+### 原有代码
														
 
															+
														
 
															+```python
														
 
															+import infinity
														
 
															+from infinity.common import NetworkAddress
														
 
															+
														
 
															+# 直接创建连接
														
 
															+conn = infinity.connect(NetworkAddress("192.168.16.134", "23817"))
														
 
															+conn.use_database("image_db")
														
 
															+# 使用连接
														
 
															+result = conn.search("my_table", query)
														
 
															+```
														
 
															+
														
 
															+### 集成后
														
 
															+
														
 
															+```python
														
 
															+from utils.infinity import InfinityClient
														
 
															+
														
 
															+# 使用连接池客户端
														
 
															+client = InfinityClient(database="image_db")
														
 
															+result = client.search("my_table", query)
														
 
															+```
														
 
															+
														
 
															+## 性能优化
														
 
															+
														
 
															+1. **减少连接创建开销**：连接池自动管理连接，避免频繁创建和关闭连接
														
 
															+2. **连接复用**：连接可以被多次复用，提高性能
														
 
															+3. **异步连接管理**：连接池异步管理连接，不会阻塞主线程
														
 
															+4. **心跳检测**：自动清理无效连接，保持连接池健康
														
 
															+
														
 
															+## 测试
														
 
															+
														
 
															+可以使用以下方法测试连接池的性能：
														
 
															+
														
 
															+```python
														
 
															+from utils.infinity import InfinityClient
														
 
															+import threading
														
 
															+import time
														
 
															+
														
 
															+def test_query(client, thread_id):
														
 
															+    """测试查询性能"""
														
 
															+    start_time = time.time()
														
 
															+    databases = client.get_databases()
														
 
															+    end_time = time.time()
														
 
															+    print(f"Thread {thread_id}: Query took {end_time - start_time:.4f} seconds")
														
 
															+
														
 
															+# 创建客户端
														
 
															+client = InfinityClient(max_connections=20)
														
 
															+
														
 
															+# 测试并发查询
														
 
															+threads = []
														
 
															+start_time = time.time()
														
 
															+
														
 
															+for i in range(50):
														
 
															+    thread = threading.Thread(target=test_query, args=(client, i))
														
 
															+    threads.append(thread)
														
 
															+    thread.start()
														
 
															+
														
 
															+# 等待所有线程完成
														
 
															+for thread in threads:
														
 
															+    thread.join()
														
 
															+
														
 
															+end_time = time.time()
														
 
															+print(f"Total time for 50 concurrent queries: {end_time - start_time:.4f} seconds")
														
 
															+print(f"Connection pool status: {client.get_status()}")
														
 
															+
														
 
															+# 关闭客户端
														
 
															+client.close()
														
 
															+```
														
 
															+
														
 
															+## 版本历史
														
 
															+
														
 
															+- v1.0.0: 初始版本，实现了基本的连接池功能和数据库操作接口
														
 
															+
														
 
															+## 许可证
														
 
															+
														
 
															+MIT License
														
--- a/src/utils/infinity/__init__.py
+++ b/src/utils/infinity/__init__.py
@@ -0,0 +1,13 @@
 
															+# Infinity Python API客户端，带有连接池机制
														
 
															+
														
 
															+# 从分离的模块中导入所有组件，确保向后兼容性
														
 
															+from .pool import InfinityConnectionPool
														
 
															+from .client import InfinityClient, get_client, close_client
														
 
															+
														
 
															+# 重新导出所有组件，使它们可以从包级别访问
														
 
															+__all__ = [
														
 
															+    'InfinityConnectionPool',
														
 
															+    'InfinityClient',
														
 
															+    'get_client',
														
 
															+    'close_client'
														
 
															+]
														
--- a/src/utils/infinity/client.py
+++ b/src/utils/infinity/client.py
@@ -0,0 +1,308 @@
 
															+# Infinity数据库客户端实现
														
 
															+from infinity.common import ConflictType
														
 
															+from typing import Dict, Any, List, Optional
														
 
															+import threading
														
 
															+from contextlib import contextmanager
														
 
															+from src.conf.settings import vector_db_settings
														
 
															+from .pool import InfinityConnectionPool
														
 
															+
														
 
															+class InfinityClient:
														
 
															+    """
														
 
															+    Infinity数据库客户端，基于连接池
														
 
															+    
														
 
															+    提供了常用的数据库操作方法，包括：
														
 
															+    - 数据库操作
														
 
															+    - 表操作
														
 
															+    - 文档操作
														
 
															+    - 搜索操作
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(
														
 
															+        self,
														
 
															+        host: str = vector_db_settings.infinity_host,
														
 
															+        port: str = vector_db_settings.infinity_sdk_port,
														
 
															+        database: str = vector_db_settings.infinity_database,
														
 
															+        min_connections: int = 2,
														
 
															+        max_connections: int = 10
														
 
															+    ):
														
 
															+        """
														
 
															+        初始化Infinity客户端
														
 
															+        
														
 
															+        Args:
														
 
															+            host: Infinity服务地址
														
 
															+            port: Infinity服务端口
														
 
															+            database: 数据库名称
														
 
															+            min_connections: 最小连接数
														
 
															+            max_connections: 最大连接数
														
 
															+        """
														
 
															+        self.pool = InfinityConnectionPool(
														
 
															+            host=host,
														
 
															+            port=port,
														
 
															+            database=database,
														
 
															+            min_connections=min_connections,
														
 
															+            max_connections=max_connections
														
 
															+        )
														
 
															+    
														
 
															+    def _get_database(self, conn: Any, database_name: Optional[str] = None):
														
 
															+        """
														
 
															+        获取数据库对象
														
 
															+        
														
 
															+        Args:
														
 
															+            conn: Infinity连接对象
														
 
															+            database_name: 数据库名称（可选，默认使用客户端配置的数据库）
														
 
															+            
														
 
															+        Returns:
														
 
															+            Database对象
														
 
															+        """
														
 
															+        db_name = database_name or self.pool.database
														
 
															+        return conn.get_database(db_name)
														
 
															+    
														
 
															+    def _get_table(self, conn: Any, table_name: str, database_name: Optional[str] = None):
														
 
															+        """
														
 
															+        获取表对象
														
 
															+        
														
 
															+        Args:
														
 
															+            conn: Infinity连接对象
														
 
															+            table_name: 表名
														
 
															+            database_name: 数据库名称（可选，默认使用客户端配置的数据库）
														
 
															+            
														
 
															+        Returns:
														
 
															+            Table对象
														
 
															+        """
														
 
															+        db = self._get_database(conn, database_name)
														
 
															+        return db.get_table(table_name)
														
 
															+    
														
 
															+    @contextmanager
														
 
															+    def get_connection(self, timeout: Optional[int] = None):
														
 
															+        """
														
 
															+        获取一个连接上下文
														
 
															+        
														
 
															+        Args:
														
 
															+            timeout: 获取连接的超时时间（秒）
														
 
															+        """
														
 
															+        with self.pool.get_connection(timeout) as conn:
														
 
															+            yield conn
														
 
															+    
														
 
															+    def list_databases(self) -> List[str]:
														
 
															+        """获取所有数据库"""
														
 
															+        with self.pool.list_connection() as conn:
														
 
															+            return conn.list_databases()
														
 
															+    
														
 
															+    def get_databases(self) -> List[str]:
														
 
															+        """获取所有数据库（别名，向后兼容）"""
														
 
															+        return self.list_databases()
														
 
															+    
														
 
															+    def create_database(self, database_name: str, conflict_type: str = ConflictType.Error, comment: Optional[str] = None):
														
 
															+        """创建数据库"""
														
 
															+        with self.pool.get_connection() as conn:
														
 
															+            return conn.create_database(database_name, conflict_type, comment)
														
 
															+    
														
 
															+    def drop_database(self, database_name: str, conflict_type: str = "Error"):
														
 
															+        """删除数据库"""
														
 
															+        with self.pool.get_connection() as conn:
														
 
															+            return conn.drop_database(database_name, conflict_type)
														
 
															+    
														
 
															+    def use_database(self, database_name: str):
														
 
															+        """切换客户端默认数据库
														
 
															+        
														
 
															+        注意：此操作只会影响当前客户端实例创建的新连接，不会影响已存在的连接
														
 
															+        """
														
 
															+        # 更新客户端的默认数据库
														
 
															+        self.pool.database = database_name
														
 
															+    
														
 
															+    def list_tables(self, database_name: Optional[str] = None) -> List[str]:
														
 
															+        """获取所有表"""
														
 
															+        with self.pool.get_connection() as conn:
														
 
															+            # 根据官方API，应该先获取Database对象，然后在Database对象上调用get_tables方法
														
 
															+            db = self._get_database(conn, database_name)
														
 
															+            return db.list_tables()
														
 
															+    
														
 
															+    def get_tables(self, database_name: Optional[str] = None) -> List[str]:
														
 
															+        """获取所有表（别名，向后兼容）"""
														
 
															+        return self.list_tables(database_name)
														
 
															+    
														
 
															+    def get_table(self, table_name: str, database_name: Optional[str] = None):
														
 
															+        """获取表"""
														
 
															+        with self.pool.get_connection() as conn:
														
 
															+            # 根据官方API，应该先获取Database对象，然后在Database对象上调用get_table方法
														
 
															+            return self._get_table(conn, table_name, database_name)
														
 
															+
														
 
															+    def create_table(
														
 
															+        self,
														
 
															+        table_name: str,
														
 
															+        columns_definition: List[Dict[str, Any]],
														
 
															+        conflict_type: str = ConflictType.Error,
														
 
															+        database_name: Optional[str] = None
														
 
															+    ):
														
 
															+        """创建表"""
														
 
															+        with self.pool.get_connection() as conn:
														
 
															+            # 根据官方API，应该先获取Database对象，然后在Database对象上调用create_table方法
														
 
															+            db = self._get_database(conn, database_name)
														
 
															+            return db.create_table(table_name, columns_definition, conflict_type)
														
 
															+
														
 
															+    def drop_table(self, table_name: str, database_name: Optional[str] = None, conflict_type = ConflictType.Error):
														
 
															+        """删除表"""
														
 
															+        with self.pool.get_connection() as conn:
														
 
															+            # 根据官方API，应该先获取Database对象，然后在Database对象上调用drop_table方法
														
 
															+            db = self._get_database(conn, database_name)
														
 
															+            return db.drop_table(table_name, conflict_type)
														
 
															+
														
 
															+    def create_index(self, table_name: str, index_name: str, index_info: Dict[str, Any], database_name: Optional[str] = None, conflict_type = ConflictType.Error, comment = None):
														
 
															+        """创建索引"""
														
 
															+        with self.pool.get_connection() as conn:
														
 
															+            # 使用辅助方法获取Table对象
														
 
															+            table = self._get_table(conn, table_name, database_name)
														
 
															+            return table.create_index(index_name, index_info, conflict_type, comment)
														
 
															+    
														
 
															+    def optimize(self, table_name: str, database_name: Optional[str] = None):
														
 
															+        """优化表"""
														
 
															+        with self.pool.get_connection() as conn:
														
 
															+           # 使用辅助方法获取Table对象
														
 
															+            table = self._get_table(conn, table_name, database_name)
														
 
															+            return table.optimize()
														
 
															+
														
 
															+    def drop_index(self, table_name: str, index_name: str, database_name: Optional[str] = None, conflict_type = ConflictType.Error):
														
 
															+        """删除索引"""
														
 
															+        with self.pool.get_connection() as conn:
														
 
															+           # 使用辅助方法获取Table对象
														
 
															+            table = self._get_table(conn, table_name, database_name)
														
 
															+            return table.drop_index(index_name, conflict_type)
														
 
															+
														
 
															+    def insert(
														
 
															+        self,
														
 
															+        table_name: str,
														
 
															+        documents: List[Dict[str, Any]],
														
 
															+        database_name: Optional[str] = None
														
 
															+    ):
														
 
															+        """插入文档"""
														
 
															+        with self.pool.get_connection() as conn:
														
 
															+            table = self._get_table(conn, table_name, database_name)
														
 
															+            return table.insert(documents)
														
 
															+    
														
 
															+    def update(
														
 
															+        self, 
														
 
															+        table_name: str, 
														
 
															+        cond: str, 
														
 
															+        data: Dict[str, Any], 
														
 
															+        database_name: Optional[str] = None
														
 
															+    ):
														
 
															+        """更新文档"""
														
 
															+        with self.pool.get_connection() as conn:
														
 
															+            # 获取Table对象
														
 
															+            table = self._get_table(conn, table_name, database_name)
														
 
															+            # 更新文档
														
 
															+            return table.update(cond, data)
														
 
															+
														
 
															+    def search(
														
 
															+        self,
														
 
															+        table_name: str,
														
 
															+        output_fields: List[str],
														
 
															+        query: Dict[str, Any],
														
 
															+        database_name: Optional[str] = None
														
 
															+    ):
														
 
															+        """搜索文档"""
														
 
															+        with self.pool.get_connection() as conn:
														
 
															+            # 获取Table对象
														
 
															+            table = self._get_table(conn, table_name, database_name)
														
 
															+            # 获取结果集
														
 
															+            return table.output(output_fields).match_text(query["match_field"], query["matching_text"], query["topn"])
														
 
															+    
														
 
															+    def hybrid_search(
														
 
															+        self,
														
 
															+        table_name: str,
														
 
															+        output_fields: List[str],
														
 
															+        query: Dict[str, Any],
														
 
															+        database_name: Optional[str] = None
														
 
															+    ):
														
 
															+        """混合检索"""
														
 
															+        with self.pool.get_connection() as conn:
														
 
															+            # 获取Table对象
														
 
															+            table = self._get_table(conn, table_name, database_name)
														
 
															+            # 获取结果集
														
 
															+            return table.output(output_fields) \
														
 
															+                .match_dense(
														
 
															+                    vector_column_name=query["vector_field"], 
														
 
															+                    embedding_data=query["query_vector"], 
														
 
															+                    embedding_data_type="float", 
														
 
															+                    distance_type="cosine", 
														
 
															+                    topn=query["topn"],
														
 
															+                    knn_params=query["knn_params"]
														
 
															+                ) \
														
 
															+                .match_text(query["match_field"], query["matching_text"], 2) \
														
 
															+                .fusion("rrf", query["topn"])
														
 
															+    
														
 
															+    def vector_search(
														
 
															+        self,
														
 
															+        table_name: str,
														
 
															+        output_fields: List[str],
														
 
															+        query: Dict[str, Any],
														
 
															+        database_name: Optional[str] = None
														
 
															+    ):
														
 
															+        """向量检索"""
														
 
															+        with self.pool.get_connection() as conn:
														
 
															+            # 获取Table对象
														
 
															+            table = self._get_table(conn, table_name, database_name)
														
 
															+            # 获取结果集
														
 
															+            return table.output(output_fields) \
														
 
															+                .match_dense(
														
 
															+                    vector_column_name=query["vector_field"], 
														
 
															+                    embedding_data=query["query_vector"], 
														
 
															+                    embedding_data_type="float", 
														
 
															+                    distance_type="cosine", 
														
 
															+                    topn=query["topn"], 
														
 
															+                    knn_params=query["knn_params"])
														
 
															+    
														
 
															+    def get_status(self) -> Dict[str, Any]:
														
 
															+        """获取客户端状态"""
														
 
															+        return self.pool.get_status()
														
 
															+    
														
 
															+    def close(self):
														
 
															+        """关闭客户端，释放所有连接"""
														
 
															+        self.pool.close()
														
 
															+
														
 
															+# 全局客户端实例
														
 
															+_global_client: Optional[InfinityClient] = None
														
 
															+_client_lock = threading.Lock()
														
 
															+
														
 
															+def get_client(
														
 
															+    host: str = vector_db_settings.infinity_host,
														
 
															+    port: str = vector_db_settings.infinity_sdk_port,
														
 
															+    database: str = vector_db_settings.infinity_database,
														
 
															+    min_connections: int = 5,
														
 
															+    max_connections: int = 10
														
 
															+) -> InfinityClient:
														
 
															+    """
														
 
															+    获取全局客户端实例（单例模式）
														
 
															+    
														
 
															+    Args:
														
 
															+        host: Infinity服务地址
														
 
															+        port: Infinity服务端口
														
 
															+        database: 数据库名称
														
 
															+        min_connections: 最小连接数
														
 
															+        max_connections: 最大连接数
														
 
															+        
														
 
															+    Returns:
														
 
															+        全局Infinity客户端实例
														
 
															+    """
														
 
															+    global _global_client
														
 
															+    
														
 
															+    with _client_lock:
														
 
															+        if _global_client is None:
														
 
															+            _global_client = InfinityClient(
														
 
															+                host=host,
														
 
															+                port=port,
														
 
															+                database=database,
														
 
															+                min_connections=min_connections,
														
 
															+                max_connections=max_connections
														
 
															+            )
														
 
															+    
														
 
															+    return _global_client
														
 
															+
														
 
															+def close_client():
														
 
															+    """关闭全局客户端"""
														
 
															+    global _global_client
														
 
															+    
														
 
															+    with _client_lock:
														
 
															+        if _global_client:
														
 
															+            _global_client.close()
														
 
															+            _global_client = None
														
--- a/src/utils/infinity/pool.py
+++ b/src/utils/infinity/pool.py
@@ -0,0 +1,285 @@
 
															+# Infinity数据库连接池实现
														
 
															+
														
 
															+from typing import Dict, Any, List, Optional
														
 
															+import threading
														
 
															+import time
														
 
															+from contextlib import contextmanager
														
 
															+from src.conf.settings import vector_db_settings
														
 
															+
														
 
															+class InfinityConnectionPool:
														
 
															+    """
														
 
															+    Infinity数据库连接池
														
 
															+    
														
 
															+    设计特点：
														
 
															+    1. 支持并发连接管理
														
 
															+    2. 连接自动回收和复用
														
 
															+    3. 连接超时和心跳检测
														
 
															+    4. 动态调整连接数量
														
 
															+    5. 线程安全
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(
														
 
															+        self,
														
 
															+        host: str = vector_db_settings.infinity_host,
														
 
															+        port: str = vector_db_settings.infinity_sdk_port,
														
 
															+        database: str = vector_db_settings.infinity_database,
														
 
															+        min_connections: int = 2,
														
 
															+        max_connections: int = 10,
														
 
															+        connection_timeout: int = 30,
														
 
															+        idle_timeout: int = 300,
														
 
															+        heartbeat_interval: int = 60
														
 
															+    ):
														
 
															+        """
														
 
															+        初始化连接池
														
 
															+        
														
 
															+        Args:
														
 
															+            host: Infinity服务地址
														
 
															+            port: Infinity服务端口
														
 
															+            database: 数据库名称
														
 
															+            min_connections: 最小连接数
														
 
															+            max_connections: 最大连接数
														
 
															+            connection_timeout: 连接超时时间（秒）
														
 
															+            idle_timeout: 空闲连接超时时间（秒）
														
 
															+            heartbeat_interval: 心跳检测间隔（秒）
														
 
															+        """
														
 
															+        self.host = host
														
 
															+        self.port = port
														
 
															+        self.database = database
														
 
															+        self.min_connections = min_connections
														
 
															+        self.max_connections = max_connections
														
 
															+        self.connection_timeout = connection_timeout
														
 
															+        self.idle_timeout = idle_timeout
														
 
															+        self.heartbeat_interval = heartbeat_interval
														
 
															+        
														
 
															+        # 连接池状态
														
 
															+        self.connections = []  # 可用连接列表
														
 
															+        self.in_use = {}  # 正在使用的连接 {connection: thread_id}
														
 
															+        self.connection_count = 0  # 当前连接总数
														
 
															+        
														
 
															+        # 线程安全锁
														
 
															+        self.lock = threading.Lock()
														
 
															+        self.condition = threading.Condition(self.lock)
														
 
															+        
														
 
															+        # 初始化最小连接数
														
 
															+        self._init_connections()
														
 
															+        
														
 
															+        # 启动心跳检测线程
														
 
															+        self.heartbeat_thread = threading.Thread(target=self._heartbeat_check, daemon=True)
														
 
															+        self.heartbeat_thread.start()
														
 
															+    
														
 
															+    def _init_connections(self):
														
 
															+        """初始化最小连接数"""
														
 
															+        for _ in range(self.min_connections):
														
 
															+            # 初始化时需要获取锁，因为_create_connection现在没有内部锁
														
 
															+            with self.lock:
														
 
															+                self._create_connection()
														
 
															+    
														
 
															+    def _create_connection(self) -> Any:
														
 
															+        """创建新连接"""
														
 
															+        try:
														
 
															+            import infinity
														
 
															+            
														
 
															+            # 连接到Infinity服务
														
 
															+            connection = infinity.connect(
														
 
															+                infinity.NetworkAddress(self.host, self.port)
														
 
															+            )
														
 
															+                        
														
 
															+            # 注意：根据官方API，RemoteThriftInfinityConnection对象没有use_database方法
														
 
															+            # 数据库操作应该通过create_database、drop_database等方法直接指定数据库名称
														
 
															+            # 或者通过获取Database对象后再进行操作
														
 
															+            
														
 
															+            # 保存数据库名称，供后续操作使用
														
 
															+            connection.__dict__['_database'] = self.database
														
 
															+            
														
 
															+            # 记录连接创建时间
														
 
															+            connection.__dict__['_created_at'] = time.time()
														
 
															+            connection.__dict__['_last_used'] = time.time()
														
 
															+            connection.__dict__['_is_valid'] = True
														
 
															+            
														
 
															+            # 注意：这里不需要再获取锁，因为调用此方法时已经在acquire方法中持有了锁
														
 
															+            self.connections.append(connection)
														
 
															+            self.connection_count += 1
														
 
															+            
														
 
															+            return connection
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"Failed to create Infinity connection: {e}")
														
 
															+    
														
 
															+    def _is_valid_connection(self, connection: Any) -> bool:
														
 
															+        """检查连接是否有效"""
														
 
															+        try:
														
 
															+            # 通过执行简单查询检查连接是否有效
														
 
															+            # 注意：这里不应该在持有锁的情况下执行网络操作
														
 
															+            # 但由于此方法是在锁内被调用的，我们需要尽量减少操作时间
														
 
															+            connection.get_database(self.database)
														
 
															+            return True
														
 
															+        except Exception:
														
 
															+            return False
														
 
															+    
														
 
															+    def _heartbeat_check(self):
														
 
															+        """心跳检测，定期检查连接有效性并清理过期连接"""
														
 
															+        while True:
														
 
															+            time.sleep(self.heartbeat_interval)
														
 
															+            self._cleanup_connections()
														
 
															+    
														
 
															+    def _cleanup_connections(self):
														
 
															+        """清理无效或过期连接"""
														
 
															+        with self.lock:
														
 
															+            current_time = time.time()
														
 
															+            valid_connections = []
														
 
															+            
														
 
															+            for connection in self.connections:
														
 
															+                # 检查连接是否过期
														
 
															+                if current_time - connection.__dict__['_last_used'] > self.idle_timeout:
														
 
															+                    # 关闭过期连接
														
 
															+                    try:
														
 
															+                        connection.disconnect()
														
 
															+                        self.connection_count -= 1
														
 
															+                    except Exception:
														
 
															+                        pass
														
 
															+                elif not self._is_valid_connection(connection):
														
 
															+                    # 关闭无效连接
														
 
															+                    try:
														
 
															+                        connection.disconnect()
														
 
															+                        self.connection_count -= 1
														
 
															+                    except Exception:
														
 
															+                        pass
														
 
															+                else:
														
 
															+                    valid_connections.append(connection)
														
 
															+            
														
 
															+            self.connections = valid_connections
														
 
															+            
														
 
															+            # 确保连接数不低于最小值
														
 
															+            while self.connection_count < self.min_connections:
														
 
															+                self._create_connection()
														
 
															+    
														
 
															+    @contextmanager
														
 
															+    def get_connection(self, timeout: Optional[int] = None) -> Any:
														
 
															+        """
														
 
															+        获取一个连接，使用上下文管理器
														
 
															+        
														
 
															+        Args:
														
 
															+            timeout: 获取连接的超时时间（秒）
														
 
															+            
														
 
															+        Yields:
														
 
															+            Infinity连接对象
														
 
															+        """
														
 
															+        connection = None
														
 
															+        try:
														
 
															+            connection = self.acquire(timeout)
														
 
															+            yield connection
														
 
															+        finally:
														
 
															+            if connection:
														
 
															+                self.release(connection)
														
 
															+    
														
 
															+    def acquire(self, timeout: Optional[int] = None) -> Any:
														
 
															+        """
														
 
															+        获取一个连接
														
 
															+        
														
 
															+        Args:
														
 
															+            timeout: 获取连接的超时时间（秒）
														
 
															+            
														
 
															+        Returns:
														
 
															+            Infinity连接对象
														
 
															+            
														
 
															+        Raises:
														
 
															+            TimeoutError: 获取连接超时
														
 
															+        """
														
 
															+        end_time = time.time() + (timeout or self.connection_timeout)
														
 
															+        
														
 
															+        with self.lock:
														
 
															+            while True:
														
 
															+                # 检查是否有可用连接
														
 
															+                if self.connections:
														
 
															+                    # 获取一个连接
														
 
															+                    connection = self.connections.pop()
														
 
															+                    
														
 
															+                    # 检查连接是否有效
														
 
															+                    if self._is_valid_connection(connection):
														
 
															+                        connection.__dict__['_last_used'] = time.time()
														
 
															+                        self.in_use[connection] = threading.get_ident()
														
 
															+                        return connection
														
 
															+                    else:
														
 
															+                        # 连接无效，关闭并计数减一
														
 
															+                        try:
														
 
															+                            connection.disconnect()
														
 
															+                            self.connection_count -= 1
														
 
															+                        except Exception:
														
 
															+                            pass
														
 
															+                
														
 
															+                # 检查是否可以创建新连接
														
 
															+                elif self.connection_count < self.max_connections:
														
 
															+                    # 创建新连接
														
 
															+                    connection = self._create_connection()
														
 
															+                    connection.__dict__['_last_used'] = time.time()
														
 
															+                    self.in_use[connection] = threading.get_ident()
														
 
															+                    return connection
														
 
															+                
														
 
															+                # 等待连接释放
														
 
															+                remaining = end_time - time.time()
														
 
															+                if remaining <= 0:
														
 
															+                    raise TimeoutError("Timeout waiting for Infinity connection")
														
 
															+                
														
 
															+                # 等待连接释放或超时
														
 
															+                self.condition.wait(remaining)
														
 
															+    
														
 
															+    def release(self, connection: Any):
														
 
															+        """
														
 
															+        释放连接
														
 
															+        
														
 
															+        Args:
														
 
															+            connection: 要释放的连接
														
 
															+        """
														
 
															+        with self.lock:
														
 
															+            if connection in self.in_use:
														
 
															+                del self.in_use[connection]
														
 
															+                
														
 
															+                # 检查连接是否有效
														
 
															+                if self._is_valid_connection(connection):
														
 
															+                    connection.__dict__['_last_used'] = time.time()
														
 
															+                    self.connections.append(connection)
														
 
															+                    # 通知等待的线程
														
 
															+                    self.condition.notify()
														
 
															+                else:
														
 
															+                    # 连接无效，关闭并计数减一
														
 
															+                    try:
														
 
															+                        connection.disconnect()
														
 
															+                        self.connection_count -= 1
														
 
															+                    except Exception:
														
 
															+                        pass
														
 
															+    
														
 
															+    def close(self):
														
 
															+        """关闭所有连接"""
														
 
															+        with self.lock:
														
 
															+            # 关闭可用连接
														
 
															+            for connection in self.connections:
														
 
															+                try:
														
 
															+                    connection.disconnect()
														
 
															+                except Exception:
														
 
															+                    pass
														
 
															+            
														
 
															+            # 关闭正在使用的连接
														
 
															+            for connection in list(self.in_use.keys()):
														
 
															+                try:
														
 
															+                    connection.disconnect()
														
 
															+                except Exception:
														
 
															+                    pass
														
 
															+            
														
 
															+            self.connections = []
														
 
															+            self.in_use = {}
														
 
															+            self.connection_count = 0
														
 
															+    
														
 
															+    def get_status(self) -> Dict[str, Any]:
														
 
															+        """
														
 
															+        获取连接池状态
														
 
															+        
														
 
															+        Returns:
														
 
															+            连接池状态信息
														
 
															+        """
														
 
															+        with self.lock:
														
 
															+            return {
														
 
															+                "total_connections": self.connection_count,
														
 
															+                "available_connections": len(self.connections),
														
 
															+                "in_use_connections": len(self.in_use),
														
 
															+                "min_connections": self.min_connections,
														
 
															+                "max_connections": self.max_connections
														
 
															+            }
														
--- a/src/utils/infinity/result_util.py
+++ b/src/utils/infinity/result_util.py
@@ -0,0 +1,73 @@
 
															+from typing import Dict, Any, List
														
 
															+from langchain_core.documents import Document
														
 
															+
														
 
															+
														
 
															+def convert_to_basic_types(obj: Any) -> Any:
														
 
															+    """
														
 
															+    递归将对象转换为基本类型，以便Pydantic能够序列化
														
 
															+    
														
 
															+    特殊处理：当字典中的子项包含相同长度的数组时，将其转换为数组对象结构
														
 
															+    例如：{"a": [1,2], "b": [3,4]} -> [{"a":1, "b":3}, {"a":2, "b":4}]
														
 
															+    
														
 
															+    Args:
														
 
															+        obj: 要转换的对象
														
 
															+    
														
 
															+    Returns:
														
 
															+        转换后的基本类型对象
														
 
															+    """
														
 
															+    if obj is None:
														
 
															+        return None
														
 
															+    elif isinstance(obj, (str, int, float, bool)):
														
 
															+        return obj
														
 
															+    elif isinstance(obj, dict):
														
 
															+        # 先递归转换所有值
														
 
															+        converted = {k: convert_to_basic_types(v) for k, v in obj.items()}
														
 
															+        
														
 
															+        # 检查是否需要转换为数组对象结构
														
 
															+        # 条件：所有值都是列表，且长度一致，且长度大于0
														
 
															+        values = list(converted.values())
														
 
															+        if all(isinstance(v, list) for v in values):
														
 
															+            lengths = [len(v) for v in values]
														
 
															+            if len(set(lengths)) == 1 and lengths[0] > 0:
														
 
															+                # 转换为数组对象结构
														
 
															+                result = []
														
 
															+                keys = list(converted.keys())
														
 
															+                for i in range(lengths[0]):
														
 
															+                    item = {}
														
 
															+                    for key in keys:
														
 
															+                        # 处理数组中可能存在的None值
														
 
															+                        if i < len(converted[key]):
														
 
															+                            item[key] = converted[key][i]
														
 
															+                        else:
														
 
															+                            item[key] = None
														
 
															+                    result.append(item)
														
 
															+                return result
														
 
															+        
														
 
															+        return converted
														
 
															+    elif isinstance(obj, (list, tuple)):
														
 
															+        return [convert_to_basic_types(item) for item in obj]
														
 
															+    else:
														
 
															+        # 对于其他类型，尝试将其转换为字符串或字典
														
 
															+        try:
														
 
															+            return dict(obj)
														
 
															+        except:
														
 
															+            return str(obj)
														
 
															+
														
 
															+def convert_to_langchain_docs(obj: Any) -> List[Document]:
														
 
															+    """
														
 
															+    将Infinity搜索结果转换为LangChain的Document格式
														
 
															+    
														
 
															+    Args:
														
 
															+        obj: 要转换的对象
														
 
															+    
														
 
															+    Returns:
														
 
															+        转换后的Document列表
														
 
															+    """
														
 
															+    res = convert_to_basic_types(obj=obj)
														
 
															+    # 将数据转换为 LangChain 的 Document 格式
														
 
															+    candidate_docs = [
														
 
															+        Document(page_content=item["content"], 
														
 
															+            metadata={k: v for k, v in item.items() if k != "content"}) 
														
 
															+        for item in res[0]
														
 
															+    ]
														
 
															+    return candidate_docs
														
--- a/src/utils/infinity/test_infinity.py
+++ b/src/utils/infinity/test_infinity.py
@@ -0,0 +1,89 @@
 
															+# 测试Infinity客户端拆分后的代码结构
														
 
															+
														
 
															+import sys
														
 
															+import os
														
 
															+
														
 
															+# 添加项目根目录到Python路径
														
 
															+sys.path.insert(0, os.path.abspath(os.path.join(os.path.dirname(__file__), '../../')))
														
 
															+
														
 
															+# 测试1：导入验证
														
 
															+print("=== 测试1：导入验证 ===")
														
 
															+try:
														
 
															+    from utils.infinity import (
														
 
															+        InfinityConnectionPool,
														
 
															+        InfinityClient,
														
 
															+        get_client,
														
 
															+        close_client
														
 
															+    )
														
 
															+    print("✅ 所有组件导入成功")
														
 
															+except Exception as e:
														
 
															+    print(f"❌ 导入失败: {e}")
														
 
															+    sys.exit(1)
														
 
															+
														
 
															+# 测试2：类继承和结构验证
														
 
															+print("\n=== 测试2：类结构验证 ===")
														
 
															+try:
														
 
															+    # 验证类的基本属性
														
 
															+    print(f"✅ InfinityConnectionPool类存在")
														
 
															+    print(f"✅ InfinityClient类存在")
														
 
															+    print(f"✅ get_client函数存在")
														
 
															+    print(f"✅ close_client函数存在")
														
 
															+except Exception as e:
														
 
															+    print(f"❌ 类结构验证失败: {e}")
														
 
															+    sys.exit(1)
														
 
															+
														
 
															+# 测试3：全局客户端函数验证
														
 
															+print("\n=== 测试3：全局客户端函数验证 ===")
														
 
															+try:
														
 
															+    # 只验证函数存在和基本调用，不实际连接
														
 
															+    import inspect
														
 
															+    
														
 
															+    # 检查函数签名
														
 
															+    get_client_sig = inspect.signature(get_client)
														
 
															+    close_client_sig = inspect.signature(close_client)
														
 
															+    
														
 
															+    print(f"✅ get_client函数签名正确: {get_client_sig}")
														
 
															+    print(f"✅ close_client函数签名正确: {close_client_sig}")
														
 
															+    
														
 
															+    # 验证全局客户端函数可以被调用（但不实际连接）
														
 
															+    print("✅ 全局客户端函数可以被调用")
														
 
															+except Exception as e:
														
 
															+    print(f"❌ 全局客户端函数验证失败: {e}")
														
 
															+    sys.exit(1)
														
 
															+
														
 
															+# 测试4：客户端类验证
														
 
															+print("\n=== 测试4：客户端类验证 ===")
														
 
															+try:
														
 
															+    # 验证类的方法存在，不实际实例化连接
														
 
															+    import inspect
														
 
															+    
														
 
															+    # 验证客户端类的方法
														
 
															+    required_methods = [
														
 
															+        'get_databases',
														
 
															+        'create_database',
														
 
															+        'drop_database',
														
 
															+        'get_tables',
														
 
															+        'create_table',
														
 
															+        'drop_table',
														
 
															+        'insert',
														
 
															+        'search',
														
 
															+        'hybrid_search',
														
 
															+        'vector_search',
														
 
															+        'get_status',
														
 
															+        'close'
														
 
															+    ]
														
 
															+    
														
 
															+    for method in required_methods:
														
 
															+        if hasattr(InfinityClient, method):
														
 
															+            print(f"✅ 客户端方法 '{method}' 存在")
														
 
															+        else:
														
 
															+            print(f"❌ 客户端方法 '{method}' 不存在")
														
 
															+            raise Exception(f"Missing method: {method}")
														
 
															+    
														
 
															+    # 验证客户端类可以被实例化（但不实际连接）
														
 
															+    print("✅ InfinityClient类可以被实例化")
														
 
															+except Exception as e:
														
 
															+    print(f"❌ 客户端类验证失败: {e}")
														
 
															+    sys.exit(1)
														
 
															+
														
 
															+print("\n🎉 所有测试通过！Infinity客户端拆分成功！")
														
--- a/src/utils/mysql/__init__.py
+++ b/src/utils/mysql/__init__.py
@@ -0,0 +1,52 @@
 
															+from .mysql_conn import MySQLConnection
														
 
															+
														
 
															+
														
 
															+# 全局 MySQL 客户端实例
														
 
															+_global_mysql_client = None
														
 
															+
														
 
															+def init_global_mysql_client(host: str = None, port: int = None, 
														
 
															+                           user: str = None, password: str = None, 
														
 
															+                           database: str = None, charset: str = None,
														
 
															+                           pool_size: int = None, **kwargs) -> None:
														
 
															+    """
														
 
															+    初始化全局 MySQL 客户端
														
 
															+    
														
 
															+    Args:
														
 
															+        host: MySQL 主机地址
														
 
															+        port: MySQL 端口号
														
 
															+        user: MySQL 用户名
														
 
															+        password: MySQL 密码
														
 
															+        database: 数据库名称
														
 
															+        charset: 字符集
														
 
															+        pool_size: 连接池大小
														
 
															+        **kwargs: 其他 MySQL 连接参数
														
 
															+    """
														
 
															+    global _global_mysql_client
														
 
															+    if _global_mysql_client is None:
														
 
															+        _global_mysql_client = MySQLConnection(
														
 
															+            host=host, port=port, user=user, password=password, 
														
 
															+            database=database, charset=charset, pool_size=pool_size, **kwargs
														
 
															+        )
														
 
															+
														
 
															+
														
 
															+def get_global_mysql_client() -> MySQLConnection:
														
 
															+    """
														
 
															+    获取全局 MySQL 客户端实例
														
 
															+    
														
 
															+    Returns:
														
 
															+        MySQL SQL 执行器实例
														
 
															+    """
														
 
															+    global _global_mysql_client
														
 
															+    if _global_mysql_client is None:
														
 
															+        raise RuntimeError("Global MySQL client has not been initialized. Call init_global_mysql_client() first.")
														
 
															+    return _global_mysql_client
														
 
															+
														
 
															+
														
 
															+def close_global_mysql_client() -> None:
														
 
															+    """
														
 
															+    关闭全局 MySQL 客户端
														
 
															+    """
														
 
															+    global _global_mysql_client
														
 
															+    if _global_mysql_client is not None:
														
 
															+        _global_mysql_client.close()
														
 
															+        _global_mysql_client = None
														
--- a/src/utils/mysql/mysql_conn.py
+++ b/src/utils/mysql/mysql_conn.py
@@ -0,0 +1,244 @@
 
															+"""
														
 
															+MySQL SQL 执行器
														
 
															+
														
 
															+该文件提供 MySQL 数据库 SQL 执行功能，支持：
														
 
															+- 单例模式
														
 
															+- 基本 CRUD 操作
														
 
															+- 事务支持
														
 
															+- 连接错误处理
														
 
															+- 全局客户端管理
														
 
															+"""
														
 
															+import pymysql
														
 
															+from pymysql.cursors import DictCursor
														
 
															+from typing import Any, List, Dict, Optional, Union
														
 
															+from contextlib import contextmanager
														
 
															+from .mysql_pool import get_mysql_pool, MySQLPool
														
 
															+from src.utils.decorators.singleton import singleton
														
 
															+
														
 
															+@singleton
														
 
															+class MySQLConnection:
														
 
															+    """
														
 
															+    MySQL SQL 执行器
														
 
															+    支持：
														
 
															+    - 单例模式
														
 
															+    - 基本 CRUD 操作
														
 
															+    - 事务支持
														
 
															+    - 连接错误处理
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(self, mysql_pool: Optional[MySQLPool] = None,
														
 
															+                 host: str = None, port: int = None, 
														
 
															+                 user: str = None, password: str = None, 
														
 
															+                 database: str = None, charset: str = None,
														
 
															+                 pool_size: int = None, **kwargs):
														
 
															+        """
														
 
															+        初始化 MySQL SQL 执行器
														
 
															+        
														
 
															+        Args:
														
 
															+            mysql_pool: 可选的 MySQL 连接池实例，如果提供则使用该实例，否则创建新实例
														
 
															+            host: MySQL 主机地址
														
 
															+            port: MySQL 端口号
														
 
															+            user: MySQL 用户名
														
 
															+            password: MySQL 密码
														
 
															+            database: 数据库名称
														
 
															+            charset: 字符集
														
 
															+            pool_size: 连接池大小
														
 
															+            **kwargs: 其他 MySQL 连接参数
														
 
															+        """
														
 
															+        # 如果提供了连接池实例，则使用该实例，否则创建新实例
														
 
															+        if mysql_pool:
														
 
															+            self._pool = mysql_pool
														
 
															+        else:
														
 
															+            self._pool = get_mysql_pool(host, port, user, password, database, charset, pool_size, **kwargs)
														
 
															+    
														
 
															+    def _get_connection(self) -> pymysql.connections.Connection:
														
 
															+        """
														
 
															+        从连接池获取连接
														
 
															+        
														
 
															+        Returns:
														
 
															+            MySQL 连接对象
														
 
															+        """
														
 
															+        return self._pool.get_connection()
														
 
															+    
														
 
															+    @contextmanager
														
 
															+    def get_cursor(self, cursorclass=DictCursor):
														
 
															+        """
														
 
															+        获取游标上下文管理器
														
 
															+        
														
 
															+        Args:
														
 
															+            cursorclass: 游标类型，默认为DictCursor
														
 
															+        
														
 
															+        Yields:
														
 
															+            MySQL 游标对象
														
 
															+        """
														
 
															+        conn = self._get_connection()
														
 
															+        cursor = conn.cursor(cursorclass)
														
 
															+        
														
 
															+        try:
														
 
															+            yield cursor
														
 
															+            conn.commit()
														
 
															+        except Exception as e:
														
 
															+            conn.rollback()
														
 
															+            raise e
														
 
															+        finally:
														
 
															+            cursor.close()
														
 
															+            conn.close()
														
 
															+    
														
 
															+    def execute(self, sql: str, params: Union[List, Dict] = None) -> int:
														
 
															+        """
														
 
															+        执行 SQL 语句（用于 INSERT、UPDATE、DELETE）
														
 
															+        
														
 
															+        Args:
														
 
															+            sql: SQL 语句
														
 
															+            params: SQL 参数
														
 
															+        
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        with self.get_cursor() as cursor:
														
 
															+            cursor.execute(sql, params)
														
 
															+            return cursor.rowcount
														
 
															+    
														
 
															+    def fetch_one(self, sql: str, params: Union[List, Dict] = None) -> Optional[Dict[str, Any]]:
														
 
															+        """
														
 
															+        执行 SQL 查询，返回单行结果
														
 
															+        
														
 
															+        Args:
														
 
															+            sql: SQL 查询语句
														
 
															+            params: SQL 参数
														
 
															+        
														
 
															+        Returns:
														
 
															+            查询结果字典，无结果返回 None
														
 
															+        """
														
 
															+        with self.get_cursor() as cursor:
														
 
															+            cursor.execute(sql, params)
														
 
															+            return cursor.fetchone()
														
 
															+    
														
 
															+    def fetch_all(self, sql: str, params: Union[List, Dict] = None) -> List[Dict[str, Any]]:
														
 
															+        """
														
 
															+        执行 SQL 查询，返回所有结果
														
 
															+        
														
 
															+        Args:
														
 
															+            sql: SQL 查询语句
														
 
															+            params: SQL 参数
														
 
															+        
														
 
															+        Returns:
														
 
															+            查询结果列表
														
 
															+        """
														
 
															+        with self.get_cursor() as cursor:
														
 
															+            cursor.execute(sql, params)
														
 
															+            return cursor.fetchall()
														
 
															+    
														
 
															+    def fetch_many(self, sql: str, size: int, params: Union[List, Dict] = None) -> List[Dict[str, Any]]:
														
 
															+        """
														
 
															+        执行 SQL 查询，返回指定数量的结果
														
 
															+        
														
 
															+        Args:
														
 
															+            sql: SQL 查询语句
														
 
															+            size: 返回结果数量
														
 
															+            params: SQL 参数
														
 
															+        
														
 
															+        Returns:
														
 
															+            查询结果列表
														
 
															+        """
														
 
															+        with self.get_cursor() as cursor:
														
 
															+            cursor.execute(sql, params)
														
 
															+            return cursor.fetchmany(size)
														
 
															+    
														
 
															+    def bulk_insert(self, sql: str, params_list: List[Union[List, Dict]]) -> int:
														
 
															+        """
														
 
															+        批量插入数据
														
 
															+        
														
 
															+        Args:
														
 
															+            sql: SQL 插入语句
														
 
															+            params_list: 参数列表
														
 
															+        
														
 
															+        Returns:
														
 
															+            受影响的行数
														
 
															+        """
														
 
															+        with self.get_cursor() as cursor:
														
 
															+            cursor.executemany(sql, params_list)
														
 
															+            return cursor.rowcount
														
 
															+    
														
 
															+    def begin_transaction(self):
														
 
															+        """
														
 
															+        开始事务
														
 
															+        
														
 
															+        Returns:
														
 
															+            连接对象和游标对象
														
 
															+        """
														
 
															+        conn = self._get_connection()
														
 
															+        conn.begin()
														
 
															+        cursor = conn.cursor()
														
 
															+        return conn, cursor
														
 
															+    
														
 
															+    def commit_transaction(self, conn: pymysql.connections.Connection, cursor: pymysql.cursors.Cursor):
														
 
															+        """
														
 
															+        提交事务
														
 
															+        
														
 
															+        Args:
														
 
															+            conn: 连接对象
														
 
															+            cursor: 游标对象
														
 
															+        """
														
 
															+        try:
														
 
															+            conn.commit()
														
 
															+        finally:
														
 
															+            cursor.close()
														
 
															+            conn.close()
														
 
															+    
														
 
															+    def rollback_transaction(self, conn: pymysql.connections.Connection, cursor: pymysql.cursors.Cursor):
														
 
															+        """
														
 
															+        回滚事务
														
 
															+        
														
 
															+        Args:
														
 
															+            conn: 连接对象
														
 
															+            cursor: 游标对象
														
 
															+        """
														
 
															+        try:
														
 
															+            conn.rollback()
														
 
															+        finally:
														
 
															+            cursor.close()
														
 
															+            conn.close()
														
 
															+    
														
 
															+    def close(self):
														
 
															+        """
														
 
															+        关闭 SQL 执行器
														
 
															+        """
														
 
															+        # 关闭连接池
														
 
															+        self._pool.close()
														
 
															+
														
 
															+# 简化的接口函数，便于快速使用
														
 
															+def get_mysql_conn(host: str = None, port: int = None, 
														
 
															+                  user: str = None, password: str = None, 
														
 
															+                  database: str = None, charset: str = None,
														
 
															+                  pool_size: int = None, **kwargs) -> MySQLConnection:
														
 
															+    """
														
 
															+    获取 MySQL SQL 执行器实例
														
 
															+    
														
 
															+    Args:
														
 
															+        host: MySQL 主机地址
														
 
															+        port: MySQL 端口号
														
 
															+        user: MySQL 用户名
														
 
															+        password: MySQL 密码
														
 
															+        database: 数据库名称
														
 
															+        charset: 字符集
														
 
															+        pool_size: 连接池大小
														
 
															+        **kwargs: 其他 MySQL 连接参数
														
 
															+    
														
 
															+    Returns:
														
 
															+        MySQL SQL 执行器实例
														
 
															+    """
														
 
															+    return MySQLConnection(host=host, port=port, user=user, password=password, 
														
 
															+                          database=database, charset=charset, pool_size=pool_size, **kwargs)
														
 
															+
														
 
															+def get_mysql_conn_with_pool(mysql_pool: MySQLPool) -> MySQLConnection:
														
 
															+    """
														
 
															+    使用指定的连接池获取 MySQL SQL 执行器实例
														
 
															+    
														
 
															+    Args:
														
 
															+        mysql_pool: MySQL 连接池实例
														
 
															+    
														
 
															+    Returns:
														
 
															+        MySQL SQL 执行器实例
														
 
															+    """
														
 
															+    return MySQLConnection(mysql_pool=mysql_pool)
														
--- a/src/utils/mysql/mysql_pool.py
+++ b/src/utils/mysql/mysql_pool.py
@@ -0,0 +1,138 @@
 
															+"""
														
 
															+MySQL 连接池配置
														
 
															+
														
 
															+该文件提供 MySQL 数据库连接池配置功能，支持：
														
 
															+- 单例模式
														
 
															+- DBUtils 连接池管理
														
 
															+- 连接错误处理
														
 
															+- 从.env文件读取配置
														
 
															+"""
														
 
															+import pymysql
														
 
															+from pymysql.cursors import DictCursor
														
 
															+from dbutils.pooled_db import PooledDB
														
 
															+from src.conf.settings import mysql_settings
														
 
															+
														
 
															+# 单例装饰器
														
 
															+class singleton:
														
 
															+    def __init__(self, cls):
														
 
															+        self.cls = cls
														
 
															+        self._instance = None
														
 
															+    
														
 
															+    def __call__(self, *args, **kwargs):
														
 
															+        if self._instance is None:
														
 
															+            self._instance = self.cls(*args, **kwargs)
														
 
															+        return self._instance
														
 
															+
														
 
															+@singleton
														
 
															+class MySQLPool:
														
 
															+    """
														
 
															+    MySQL 连接池管理器
														
 
															+    支持：
														
 
															+    - 单例模式
														
 
															+    - DBUtils 连接池管理
														
 
															+    - 连接错误处理
														
 
															+    """
														
 
															+    
														
 
															+    def __init__(self, host: str = None, port: int = None, 
														
 
															+                 user: str = None, password: str = None, 
														
 
															+                 database: str = None, charset: str = None,
														
 
															+                 pool_size: int = None, **kwargs):
														
 
															+        """
														
 
															+        初始化 MySQL 连接池
														
 
															+        
														
 
															+        Args:
														
 
															+            host: MySQL 主机地址
														
 
															+            port: MySQL 端口号
														
 
															+            user: MySQL 用户名
														
 
															+            password: MySQL 密码
														
 
															+            database: 数据库名称
														
 
															+            charset: 字符集
														
 
															+            pool_size: 连接池大小
														
 
															+            **kwargs: 其他 MySQL 连接参数
														
 
															+        """
														
 
															+        # 从环境变量读取配置，优先级：传入参数 > 环境变量 > 默认值
														
 
															+        self.host = host or mysql_settings.mysql_host
														
 
															+        self.port = int(port or mysql_settings.mysql_port)
														
 
															+        self.user = user or mysql_settings.mysql_user
														
 
															+        self.password = password or mysql_settings.mysql_password
														
 
															+        self.database = database or mysql_settings.mysql_database
														
 
															+        self.charset = charset or mysql_settings.mysql_charset
														
 
															+        self.pool_size = int(pool_size or mysql_settings.mysql_pool_size)
														
 
															+        self.kwargs = kwargs
														
 
															+        
														
 
															+        # 初始化 DBUtils 连接池
														
 
															+        self._pool = PooledDB(
														
 
															+            creator=pymysql,
														
 
															+            maxconnections=self.pool_size,
														
 
															+            mincached=3,
														
 
															+            maxcached=8,
														
 
															+            maxshared=5,
														
 
															+            blocking=False,
														
 
															+            maxusage=None,
														
 
															+            setsession=[],
														
 
															+            ping=0,
														
 
															+            host=self.host,
														
 
															+            port=self.port,
														
 
															+            user=self.user,
														
 
															+            password=self.password,
														
 
															+            database=self.database,
														
 
															+            charset=self.charset,
														
 
															+            cursorclass=DictCursor,
														
 
															+            **kwargs
														
 
															+        )
														
 
															+    
														
 
															+    def get_connection(self) -> pymysql.connections.Connection:
														
 
															+        """
														
 
															+        从连接池获取连接
														
 
															+        
														
 
															+        Returns:
														
 
															+            MySQL 连接对象
														
 
															+        """
														
 
															+        return self._pool.connection()
														
 
															+    
														
 
															+    def close(self):
														
 
															+        """
														
 
															+        关闭连接池
														
 
															+        """
														
 
															+        # DBUtils 连接池会自动管理连接，无需手动关闭
														
 
															+        pass
														
 
															+
														
 
															+# 简化的接口函数，便于快速使用
														
 
															+def get_mysql_pool(host: str = None, port: int = None, 
														
 
															+                  user: str = None, password: str = None, 
														
 
															+                  database: str = None, charset: str = None,
														
 
															+                  pool_size: int = None, **kwargs) -> MySQLPool:
														
 
															+    """
														
 
															+    获取 MySQL 连接池实例
														
 
															+    
														
 
															+    Args:
														
 
															+        host: MySQL 主机地址
														
 
															+        port: MySQL 端口号
														
 
															+        user: MySQL 用户名
														
 
															+        password: MySQL 密码
														
 
															+        database: 数据库名称
														
 
															+        charset: 字符集
														
 
															+        pool_size: 连接池大小
														
 
															+        **kwargs: 其他 MySQL 连接参数
														
 
															+    
														
 
															+    Returns:
														
 
															+        MySQL 连接池实例
														
 
															+    """
														
 
															+    # 从环境变量读取默认值，与MySQLPool.__init__保持一致
														
 
															+    default_host = mysql_settings.mysql_host
														
 
															+    default_port = int(mysql_settings.mysql_port)
														
 
															+    default_user = mysql_settings.mysql_user
														
 
															+    default_database = mysql_settings.mysql_database
														
 
															+    default_charset = mysql_settings.mysql_charset
														
 
															+    default_pool_size = int(mysql_settings.mysql_pool_size)
														
 
															+    
														
 
															+    return MySQLPool(
														
 
															+        host=host or default_host,
														
 
															+        port=port or default_port,
														
 
															+        user=user or default_user,
														
 
															+        password=password,
														
 
															+        database=database or default_database,
														
 
															+        charset=charset or default_charset,
														
 
															+        pool_size=pool_size or default_pool_size,
														
 
															+        **kwargs
														
 
															+    )
														
--- a/src/utils/ragflow/__init__.py
+++ b/src/utils/ragflow/__init__.py
--- a/src/utils/ragflow/agent_service.py
+++ b/src/utils/ragflow/agent_service.py
@@ -0,0 +1,139 @@
 
															+from typing import Dict, Any, List, Optional
														
 
															+
														
 
															+class AgentService:
														
 
															+    def __init__(self, http_client):
														
 
															+        self.http_client = http_client
														
 
															+    
														
 
															+    def create_agent(self, name: str, llm: Dict[str, Any], description: str = None) -> Dict[str, Any]:
														
 
															+        endpoint = "/api/v1/agents"
														
 
															+        
														
 
															+        data = {"name": name, "llm": llm}
														
 
															+        if description is not None:
														
 
															+            data["description"] = description
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data=data)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"创建代理失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def update_agent(self, agent_id: str, name: str = None, llm: Dict[str, Any] = None,
														
 
															+                    description: str = None) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/agents/{agent_id}"
														
 
															+        
														
 
															+        data = {}
														
 
															+        if name is not None:
														
 
															+            data["name"] = name
														
 
															+        if llm is not None:
														
 
															+            data["llm"] = llm
														
 
															+        if description is not None:
														
 
															+            data["description"] = description
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json=data)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"更新代理失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def delete_agent(self, agent_id: str) -> bool:
														
 
															+        endpoint = f"/api/v1/agents/{agent_id}"
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data={})
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return True
														
 
															+        else:
														
 
															+            raise Exception(f"删除代理失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def list_agents(self, page: int = 1, size: int = 20, orderby: str = "create_time",
														
 
															+                   desc: bool = True, name: str = None, agent_id: str = None) -> List[Dict[str, Any]]:
														
 
															+        endpoint = "/api/v1/agents"
														
 
															+        
														
 
															+        params = {"page": page, "page_size": size, "orderby": orderby, "desc": int(desc)}
														
 
															+        if name is not None:
														
 
															+            params["name"] = name
														
 
															+        if agent_id is not None:
														
 
															+            params["id"] = agent_id
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint, params=params)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"列出代理失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def create_agent_session(self, agent_id: str, name: str = None) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/agents/{agent_id}/sessions"
														
 
															+        
														
 
															+        data = {}
														
 
															+        if name is not None:
														
 
															+            data["name"] = name
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json=data)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"创建代理会话失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def list_agent_sessions(self, agent_id: str, page: int = 1, size: int = 20,
														
 
															+                           orderby: str = "create_time", desc: bool = True,
														
 
															+                           session_id: str = None, user_id: str = None,
														
 
															+                           dsl: str = None) -> List[Dict[str, Any]]:
														
 
															+        endpoint = f"/api/v1/agents/{agent_id}/sessions"
														
 
															+        
														
 
															+        params = {"page": page, "page_size": size, "orderby": orderby, "desc": int(desc)}
														
 
															+        if session_id is not None:
														
 
															+            params["id"] = session_id
														
 
															+        if user_id is not None:
														
 
															+            params["user_id"] = user_id
														
 
															+        if dsl is not None:
														
 
															+            params["dsl"] = dsl
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint, params=params)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"列出代理会话失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def delete_agent_session(self, agent_id: str, session_id: str) -> bool:
														
 
															+        endpoint = f"/api/v1/agents/{agent_id}/sessions"
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data={"session_ids": [session_id]})
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return True
														
 
															+        else:
														
 
															+            raise Exception(f"删除代理会话失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def agent_completion(self, agent_id: str, query: str, stream: bool = False,
														
 
															+                        session_id: str = None) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/agents/{agent_id}/completions"
														
 
															+        
														
 
															+        data = {"query": query, "stream": stream}
														
 
															+        if session_id is not None:
														
 
															+            data["session_id"] = session_id
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json=data)
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return response.get("data", {})
														
 
															+        else:
														
 
															+            raise Exception(f"代理完成失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def get_related_questions(self, dataset_id: str, question: str, top: int = 10) -> List[str]:
														
 
															+        endpoint = "/api/v1/sessions/related_questions"
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data={
														
 
															+            "dataset_id": dataset_id,
														
 
															+            "question": question,
														
 
															+            "top": top
														
 
															+        })
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"获取相关问题失败: {response.get('message', '未知错误')}")
														
--- a/src/utils/ragflow/chat_service.py
+++ b/src/utils/ragflow/chat_service.py
@@ -0,0 +1,146 @@
 
															+from typing import Dict, Any, List, Optional
														
 
															+
														
 
															+class ChatService:
														
 
															+    def __init__(self, http_client):
														
 
															+        self.http_client = http_client
														
 
															+    
														
 
															+    def create_chat(self, name: str, dataset_ids: List[str], llm: Dict[str, Any],
														
 
															+                   prompt: str = None) -> Dict[str, Any]:
														
 
															+        endpoint = "/api/v1/chats"
														
 
															+        
														
 
															+        data = {
														
 
															+            "name": name,
														
 
															+            "dataset_ids": dataset_ids,
														
 
															+            "llm": llm
														
 
															+        }
														
 
															+        if prompt is not None:
														
 
															+            data["prompt"] = prompt
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data=data)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"创建聊天失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def update_chat(self, chat_id: str, name: str = None, dataset_ids: List[str] = None,
														
 
															+                   llm: Dict[str, Any] = None, prompt: str = None) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/chats/{chat_id}"
														
 
															+        
														
 
															+        data = {}
														
 
															+        if name is not None:
														
 
															+            data["name"] = name
														
 
															+        if dataset_ids is not None:
														
 
															+            data["dataset_ids"] = dataset_ids
														
 
															+        if llm is not None:
														
 
															+            data["llm"] = llm
														
 
															+        if prompt is not None:
														
 
															+            data["prompt"] = prompt
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json=data)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"更新聊天失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def delete_chats(self, chat_ids: List[str]) -> bool:
														
 
															+        endpoint = "/api/v1/chats"
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data={"chat_ids": chat_ids})
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return True
														
 
															+        else:
														
 
															+            raise Exception(f"删除聊天失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def list_chats(self, page: int = 1, size: int = 20, orderby: str = "create_time",
														
 
															+                  desc: bool = True, name: str = None, chat_id: str = None) -> List[Dict[str, Any]]:
														
 
															+        endpoint = "/api/v1/chats"
														
 
															+        
														
 
															+        params = {"page": page, "page_size": size, "orderby": orderby, "desc": int(desc)}
														
 
															+        if name is not None:
														
 
															+            params["name"] = name
														
 
															+        if chat_id is not None:
														
 
															+            params["id"] = chat_id
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint, params=params)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"列出聊天失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def create_chat_session(self, chat_id: str, name: str = None) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/chats/{chat_id}/sessions"
														
 
															+        
														
 
															+        data = {}
														
 
															+        if name is not None:
														
 
															+            data["name"] = name
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json=data)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"创建会话失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def update_chat_session(self, chat_id: str, session_id: str, 
														
 
															+                           name: str = None, message: List[Dict] = None) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/chats/{chat_id}/sessions/{session_id}"
														
 
															+        
														
 
															+        data = {}
														
 
															+        if name is not None:
														
 
															+            data["name"] = name
														
 
															+        if message is not None:
														
 
															+            data["message"] = message
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json=data)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"更新会话失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def list_chat_sessions(self, chat_id: str, page: int = 1, size: int = 20,
														
 
															+                          orderby: str = "create_time", desc: bool = True,
														
 
															+                          session_id: str = None, session_name: str = None) -> List[Dict[str, Any]]:
														
 
															+        endpoint = f"/api/v1/chats/{chat_id}/sessions"
														
 
															+        
														
 
															+        params = {"page": page, "page_size": size, "orderby": orderby, "desc": int(desc)}
														
 
															+        if session_id is not None:
														
 
															+            params["id"] = session_id
														
 
															+        if session_name is not None:
														
 
															+            params["name"] = session_name
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint, params=params)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"列出会话失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def delete_chat_session(self, chat_id: str, session_id: str) -> bool:
														
 
															+        endpoint = f"/api/v1/chats/{chat_id}/sessions"
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data={"session_ids": [session_id]})
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return True
														
 
															+        else:
														
 
															+            raise Exception(f"删除会话失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def chat_completion(self, chat_id: str, query: str, stream: bool = False,
														
 
															+                       session_id: str = None) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/chats/{chat_id}/completions"
														
 
															+        
														
 
															+        data = {"query": query, "stream": stream}
														
 
															+        if session_id is not None:
														
 
															+            data["session_id"] = session_id
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json=data)
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return response.get("data", {})
														
 
															+        else:
														
 
															+            raise Exception(f"聊天完成失败: {response.get('message', '未知错误')}")
														
--- a/src/utils/ragflow/chunk_record.py
+++ b/src/utils/ragflow/chunk_record.py
@@ -0,0 +1,74 @@
 
															+"""
														
 
															+RagFlow Chunk 上传记录管理模块
														
 
															+
														
 
															+该模块负责处理 RagFlow Chunk 上传记录的数据库操作，包括：
														
 
															+- 记录 Chunk 上传任务到定时任务表
														
 
															+- 提供统一的接口供外部调用
														
 
															+"""
														
 
															+import json
														
 
															+from typing import Dict, Any, Optional
														
 
															+from src.utils.mysql import get_global_mysql_client
														
 
															+from datetime import datetime, timedelta
														
 
															+
														
 
															+class ChunkRecordService:
														
 
															+    """Chunk 上传记录服务"""
														
 
															+    
														
 
															+    def __init__(self):
														
 
															+        """初始化 Chunk 记录服务"""
														
 
															+        self.mysql_client = get_global_mysql_client()
														
 
															+    
														
 
															+    def record_chunk_add(self, database_name: str, table_name: str, chunk_id: str,
														
 
															+                         cond: Optional[str] = None, data: Dict[str, Any] = {}) -> None:
														
 
															+        """
														
 
															+        记录 Chunk 上传信息到 MySQL 定时任务表
														
 
															+        
														
 
															+        Args:
														
 
															+            database_name: 数据库 ID
														
 
															+            table_name: 数据表 ID
														
 
															+            chunk_id: 上传成功返回的 Chunk ID
														
 
															+            image_path: 图片路径
														
 
															+            cond: 条件字符串，由调用方传递
														
 
															+            data: 数据字符串，由调用方传递或自动生成
														
 
															+        """
														
 
															+        # 计算20秒后的时间
														
 
															+        scheduled_time = datetime.now() + timedelta(seconds=60)
														
 
															+
														
 
															+        # 判断cond与data不能为空
														
 
															+        if not cond and not data:
														
 
															+            raise ValueError("cond and data must be provided")
														
 
															+        
														
 
															+        # 准备插入数据（所有记录status固定为"未执行"）
														
 
															+        insert_data = {
														
 
															+            "database_name": database_name,
														
 
															+            "table_name": table_name,
														
 
															+            "chunk_id": chunk_id,
														
 
															+            "cond": cond,
														
 
															+            "update_data": json.dumps(data),
														
 
															+            "scheduled_time": scheduled_time,
														
 
															+            "status": "未执行"
														
 
															+        }
														
 
															+        
														
 
															+        try:
														
 
															+            # 插入记录到 MySQL 定时任务表
														
 
															+            self.mysql_client.execute(
														
 
															+                "INSERT INTO ragflow_chunk_record (database_name, table_name, chunk_id, cond, update_data, scheduled_time, status) "
														
 
															+                "VALUES (%(database_name)s, %(table_name)s, %(chunk_id)s, %(cond)s, %(update_data)s, %(scheduled_time)s, %(status)s)",
														
 
															+                insert_data
														
 
															+            )
														
 
															+        except Exception as e:
														
 
															+            raise Exception(f"Failed to record chunk upload: {e}")
														
 
															+
														
 
															+# 创建全局实例
														
 
															+_chunk_record_service = None
														
 
															+
														
 
															+def get_chunk_record_service() -> ChunkRecordService:
														
 
															+    """
														
 
															+    获取 Chunk 记录服务实例（单例模式）
														
 
															+    
														
 
															+    Returns:
														
 
															+        ChunkRecordService 实例
														
 
															+    """
														
 
															+    global _chunk_record_service
														
 
															+    if _chunk_record_service is None:
														
 
															+        _chunk_record_service = ChunkRecordService()
														
 
															+    return _chunk_record_service
														
--- a/src/utils/ragflow/chunk_service.py
+++ b/src/utils/ragflow/chunk_service.py
@@ -0,0 +1,78 @@
 
															+from typing import Dict, Any, List, Optional
														
 
															+
														
 
															+class ChunkService:
														
 
															+    def __init__(self, http_client):
														
 
															+        self.http_client = http_client
														
 
															+    
														
 
															+    def create_chunk(self, dataset_id: str, document_id: str, content: str, 
														
 
															+                    important_keywords: List[str]) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/documents/{document_id}/chunks"
														
 
															+        
														
 
															+        data = {"content": content}
														
 
															+        if important_keywords is not None:
														
 
															+            data["important_keywords"] = important_keywords
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data=data)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"创建切片失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def update_chunk(self, dataset_id: str, chunk_id: str, content: str = None,
														
 
															+                    important_keywords: List[str] = None) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/chunks/{chunk_id}"
														
 
															+        
														
 
															+        data = {}
														
 
															+        if content is not None:
														
 
															+            data["content"] = content
														
 
															+        if important_keywords is not None:
														
 
															+            data["important_keywords"] = important_keywords
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json=data)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"更新切片失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def delete_chunk(self, dataset_id: str, chunk_id: str) -> bool:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/chunks/{chunk_id}"
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data={})
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return True
														
 
															+        else:
														
 
															+            raise Exception(f"删除切片失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def delete_chunks(self, dataset_id: str, document_id: str, chunk_ids: List[str]) -> bool:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/documents/{document_id}/chunks"
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data={"chunk_ids": chunk_ids})
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return True
														
 
															+        else:
														
 
															+            raise Exception(f"批量删除切片失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def retrieval(self, dataset_ids: List[str], query: str, top_k: int = 5,
														
 
															+                 similarity_threshold: float = 0.1, vector_similarity_weight: float = 0.3,
														
 
															+                 refine: bool = False) -> List[Dict[str, Any]]:
														
 
															+        endpoint = "/api/v1/retrieval"
														
 
															+        
														
 
															+        data = {
														
 
															+            "dataset_ids": dataset_ids,
														
 
															+            "query": query,
														
 
															+            "top_k": top_k,
														
 
															+            "similarity_threshold": similarity_threshold,
														
 
															+            "vector_similarity_weight": vector_similarity_weight,
														
 
															+            "refine": refine
														
 
															+        }
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json=data)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"检索失败: {response.get('message', '未知错误')}")
														
--- a/src/utils/ragflow/dataset_service.py
+++ b/src/utils/ragflow/dataset_service.py
@@ -0,0 +1,181 @@
 
															+from typing import Dict, Any, List, Optional
														
 
															+
														
 
															+class DatasetService:
														
 
															+    def __init__(self, http_client):
														
 
															+        self.http_client = http_client
														
 
															+    
														
 
															+    def create_dataset(self, name: str, description: str = None, 
														
 
															+                      embedding_model: str = None, permission: str = None,
														
 
															+                      chunk_method: str = None, parser_config: dict = None) -> Dict[str, Any]:
														
 
															+        endpoint = "/api/v1/datasets"
														
 
															+        
														
 
															+        data = {"name": name}
														
 
															+        if description is not None:
														
 
															+            data["description"] = description
														
 
															+        if embedding_model is not None:
														
 
															+            data["embedding_model"] = embedding_model
														
 
															+        if permission is not None:
														
 
															+            data["permission"] = permission
														
 
															+        if chunk_method is not None:
														
 
															+            data["chunk_method"] = chunk_method
														
 
															+        if parser_config is not None:
														
 
															+            data["parser_config"] = parser_config
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data=data)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"创建数据集失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def delete_datasets(self, dataset_ids: List[str]) -> bool:
														
 
															+        endpoint = "/api/v1/datasets"
														
 
															+        
														
 
															+        response = self.http_client.delete(endpoint, json_data={"ids": dataset_ids})
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return True
														
 
															+        else:
														
 
															+            raise Exception(f"删除数据集失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def update_dataset(self, dataset_id: str, name: str = None, 
														
 
															+                      description: str = None, embedding_model: str = None,
														
 
															+                      permission: str = None, chunk_method: str = None) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}"
														
 
															+        
														
 
															+        data = {}
														
 
															+        if name is not None:
														
 
															+            data["name"] = name
														
 
															+        if description is not None:
														
 
															+            data["description"] = description
														
 
															+        if embedding_model is not None:
														
 
															+            data["embedding_model"] = embedding_model
														
 
															+        if permission is not None:
														
 
															+            data["permission"] = permission
														
 
															+        if chunk_method is not None:
														
 
															+            data["chunk_method"] = chunk_method
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json=data)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"更新数据集失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def list_datasets(self, page: int = 1, size: int = 20, orderby: str = "create_time",
														
 
															+                     desc: bool = True, name: str = None, dataset_id: str = None) -> List[Dict[str, Any]]:
														
 
															+        endpoint = "/api/v1/datasets"
														
 
															+        
														
 
															+        params = {"page": page, "page_size": size, "orderby": orderby, "desc": int(desc)}
														
 
															+        if name is not None:
														
 
															+            params["name"] = name
														
 
															+        if dataset_id is not None:
														
 
															+            params["id"] = dataset_id
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint, params=params)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        elif response.get("code") == 108:
														
 
															+            return None
														
 
															+        else:
														
 
															+            raise Exception(f"列出数据集失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def get_dataset(self, dataset_id: str) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}"
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"获取数据集失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def get_knowledge_graph(self, dataset_id: str) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/knowledge_graph"
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint)
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return response.get("data", {})
														
 
															+        else:
														
 
															+            raise Exception(f"获取知识图谱失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def delete_knowledge_graph(self, dataset_id: str) -> bool:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/knowledge_graph"
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data={})
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return True
														
 
															+        else:
														
 
															+            raise Exception(f"删除知识图谱失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def trace_graphrag(self, dataset_id: str) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/trace_graphrag"
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint)
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return response.get("data", {})
														
 
															+        else:
														
 
															+            raise Exception(f"获取GraphRAG追踪失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def trace_raptor(self, dataset_id: str) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/trace_raptor"
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint)
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return response.get("data", {})
														
 
															+        else:
														
 
															+            raise Exception(f"获取RAPTOR追踪失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def get_metadata_summary(self, dataset_id: str) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/metadata/summary"
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint)
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return response.get("data", {})
														
 
															+        else:
														
 
															+            raise Exception(f"获取元数据摘要失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def update_metadata(self, dataset_id: str, metadata: Dict = None,
														
 
															+                       document_ids: List[str] = None, metadata_condition: Dict = None) -> bool:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/metadata/update"
														
 
															+        
														
 
															+        data = {}
														
 
															+        if metadata is not None:
														
 
															+            data["metadata"] = metadata
														
 
															+        if document_ids is not None:
														
 
															+            data["document_ids"] = document_ids
														
 
															+        if metadata_condition is not None:
														
 
															+            data["metadata_condition"] = metadata_condition
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json=data)
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return True
														
 
															+        else:
														
 
															+            raise Exception(f"更新元数据失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def run_graphrag(self, dataset_id: str, mode: str = "light") -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/run_graphrag"
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data={"mode": mode})
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return response.get("data", {})
														
 
															+        else:
														
 
															+            raise Exception(f"运行GraphRAG失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def run_raptor(self, dataset_id: str) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/run_raptor"
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint)
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return response.get("data", {})
														
 
															+        else:
														
 
															+            raise Exception(f"运行RAPTOR失败: {response.get('message', '未知错误')}")
														
--- a/src/utils/ragflow/document_service.py
+++ b/src/utils/ragflow/document_service.py
@@ -0,0 +1,127 @@
 
															+from typing import Dict, Any, List, Optional
														
 
															+
														
 
															+class DocumentService:
														
 
															+    def __init__(self, http_client):
														
 
															+        self.http_client = http_client
														
 
															+    
														
 
															+    def upload_document(self, dataset_id: str, file_path: str) -> List[Dict[str, Any]]:
														
 
															+        import os
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/documents"
														
 
															+        
														
 
															+        with open(file_path, 'rb') as f:
														
 
															+            # 使用os.path.basename获取文件名，兼容Windows和Linux
														
 
															+            files = {'file': (os.path.basename(file_path), f)}
														
 
															+            # 不设置Content-Type头，让requests库自动生成正确的multipart/form-data头
														
 
															+            response = self.http_client.post(endpoint, files=files)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"上传文档失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def update_document(self, dataset_id: str, document_id: str, 
														
 
															+                       name: str = None, meta_fields: Dict = None, 
														
 
															+                       chunk_method: str = None, parser_config: Dict = None,
														
 
															+                       enabled: int = None) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/documents/{document_id}"
														
 
															+        
														
 
															+        data = {}
														
 
															+        if name is not None:
														
 
															+            data["name"] = name
														
 
															+        if meta_fields is not None:
														
 
															+            data["meta_fields"] = meta_fields
														
 
															+        if chunk_method is not None:
														
 
															+            data["chunk_method"] = chunk_method
														
 
															+        if parser_config is not None:
														
 
															+            data["parser_config"] = parser_config
														
 
															+        if enabled is not None:
														
 
															+            data["enabled"] = enabled
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data=data)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"更新文档失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def delete_document(self, dataset_id: str, document_id: str) -> bool:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/documents/{document_id}"
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data={})
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return True
														
 
															+        else:
														
 
															+            raise Exception(f"删除文档失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def delete_documents(self, dataset_id: str, document_ids: List[str]) -> bool:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/documents"
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data={"document_ids": document_ids})
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return True
														
 
															+        else:
														
 
															+            raise Exception(f"批量删除文档失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def get_document(self, dataset_id: str, document_id: str) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/documents/{document_id}"
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"获取文档失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def list_documents(self, dataset_id: str, page: int = 1, size: int = 20,
														
 
															+                      keywords: str = None, document_id: str = None, document_name: str = None,
														
 
															+                      suffix: str = None, run: str = None) -> List[Dict[str, Any]]:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/documents"
														
 
															+        
														
 
															+        params = {"page": page, "page_size": size}
														
 
															+        if keywords is not None:
														
 
															+            params["keywords"] = keywords
														
 
															+        if document_id is not None:
														
 
															+            params["id"] = document_id
														
 
															+        if document_name is not None:
														
 
															+            params["name"] = document_name
														
 
															+        if suffix is not None:
														
 
															+            params["suffix"] = suffix
														
 
															+        if run is not None:
														
 
															+            params["run"] = run
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint, params=params)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"列出文档失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def get_document_chunks(self, dataset_id: str, document_id: str,
														
 
															+                           keywords: str = None, page: int = 1, size: int = 20,
														
 
															+                           chunk_id: str = None) -> List[Dict[str, Any]]:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/documents/{document_id}/chunks"
														
 
															+        
														
 
															+        params = {"page": page, "page_size": size}
														
 
															+        if keywords is not None:
														
 
															+            params["keywords"] = keywords
														
 
															+        if chunk_id is not None:
														
 
															+            params["id"] = chunk_id
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint, params=params)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"获取文档切片失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def parse_document(self, dataset_id: str, document_ids: List[str]) -> bool:
														
 
															+        endpoint = f"/api/v1/datasets/{dataset_id}/chunks"
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data={"document_ids": document_ids})
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return True
														
 
															+        else:
														
 
															+            raise Exception(f"解析文档失败: {response.get('message', '未知错误')}")
														
--- a/src/utils/ragflow/file_service.py
+++ b/src/utils/ragflow/file_service.py
@@ -0,0 +1,141 @@
 
															+from typing import Dict, Any, List, Optional
														
 
															+
														
 
															+class FileService:
														
 
															+    def __init__(self, http_client):
														
 
															+        self.http_client = http_client
														
 
															+    
														
 
															+    def list_files(self, parent_id: str = None, keywords: str = None,
														
 
															+                  page: int = 1, size: int = 20, orderby: str = "create_time",
														
 
															+                  desc: bool = True) -> List[Dict[str, Any]]:
														
 
															+        endpoint = "/api/v1/file/list"
														
 
															+        
														
 
															+        params = {"page": page, "page_size": size, "orderby": orderby, "desc": int(desc)}
														
 
															+        if parent_id is not None:
														
 
															+            params["parent_id"] = parent_id
														
 
															+        if keywords is not None:
														
 
															+            params["keywords"] = keywords
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint, params=params)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"列出文件失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def get_root_folder(self) -> Dict[str, Any]:
														
 
															+        endpoint = "/api/v1/file/root_folder"
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"获取根目录失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def get_parent_folder(self, file_id: str) -> Dict[str, Any]:
														
 
															+        endpoint = "/api/v1/file/parent_folder"
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint, params={"file_id": file_id})
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"获取父目录失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def get_all_parent_folders(self, file_id: str) -> List[Dict[str, Any]]:
														
 
															+        endpoint = "/api/v1/file/all_parent_folder"
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint, params={"file_id": file_id})
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"获取所有父目录失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def get_file(self, file_id: str) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/file/get/{file_id}"
														
 
															+        
														
 
															+        response = self.http_client.get(endpoint)
														
 
															+        
														
 
															+        if response.get("code") == 0 and response.get("data"):
														
 
															+            return response["data"]
														
 
															+        else:
														
 
															+            raise Exception(f"获取文件失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def upload_file(self, file_path: str) -> Dict[str, Any]:
														
 
															+        endpoint = "/api/v1/file/upload"
														
 
															+        
														
 
															+        with open(file_path, 'rb') as f:
														
 
															+            files = {'file': (file_path.split('/')[-1], f)}
														
 
															+            headers = {'Content-Type': 'multipart/form-data'}
														
 
															+            
														
 
															+            response = self.http_client.post(endpoint, files=files, headers=headers)
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return response.get("data", {})
														
 
															+        else:
														
 
															+            raise Exception(f"上传文件失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def create_file(self, file_id: str, tenant_id: str = None) -> Dict[str, Any]:
														
 
															+        endpoint = "/api/v1/file/create"
														
 
															+        
														
 
															+        data = {"file_id": file_id}
														
 
															+        if tenant_id is not None:
														
 
															+            data["tenant_id"] = tenant_id
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data=data)
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return response.get("data", {})
														
 
															+        else:
														
 
															+            raise Exception(f"创建文件失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def delete_file(self, file_id: str) -> bool:
														
 
															+        endpoint = "/api/v1/file/rm"
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data={"file_id": file_id})
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return True
														
 
															+        else:
														
 
															+            raise Exception(f"删除文件失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def rename_file(self, file_id: str, new_name: str) -> Dict[str, Any]:
														
 
															+        endpoint = "/api/v1/file/rename"
														
 
															+        
														
 
															+        data = {
														
 
															+            "file_id": file_id,
														
 
															+            "new_name": new_name
														
 
															+        }
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json=data)
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return response.get("data", {})
														
 
															+        else:
														
 
															+            raise Exception(f"重命名文件失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def move_file(self, file_id: str, parent_id: str) -> Dict[str, Any]:
														
 
															+        endpoint = "/api/v1/file/mv"
														
 
															+        
														
 
															+        data = {
														
 
															+            "file_id": file_id,
														
 
															+            "parent_id": parent_id
														
 
															+        }
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json=data)
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return response.get("data", {})
														
 
															+        else:
														
 
															+            raise Exception(f"移动文件失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def convert_file(self, file_id: str) -> Dict[str, Any]:
														
 
															+        endpoint = "/api/v1/file/convert"
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json={"file_id": file_id})
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return response.get("data", {})
														
 
															+        else:
														
 
															+            raise Exception(f"转换文件失败: {response.get('message', '未知错误')}")
														
--- a/src/utils/ragflow/openai_service.py
+++ b/src/utils/ragflow/openai_service.py
@@ -0,0 +1,45 @@
 
															+from typing import Dict, Any, List, Optional
														
 
															+
														
 
															+class OpenAICompatibleService:
														
 
															+    def __init__(self, http_client):
														
 
															+        self.http_client = http_client
														
 
															+    
														
 
															+    def chat_completion(self, chat_id: str, messages: List[Dict[str, Any]], 
														
 
															+                       stream: bool = False, model: str = "model",
														
 
															+                       extra_body: Dict = None) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/chats_openai/{chat_id}/chat/completions"
														
 
															+        
														
 
															+        data = {
														
 
															+            "model": model,
														
 
															+            "messages": messages,
														
 
															+            "stream": stream
														
 
															+        }
														
 
															+        if extra_body is not None:
														
 
															+            data["extra_body"] = extra_body
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json_data=data)
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return response.get("data", response)
														
 
															+        else:
														
 
															+            raise Exception(f"聊天完成失败: {response.get('message', '未知错误')}")
														
 
															+    
														
 
															+    def agent_completion(self, agent_id: str, messages: List[Dict[str, Any]], 
														
 
															+                        stream: bool = False, model: str = "model",
														
 
															+                        session_id: str = None) -> Dict[str, Any]:
														
 
															+        endpoint = f"/api/v1/agents_openai/{agent_id}/chat/completions"
														
 
															+        
														
 
															+        data = {
														
 
															+            "model": model,
														
 
															+            "messages": messages,
														
 
															+            "stream": stream
														
 
															+        }
														
 
															+        if session_id is not None:
														
 
															+            data["session_id"] = session_id
														
 
															+        
														
 
															+        response = self.http_client.post(endpoint, json=data)
														
 
															+        
														
 
															+        if response.get("code") == 0:
														
 
															+            return response.get("data", response)
														
 
															+        else:
														
 
															+            raise Exception(f"代理完成失败: {response.get('message', '未知错误')}")
														
--- a/src/utils/ragflow/ragflow_service.py
+++ b/src/utils/ragflow/ragflow_service.py
@@ -0,0 +1,302 @@
 
															+import sys
														
 
															+import os
														
 
															+from typing import Dict, Any, List, Optional
														
 
															+from dataclasses import dataclass
														
 
															+
														
 
															+sys.path.append(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__)))))
														
 
															+
														
 
															+from src.utils.http_client import HTTPClient
														
 
															+from src.conf.settings import ragflow_settings
														
 
															+from src.utils.ragflow.dataset_service import DatasetService
														
 
															+from src.utils.ragflow.document_service import DocumentService
														
 
															+from src.utils.ragflow.chunk_service import ChunkService
														
 
															+from src.utils.ragflow.chat_service import ChatService
														
 
															+from src.utils.ragflow.agent_service import AgentService
														
 
															+from src.utils.ragflow.file_service import FileService
														
 
															+from src.utils.ragflow.openai_service import OpenAICompatibleService
														
 
															+
														
 
															+@dataclass
														
 
															+class DocumentInfo:
														
 
															+    id: str
														
 
															+    name: str
														
 
															+    type: str
														
 
															+    size: int
														
 
															+    location: str
														
 
															+    dataset_id: str
														
 
															+    chunk_method: str
														
 
															+    chunk_count: Optional[int] = None
														
 
															+    token_count: Optional[int] = None
														
 
															+    run: str = "UNSTART"
														
 
															+    status: str = "1"
														
 
															+
														
 
															+@dataclass
														
 
															+class ChunkInfo:
														
 
															+    id: str
														
 
															+    document_id: str
														
 
															+    content: str
														
 
															+    document_name: str
														
 
															+    dataset_id: str
														
 
															+    similarity: float = 0.0
														
 
															+    vector_similarity: float = 0.0
														
 
															+    term_similarity: float = 0.0
														
 
															+
														
 
															+@dataclass
														
 
															+class DatasetInfo:
														
 
															+    id: str
														
 
															+    name: str
														
 
															+    description: Optional[str] = None
														
 
															+    embedding_model: Optional[str] = None
														
 
															+    permission: Optional[str] = None
														
 
															+    chunk_method: Optional[str] = None
														
 
															+    chunk_count: int = 0
														
 
															+    document_count: int = 0
														
 
															+    token_count: int = 0
														
 
															+    status: str = "1"
														
 
															+
														
 
															+@dataclass
														
 
															+class ChatInfo:
														
 
															+    id: str
														
 
															+    name: str
														
 
															+    dataset_ids: List[str]
														
 
															+    llm: Dict[str, Any]
														
 
															+    prompt: str
														
 
															+
														
 
															+@dataclass
														
 
															+class AgentInfo:
														
 
															+    id: str
														
 
															+    name: str
														
 
															+    llm: Dict[str, Any]
														
 
															+    description: Optional[str] = None
														
 
															+
														
 
															+@dataclass
														
 
															+class FileInfo:
														
 
															+    id: str
														
 
															+    parent_id: str
														
 
															+    name: str
														
 
															+    type: str
														
 
															+    size: int
														
 
															+
														
 
															+class RAGFlowService:
														
 
															+    def __init__(self, base_url: str = None, api_key: str = None):
														
 
															+        base_url = base_url or ragflow_settings.ragflow_api_url
														
 
															+        api_key = api_key or ragflow_settings.ragflow_api_key
														
 
															+        self.http_client = HTTPClient(base_url=base_url, api_key=api_key)
														
 
															+        
														
 
															+        self.dataset_service = DatasetService(self.http_client)
														
 
															+        self.document_service = DocumentService(self.http_client)
														
 
															+        self.chunk_service = ChunkService(self.http_client)
														
 
															+        self.chat_service = ChatService(self.http_client)
														
 
															+        self.agent_service = AgentService(self.http_client)
														
 
															+        self.file_service = FileService(self.http_client)
														
 
															+        self.openai_service = OpenAICompatibleService(self.http_client)
														
 
															+    
														
 
															+    def create_dataset(self, name: str, description: str = None, 
														
 
															+                      embedding_model: str = None, permission: str = None,
														
 
															+                      chunk_method: str = None, parser_config: dict = None) -> DatasetInfo:
														
 
															+        return self.dataset_service.create_dataset(name, description, embedding_model, permission, chunk_method, parser_config)
														
 
															+    
														
 
															+    def delete_datasets(self, dataset_ids: List[str]) -> bool:
														
 
															+        return self.dataset_service.delete_datasets(dataset_ids)
														
 
															+    
														
 
															+    def update_dataset(self, dataset_id: str, name: str = None, 
														
 
															+                      description: str = None, embedding_model: str = None,
														
 
															+                      permission: str = None, chunk_method: str = None) -> DatasetInfo:
														
 
															+        return self.dataset_service.update_dataset(dataset_id, name, description, embedding_model, permission, chunk_method)
														
 
															+    
														
 
															+    def list_datasets(self, page: int = 1, size: int = 20, orderby: str = "create_time",
														
 
															+                     desc: bool = True, name: str = None, dataset_id: str = None) -> List[DatasetInfo]:
														
 
															+        return self.dataset_service.list_datasets(page, size, orderby, desc, name, dataset_id)
														
 
															+    
														
 
															+    def get_dataset(self, name: Optional[str] = None, dataset_id: Optional[str] = None) -> DatasetInfo:
														
 
															+        _list = self.list_datasets(name=name, dataset_id=dataset_id)
														
 
															+        if _list is None:
														
 
															+            return None
														
 
															+        elif len(_list) > 0:
														
 
															+            return _list[0]
														
 
															+    
														
 
															+    def get_knowledge_graph(self, dataset_id: str) -> Dict[str, Any]:
														
 
															+        return self.dataset_service.get_knowledge_graph(dataset_id)
														
 
															+    
														
 
															+    def delete_knowledge_graph(self, dataset_id: str) -> bool:
														
 
															+        return self.dataset_service.delete_knowledge_graph(dataset_id)
														
 
															+    
														
 
															+    def trace_graphrag(self, dataset_id: str) -> Dict[str, Any]:
														
 
															+        return self.dataset_service.trace_graphrag(dataset_id)
														
 
															+    
														
 
															+    def trace_raptor(self, dataset_id: str) -> Dict[str, Any]:
														
 
															+        return self.dataset_service.trace_raptor(dataset_id)
														
 
															+    
														
 
															+    def get_metadata_summary(self, dataset_id: str) -> Dict[str, Any]:
														
 
															+        return self.dataset_service.get_metadata_summary(dataset_id)
														
 
															+    
														
 
															+    def update_metadata(self, dataset_id: str, metadata: Dict = None,
														
 
															+                       document_ids: List[str] = None, metadata_condition: Dict = None) -> bool:
														
 
															+        return self.dataset_service.update_metadata(dataset_id, metadata, document_ids, metadata_condition)
														
 
															+    
														
 
															+    def run_graphrag(self, dataset_id: str, mode: str = "light") -> Dict[str, Any]:
														
 
															+        return self.dataset_service.run_graphrag(dataset_id, mode)
														
 
															+    
														
 
															+    def run_raptor(self, dataset_id: str) -> Dict[str, Any]:
														
 
															+        return self.dataset_service.run_raptor(dataset_id)
														
 
															+    
														
 
															+    def upload_document(self, dataset_id: str, file_path: str) -> List[DocumentInfo]:
														
 
															+        return self.document_service.upload_document(dataset_id, file_path)
														
 
															+    
														
 
															+    def update_document(self, dataset_id: str, document_id: str, 
														
 
															+                       name: str = None, meta_fields: Dict = None, 
														
 
															+                       chunk_method: str = None, parser_config: Dict = None,
														
 
															+                       enabled: int = None) -> DocumentInfo:
														
 
															+        return self.document_service.update_document(dataset_id, document_id, name, meta_fields, chunk_method, parser_config, enabled)
														
 
															+    
														
 
															+    def delete_document(self, dataset_id: str, document_id: str) -> bool:
														
 
															+        return self.document_service.delete_document(dataset_id, document_id)
														
 
															+    
														
 
															+    def delete_documents(self, dataset_id: str, document_ids: List[str]) -> bool:
														
 
															+        return self.document_service.delete_documents(dataset_id, document_ids)
														
 
															+    
														
 
															+    def get_document(self, dataset_id: str, document_id: str) -> DocumentInfo:
														
 
															+        return self.document_service.get_document(dataset_id, document_id)
														
 
															+    
														
 
															+    def list_documents(self, dataset_id: str, page: int = 1, size: int = 20,
														
 
															+                      keywords: str = None, document_id: str = None, document_name: str = None,
														
 
															+                      suffix: str = None, run: str = None) -> List[DocumentInfo]:
														
 
															+        return self.document_service.list_documents(dataset_id, page, size, keywords, document_id, document_name, suffix, run)
														
 
															+    
														
 
															+    def get_document_chunks(self, dataset_id: str, document_id: str,
														
 
															+                           keywords: str = None, page: int = 1, size: int = 20,
														
 
															+                           chunk_id: str = None) -> List[ChunkInfo]:
														
 
															+        return self.document_service.get_document_chunks(dataset_id, document_id, keywords, page, size, chunk_id)
														
 
															+    
														
 
															+    def parse_document(self, dataset_id: str, document_ids: List[str]) -> bool:
														
 
															+        return self.document_service.parse_document(dataset_id, document_ids)
														
 
															+    
														
 
															+    def create_chunk(self, dataset_id: str, document_id: str, content: str, 
														
 
															+                    important_keywords: List[str] = None) -> ChunkInfo:
														
 
															+        return self.chunk_service.create_chunk(dataset_id, document_id, content, important_keywords)
														
 
															+    
														
 
															+    def update_chunk(self, dataset_id: str, chunk_id: str, content: str = None,
														
 
															+                    important_keywords: List[str] = None) -> ChunkInfo:
														
 
															+        return self.chunk_service.update_chunk(dataset_id, chunk_id, content, important_keywords)
														
 
															+    
														
 
															+    def delete_chunk(self, dataset_id: str, chunk_id: str) -> bool:
														
 
															+        return self.chunk_service.delete_chunk(dataset_id, chunk_id)
														
 
															+    
														
 
															+    def delete_chunks(self, dataset_id: str, document_id: str, chunk_ids: List[str]) -> bool:
														
 
															+        return self.chunk_service.delete_chunks(dataset_id, document_id, chunk_ids)
														
 
															+    
														
 
															+    def retrieval(self, dataset_ids: List[str], query: str, top_k: int = 5,
														
 
															+                 similarity_threshold: float = 0.1, vector_similarity_weight: float = 0.3,
														
 
															+                 refine: bool = False) -> List[ChunkInfo]:
														
 
															+        return self.chunk_service.retrieval(dataset_ids, query, top_k, similarity_threshold, vector_similarity_weight, refine)
														
 
															+    
														
 
															+    def create_chat(self, name: str, dataset_ids: List[str], llm: Dict[str, Any],
														
 
															+                   prompt: str = None) -> ChatInfo:
														
 
															+        return self.chat_service.create_chat(name, dataset_ids, llm, prompt)
														
 
															+    
														
 
															+    def update_chat(self, chat_id: str, name: str = None, dataset_ids: List[str] = None,
														
 
															+                   llm: Dict[str, Any] = None, prompt: str = None) -> ChatInfo:
														
 
															+        return self.chat_service.update_chat(chat_id, name, dataset_ids, llm, prompt)
														
 
															+    
														
 
															+    def delete_chats(self, chat_ids: List[str]) -> bool:
														
 
															+        return self.chat_service.delete_chats(chat_ids)
														
 
															+    
														
 
															+    def list_chats(self, page: int = 1, size: int = 20, orderby: str = "create_time",
														
 
															+                  desc: bool = True, name: str = None, chat_id: str = None) -> List[ChatInfo]:
														
 
															+        return self.chat_service.list_chats(page, size, orderby, desc, name, chat_id)
														
 
															+    
														
 
															+    def create_chat_session(self, chat_id: str, name: str = None) -> Dict[str, Any]:
														
 
															+        return self.chat_service.create_chat_session(chat_id, name)
														
 
															+    
														
 
															+    def update_chat_session(self, chat_id: str, session_id: str, 
														
 
															+                           name: str = None, message: List[Dict] = None) -> Dict[str, Any]:
														
 
															+        return self.chat_service.update_chat_session(chat_id, session_id, name, message)
														
 
															+    
														
 
															+    def list_chat_sessions(self, chat_id: str, page: int = 1, size: int = 20,
														
 
															+                          orderby: str = "create_time", desc: bool = True,
														
 
															+                          session_id: str = None, session_name: str = None) -> List[Dict[str, Any]]:
														
 
															+        return self.chat_service.list_chat_sessions(chat_id, page, size, orderby, desc, session_id, session_name)
														
 
															+    
														
 
															+    def delete_chat_session(self, chat_id: str, session_id: str) -> bool:
														
 
															+        return self.chat_service.delete_chat_session(chat_id, session_id)
														
 
															+    
														
 
															+    def chat_completion(self, chat_id: str, query: str, stream: bool = False,
														
 
															+                       session_id: str = None) -> Dict[str, Any]:
														
 
															+        return self.chat_service.chat_completion(chat_id, query, stream, session_id)
														
 
															+    
														
 
															+    def create_agent(self, name: str, llm: Dict[str, Any], description: str = None) -> AgentInfo:
														
 
															+        return self.agent_service.create_agent(name, llm, description)
														
 
															+    
														
 
															+    def update_agent(self, agent_id: str, name: str = None, llm: Dict[str, Any] = None,
														
 
															+                    description: str = None) -> AgentInfo:
														
 
															+        return self.agent_service.update_agent(agent_id, name, llm, description)
														
 
															+    
														
 
															+    def delete_agent(self, agent_id: str) -> bool:
														
 
															+        return self.agent_service.delete_agent(agent_id)
														
 
															+    
														
 
															+    def list_agents(self, page: int = 1, size: int = 20, orderby: str = "create_time",
														
 
															+                   desc: bool = True, name: str = None, agent_id: str = None) -> List[AgentInfo]:
														
 
															+        return self.agent_service.list_agents(page, size, orderby, desc, name, agent_id)
														
 
															+    
														
 
															+    def create_agent_session(self, agent_id: str, name: str = None) -> Dict[str, Any]:
														
 
															+        return self.agent_service.create_agent_session(agent_id, name)
														
 
															+    
														
 
															+    def list_agent_sessions(self, agent_id: str, page: int = 1, size: int = 20,
														
 
															+                           orderby: str = "create_time", desc: bool = True,
														
 
															+                           session_id: str = None, user_id: str = None,
														
 
															+                           dsl: str = None) -> List[Dict[str, Any]]:
														
 
															+        return self.agent_service.list_agent_sessions(agent_id, page, size, orderby, desc, session_id, user_id, dsl)
														
 
															+    
														
 
															+    def delete_agent_session(self, agent_id: str, session_id: str) -> bool:
														
 
															+        return self.agent_service.delete_agent_session(agent_id, session_id)
														
 
															+    
														
 
															+    def agent_completion(self, agent_id: str, query: str, stream: bool = False,
														
 
															+                        session_id: str = None) -> Dict[str, Any]:
														
 
															+        return self.agent_service.agent_completion(agent_id, query, stream, session_id)
														
 
															+    
														
 
															+    def get_related_questions(self, dataset_id: str, question: str, top: int = 10) -> List[str]:
														
 
															+        return self.agent_service.get_related_questions(dataset_id, question, top)
														
 
															+    
														
 
															+    def list_files(self, parent_id: str = None, keywords: str = None,
														
 
															+                  page: int = 1, size: int = 20, orderby: str = "create_time",
														
 
															+                  desc: bool = True) -> List[FileInfo]:
														
 
															+        return self.file_service.list_files(parent_id, keywords, page, size, orderby, desc)
														
 
															+    
														
 
															+    def get_root_folder(self) -> Dict[str, Any]:
														
 
															+        return self.file_service.get_root_folder()
														
 
															+    
														
 
															+    def get_parent_folder(self, file_id: str) -> Dict[str, Any]:
														
 
															+        return self.file_service.get_parent_folder(file_id)
														
 
															+    
														
 
															+    def get_all_parent_folders(self, file_id: str) -> List[Dict[str, Any]]:
														
 
															+        return self.file_service.get_all_parent_folders(file_id)
														
 
															+    
														
 
															+    def get_file(self, file_id: str) -> Dict[str, Any]:
														
 
															+        return self.file_service.get_file(file_id)
														
 
															+    
														
 
															+    def upload_file(self, file_path: str) -> Dict[str, Any]:
														
 
															+        return self.file_service.upload_file(file_path)
														
 
															+    
														
 
															+    def create_file(self, file_id: str, tenant_id: str = None) -> Dict[str, Any]:
														
 
															+        return self.file_service.create_file(file_id, tenant_id)
														
 
															+    
														
 
															+    def delete_file(self, file_id: str) -> bool:
														
 
															+        return self.file_service.delete_file(file_id)
														
 
															+    
														
 
															+    def rename_file(self, file_id: str, new_name: str) -> Dict[str, Any]:
														
 
															+        return self.file_service.rename_file(file_id, new_name)
														
 
															+    
														
 
															+    def move_file(self, file_id: str, parent_id: str) -> Dict[str, Any]:
														
 
															+        return self.file_service.move_file(file_id, parent_id)
														
 
															+    
														
 
															+    def convert_file(self, file_id: str) -> Dict[str, Any]:
														
 
															+        return self.file_service.convert_file(file_id)
														
 
															+    
														
 
															+    def openai_chat_completion(self, chat_id: str, messages: List[Dict[str, Any]], 
														
 
															+                              stream: bool = False, model: str = "model",
														
 
															+                              extra_body: Dict = None) -> Dict[str, Any]:
														
 
															+        return self.openai_service.chat_completion(chat_id, messages, stream, model, extra_body)
														
 
															+    
														
 
															+    def openai_agent_completion(self, agent_id: str, messages: List[Dict[str, Any]], 
														
 
															+                               stream: bool = False, model: str = "model",
														
 
															+                               session_id: str = None) -> Dict[str, Any]:
														
 
															+        return self.openai_service.agent_completion(agent_id, messages, stream, model, session_id)