3 mesiacov pred · 674e1c5e97
--- a/requirements.txt
+++ b/requirements.txt
--- a/src/api/sdk/dataset_manage.py
+++ b/src/api/sdk/dataset_manage.py
@@ -169,7 +169,7 @@ async def pdf_parse_v2(
 
				 async def qa_parse_v2(
			
 
				     file: UploadFile = File(..., description="PDF文件"),
			
 
				     dataset_id: str = Form(..., description="RAGFlow数据集ID"),
			
 
				-    qa_count_per_chunk: int = Form(default=50, description="每块生成的QA数量"),
			
 
				+    qa_count_per_chunk: int = Form(default=50, gt=0, ge=50, description="每块生成的QA数量"),
			
 
				     chunk_size: int = Form(default=1000, description="文本分块大小"),
			
 
				     chunk_overlap: int = Form(default=200, description="分块重叠大小")
			
 
				 ):
			
--- a/src/api/sdk/search_infinity.py
+++ b/src/api/sdk/search_infinity.py
@@ -16,7 +16,7 @@ logger = get_logger(__name__)
 
				 _search_service = None
			
 
				 
			
 
				 
			
 
				-def get_search_service():
			
 
				+def get_ragflow_search_service():
			
 
				     """获取搜索服务实例（单例模式）"""
			
 
				     global _search_service
			
 
				     if _search_service is None:
			
@@ -107,57 +107,26 @@ async def hybrid_search(request: SearchRequest):
 
				         return Result.error(code=500, message=f"混合搜索失败: {str(e)}")
			
 
				 
			
 
				 # 4. 问答对检索
			
 
				-@app.post("/question")
			
 
				+@app.post("/retrieve")
			
 
				 async def question_search(request: SearchRequest):
			
 
				     """
			
 
				-    问答对检索接口
			
 
				+    检索接口
			
 
				 
			
 
				     - **output_fields**: 要返回的字段列表
			
 
				     - **query**: 查询条件，包含vector_field、query_vector、field、query、topn和fusion_weight字段
			
 
				     - **database_name**: 数据库名称（可选，默认使用客户端配置的数据库）
			
 
				     """
			
 
				     try:
			
 
				-        logger.info(f"Received question search request: {request.matching_text[:100]}...")
			
 
				+        logger.info(f"Retrieve request: {request.matching_text[:100]}...")
			
 
				         
			
 
				         # 获取搜索服务实例
			
 
				-        search_service = get_search_service()
			
 
				+        search_service = get_ragflow_search_service()
			
 
				         
			
 
				         # 执行搜索
			
 
				         result = await run_in_threadpool(search_service.hybrid_search, request)
			
 
				         
			
 
				-        logger.info(f"Question search completed successfully, found {len(result) if result else 0} results")
			
 
				-        return Result.success(data=result, message="问答对检索成功")
			
 
				+        logger.info(f"Retrieve completed successfully, found {len(result) if result else 0} results")
			
 
				+        return Result.success(data=result, message="检索成功")
			
 
				     except Exception as e:
			
 
				-        logger.error(f"问答对检索失败: {str(e)}")
			
 
				-        return Result.error(code=500, message=f"问答对检索失败: {str(e)}")
			
 
				-
			
 
				-@app.post("/resource")
			
 
				-async def resource_search(request: SearchRequest):
			
 
				-    """
			
 
				-    资源检索接口
			
 
				-
			
 
				-    - **output_fields**: 要返回的字段列表
			
 
				-    - **query**: 查询条件，包含vector_field、query_vector、field、query、topn和fusion_weight字段
			
 
				-    - **database_name**: 数据库名称（可选，默认使用客户端配置的数据库）
			
 
				-    """
			
 
				-    try:
			
 
				-        logger.info(f"Received resource search request: {request.matching_text[:100]}...")
			
 
				-        
			
 
				-        # 获取搜索服务实例
			
 
				-        search_service = get_search_service()
			
 
				-        
			
 
				-        # 获取资源表名
			
 
				-        resource_table_name = await run_in_threadpool(_get_question_table_name)
			
 
				-        
			
 
				-        # 设置请求参数
			
 
				-        request.kb_id = "f59936fbfb1f11f095280242ac180002"
			
 
				-        request.database_ids = [resource_table_name]
			
 
				-        
			
 
				-        # 执行搜索
			
 
				-        result = await run_in_threadpool(search_service.hybrid_search, request)
			
 
				-        
			
 
				-        logger.info(f"Resource search completed successfully, found {len(result) if result else 0} results")
			
 
				-        return Result.success(data=result, message="资源检索成功")
			
 
				-    except Exception as e:
			
 
				-        logger.error(f"资源检索失败: {str(e)}")
			
 
				-        return Result.error(code=500, message=f"资源检索失败: {str(e)}")
			
 
				+        logger.error(f"检索失败: {str(e)}")
			
 
				+        return Result.error(code=500, message=f"检索失败: {str(e)}")
			
--- a/src/datasets/parser/nodes/__init__.py
+++ b/src/datasets/parser/nodes/__init__.py
@@ -14,7 +14,10 @@ from src.datasets.parser.nodes.ragflow_nodes import (
 
				     RAGFlowDocumentParseNode,
			
 
				     RAGFlowChunkNode,
			
 
				 )
			
 
				-from src.datasets.parser.nodes.qa_generate_node import QAGenerateNode
			
 
				+from src.datasets.parser.nodes.qa_generate_node import (
			
 
				+    QABaseGenerateNode,
			
 
				+    QAGenerateNode
			
 
				+)
			
 
				 from src.datasets.parser.nodes.complete_node import CompleteNode
			
 
				 from src.datasets.parser.nodes.pdf_ocr_node import PDFOCRNode
			
 
				 from src.datasets.parser.nodes.export_csv_node import ExportCSVNode
			
@@ -32,6 +35,7 @@ __all__ = [
 
				     "RAGFlowDocumentUploadNode",
			
 
				     "RAGFlowDocumentParseNode",
			
 
				     "RAGFlowChunkNode",
			
 
				+    "QABaseGenerateNode",
			
 
				     "QAGenerateNode",
			
 
				     "CompleteNode",
			
 
				     "PDFOCRNode",
			
--- a/src/datasets/parser/nodes/qa_generate_node.py
+++ b/src/datasets/parser/nodes/qa_generate_node.py
@@ -4,7 +4,6 @@ QA对生成节点
 
				 从文本块生成问答对。
			
 
				 """
			
 
				 
			
 
				-import json
			
 
				 import concurrent.futures
			
 
				 from typing import Dict, Any, List, Optional
			
 
				 from src.datasets.parser.core.base import BaseNode, BaseState
			
@@ -118,6 +117,140 @@ class QAGenerateNode(BaseNode):
 
				             return []
			
 
				     
			
 
				     
			
 
				+    def execute(self, state: BaseState) -> Dict[str, Any]:
			
 
				+        """
			
 
				+        执行QA对生成
			
 
				+        
			
 
				+        Args:
			
 
				+            state: 包含text_chunks的状态
			
 
				+            
			
 
				+        Returns:
			
 
				+            包含qa_pairs的更新字典
			
 
				+        """
			
 
				+        text_chunks = getattr(state, 'text_chunks', [])
			
 
				+        qa_count_per_chunk = getattr(state, 'qa_count_per_chunk', self.default_qa_count)
			
 
				+        qa_pairs = getattr(state, 'qa_pairs', [])
			
 
				+        qa_count = getattr(state, 'qa_count', 0)
			
 
				+
			
 
				+        if not text_chunks:
			
 
				+            logger.warning("没有待处理的文本块")
			
 
				+            return {"qa_pairs": qa_pairs, "qa_count": qa_count}
			
 
				+        
			
 
				+        logger.info(f"开始并行生成QA对，共 {len(text_chunks)} 块，每块 {qa_count_per_chunk} 个")
			
 
				+        
			
 
				+        all_qa_pairs = qa_pairs
			
 
				+        
			
 
				+        # 使用全局线程池
			
 
				+        pool = ThreadPoolManager.get_pool("parser")
			
 
				+        futures = [
			
 
				+            pool.submit(self._generate_qa_for_chunk, chunk, qa_count_per_chunk, i)
			
 
				+            for i, chunk in enumerate(text_chunks)
			
 
				+        ]
			
 
				+        
			
 
				+        for future in concurrent.futures.as_completed(futures):
			
 
				+            try:
			
 
				+                current_qa_pairs = future.result()
			
 
				+                all_qa_pairs.extend(current_qa_pairs)
			
 
				+            except Exception as e:
			
 
				+                logger.error(f"QA生成任务失败: {str(e)}")
			
 
				+        
			
 
				+        logger.info(f"QA对生成完成，共 {len(all_qa_pairs)} 个")
			
 
				+
			
 
				+        return {
			
 
				+            "qa_pairs": all_qa_pairs,
			
 
				+            "qa_count": len(all_qa_pairs)
			
 
				+        }
			
 
				+
			
 
				+
			
 
				+
			
 
				+@register_node()
			
 
				+class QABaseGenerateNode(BaseNode):
			
 
				+    """
			
 
				+    QA对基础生成节点
			
 
				+    
			
 
				+    从文本块并行生成问答对。
			
 
				+    
			
 
				+    需要的状态字段:
			
 
				+        - text_chunks: 文本块列表
			
 
				+        - qa_count_per_chunk: 每块生成的QA数量（可选）
			
 
				+        
			
 
				+    更新的状态字段:
			
 
				+        - qa_pairs: QA对列表
			
 
				+        - qa_count: 生成的QA总数
			
 
				+    """
			
 
				+    
			
 
				+    def __init__(
			
 
				+        self,
			
 
				+        model_name: Optional[str] = None,
			
 
				+        default_qa_count: int = 50,
			
 
				+        max_workers: int = 5
			
 
				+    ):
			
 
				+        """
			
 
				+        初始化QA生成节点
			
 
				+        
			
 
				+        Args:
			
 
				+            model_name: 模型名称
			
 
				+            default_qa_count: 每块默认生成的QA数量
			
 
				+            max_workers: 并行处理的最大工作线程数
			
 
				+        """
			
 
				+        self.model_name = model_name or model_settings.chat_model_name
			
 
				+        self.default_qa_count = default_qa_count
			
 
				+        self.max_workers = max_workers
			
 
				+    
			
 
				+    @property
			
 
				+    def name(self) -> str:
			
 
				+        return "qa_base_generate"
			
 
				+    
			
 
				+    def _generate_base_qa_for_chunk(self, chunk: str, count: int, chunk_index: int) -> List[Dict[str, str]]:
			
 
				+        """
			
 
				+        为单个分块生成QA对
			
 
				+        
			
 
				+        Args:
			
 
				+            chunk: 文本块内容
			
 
				+            count: 生成的QA数量
			
 
				+            chunk_index: 块索引
			
 
				+            
			
 
				+        Returns:
			
 
				+            QA对列表
			
 
				+        """
			
 
				+        system_prompt = """你是一个专业的问答对生成专家。你的任务是根据给定的文本内容，生成高质量的问答对。
			
 
				+
			
 
				+            要求：
			
 
				+            1. 问题应该覆盖内容的不同方面和细节
			
 
				+            2. 答案应该准确、简洁，直接来自文本
			
 
				+            3. 问答对应该有助于知识检索和理解
			
 
				+            4. 避免生成过于简单或重复的问题
			
 
				+            5. 确保问题是自包含的，不需要额外上下文即可理解"""
			
 
				+
			
 
				+        user_prompt = f"""请根据以下内容，生成 {count} 个高质量的问答对。
			
 
				+
			
 
				+            内容：
			
 
				+                {chunk}
			
 
				+
			
 
				+            请严格以JSON格式输出，格式如下：
			
 
				+            [
			
 
				+                {{"question": "问题1", "answer": "答案1"}},
			
 
				+                {{"question": "问题2", "answer": "答案2"}}
			
 
				+            ]
			
 
				+
			
 
				+            只输出JSON数组，不要添加任何其他内容。"""
			
 
				+
			
 
				+        
			
 
				+        logger.debug(f"开始为第 {chunk_index + 1} 块生成QA对")
			
 
				+        
			
 
				+        try:
			
 
				+            parser = QWenVLParser(self.model_name)
			
 
				+            result = parser.chat(prompt=user_prompt, system_prompt=system_prompt)
			
 
				+            
			
 
				+            # 解析JSON响应（使用通用工具函数）
			
 
				+            qa_pairs = parse_qa_response(result)
			
 
				+            logger.debug(f"第 {chunk_index + 1} 块生成 {len(qa_pairs)} 个QA对")
			
 
				+            return qa_pairs
			
 
				+        except Exception as e:
			
 
				+            logger.error(f"第 {chunk_index + 1} 块QA生成失败: {str(e)}")
			
 
				+            return []
			
 
				+    
			
 
				+    
			
 
				     def execute(self, state: BaseState) -> Dict[str, Any]:
			
 
				         """
			
 
				         执行QA对生成
			
@@ -142,7 +275,7 @@ class QAGenerateNode(BaseNode):
 
				         # 使用全局线程池
			
 
				         pool = ThreadPoolManager.get_pool("parser")
			
 
				         futures = [
			
 
				-            pool.submit(self._generate_qa_for_chunk, chunk, qa_count_per_chunk, i)
			
 
				+            pool.submit(self._generate_base_qa_for_chunk, chunk, qa_count_per_chunk, i)
			
 
				             for i, chunk in enumerate(text_chunks)
			
 
				         ]
			
 
				         
			
@@ -151,11 +284,11 @@ class QAGenerateNode(BaseNode):
 
				                 qa_pairs = future.result()
			
 
				                 all_qa_pairs.extend(qa_pairs)
			
 
				             except Exception as e:
			
 
				-                logger.error(f"QA生成任务失败: {str(e)}")
			
 
				+                logger.error(f"QA基础生成任务失败: {str(e)}")
			
 
				         
			
 
				-        logger.info(f"QA对生成完成，共 {len(all_qa_pairs)} 个")
			
 
				+        logger.info(f"QA对基础生成完成，共 {len(all_qa_pairs)} 个")
			
 
				         
			
 
				         return {
			
 
				             "qa_pairs": all_qa_pairs,
			
 
				             "qa_count": len(all_qa_pairs)
			
 
				-        }
			
 
				+        }
			
--- a/src/datasets/parser/workflows/qa_workflow.py
+++ b/src/datasets/parser/workflows/qa_workflow.py
@@ -13,6 +13,7 @@ from src.datasets.parser.states.parser_states import QAParsingState
 
				 from src.utils.ragflow.ragflow_user_service import get_ragflow_user_service
			
 
				 from src.datasets.parser.nodes import (
			
 
				     TextSplitNode,
			
 
				+    QABaseGenerateNode,
			
 
				     QAGenerateNode,
			
 
				     RAGFlowDocumentUploadNode,
			
 
				     RAGFlowDocumentParseNode,
			
@@ -64,6 +65,7 @@ class QAParsingWorkflowV2:
 
				         # 创建节点实例
			
 
				         ocr_node = PDFOCRNode(model_name=self.model_name)
			
 
				         split_node = TextSplitNode()
			
 
				+        qa_base_node = QABaseGenerateNode(model_name="Qwen/Qwen3-30B-A3B-Instruct-2507")
			
 
				         qa_node = QAGenerateNode(model_name="Qwen/Qwen3-30B-A3B-Instruct-2507")
			
 
				         export_node = ExportCSVNode()
			
 
				         upload_node = RAGFlowDocumentUploadNode(api_key=ragflow_api_key)
			
@@ -76,6 +78,7 @@ class QAParsingWorkflowV2:
 
				         builder.add_nodes(
			
 
				             ocr_node,
			
 
				             split_node,
			
 
				+            qa_base_node,
			
 
				             qa_node,
			
 
				             export_node,
			
 
				             upload_node,
			
@@ -88,6 +91,7 @@ class QAParsingWorkflowV2:
 
				         builder.add_sequence(
			
 
				             "pdf_ocr",
			
 
				             "text_split",
			
 
				+            "qa_base_generate",
			
 
				             "qa_generate",
			
 
				             "export_csv",
			
 
				             "ragflow_document_upload",