فهرست منبع

19维度图书解析流程调整

yingge 3 ماه پیش
والد
کامیت
933574f032
2فایلهای تغییر یافته به همراه10 افزوده شده و 4 حذف شده
  1. 7 2
      src/datasets/parser/nodes/pdf_split_node.py
  2. 3 2
      src/datasets/parser/nodes/ragflow_nodes.py

+ 7 - 2
src/datasets/parser/nodes/pdf_split_node.py

@@ -5,6 +5,7 @@ PDF拆分节点
 """
 
 from typing import Dict, Any
+import os
 from src.datasets.parser.core.base import BaseNode, BaseState
 from src.datasets.parser.core.registry import register_node
 from src.common.logging_config import get_logger
@@ -54,8 +55,12 @@ class PDFSplitNode(BaseNode):
         else:
             logger.info(f"开始拆分PDF: {pdf_path}")
         
-        # 根据pdf_path获取原始文件名(去除后缀)
-        original_filename = pdf_path.split('/')[-1].split('.')[0] if pdf_path else None
+        # 根据pdf_path获取原始文件名(去除后缀)需要同时适配windows和linux
+        if pdf_path:
+            base_name = os.path.basename(pdf_path)
+            original_filename = os.path.splitext(base_name)[0]
+        else:
+            original_filename = None
 
         # 拆分PDF
         splitter = PDFSplitter()

+ 3 - 2
src/datasets/parser/nodes/ragflow_nodes.py

@@ -290,7 +290,6 @@ class RAGFlowChunkNode(BaseNode):
             chunk_id = chunk["chunk"]["id"]
             parsed_result["chunk_id"] = chunk_id
             logger.debug(f"创建第 {page_number} 页Chunk,ID: {chunk_id}")
-            
             # 记录到定时任务表
             if img_id:
                 get_chunk_record_service().record_chunk_add(
@@ -302,4 +301,6 @@ class RAGFlowChunkNode(BaseNode):
                 )
         
         logger.info(f"Chunks创建完成")
-        return {}
+        return {
+            "parsed_results": parsed_results
+        }