1. 修复论坛通信问题

2. 修复总结报告错误 3. 修复环境变量重新载入问题 4. 添加测试用例 5. 修复论坛主持人问题
2025-11-06 13:57:56 +08:00
parent adeedff98a
commit dce6371410
9 changed files with 331 additions and 82 deletions
@@ -4,6 +4,7 @@
 测试各种日志格式下的解析能力，包括：
 1. 旧格式：[HH:MM:SS]
 2. 新格式：loguru默认格式 (YYYY-MM-DD HH:mm:ss.SSS | LEVEL | ...)
+3. 只应当接收FirstSummaryNode、ReflectionSummaryNode等SummaryNode的输出，不应当接收SearchNode的输出
 """

 import sys
@@ -83,12 +84,11 @@ class TestLogMonitor:
        assert "JSON内容" in result
    
    def test_extract_json_content_new_format_multiline(self):
-        """测试新格式多行JSON提取（关键测试：需要支持loguru格式的时间戳移除）"""
+        """测试新格式多行JSON提取（支持loguru格式的时间戳移除）"""
        result = self.monitor.extract_json_content(test_data.NEW_FORMAT_MULTILINE_JSON)
-        # 注意：当前代码中的时间戳移除正则只支持 [HH:MM:SS] 格式
-        # 这个测试可能会失败，直到修复了时间戳移除逻辑
-        # 如果失败，说明需要修改 extract_json_content 中的时间戳移除逻辑
-        assert result is not None or True  # 暂时允许失败，用于发现问题
+        assert result is not None
+        assert "多行" in result
+        assert "JSON内容" in result
    
    def test_extract_json_content_updated_priority(self):
        """测试updated_paragraph_latest_state优先提取"""
@@ -133,13 +133,11 @@ class TestLogMonitor:
        assert "测试内容" in result
    
    def test_extract_node_content_new_format(self):
-        """测试新格式的节点内容提取（关键测试）"""
+        """测试新格式的节点内容提取"""
        line = "2025-11-05 17:42:31.287 | INFO | InsightEngine.nodes.summary_node:process_output:131 - FirstSummaryNode 清理后的输出: 这是测试内容"
        result = self.monitor.extract_node_content(line)
-        # 注意：当前代码中的正则只支持 [HH:MM:SS] 格式
-        # 这个测试可能会失败，直到修复了时间戳匹配逻辑
-        # 如果失败，说明需要修改 extract_node_content 中的时间戳匹配逻辑
-        assert result is not None or True  # 暂时允许失败，用于发现问题
+        assert result is not None
+        assert "测试内容" in result
    
    def test_process_lines_for_json_old_format(self):
        """测试旧格式的完整处理流程"""
@@ -154,7 +152,7 @@ class TestLogMonitor:
        assert any("多行" in content for content in result)
    
    def test_process_lines_for_json_new_format(self):
-        """测试新格式的完整处理流程（关键测试）"""
+        """测试新格式的完整处理流程"""
        lines = [
            test_data.NEW_FORMAT_NON_TARGET,  # 应该被忽略
            test_data.NEW_FORMAT_MULTILINE_JSON[0],
@@ -162,15 +160,15 @@ class TestLogMonitor:
            test_data.NEW_FORMAT_MULTILINE_JSON[2],
        ]
        result = self.monitor.process_lines_for_json(lines, "insight")
-        # 注意：这个测试可能会失败，因为当前代码可能无法正确处理新格式
-        # 如果失败，说明需要修改 process_lines_for_json 和相关函数
-        assert len(result) > 0 or True  # 暂时允许失败，用于发现问题
+        assert len(result) > 0
+        assert any("多行" in content for content in result)
+        assert any("JSON内容" in content for content in result)
    
    def test_process_lines_for_json_mixed_format(self):
        """测试混合格式的处理"""
        result = self.monitor.process_lines_for_json(test_data.MIXED_FORMAT_LINES, "insight")
-        # 混合格式应该也能处理
-        assert len(result) > 0 or True  # 暂时允许失败，用于发现问题
+        assert len(result) > 0
+        assert any("混合格式内容" in content for content in result)
    
    def test_is_valuable_content(self):
        """测试有价值内容的判断"""
@@ -183,6 +181,150 @@ class TestLogMonitor:
        
        # 空行应该被过滤
        assert self.monitor.is_valuable_content("") == False
+    
+    def test_extract_json_content_real_query_engine(self):
+        """测试QueryEngine实际生产环境日志提取"""
+        result = self.monitor.extract_json_content(test_data.REAL_QUERY_ENGINE_REFLECTION)
+        assert result is not None
+        assert "洛阳栾川钼业集团" in result
+        assert "CMOC" in result
+        assert "updated_paragraph_latest_state" not in result  # 应该已经提取内容，不包含字段名
+    
+    def test_extract_json_content_real_insight_engine(self):
+        """测试InsightEngine实际生产环境日志提取（包含标识行）"""
+        # 先测试能否识别标识行
+        assert self.monitor.is_target_log_line(test_data.REAL_INSIGHT_ENGINE_REFLECTION[0]) == True  # 包含"正在生成反思总结"
+        assert self.monitor.is_target_log_line(test_data.REAL_INSIGHT_ENGINE_REFLECTION[1]) == True  # 包含nodes.summary_node
+        
+        # 测试JSON提取（从第二行开始，因为第一行是标识行）
+        json_lines = test_data.REAL_INSIGHT_ENGINE_REFLECTION[1:]  # 跳过标识行
+        result = self.monitor.extract_json_content(json_lines)
+        assert result is not None
+        assert "核心发现" in result
+        assert "更新版" in result
+        assert "洛阳钼业2025年第三季度" in result
+    
+    def test_extract_json_content_real_media_engine(self):
+        """测试MediaEngine实际生产环境日志提取（单行JSON）"""
+        # MediaEngine是单行JSON格式，需要先分割成行
+        lines = test_data.REAL_MEDIA_ENGINE_REFLECTION.split('\n')
+        
+        # 测试能否识别标识行
+        assert self.monitor.is_target_log_line(lines[0]) == True  # 包含"正在生成反思总结"
+        assert self.monitor.is_target_log_line(lines[1]) == True  # 包含nodes.summary_node和"清理后的输出"
+        
+        # 测试JSON提取（从包含JSON的行开始）
+        json_line = lines[1]  # 第二行包含完整的单行JSON
+        result = self.monitor.extract_json_content([json_line])
+        assert result is not None
+        assert "综合信息概览" in result
+        assert "洛阳钼业" in result
+        assert "updated_paragraph_latest_state" not in result  # 应该已经提取内容
+    
+    def test_process_lines_for_json_real_query_engine(self):
+        """测试QueryEngine实际日志的完整处理流程"""
+        result = self.monitor.process_lines_for_json(test_data.REAL_QUERY_ENGINE_REFLECTION, "query")
+        assert len(result) > 0
+        assert any("洛阳栾川钼业集团" in content for content in result)
+    
+    def test_process_lines_for_json_real_insight_engine(self):
+        """测试InsightEngine实际日志的完整处理流程（包含标识行）"""
+        result = self.monitor.process_lines_for_json(test_data.REAL_INSIGHT_ENGINE_REFLECTION, "insight")
+        assert len(result) > 0
+        assert any("核心发现" in content for content in result)
+        assert any("更新版" in content for content in result)
+    
+    def test_process_lines_for_json_real_media_engine(self):
+        """测试MediaEngine实际日志的完整处理流程（单行JSON）"""
+        # 将单行字符串分割成多行
+        lines = test_data.REAL_MEDIA_ENGINE_REFLECTION.split('\n')
+        result = self.monitor.process_lines_for_json(lines, "media")
+        assert len(result) > 0
+        assert any("综合信息概览" in content for content in result)
+        assert any("洛阳钼业" in content for content in result)
+    
+    def test_filter_search_node_output(self):
+        """测试过滤SearchNode的输出（重要：SearchNode不应进入论坛）"""
+        # SearchNode的输出包含"清理后的输出: {"，但不包含目标节点模式
+        search_lines = test_data.SEARCH_NODE_FIRST_SEARCH
+        result = self.monitor.process_lines_for_json(search_lines, "insight")
+        # SearchNode的输出应该被过滤，不应该被捕获
+        assert len(result) == 0
+    
+    def test_filter_search_node_output_single_line(self):
+        """测试过滤SearchNode的单行JSON输出"""
+        # SearchNode的单行JSON格式
+        search_line = test_data.SEARCH_NODE_REFLECTION_SEARCH
+        result = self.monitor.process_lines_for_json([search_line], "insight")
+        # SearchNode的输出应该被过滤
+        assert len(result) == 0
+    
+    def test_search_node_vs_summary_node_mixed(self):
+        """测试混合场景：SearchNode和SummaryNode同时存在，只捕获SummaryNode"""
+        lines = [
+            # SearchNode输出（应该被过滤）
+            "[11:16:35] 2025-11-06 11:16:35.567 | INFO | InsightEngine.nodes.search_node:process_output:97 - 清理后的输出: {",
+            "[11:16:35] \"search_query\": \"测试查询\"",
+            "[11:16:35] }",
+            # SummaryNode输出（应该被捕获）
+            "[11:17:05] 2025-11-06 11:17:05.547 | INFO | InsightEngine.nodes.summary_node:process_output:131 - 清理后的输出: {",
+            "[11:17:05] \"paragraph_latest_state\": \"这是总结内容\"",
+            "[11:17:05] }",
+        ]
+        result = self.monitor.process_lines_for_json(lines, "insight")
+        # 应该只捕获SummaryNode的输出，不包含SearchNode的输出
+        assert len(result) > 0
+        assert any("总结内容" in content for content in result)
+        # 确保不包含搜索查询内容
+        assert not any("search_query" in content for content in result)
+        assert not any("测试查询" in content for content in result)
+    
+    def test_filter_error_logs_from_summary_node(self):
+        """测试过滤SummaryNode的错误日志（重要：错误日志不应进入论坛）"""
+        # JSON解析失败错误日志
+        assert self.monitor.is_target_log_line(test_data.SUMMARY_NODE_JSON_ERROR) == False
+        
+        # JSON修复失败错误日志
+        assert self.monitor.is_target_log_line(test_data.SUMMARY_NODE_JSON_FIX_ERROR) == False
+        
+        # ERROR级别日志
+        assert self.monitor.is_target_log_line(test_data.SUMMARY_NODE_ERROR_LOG) == False
+        
+        # Traceback错误日志
+        for line in test_data.SUMMARY_NODE_TRACEBACK.split('\n'):
+            assert self.monitor.is_target_log_line(line) == False
+    
+    def test_error_logs_not_captured(self):
+        """测试错误日志不会被捕获到论坛"""
+        error_lines = [
+            test_data.SUMMARY_NODE_JSON_ERROR,
+            test_data.SUMMARY_NODE_JSON_FIX_ERROR,
+            test_data.SUMMARY_NODE_ERROR_LOG,
+        ]
+        
+        for line in error_lines:
+            result = self.monitor.process_lines_for_json([line], "media")
+            # 错误日志不应该被捕获
+            assert len(result) == 0
+    
+    def test_mixed_valid_and_error_logs(self):
+        """测试混合场景：有效日志和错误日志同时存在，只捕获有效日志"""
+        lines = [
+            # 错误日志（应该被过滤）
+            test_data.SUMMARY_NODE_JSON_ERROR,
+            test_data.SUMMARY_NODE_JSON_FIX_ERROR,
+            # 有效SummaryNode输出（应该被捕获）
+            "[11:55:31] 2025-11-06 11:55:31.762 | INFO | MediaEngine.nodes.summary_node:process_output:134 - 清理后的输出: {",
+            "[11:55:31] \"paragraph_latest_state\": \"这是有效的总结内容\"",
+            "[11:55:31] }",
+        ]
+        result = self.monitor.process_lines_for_json(lines, "media")
+        # 应该只捕获有效日志，不包含错误日志
+        assert len(result) > 0
+        assert any("有效的总结内容" in content for content in result)
+        # 确保不包含错误信息
+        assert not any("JSON解析失败" in content for content in result)
+        assert not any("JSON修复失败" in content for content in result)


 def run_tests():