fix: band-level windowed refine_layout + programmatic map_fields to prevent 91.5% content loss

Root cause: LLM receiving full 34k-char JRXML would regenerate from scratch
instead of modifying coordinates in-place, shrinking output to ~3k chars.

Solution (programmatic node control, not prompt engineering):

- New agent/jrxml_windower.py: decompose JRXML into header (never sent to
  LLM) + individual bands. Split bands >4000 chars at element boundaries.
  Reassemble with element count validation (>10% change = rollback).

- Rewrite refine_layout: per-band windowed LLM processing (~2-4k chars
  each). LLM cannot "reimagine" the entire report.

- Rewrite map_fields: 100% programmatic regex $F{field_N} -> real name
  replacement. Zero LLM calls, zero content loss.

- _sanitize_field_name: non-ASCII chars escaped to _uXXXX_ format for
  valid JRXML identifiers.

- Tests: 48 new unit tests (windower 28 + map_fields 20). All passing.
  Full suite 385 tests, zero regressions.
This commit is contained in:
2026-05-24 08:55:38 +08:00
parent bb6cc6e241
commit bd5bfbac2d
80 changed files with 39463 additions and 108 deletions
+2
View File
@@ -25,4 +25,6 @@
{fidelity_context}
{template_context}
立即生成修正后的 JRXML
+8 -1
View File
@@ -1,16 +1,23 @@
你是一位资深 JasperReports 工程师。当前有一个 JRXML 使用占位字段名($F{{field_1}}, $F{{field_2}}, ...),需要替换为从 OCR 提取的真实字段名。
**你必须基于已有的 JRXML 进行修改,而不是重新生成。保留所有现有的元素,只替换字段名。**
关键规则:
- 只输出完整修改后的 JRXML 代码,不要解释,不要 markdown 标记。
- **保留所有现有的 field、staticText、textField、band、reportElement 元素,一个都不能少。**
- **不要删除、简化、合并或重写任何元素。不要改动任何坐标值(x, y, width, height)。**
- 将每个 $F{{field_N}} 占位符替换为 OCR 提取结果中对应的真实字段名。
- 替换规则:根据列的顺序映射——$F{{field_1}} 对应第 1 列的 OCR 字段名,$F{{field_2}} 对应第 2 列,以此类推。
- 同时更新 <field name="..."> 声明和所有 $F{{...}} 表达式中的引用。
- 同时更新 field name="..." 声明和所有 $F{{...}} 表达式中的引用。
- 如果 OCR 提取的字段数少于占位字段数,保留多余的占位字段。
- 不要修改 band 结构、元素位置或大小。
- 确保 JRXML 兼容 JasperReports 7.0.6。
- **输出的 JRXML 字符数应与输入的 JRXML 大致相同(允许 ±15% 偏差),因为只替换字段名,不增删修改任何元素。**
当前 JRXML(含占位字段):
{current_jrxml}
{template_context}
OCR 提取的结构化字段:
{ocr_fields}
+2
View File
@@ -11,5 +11,7 @@ JRXML 必须兼容 JasperReports 7.0.6 schema。
参考模板和组件:
{context}
{template_context}
用户需求:
{user_request}
+2
View File
@@ -10,6 +10,8 @@
{ocr_context}
{template_context}
当前 JRXML
{current_jrxml}
+19 -13
View File
@@ -1,17 +1,23 @@
你是一位资深 JasperReports 工程师。当前有一个骨架 JRXML,需要根据精确的像素坐标调整每个元素的位置
你是一位 JRXML 坐标调整器。你的唯一任务是修改 <reportElement> 标签内的 x, y, width, height 属性值
关键规则:
- 只输出完整修改后的 JRXML 代码,不要解释,不要 markdown 标记。
- 根据提供的采样坐标,精确调整每个 textField/staticText 的 x, y, width, height。
- 表头行的坐标直接使用采样坐标中 header_row 对应列的 x, y, width, height。
- 数据行:根据 first_data_row 的坐标模式,向下插值生成剩余数据行(每行 y 递增行高)。
- 标题行(如有)和表尾行:保持其在骨架中的 y 位置大致不变,但调整 x 和 width 与列的采样坐标对齐。
- 不要修改字段名(保持 $F{{field_N}} 占位名不变)。
- 不要修改 band 结构。
- 确保 JRXML 兼容 JasperReports 7.0.6。
**这是 Band "{band_name}"(高度 {band_height}px)的第 {window_index}/{total_windows} 个窗口。你只看到该 band 的一个片段,不要尝试生成完整报表。**
当前骨架 JRXML
{current_jrxml}
严格规则
- 只修改 x, y, width, height。不改任何其他内容。
- 不添加、删除、重命名任何元素。
- 不修改文本内容(CDATA)、表达式(textFieldExpression)、样式属性。
- 只输出修改后的 XML 片段,不要解释,不要 markdown,不要代码块标记。
- 输出的字符数应与输入片段大致相同。
采样坐标(表头行 + 第一行数据行,像素位置)
坐标调整规则
- 表头行:直接使用 header_row 对应列的 x, y, width, height
- 数据行:根据 first_data_row 的坐标模式,向下插值(每行 y 递增行高)
- 标题行和表尾行:保持 y 位置大致不变,但调整 x 和 width 与列的采样坐标对齐
{template_context}
采样坐标参考:
{sampled_coordinates}
请调整以下片段的坐标:
{xml_fragment}
+2
View File
@@ -15,5 +15,7 @@
参考模板和组件:
{context}
{template_context}
用户需求:
{user_request}