Skip to content

content_list.json 里面表格截图不完整 #3764

@Adjk-Luis

Description

@Adjk-Luis

🔎 Search before asking | 提交之前请先搜索

  • I have searched the MinerU Readme and found no similar bug report.
  • I have searched the MinerU Issues and found no similar bug report.
  • I have searched the MinerU Discussions and found no similar bug report.

🤖 Consult the online AI assistant for assistance | 在线 AI 助手咨询

Description of the bug | 错误描述

MinuerU 版本:2.5.4

问题描述:
生成的 content_list.json 里面对于跨页的表格,img_path 应该是一个列表,包含所有的表格截图,但实际上只有第一页的表格截图,通过检查中间产物的images文件夹,发现表格的所有截图都是有的,只是没有放到json文件对应的表格处。

表格上半部分:
Image
表格下半部分:
Image
对应的json item:
{ "type": "table", "img_path": "images/6fcbb882e67b898d24b88ec39c90c5bfbfe790159c461c4dde7919653ad119d1.jpg", "table_caption": [ "Table1.3项目阶段目的" ], "table_footnote": [], "table_body": "<table><tr><td>阶段</td><td>阶段名称</td><td>主要目的</td></tr><tr><td>P0</td><td>创新</td><td></td></tr><tr><td>P1</td><td>报价</td><td>项目报价、成本评估,项目可行性评估、定点</td></tr><tr><td>P2</td><td>项目立项和计划</td><td>启动项目,团队建设、客户要求评审更新和项目大日程规划,设计评审和目标确定</td></tr><tr><td>P3</td><td>产品设计和开发</td><td>对设计出来的样品做测试验证,包括一般功能测试和可靠性测试,1零部件测试和系统集成测试</td></tr><tr><td>P4</td><td>过程设计和开发</td><td>过程设计和开发-解决样品在B样阶段的问题后进行试产,对所有功能进行测试并完成全条件设计可靠性测试</td></tr><tr><td>P5</td><td>产品和过程确认</td><td>小批量过程验证测试,验证新产品的各功能实现状况并进行稳定性及过程可靠性测试</td></tr><tr><td>P6</td><td>爬坡</td><td>产能爬坡计划和量产生产计划提升,生产工艺和方法验证,提前纠正异常问题,满足客户需求</td></tr><tr><td>P7</td><td>量产</td><td>在设定的节拍内完成生产,满足客户需求</td></tr><tr><td>P8</td><td>备件生产</td><td>量产交付完成后,按客户需求,进行备件生产</td></tr></table>", "bbox": [ 147, 527, 850, 859 ], "page_idx": 0 }

How to reproduce the bug | 如何复现

问题复现:
使用命令行转换PDF,其中PDF文件带有跨页的表格
mineru -p test.pdf -o ./test -b vlm-transformers --source modelscope

Operating System Mode | 操作系统类型

Linux

Operating System Version| 操作系统版本

Ubuntu 22.04

Python version | Python 版本

No response

Software version | 软件版本 (mineru --version)

No response

Device mode | 设备模式

No response

Metadata

Metadata

Assignees

No one assigned

    Labels

    bugSomething isn't working

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions