🔎 Search before asking | 提交之前请先搜索
🤖 Consult the online AI assistant for assistance | 在线 AI 助手咨询
Description of the bug | 错误描述
MinuerU 版本:2.5.4
问题描述:
生成的 content_list.json 里面对于跨页的表格,img_path 应该是一个列表,包含所有的表格截图,但实际上只有第一页的表格截图,通过检查中间产物的images文件夹,发现表格的所有截图都是有的,只是没有放到json文件对应的表格处。
表格上半部分:

表格下半部分:

对应的json item:
{ "type": "table", "img_path": "images/6fcbb882e67b898d24b88ec39c90c5bfbfe790159c461c4dde7919653ad119d1.jpg", "table_caption": [ "Table1.3项目阶段目的" ], "table_footnote": [], "table_body": "<table><tr><td>阶段</td><td>阶段名称</td><td>主要目的</td></tr><tr><td>P0</td><td>创新</td><td></td></tr><tr><td>P1</td><td>报价</td><td>项目报价、成本评估,项目可行性评估、定点</td></tr><tr><td>P2</td><td>项目立项和计划</td><td>启动项目,团队建设、客户要求评审更新和项目大日程规划,设计评审和目标确定</td></tr><tr><td>P3</td><td>产品设计和开发</td><td>对设计出来的样品做测试验证,包括一般功能测试和可靠性测试,1零部件测试和系统集成测试</td></tr><tr><td>P4</td><td>过程设计和开发</td><td>过程设计和开发-解决样品在B样阶段的问题后进行试产,对所有功能进行测试并完成全条件设计可靠性测试</td></tr><tr><td>P5</td><td>产品和过程确认</td><td>小批量过程验证测试,验证新产品的各功能实现状况并进行稳定性及过程可靠性测试</td></tr><tr><td>P6</td><td>爬坡</td><td>产能爬坡计划和量产生产计划提升,生产工艺和方法验证,提前纠正异常问题,满足客户需求</td></tr><tr><td>P7</td><td>量产</td><td>在设定的节拍内完成生产,满足客户需求</td></tr><tr><td>P8</td><td>备件生产</td><td>量产交付完成后,按客户需求,进行备件生产</td></tr></table>", "bbox": [ 147, 527, 850, 859 ], "page_idx": 0 }
How to reproduce the bug | 如何复现
问题复现:
使用命令行转换PDF,其中PDF文件带有跨页的表格
mineru -p test.pdf -o ./test -b vlm-transformers --source modelscope
Operating System Mode | 操作系统类型
Linux
Operating System Version| 操作系统版本
Ubuntu 22.04
Python version | Python 版本
No response
Software version | 软件版本 (mineru --version)
No response
Device mode | 设备模式
No response
🔎 Search before asking | 提交之前请先搜索
🤖 Consult the online AI assistant for assistance | 在线 AI 助手咨询
Description of the bug | 错误描述
MinuerU 版本:2.5.4
问题描述:
生成的 content_list.json 里面对于跨页的表格,img_path 应该是一个列表,包含所有的表格截图,但实际上只有第一页的表格截图,通过检查中间产物的images文件夹,发现表格的所有截图都是有的,只是没有放到json文件对应的表格处。
表格上半部分:


表格下半部分:
对应的json item:
{ "type": "table", "img_path": "images/6fcbb882e67b898d24b88ec39c90c5bfbfe790159c461c4dde7919653ad119d1.jpg", "table_caption": [ "Table1.3项目阶段目的" ], "table_footnote": [], "table_body": "<table><tr><td>阶段</td><td>阶段名称</td><td>主要目的</td></tr><tr><td>P0</td><td>创新</td><td></td></tr><tr><td>P1</td><td>报价</td><td>项目报价、成本评估,项目可行性评估、定点</td></tr><tr><td>P2</td><td>项目立项和计划</td><td>启动项目,团队建设、客户要求评审更新和项目大日程规划,设计评审和目标确定</td></tr><tr><td>P3</td><td>产品设计和开发</td><td>对设计出来的样品做测试验证,包括一般功能测试和可靠性测试,1零部件测试和系统集成测试</td></tr><tr><td>P4</td><td>过程设计和开发</td><td>过程设计和开发-解决样品在B样阶段的问题后进行试产,对所有功能进行测试并完成全条件设计可靠性测试</td></tr><tr><td>P5</td><td>产品和过程确认</td><td>小批量过程验证测试,验证新产品的各功能实现状况并进行稳定性及过程可靠性测试</td></tr><tr><td>P6</td><td>爬坡</td><td>产能爬坡计划和量产生产计划提升,生产工艺和方法验证,提前纠正异常问题,满足客户需求</td></tr><tr><td>P7</td><td>量产</td><td>在设定的节拍内完成生产,满足客户需求</td></tr><tr><td>P8</td><td>备件生产</td><td>量产交付完成后,按客户需求,进行备件生产</td></tr></table>", "bbox": [ 147, 527, 850, 859 ], "page_idx": 0 }How to reproduce the bug | 如何复现
问题复现:
使用命令行转换PDF,其中PDF文件带有跨页的表格
mineru -p test.pdf -o ./test -b vlm-transformers --source modelscopeOperating System Mode | 操作系统类型
Linux
Operating System Version| 操作系统版本
Ubuntu 22.04
Python version | Python 版本
No response
Software version | 软件版本 (mineru --version)
No response
Device mode | 设备模式
No response