MinerU是一款开源智能数据提取工具,主要用于将PDF、网页等复杂文档转换为Markdown或LaTeX格式,支持多模态内容解析和批量处理。

1、删除页眉、页脚、脚注、页码等元素,保证语义连贯。
2、按照人类阅读顺序输出文本,适用于单栏、多栏和复杂排版。
3、保留原始文档的结构,包括标题、段落、列表等。
4、提取图像、图片说明、表格、表格标题和脚注。
5、自动识别文档中的公式并将其转换为LaTeX格式。
6、自动识别文档中的表格并将其转换为HTML格式。
7、自动检测扫描的PDF和失真的PDF,并启用OCR功能。
8、OCR支持109种语言的检测和识别。
9、支持多种输出格式,如多模态和NLP的Markdown、按阅读顺序排序的JSON、信息丰富的中间格式等。
10、支持多种可视化结果,包括布局可视化、跨度可视化等,便于高效确认输出效果和质量检查。
11、支持纯CPU环境,支持GPU(CUDA)/NPU(CANN)/MPS加速。
12、兼容Windows、Linux和Mac平台。
用户普遍反馈mineru功能实用,操作简便。文件管理和数据处理功能备受称赞,界面友好上手快。智能提醒等亮点也为工作带来便利,安全性能可靠,是一款值得推荐的软件,能有效提升工作效率与体验。