MinerU：高质量PDF转Markdown和JSON工具

MinerU是一款开源工具，可将PDF转换为Markdown和JSON格式，支持多种语言OCR、公式识别、表格转换等功能，适用于多平台。

直达下载

回到上一页

clickgpt_line.png_noView

介绍

你有没有遇到过这样的情况：拿到一份PDF文件，想要提取其中的内容，却被复杂的布局和格式搞得焦头烂额？特别是那些科学论文，符号、公式乱七八糟，简直让人崩溃！别急，今天我要给大家介绍一款神器——MinerU，这是一款专注于PDF数据提取的开源工具，能让你轻松把PDF转成Markdown或者JSON格式，简直就是数据处理的好帮手。

github_practical_mineru_1

MinerU最初是为了支持InternLM的预训练而诞生的，目标是解决科学文献中符号转换的问题。虽然它还很年轻，但功能已经足够强大，特别适合那些需要高质量数据提取的小伙伴。

为什么选择MinerU？

说到PDF数据提取，市面上确实有不少工具，但MinerU的优势就在于它的细致和全面。下面我们来看看它的主要功能吧：

1. 清理杂乱信息，确保语义连贯

MinerU可以自动移除PDF中的页眉、页脚、脚注和页码等干扰信息，让提取的内容更具语义连贯性。再也不用担心提取出来的文本东一句西一句，完全没法读了。

github_practical_mineru_2

2. 支持复杂布局，轻松还原文档结构

不管是单栏、多栏，还是那些复杂的排版，MinerU都能搞定。而且它还能保留原文档的结构，比如标题、段落、列表等，提取出来的内容看起来就像是“原汁原味”。

3. 图片和表格？没问题！

如果你的PDF里有图片、图片描述、表格以及表格标题，MinerU也能一并提取出来。尤其是表格，它会自动转换成HTML格式，这样你就可以直接用在网页或者其他地方了。

github_practical_mineru_3

4. 公式转换，支持LaTeX格式

对于科学文献中的公式，MinerU会自动识别并转换成LaTeX格式，方便你在其他地方继续编辑或者使用。

github_practical_mineru_4

5. OCR功能，搞定扫描版PDF

遇到扫描版PDF或者乱码PDF？MinerU自带OCR功能，支持84种语言的检测和识别，真的是非常贴心了。

6. 多种输出格式，满足不同需求

不管你是做NLP研究，还是需要多模态数据，MinerU都能满足你的需求。它支持多种输出格式，比如Markdown、按阅读顺序排序的JSON，甚至还有丰富的中间格式供你选择。

github_practical_mineru_5

7. 可视化检查，确保输出质量

为了让你更方便地确认提取结果，MinerU还支持布局可视化和范围可视化功能。通过这些功能，你可以快速检查输出质量，发现问题并及时调整。

8. 跨平台支持，CPU/GPU都能用

不管你是Windows党、Linux党，还是Mac用户，MinerU都支持。而且它还能在CPU和GPU环境下运行，性能表现相当不错。

MinerU适合谁？

MinerU特别适合那些需要处理大量PDF数据的人，比如：

科研人员：需要从论文中提取数据、公式、表格等内容。
开发者：需要将PDF内容转化为机器可读的格式，用于后续处理。
数据分析师：需要从PDF报告中提取结构化数据。
普通用户：想要简单快速地提取PDF内容，不想被复杂的格式折磨。

怎么使用MinerU？

使用MinerU也非常简单，以下是基本的操作步骤：

安装MinerU：在GitHub页面下载适合自己系统的版本，按照文档进行安装。
准备PDF文件：将需要提取的PDF文件放到指定目录。
运行MinerU：通过命令行或者脚本运行MinerU，选择需要的输出格式，比如Markdown或者JSON。
检查结果：利用MinerU的可视化功能，检查提取结果是否符合预期。如果有问题，可以调整参数或者提交issue寻求帮助。

用下来，MinerU真的让我省了不少事儿，特别是那些复杂的PDF文档，提取起来又快又准。如果你也经常需要处理PDF数据，那一定要试试这个工具。虽然它还有成长空间，但已经足够强大，完全可以替代一些商业工具。最重要的是，它是开源的，完全免费！

RPA

八爪鱼RPA

支持一键抓取公众号/小红书/抖音/淘宝数据

流程自动化

付费

AI爆文训练营

图文变现友好赛道，低门槛、高上限，教你从0到1做个赚钱的公众号!

躺着赚钱

￥149/年

何老师陪你做副业

这里聚焦AI副业、个人IP、自媒体运营、写作、赚钱案例。不哔哔，只分享有价值的副业项目。

AI赚钱案例

限免

DeepSeek进阶教程

带你全面掌握DeepSeek应用技巧。提升工作、学习效率

100万人学过

付费

网盘拉新实战教程

每周花费一小时，手把手教你赚网盘平台佣金

500人学过

限时优惠

AiPPT

结合最新AI技术，为用户提供一键生成高质量PPT的解决方案。

一键生成 PPT

免费

豆包MarsCode

一款免费的AI编程助手，全新支持DeepSeek R1/V3、豆包大模型1.5自由切换，免部署、更准确、更强大！

AI编程助手

免费

Monica AI

Monica AI满血复活DeepSeek【免费】，提升您的聊天、搜索、写作和编程体验。

一站式 AI 助手

云服务

腾讯云

综合性的云计算服务平台，现已接入DeepSeek，提供多样化的云解决方案

高效可靠

云服务

阿里云

全球领先的云计算与数据服务平台，提供云服务器、存储、数据库、安全等多种服务

多样化

编程学习

免费领取编程学习资料