|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
MinerU 是一个将 PDF 转换为机器可读格式(如 markdown、JSON)的工具,使数据可以轻松提取为各种格式。MinerU 在 InternLM 的预训练过程中诞生,我们专注于解决科学文献中的符号转换问题,致力于为大模型时代的技术进步贡献力量。与知名的商业产品相比,MinerU 还处于早期阶段。如果您遇到任何问题或结果不如预期,请在我们的平台上提交问题并附上相关 PDF。
主要功能:
- 删除页眉、页脚、脚注、页码等,以确保语义连贯。
- 按人类可读的顺序输出文本,适用于单列、多列和复杂布局。
- 保留原始文档的结构,包括标题、段落、列表等。
- 提取图像、图像描述、表格、表格标题和脚注。
- 自动识别并将文档中的公式转换为 LaTeX 格式。
- 自动识别并将文档中的表格转换为 LaTeX 或 HTML 格式。
- 自动检测扫描 PDF 和乱码 PDF,并启用 OCR 功能。
- OCR 支持 84 种语言的检测和识别。
- 支持多种输出格式,例如多模态和 NLP Markdown、按阅读顺序排列的 JSON 以及丰富的中间格式。
- 提供多种可视化选项,包括布局可视化和跨度可视化,以便高效确认输出质量。
- 兼容 CPU 和 GPU 环境。
- 兼容 Windows、Linux 和 Mac 平台。
MinerU 确实是一个可以将 PDF 转换为机器可读格式的工具(如 markdown、json)。它支持各种功能,包括表格识别、段落拼接、跨栏跨页处理等,也提供了 OCR 支持和多语言识别。这些功能表明它是一个强大的 PDF 处理工具。
从文档中的 "快速开始" 和 "使用方式" 部分可以看出,这个软件是通过命令行或 API 进行操作的,而不是通过一个单独的可执行文件。你可以根据文档里的步骤进行安装和运行。
如果你希望读取 PDF 文件并进行转换,以下是你需要的基本步骤:- 安装 Python:确认你已经在 Windows 系统上安装了 Python。
- 安装依赖:根据 README 中的说明,运行以下命令安装所需的依赖:
bash
pip install -r requirements.txt - 下载模型:项目中提到需要下载相关模型。根据 README 的提示,下载并配置 PDF-Extract-Kit 和其他模型,以确保能够使用 OCR 和公式解析功能。
- 运行程序:通常在命令行中,你可以使用类似以下命令来转换 PDF 文件:
bash
python main_script.py --input yourfile.pdf --output output.json
你可以根据项目的 快速开始 部分调整命令行选项。 - OCR 支持:如果 PDF 是扫描版或包含图片,OCR(光学字符识别)功能将会启用,自动识别图像中的文字。
这些步骤应该可以帮助你开始在 Windows 系统上运行这个程序并处理 PDF 文件。如果遇到问题,可以查阅项目的 "Known Issues" 和 "FAQ" 部分,或者向开发者提交问题。
下载地址:
https://github.com/opendatalab/MinerU
MinerU is a tool that converts PDFs into machine-readable formats (e.g., markdown, JSON), enabling easy extraction into various formats. MinerU was developed during the pre-training process of InternLM. Our focus is on solving symbol conversion issues in scientific literature, aiming to contribute to technological progress in the era of large models. Compared to well-known commercial products, MinerU is still in its early stages. If you encounter any issues or if the results are not as expected, please submit an issue on our platform and attach the relevant PDF.
Key Features:
- Removes headers, footers, footnotes, page numbers, etc., to ensure semantic coherence.
- Outputs text in a human-readable order, suitable for single-column, multi-column, and complex layouts.
- Preserves the structure of the original document, including headings, paragraphs, lists, etc.
- Extracts images, image descriptions, tables, table titles, and footnotes.
- Automatically recognizes and converts formulas in the document to LaTeX format.
- Automatically recognizes and converts tables in the document to LaTeX or HTML format.
- Automatically detects scanned PDFs and garbled PDFs, enabling OCR functionality.
- OCR supports detection and recognition of 84 languages.
- Supports multiple output formats, such as multimodal and NLP Markdown, JSON sorted by reading order, and rich intermediate formats.
- Provides various visualization options, including layout visualization and span visualization, for efficient confirmation of output quality.
- Compatible with both CPU and GPU environments.
- Compatible with Windows, Linux, and Mac platforms.
|
|