Marker
Marker可以快速且准确地将PDF转换为markdown格式。
- 支持多种文档类型(针对书籍和科学论文进行了优化)
- 支持所有语言
- 移除页眉/页脚/其他杂质
- 格式化表格和代码块
- 提取并保存图像以及markdown
- 将大多数方程转换为latex
- 支持在GPU、CPU或MPS上运行
工作原理
Marker是一个由深度学习模型组成的管道:
- 提取文本,必要时进行OCR处理(启发式算法,surya,tesseract)
- 检测页面布局并找到阅读顺序(surya)
- 清理和格式化每个块(启发式算法,texify)
- 组合块并后处理完整文本(启发式算法,pdf_postprocessor)
它仅在必要时使用模型,这提高了速度和准确性。
示例
PDF文档 类型 Marker输出 Nougat输出 Think Python 教科书 查看 查看 Think OS 教科书 查看 查看 Switch Transformers arXiv论文 查看 查看 Multi-column CNN arXiv论文 查看 查看
还没有评论,来说两句吧...