Docling是一款开源的文档解析与转换工具,它能将各种复杂的文档格式(如PDF、DOCX、XLSX、HTML、图片等)一键解析。
- 自动转化为结构化的JSON、Markdown或HTML格式。
为什么Docling如此特别?
极致的格式兼容力:
无论是多栏排版的年度报告、带有嵌入图片和表格的技术手册,还是扫描版的发票和合同。
Docling都能精准识别文本、图片、表格、代码块、数学公式等元素,甚至还能理解页面布局和阅读顺序。
超强的PDF解析能力:
PDF一直是AI界的硬骨头,因为其内容类型混杂且结构复杂。
Docling不仅能把多页表格还原成一个整体,还能识别公式、代码和图片,最大程度保留原始语义和上下文。
统一的文档表达格式:
Docling创新性地提出了DoclingDocument格式,无论原始文档来自何种格式,最终都能转换成标准化的结构对象。
灵活的导出与本地执行:
用户可根据需求选择导出为Markdown、HTML或无损JSON格式。
更重要的是,Docling支持本地离线运行,数据隐私和安全性无忧,特别适合处理敏感或内网环境下的企业数据。
与主流AI框架无缝集成:
Docling已深度集成LangChain、LlamaIndex、Crew AI、Haystack等热门生成式AI生态。
开发者只需几行代码,即可将文档知识注入AI智能体,实现自动问答、内容生成、知识检索等创新场景。
安装:
pip install litellm google-generativeai docling
基础用法:
from docling.document_converter import DocumentConverter
source = "./test/docling.pdf" # document per local path or URL
output_path = "./output/docling.md" # 修改为你希望保存的路径
converter = DocumentConverter()
result = converter.convert(source)
markdown_text = result.document.export_to_markdown()
# 保存到本地 Markdown 文件
with open(output_path, "w", encoding="utf-8") as f:
f.write(markdown_text)
print(f"Markdown 已保存到:{output_path}")