Docling

月伴飞鱼 2025-05-23 18:38:51
AI相关 > AI神器
支付宝打赏 微信打赏

如果文章对你有帮助,欢迎点击上方按钮打赏作者!

Docling是一款开源的文档解析与转换工具,它能将各种复杂的文档格式(如PDF、DOCX、XLSX、HTML、图片等)一键解析。

  • 自动转化为结构化的JSON、Markdown或HTML格式。

为什么Docling如此特别?

极致的格式兼容力

无论是多栏排版的年度报告、带有嵌入图片和表格的技术手册,还是扫描版的发票和合同。

Docling都能精准识别文本、图片、表格、代码块、数学公式等元素,甚至还能理解页面布局和阅读顺序。

超强的PDF解析能力

PDF一直是AI界的硬骨头,因为其内容类型混杂且结构复杂。

Docling不仅能把多页表格还原成一个整体,还能识别公式、代码和图片,最大程度保留原始语义和上下文。

统一的文档表达格式

Docling创新性地提出了DoclingDocument格式,无论原始文档来自何种格式,最终都能转换成标准化的结构对象。

灵活的导出与本地执行

用户可根据需求选择导出为Markdown、HTML或无损JSON格式。

更重要的是,Docling支持本地离线运行,数据隐私和安全性无忧,特别适合处理敏感或内网环境下的企业数据。

与主流AI框架无缝集成

Docling已深度集成LangChain、LlamaIndex、Crew AI、Haystack等热门生成式AI生态。

开发者只需几行代码,即可将文档知识注入AI智能体,实现自动问答、内容生成、知识检索等创新场景。

安装:

pip install litellm google-generativeai docling

基础用法:

from docling.document_converter import DocumentConverter

source = "./test/docling.pdf"  # document per local path or URL
output_path = "./output/docling.md"  # 修改为你希望保存的路径

converter = DocumentConverter()
result = converter.convert(source)

markdown_text = result.document.export_to_markdown()

# 保存到本地 Markdown 文件
with open(output_path, "w", encoding="utf-8") as f:
    f.write(markdown_text)

print(f"Markdown 已保存到:{output_path}")
支付宝打赏 微信打赏

如果文章对你有帮助,欢迎点击上方按钮打赏作者!