AI相关
- AI实践
  - 大模型微调
  - 大模型知识蒸馏
- AI工具
  - DeepSeek
  - HuggingFace
  - Jules
- AI技术
  - A2A
  - Agent
  - Assistants API
  - DeepResearch
  - Embedding
  - Function Call
  - MCP
  - RAG
  - 提示词工程
- AI框架
  - ADK
  - DIFY
    - DIFY父子模式
    - DIFY环境搭建
  - GraphRAG
  - LangChain4j
  - LangChain
  - LangFlow
  - LangGraph
  - LlamaIndex
  - Spring AI
    - MCP集成本地文件
    - 集成DeepSeek
- AI神器
  - Docling
- 大模型基础

Java框架
- Apollo
- Aviator
- Caffeine
- Canal
- Drools
- Guava
- MyBatis
- Nacos
- Seata
- Sentinel
- ShardingSphere

Python框架
- Conda
- JUPYTER

Spring框架
- Eureka
- Feign
- Hystrix
- Spring

Web3相关
- MetaMask
- 以太坊
- 区块链

业务相关
- 广告业务
- 推荐业务
- 用户增长

中间件
- Dubbo
- Elasticsearch
- Netty
- Solr
- ZooKeeper

代码整洁
- CodeReview
- Redis开发规范
- 代码重构

公众号文章
- AI文章
  - AI大模型如何提高上下文长度
  - AI大模型的Token到底指什么
  - AI提示词万能公式
  - DeepSeekV3低成本做出顶级AI
  - 为什么AI大模型训练离不开GPU
  - 免费开源模型大超市HuggingFace
  - 如何给AI大模型喂数据
  - 简单解释什么是AI智能体
- Disruptor框架
- ElasticSearch深度分页
- KAFKA高可用
- MySQL锁表
- Redis延时队列
- RocketMQ事务消息
- RocketMQ延时消息
- RocketMQ消息重试
- RocketMQ负载均衡
- RocketMQ顺序消息
- Tomcat线程池
- Web实时通信
- 动态代理
- 幂等性设计
- 架构设计之CQRS
- 正则表达式
- 泛型策略模式
- 缓存一致性
- 缓存常见问题
- 领域设计之仓储模式
- 领域设计之聚合

前端相关
- CSS
- React
- Vue
- 小程序

基础知识
- JVM
- 分布式
- 并发编程
- 爬虫知识
- 设计模式

大数据相关
- DataX
- DolphinScheduler
- Doris
- Flink
- Hadoop
- Hive
- SQOOP
- Spark
- 大数据基础
- 数据血缘

学习专栏
- 22讲通关Go语言
- 23讲搞定后台架构实战
- AI相关
  - AI大模型项目落地实战
  - LangChain实战课
  - RAG快速开发实战
  - 程序员的AI开发第一课
- RPC实战与核心原理
- 从0开始学大数据
- 从0开始学架构
- 代码之丑
- 大厂晋升指南
- 如何成为学习高手
- 如何设计一个秒杀系统
- 架构设计面试精讲
- 程序员工作法
- 给程序员的职场情商课
- 高并发架构实战课

学习书籍
- AI书籍
  - 零基础学机器学习
    - 机器学习的家族谱
- 人物书籍
  - 我在北京送快递
- 历史书籍
  - 孙子兵法
  - 明朝那些事儿
- 心理书籍
  - 认知觉醒
- 技能书籍
  - 英语魔法师之语法俱乐部
  - 高效能人士的七个习惯
- 文学书籍
  - 你当像鸟飞往你的山
  - 当下的力量
  - 活着
- 编程书籍
  - Effective Java
  - HBase不睡觉书
  - Java并发编程实战
  - Java并发编程的艺术
  - Java开发手册
  - MySQL技术内幕
  - Redis设计与实现
  - 人月神话
  - 亿级流量网站架构核心技术
  - 从零开始读懂Web3
  - 代码整洁之道
  - 大型网站技术架构
  - 大型网站系统
  - 深入理解Java虚拟机
  - 程序员修炼之道
  - 程序员必读之软件架构
  - 重构改善既有代码的设计

实战相关
- AI实战
  - 商品检索
  - 本地RAG系统
  - 聊天记忆
- CompletableFuture
- Spring Event
- SpringAI
- Spring

工具相关
- Anki
- Arthas
- Hexo
- Maven
- Mermaid
- PlantUML

成长相关
- 2025年度计划
- 免费资料
- 工作相关
- 技术学习
- 面试相关

数据库
- ClickHouse
- DRDS
- HBase
- MongoDB
- MySQL
- Redis
- SQLite
- TIDB

服务器
- 1Panel
- Docker
- Nginx
- Tomcat
- 运维知识

架构相关
- DDD
- 架构图
- 架构学习
- 系统保障
- 系统性能
- 系统设计

框架相关
- Antlr4
- JWT
- LiteFlow
- MQTT
- RPC框架
- Redisson
- SSE
- Thrift
- TransmittableThreadLocal
- WebRTC
- WebSocket
- XXLJOB

消息队列
- KAFKA
- RabbitMQ
- RocketMQ

源码相关
- KAFKA
- RocketMQ
- Spring AI
- SpringBoot
- Spring

系统设计
- 12306系统
- 优惠券系统
- 广告系统
- 推荐系统
- 榜单系统
- 消息队列
- 登录系统
- 短链系统
- 社区系统
- 秒杀系统
- 红包系统
- 订单系统

编程语言
- Go基础
- Java基础
- Python基础

计算机基础
- Linux
- 操作系统
- 数据结构
- 网络基础

认知相关
- 保持人间清醒
- 停止比较
- 利己心态
- 告别胡思乱想
- 如何自律
- 学习冥想
- 摆脱内耗
- 缓解负面情绪
- 走出孤独

面试题相关
- JVM面试真题
- MySQL面试真题
- Redis面试真题
- 并发编程面试真题
- 操作系统面试真题
- 数据结构面试真题
- 计算机网络面试真题

Docling

月伴飞鱼 2025-05-23 18:38:51

AI相关 > AI神器

赏

支付宝打赏

微信打赏

如果文章对你有帮助，欢迎点击上方按钮打赏作者！

Docling是一款开源的文档解析与转换工具，它能将各种复杂的文档格式（如PDF、DOCX、XLSX、HTML、图片等）一键解析。

自动转化为结构化的JSON、Markdown或HTML格式。

为什么Docling如此特别？

极致的格式兼容力：

无论是多栏排版的年度报告、带有嵌入图片和表格的技术手册，还是扫描版的发票和合同。

Docling都能精准识别文本、图片、表格、代码块、数学公式等元素，甚至还能理解页面布局和阅读顺序。

超强的PDF解析能力：

PDF一直是AI界的硬骨头，因为其内容类型混杂且结构复杂。

Docling不仅能把多页表格还原成一个整体，还能识别公式、代码和图片，最大程度保留原始语义和上下文。

统一的文档表达格式：

Docling创新性地提出了DoclingDocument格式，无论原始文档来自何种格式，最终都能转换成标准化的结构对象。

灵活的导出与本地执行：

用户可根据需求选择导出为Markdown、HTML或无损JSON格式。

更重要的是，Docling支持本地离线运行，数据隐私和安全性无忧，特别适合处理敏感或内网环境下的企业数据。

与主流AI框架无缝集成：

Docling已深度集成LangChain、LlamaIndex、Crew AI、Haystack等热门生成式AI生态。

开发者只需几行代码，即可将文档知识注入AI智能体，实现自动问答、内容生成、知识检索等创新场景。

安装：

pip install litellm google-generativeai docling

基础用法：

from docling.document_converter import DocumentConverter

source = "./test/docling.pdf"  # document per local path or URL
output_path = "./output/docling.md"  # 修改为你希望保存的路径

converter = DocumentConverter()
result = converter.convert(source)

markdown_text = result.document.export_to_markdown()

# 保存到本地 Markdown 文件
with open(output_path, "w", encoding="utf-8") as f:
    f.write(markdown_text)

print(f"Markdown 已保存到：{output_path}")

赏

支付宝打赏

微信打赏

如果文章对你有帮助，欢迎点击上方按钮打赏作者！