<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>文档处理 on KnightLi的博客</title>
        <link>https://knightli.com/tags/%E6%96%87%E6%A1%A3%E5%A4%84%E7%90%86/</link>
        <description>Recent content in 文档处理 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Sat, 06 Jun 2026 22:26:00 +0800</lastBuildDate><atom:link href="https://knightli.com/tags/%E6%96%87%E6%A1%A3%E5%A4%84%E7%90%86/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>PaddleOCR 怎么用？把 PDF 和图片变成 AI 可用结构化数据</title>
        <link>https://knightli.com/2026/06/06/paddleocr-document-parsing-rag/</link>
        <pubDate>Sat, 06 Jun 2026 22:26:00 +0800</pubDate>
        
        <guid>https://knightli.com/2026/06/06/paddleocr-document-parsing-rag/</guid>
        <description>&lt;p&gt;&lt;code&gt;PaddlePaddle/PaddleOCR&lt;/code&gt; 是一个成熟的 OCR 和文档解析工具。项目描述已经很贴近 AI 场景：把 PDF 或图片文档变成结构化数据，连接图片/PDF 与 LLM，支持 100+ 语言。&lt;/p&gt;
&lt;p&gt;如果你做 RAG、知识库、票据识别、PDF 解析或扫描件处理，OCR 是绕不开的前置环节。&lt;/p&gt;
&lt;h2 id=&#34;它能做什么&#34;&gt;它能做什么
&lt;/h2&gt;&lt;p&gt;PaddleOCR 适合：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;图片文字识别；&lt;/li&gt;
&lt;li&gt;PDF 文档解析；&lt;/li&gt;
&lt;li&gt;表格和版面结构提取；&lt;/li&gt;
&lt;li&gt;多语言 OCR；&lt;/li&gt;
&lt;li&gt;文档转 Markdown；&lt;/li&gt;
&lt;li&gt;RAG 前的数据清洗；&lt;/li&gt;
&lt;li&gt;票据、证件、合同、论文等文档处理。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;它不是单纯“识别几行文字”，而是越来越偏向完整文档理解链路。&lt;/p&gt;
&lt;h2 id=&#34;为什么对-llm-重要&#34;&gt;为什么对 LLM 重要
&lt;/h2&gt;&lt;p&gt;LLM 本身不擅长直接处理复杂扫描件。即使多模态模型能看图，批量文档处理仍然需要稳定、可追踪、可结构化的 OCR 管线。&lt;/p&gt;
&lt;p&gt;PaddleOCR 这类工具可以先把文档变成：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;文本；&lt;/li&gt;
&lt;li&gt;坐标；&lt;/li&gt;
&lt;li&gt;表格；&lt;/li&gt;
&lt;li&gt;段落；&lt;/li&gt;
&lt;li&gt;版面结构；&lt;/li&gt;
&lt;li&gt;Markdown 或结构化 JSON。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;然后再交给 LLM 做总结、问答、抽取和校验。&lt;/p&gt;
&lt;h2 id=&#34;使用时要注意什么&#34;&gt;使用时要注意什么
&lt;/h2&gt;&lt;p&gt;OCR 的质量很依赖输入：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;扫描清晰度；&lt;/li&gt;
&lt;li&gt;倾斜和噪声；&lt;/li&gt;
&lt;li&gt;表格复杂度；&lt;/li&gt;
&lt;li&gt;手写字；&lt;/li&gt;
&lt;li&gt;多栏排版；&lt;/li&gt;
&lt;li&gt;专业术语；&lt;/li&gt;
&lt;li&gt;语言混排。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;生产系统里不要只看识别率，还要看后处理、人工校验和错误可追踪性。&lt;/p&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;PaddleOCR 是 AI 文档处理链路里的关键工具。对中文和多语言文档场景尤其值得关注。&lt;/p&gt;
&lt;p&gt;如果你要做 PDF RAG、文档知识库或扫描件自动化，先把 OCR 和版面解析做好，比直接把图片丢给模型更稳定。&lt;/p&gt;
&lt;h2 id=&#34;参考来源&#34;&gt;参考来源
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/PaddlePaddle/PaddleOCR&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;PaddlePaddle/PaddleOCR - GitHub&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
