<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>PDF解析 on KnightLi的博客</title>
        <link>https://knightli.com/zh-tw/tags/pdf%E8%A7%A3%E6%9E%90/</link>
        <description>Recent content in PDF解析 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Sat, 06 Jun 2026 22:26:00 +0800</lastBuildDate><atom:link href="https://knightli.com/zh-tw/tags/pdf%E8%A7%A3%E6%9E%90/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>PaddleOCR 怎麼用？把 PDF 和圖片變成 AI 可用結構化數據</title>
        <link>https://knightli.com/zh-tw/2026/06/06/paddleocr-document-parsing-rag/</link>
        <pubDate>Sat, 06 Jun 2026 22:26:00 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/06/06/paddleocr-document-parsing-rag/</guid>
        <description>&lt;p&gt;&lt;code&gt;PaddlePaddle/PaddleOCR&lt;/code&gt; 是一個成熟的 OCR 和文件解析工具。項目描述已經很貼近 AI 場景：把 PDF 或圖片文件變成結構化數據，連接圖片/PDF 與 LLM，支援 100+ 語言。&lt;/p&gt;
&lt;p&gt;如果你做 RAG、知識庫、票據辨識、PDF 解析或掃描件處理，OCR 是繞不開的前置環節。&lt;/p&gt;
&lt;h2 id=&#34;它能做什麼&#34;&gt;它能做什麼
&lt;/h2&gt;&lt;p&gt;PaddleOCR 適合：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;圖片文字辨識；&lt;/li&gt;
&lt;li&gt;PDF 文件解析；&lt;/li&gt;
&lt;li&gt;表格和版面結構提取；&lt;/li&gt;
&lt;li&gt;多語言 OCR；&lt;/li&gt;
&lt;li&gt;文檔轉 Markdown；&lt;/li&gt;
&lt;li&gt;RAG 前的資料清洗；&lt;/li&gt;
&lt;li&gt;票據、證件、合約、論文等文件處理。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;它不是單純“識別幾行文字”，而是越來越偏向完整文件理解鏈路。&lt;/p&gt;
&lt;h2 id=&#34;為什麼對-llm-重要&#34;&gt;為什麼對 LLM 重要
&lt;/h2&gt;&lt;p&gt;LLM 本身不擅長直接處理複雜掃描件。即使多模態模型能看圖，批量文件處理仍需要穩定、可追蹤、可結構化的 OCR 管線。&lt;/p&gt;
&lt;p&gt;PaddleOCR 這類工具可以先把文件變成：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;文字；&lt;/li&gt;
&lt;li&gt;座標；&lt;/li&gt;
&lt;li&gt;表格；&lt;/li&gt;
&lt;li&gt;段落；&lt;/li&gt;
&lt;li&gt;版面結構；&lt;/li&gt;
&lt;li&gt;Markdown 或結構化 JSON。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;然後再交給 LLM 做總結、問答、抽取和校驗。&lt;/p&gt;
&lt;h2 id=&#34;使用時要注意什麼&#34;&gt;使用時要注意什麼
&lt;/h2&gt;&lt;p&gt;OCR 的品質很依賴輸入：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;掃描清晰度；&lt;/li&gt;
&lt;li&gt;傾斜和噪音；&lt;/li&gt;
&lt;li&gt;表格複雜度；&lt;/li&gt;
&lt;li&gt;手寫字；&lt;/li&gt;
&lt;li&gt;多欄排版；&lt;/li&gt;
&lt;li&gt;專業術語；&lt;/li&gt;
&lt;li&gt;語言混排。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;生產系統裡不要只看辨識率，還要看後處理、人工校驗和錯誤可追蹤性。&lt;/p&gt;
&lt;h2 id=&#34;小結&#34;&gt;小結
&lt;/h2&gt;&lt;p&gt;PaddleOCR 是 AI 文件處理連結裡的關鍵工具。對中文和多語言文檔場景尤其值得關注。&lt;/p&gt;
&lt;p&gt;如果你要做 PDF RAG、文件知識庫或掃描件自動化，先把 OCR 和版面解析做好，比直接把圖片丟給模型更穩定。&lt;/p&gt;
&lt;h2 id=&#34;參考來源&#34;&gt;參考來源
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/PaddlePaddle/PaddleOCR&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;PaddlePaddle/PaddleOCR - GitHub&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
