百度開源 Unlimited-OCR 工具，實現長文件「一鏡到底」解析

分類: AI 新品報導發布時間: 2026/06/24 14:00

百度近日在 GitHub 上正式開源 Unlimited-OCR 專案，宣稱將推動文件 OCR 技術進入「一鏡到底」（One-shot Long-horizon Parsing）的新時代。這款工具以 DeepSeek-OCR 為基礎，專注於一次性處理長文件、多頁 PDF 或複雜排版文件，適合企業文件自動化、學術論文解析與數位典藏等應用。

主要特色

長文件處理能力：支援單次輸入長達數萬 token 的文件解析，減少傳統 OCR 需要分頁處理的繁瑣步驟。
多格式支援：可直接處理單張圖片、多張圖片或完整 PDF 文件。
開源與易用：基於 Hugging Face Transformers 與 SGLang 框架，提供完整 Python 範例。
模型優勢：在複雜排版、表格、公式與手寫文字辨識上表現優異。

該專案已於 2026 年 6 月 23 日同步發布技術論文（arXiv），並在 ModelScope 平台提供模型下載。
如何下載與安裝

clone專案：

git clone https://github.com/baidu/Unlimited-OCR.git 
cd Unlimited-OCR

使用 Transformers（推薦 NVIDIA GPU）：
需要 Python 3.12+ 與 CUDA 12.9 環境，安裝依賴套件：

pip install torch torchvision transformers Pillow matplotlib einops addict easydict pymupdf psutil

使用 SGLang（高效推論）：
先安裝本地 wheel 檔案，再安裝相關依賴。

Python 串接範例

單張圖片處理

from transformers import AutoModel, AutoTokenizer 
import torch 
 
model_name = 'baidu/Unlimited-OCR' 
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) 
model = AutoModel.from_pretrained( 
 model_name, 
 trust_remote_code=True, 
 use_safetensors=True, 
 torch_dtype=torch.bfloat16 
).eval().cuda() 
 
model.infer( 
 tokenizer, 
 prompt='document parsing.', 
 image_file='your_image.jpg', 
 output_path='output_dir', 
 base_size=1024, image_size=640, crop_mode=True, 
 max_length=32768, 
 save_results=True 
)

多頁 PDF 處理

import fitz # PyMuPDF 
import tempfile, os 
 
def pdf_to_images(pdf_path, dpi=300): 
 doc = fitz.open(pdf_path) 
 tmp_dir = tempfile.mkdtemp(prefix='pdf_ocr_') 
 mat = fitz.Matrix(dpi / 72, dpi / 72) 
 paths = [] 
 for i, page in enumerate(doc): 
 out = os.path.join(tmp_dir, f'page_{i+1:04d}.png') 
 page.get_pixmap(matrix=mat).save(out) 
 paths.append(out) 
 doc.close() 
 return paths 
 
# 使用 infer_multi 處理 
model.infer_multi( 
 tokenizer, 
 prompt='Multi page parsing.', 
 image_files=pdf_to_images('your_doc.pdf', dpi=300), 
 output_path='output_dir', 
 image_size=1024, 
 max_length=32768, 
 save_results=True 
)

使用注意事項

硬體需求：建議使用具備充足 VRAM 的 NVIDIA GPU（至少 24GB 以上較佳），否則處理長文件時可能出現記憶體不足。
模型大小：完整模型較大，下載與載入需較長時間，建議使用 ModelScope 或 Hugging Face 快取機制。
授權與隱私：專案採用 MIT 授權，但處理的文件若涉及敏感資料，需注意隱私保護與合規問題。
效能優化：長文件處理時可調整 max_length、ngram_window 等參數以平衡速度與準確度。
更新頻率：專案尚在早期階段，建議定期檢查 GitHub 以取得最新版本與修正。

Unlimited-OCR 的推出，為開源 OCR 領域帶來重要進展，尤其適合需要處理大量複雜文件的企業與研究機構。開發者可透過 GitHub 取得完整程式碼與範例，加速導入自家工作流程。

參考來源：
GitHub 專案： https://github.com/baidu/Unlimited-OCR

市場快報

神腦年中慶開跑指定商品最高贈2500神腦幣 iPhone換電池最高省800元

燦坤3C家電年中慶開跑指定商品5折起滿額抽旅遊金

神腦國際攜手FutureDial打造全台首創手機健康管理中心

燦坤會員寵物卡週年慶寵物價商品54折起

BRITA 攜手《怪奇物語》女星米莉芭比布朗打造新世代喝水風潮

哈燒王 Hot3C

百度開源 Unlimited-OCR 工具，實現長文件「一鏡到底」解析

分類: AI 新品報導發布時間: 2026/06/24 14:00

相關文章:

⊙ [「擇法善思林之蘭室藏津」的緣起]

⊙ TPVL》奪冠後繼續補強！天鷹續約「舉球長青樹」盧清銓

⊙ 農業部率93廠商參加台北國際食品展打造台灣農產精品旗艦超市

⊙ 周勝考前妻為子周韋翰拉票不幸遭公車輾斃

⊙ 世足》狂轟濫炸換回寶貴進球！哥倫比亞2連勝晉級

⊙ 退休軍校心輔官罹漸凍症好友相伴力抗病魔

⊙ 協助教師處理校園濫訴問題教育部擬設縣市法律諮詢系統

⊙ 基隆4歲童獨留家中墜樓受傷家長恐受罰並接受親職教育

⊙ 國家歌劇院盛夏清涼解方 7月邀弦樂、芭蕾還有幻仙魔術

⊙ 世足》剛果門將神撲差點逼和強敵法籍教頭衷心讚賞

⊙ 出庭放棄上訴、盼直接延押 88會館負責人郭哲敏：讓我盡快服刑

⊙ 日職》徐若熙重返一軍先發計畫暫停原因曝光

⊙ 下屆台東縣議員席次不變 3鄉代表席次增減

⊙ 籃協遭爆只剩300萬可用謝典霖駁虧空：裡面的錢我們沒動過

⊙ 黃智賢虧哥哥像「大雄」黃偉哲台語先謝妹再拋金句

⊙ 宜蘭市開漳聖王顯「神蹟」？脫袍驚見鬍鬚垂腳踝修復師科學揭密

⊙ [擇法善思林之蘭室藏津]

市場快報

哈燒王 Hot3C

百度開源 Unlimited-OCR 工具，實現長文件「一鏡到底」解析

分類: AI 新品報導 發布時間: 2026/06/24 14:00

相關文章:

⊙ [「擇法善思林之蘭室藏津」的緣起]

⊙ TPVL》奪冠後繼續補強！天鷹續約「舉球長青樹」盧清銓

⊙ 農業部率93廠商參加台北國際食品展 打造台灣農產精品旗艦超市

⊙ 周勝考前妻為子周韋翰拉票 不幸遭公車輾斃

⊙ 世足》狂轟濫炸換回寶貴進球！ 哥倫比亞2連勝晉級

⊙ 退休軍校心輔官罹漸凍症 好友相伴力抗病魔

⊙ 協助教師處理校園濫訴問題 教育部擬設縣市法律諮詢系統

⊙ 基隆4歲童獨留家中墜樓受傷 家長恐受罰並接受親職教育

⊙ 國家歌劇院盛夏清涼解方 7月邀弦樂、芭蕾還有幻仙魔術

⊙ 世足》剛果門將神撲差點逼和強敵 法籍教頭衷心讚賞

⊙ 出庭放棄上訴、盼直接延押 88會館負責人郭哲敏：讓我盡快服刑

⊙ 日職》徐若熙重返一軍先發計畫暫停 原因曝光

⊙ 下屆台東縣議員席次不變 3鄉代表席次增減

⊙ 籃協遭爆只剩300萬可用 謝典霖駁虧空：裡面的錢我們沒動過

⊙ 黃智賢虧哥哥像「大雄」 黃偉哲台語先謝妹再拋金句

⊙ 宜蘭市開漳聖王顯「神蹟」？脫袍驚見鬍鬚垂腳踝 修復師科學揭密

⊙ [擇法善思林之蘭室藏津]

相關新聞

相關新聞

市場快報

分類: AI 新品報導發布時間: 2026/06/24 14:00

⊙ 農業部率93廠商參加台北國際食品展打造台灣農產精品旗艦超市

⊙ 周勝考前妻為子周韋翰拉票不幸遭公車輾斃

⊙ 世足》狂轟濫炸換回寶貴進球！哥倫比亞2連勝晉級

⊙ 退休軍校心輔官罹漸凍症好友相伴力抗病魔

⊙ 協助教師處理校園濫訴問題教育部擬設縣市法律諮詢系統

⊙ 基隆4歲童獨留家中墜樓受傷家長恐受罰並接受親職教育

⊙ 世足》剛果門將神撲差點逼和強敵法籍教頭衷心讚賞

⊙ 日職》徐若熙重返一軍先發計畫暫停原因曝光

⊙ 籃協遭爆只剩300萬可用謝典霖駁虧空：裡面的錢我們沒動過

⊙ 黃智賢虧哥哥像「大雄」黃偉哲台語先謝妹再拋金句

⊙ 宜蘭市開漳聖王顯「神蹟」？脫袍驚見鬍鬚垂腳踝修復師科學揭密