
MonkeyOCR用于文檔解析OCR的項(xiàng)目
MonkeyOCR 是一個(gè)用于文檔解析OCR的項(xiàng)目,采用結(jié)構(gòu) - 識(shí)別 - 關(guān)系三元組范式。它支持英文和中文文檔解析。能處理 PDF 和圖像文件,輸出多種格式結(jié)果。還可通過(guò)特定方式更新配置文件以使用不同模型。
DEMO
支持中英文
公式
表格
報(bào)紙
財(cái)務(wù)報(bào)告
技術(shù)特點(diǎn)
創(chuàng)新的 SRR 三元組范式:將文檔解析抽象為 “在哪里”(結(jié)構(gòu))、“是什么”(識(shí)別)和 “如何組織”(關(guān)系)三個(gè)基本問(wèn)題,對(duì)應(yīng)布局分析、內(nèi)容識(shí)別和邏輯排序,平衡了準(zhǔn)確性和速度,實(shí)現(xiàn)高效、可擴(kuò)展的處理而不犧牲精度。
三階段處理流程:
結(jié)構(gòu)檢測(cè):使用基于 YOLO 的文檔布局檢測(cè)器,準(zhǔn)確分割文本塊、表格、公式、圖像等語(yǔ)義區(qū)域。
塊級(jí)內(nèi)容識(shí)別:對(duì)每個(gè)檢測(cè)到的區(qū)域并行進(jìn)行內(nèi)容識(shí)別,利用統(tǒng)一的大型多模態(tài)模型(LMM),避免傳統(tǒng)管道的錯(cuò)誤傳播。
關(guān)系預(yù)測(cè):通過(guò)專(zhuān)用的塊級(jí)閱讀順序模型,推斷檢測(cè)元素之間的邏輯閱讀順序,重建其邏輯和語(yǔ)義連接。
大規(guī)模多樣化數(shù)據(jù)集:開(kāi)發(fā)了 MonkeyDoc 數(shù)據(jù)集,包含 390 萬(wàn)個(gè)塊級(jí)實(shí)例,覆蓋 5 個(gè)核心文檔解析任務(wù)和 10 多種文檔類(lèi)型,全面支持中英文。
性能表現(xiàn):
與 MinerU 相比,在中英文文檔上平均提升 5.1%,公式識(shí)別提升 15.0%,表格識(shí)別提升 8.6%。
3B 參數(shù)模型在英文文檔解析任務(wù)上超越更大的模型,如 Qwen2.5-VL(72B)和 Gemini 2.5 Pro。
多頁(yè)文檔處理速度達(dá) 0.84 頁(yè) / 秒,優(yōu)于 MinerU(0.65)和 Qwen2.5-VL-7B(0.12)。
項(xiàng)目鏈接
https://github.com/Yuliang-Liu/MonkeyOCR
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 中美完全可以相互成就、共同繁榮 7904034
- 2 加沙已變“死城” 7809358
- 3 暴雨中臺(tái)下只剩1名觀眾 演員仍開(kāi)演 7714379
- 4 近距離感受“大國(guó)重器” 7618832
- 5 美國(guó)大豆中國(guó)訂單量仍為零 7519722
- 6 試管嬰兒患腎病 父母要求醫(yī)院擔(dān)全責(zé) 7424149
- 7 女子婚后起訴父母返還18萬(wàn)彩禮 7329461
- 8 委內(nèi)瑞拉:美國(guó)“不宣而戰(zhàn)” 7234348
- 9 金價(jià)飆升 有非法淘金人井下生活兩年 7135491
- 10 網(wǎng)紅“戶(hù)晨風(fēng)”多平臺(tái)賬號(hào)被封 7045475