
MonkeyOCR用于文檔解析OCR的項目
聲明:該文章由作者(Lexie_Rose)發(fā)表,轉(zhuǎn)載此文章須經(jīng)作者同意并請附上出處(0XUCN)及本頁鏈接。。
MonkeyOCR 是一個用于文檔解析OCR的項目,采用結(jié)構(gòu) - 識別 - 關(guān)系三元組范式。它支持英文和中文文檔解析。能處理 PDF 和圖像文件,輸出多種格式結(jié)果。還可通過特定方式更新配置文件以使用不同模型。
DEMO
支持中英文
公式
表格
報紙
財務(wù)報告
技術(shù)特點
創(chuàng)新的 SRR 三元組范式:將文檔解析抽象為 “在哪里”(結(jié)構(gòu))、“是什么”(識別)和 “如何組織”(關(guān)系)三個基本問題,對應布局分析、內(nèi)容識別和邏輯排序,平衡了準確性和速度,實現(xiàn)高效、可擴展的處理而不犧牲精度。
三階段處理流程:
結(jié)構(gòu)檢測:使用基于 YOLO 的文檔布局檢測器,準確分割文本塊、表格、公式、圖像等語義區(qū)域。
塊級內(nèi)容識別:對每個檢測到的區(qū)域并行進行內(nèi)容識別,利用統(tǒng)一的大型多模態(tài)模型(LMM),避免傳統(tǒng)管道的錯誤傳播。
關(guān)系預測:通過專用的塊級閱讀順序模型,推斷檢測元素之間的邏輯閱讀順序,重建其邏輯和語義連接。
大規(guī)模多樣化數(shù)據(jù)集:開發(fā)了 MonkeyDoc 數(shù)據(jù)集,包含 390 萬個塊級實例,覆蓋 5 個核心文檔解析任務(wù)和 10 多種文檔類型,全面支持中英文。
性能表現(xiàn):
與 MinerU 相比,在中英文文檔上平均提升 5.1%,公式識別提升 15.0%,表格識別提升 8.6%。
3B 參數(shù)模型在英文文檔解析任務(wù)上超越更大的模型,如 Qwen2.5-VL(72B)和 Gemini 2.5 Pro。
多頁文檔處理速度達 0.84 頁 / 秒,優(yōu)于 MinerU(0.65)和 Qwen2.5-VL-7B(0.12)。
項目鏈接
https://github.com/Yuliang-Liu/MonkeyOCR
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/
- 1 看總書記關(guān)心的清潔能源這樣發(fā)電 7904396
- 2 今年最強臺風來襲 7808598
- 3 澳加英宣布承認巴勒斯坦國 7714287
- 4 長春航空展這些“首次”不要錯過 7618355
- 5 43歲二胎媽媽患阿爾茨海默病 7519740
- 6 iPhone 17橙色斜挎掛繩賣斷貨 7424752
- 7 女兒發(fā)現(xiàn)父親500多萬遺產(chǎn)用于保健 7328431
- 8 英國航母從南?!傲锪恕?/a> 7238021
- 9 女子花10萬云養(yǎng)豬生重病難退錢 7136265
- 10 三所“零近視”小學帶來的啟示 7047710