
Logics-Parsing – 阿里開(kāi)源的端到端文檔解析模型
聲明:該文章來(lái)自(AI工具集)版權(quán)由原作者所有,K2OS渲染引擎提供網(wǎng)頁(yè)加速服務(wù)。
Logics-Parsing是什么
Logics-Parsing 是阿里巴巴開(kāi)源的端到端文檔解析模型,基于 Qwen2.5-VL-7B。通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化文檔布局分析和閱讀順序推斷,能將 PDF 圖像轉(zhuǎn)換為結(jié)構(gòu)化 HTML 輸出,支持多種內(nèi)容類(lèi)型,包括普通文本、數(shù)學(xué)公式、表格、化學(xué)公式和手寫(xiě)中文字符。采用兩階段訓(xùn)練:第一階段是監(jiān)督微調(diào),學(xué)習(xí)生成結(jié)構(gòu)化輸出;第二階段是布局為中心的強(qiáng)化學(xué)習(xí),優(yōu)化文本準(zhǔn)確性、布局定位和閱讀順序。在 LogicsParsingBench 基準(zhǔn)測(cè)試中表現(xiàn)出色,尤其在純文本、化學(xué)結(jié)構(gòu)和手寫(xiě)內(nèi)容解析方面優(yōu)于其他方法。
Logics-Parsing的主要功能
- 端到端文檔解析:Logics-Parsing 能將 PDF 圖像直接轉(zhuǎn)換為結(jié)構(gòu)化的 HTML 輸出,支持多種內(nèi)容類(lèi)型,包括普通文本、數(shù)學(xué)公式、表格、化學(xué)公式和手寫(xiě)中文字符。
- 強(qiáng)化學(xué)習(xí)優(yōu)化:采用兩階段訓(xùn)練方法,第一階段通過(guò)監(jiān)督微調(diào)學(xué)習(xí)生成結(jié)構(gòu)化輸出,第二階段以布局為中心的強(qiáng)化學(xué)習(xí)優(yōu)化文本準(zhǔn)確性、布局定位和閱讀順序。
- 高性能表現(xiàn):在 LogicsParsingBench 基準(zhǔn)測(cè)試中,Logics-Parsing 在多個(gè)文檔類(lèi)型上表現(xiàn)出色,尤其在純文本、化學(xué)結(jié)構(gòu)和手寫(xiě)內(nèi)容解析方面優(yōu)于其他方法。
- 應(yīng)用場(chǎng)景廣泛:適用于學(xué)術(shù)論文、復(fù)雜多欄文檔、報(bào)紙、海報(bào)等多種復(fù)雜文檔類(lèi)型,能處理多欄排版、數(shù)學(xué)公式和化學(xué)結(jié)構(gòu)。
Logics-Parsing的技術(shù)原理
- 基于 Qwen2.5-VL-7B:Logics-Parsing 以強(qiáng)大的 Qwen2.5-VL-7B 模型為基礎(chǔ),繼承了其在視覺(jué)和語(yǔ)言處理方面的優(yōu)勢(shì)。
- 兩階段訓(xùn)練:第一階段是監(jiān)督微調(diào),模型學(xué)習(xí)生成結(jié)構(gòu)化的 HTML 輸出;第二階段是布局為中心的強(qiáng)化學(xué)習(xí),通過(guò)文本準(zhǔn)確性、布局定位和閱讀順序三個(gè)獎(jiǎng)勵(lì)組件優(yōu)化模型。
- 強(qiáng)化學(xué)習(xí)優(yōu)化:通過(guò)強(qiáng)化學(xué)習(xí),模型能更好地理解文檔的布局和內(nèi)容的邏輯順序,生成更準(zhǔn)確的結(jié)構(gòu)化輸出。
- 結(jié)構(gòu)化 HTML 輸出:模型能將文檔圖像轉(zhuǎn)換為結(jié)構(gòu)化的 HTML 格式,保留文檔的邏輯結(jié)構(gòu),每個(gè)內(nèi)容塊都有類(lèi)別、邊界框坐標(biāo)和 OCR 文本標(biāo)簽。
- 高級(jí)內(nèi)容識(shí)別:模型能準(zhǔn)確識(shí)別復(fù)雜科學(xué)公式、化學(xué)結(jié)構(gòu)和手寫(xiě)中文字符,將化學(xué)結(jié)構(gòu)轉(zhuǎn)換為標(biāo)準(zhǔn)的 SMILES 格式。
- 自動(dòng)去除無(wú)關(guān)元素:模型能自動(dòng)識(shí)別并過(guò)濾掉頁(yè)眉、頁(yè)腳等無(wú)關(guān)元素,專(zhuān)注于文檔的核心內(nèi)容。
Logics-Parsing的項(xiàng)目地址
Github倉(cāng)庫(kù):https://github.com/alibaba/Logics-Parsing
HuggingFace模型庫(kù):https://huggingface.co/Logics-MLLM/Logics-Parsing
arXiv技術(shù)論文:https://arxiv.org/pdf/2509.19760
Logics-Parsing的應(yīng)用場(chǎng)景
- 學(xué)術(shù)論文解析:能處理包含多欄排版、數(shù)學(xué)公式和化學(xué)結(jié)構(gòu)的學(xué)術(shù)論文,準(zhǔn)確提取關(guān)鍵信息并生成結(jié)構(gòu)化輸出。
- 復(fù)雜多欄文檔:適用于報(bào)紙、海報(bào)等復(fù)雜多欄文檔,有效解析布局并提取內(nèi)容。
- 手寫(xiě)文檔識(shí)別:支持手寫(xiě)中文字符的識(shí)別和解析,可應(yīng)用于手寫(xiě)筆記、試卷等場(chǎng)景。
- 化學(xué)文檔處理:準(zhǔn)確識(shí)別化學(xué)公式并轉(zhuǎn)換為標(biāo)準(zhǔn) SMILES 格式,適用于化學(xué)領(lǐng)域的文檔解析。
- 數(shù)學(xué)文檔解析:能處理包含復(fù)雜數(shù)學(xué)公式的文檔,如數(shù)學(xué)教材、科研論文等,提供準(zhǔn)確的公式解析。
- 多語(yǔ)言文檔支持:支持多種語(yǔ)言的文檔解析,適用于國(guó)際化文檔處理場(chǎng)景。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/
- 1 文明之光照亮復(fù)興之路 7903983
- 2 王者榮耀崩了 7808723
- 3 今年寒露不一般 冬天將更冷 7713218
- 4 今天鐵路預(yù)計(jì)發(fā)送旅客2175萬(wàn)人次 7616685
- 5 全固態(tài)金屬鋰電池 中國(guó)有重要突破 7521405
- 6 游客景區(qū)玩滑梯時(shí) 有蛇“從天而降” 7423822
- 7 小伙模仿濟(jì)公爆火 是游本昌親傳弟子 7333981
- 8 美國(guó)駐華大使館:沒(méi)錢(qián)了 停更 7236411
- 9 節(jié)后上班前三天不宜安排高強(qiáng)度工作 7136656
- 10 大學(xué)生國(guó)慶8天假掰了7天半玉米 7040544