黄色网站入口国产美女,精品国产欧美另类一区,国产一区二区美女自慰,日日摸夜夜添无码国产

選擇你喜歡的標(biāo)簽
我們會(huì)為你匹配適合你的網(wǎng)址導(dǎo)航

    確認(rèn) 跳過

    跳過將刪除所有初始化信息

    您的位置:0XUCN > 資訊 > 智能
    新聞分類

    Gemma3最輕量化的LLM開源模型

    智能 PRO 作者:mollyredwolf 2025-05-28 02:22

    Google的Gemma系列開源模型迎來更新,發(fā)布了針對(duì)多模態(tài)、長(zhǎng)上下文優(yōu)化的 Gemma 3,27B 版本性能比肩Gemini-1.5-Pro:

    使用世界上最好的單加速器模型進(jìn)行構(gòu)建:?Gemma 3 以其尺寸提供最先進(jìn)的性能,在 LMArena 排行榜的初步人類偏好評(píng)估中勝過 Llama3-405B、DeepSeek-V3 和 o3-mini。這可以幫助您創(chuàng)建可安裝在單個(gè) GPU 或 TPU 主機(jī)上的引人入勝的用戶體驗(yàn)。

    以 140 種語言走向全球:構(gòu)建使用客戶語言的應(yīng)用程序。Gemma 3 提供對(duì)超過 35 種語言的開箱即用支持和對(duì)超過 140 種語言的預(yù)訓(xùn)練支持。

    打造具備高級(jí)文本和視覺推理能力的AI:輕松構(gòu)建分析圖片、文本、短視頻等應(yīng)用,開啟交互智能化新可能1。

    使用擴(kuò)展的上下文窗口處理復(fù)雜任務(wù):?Gemma 3 提供 128k 令牌上下文窗口,讓您的應(yīng)用程序處理和理解大量信息。

    使用函數(shù)調(diào)用創(chuàng)建 AI 驅(qū)動(dòng)的工作流程:?Gemma 3 支持函數(shù)調(diào)用和結(jié)構(gòu)化輸出,以幫助您自動(dòng)執(zhí)行任務(wù)并構(gòu)建代理體驗(yàn)。

    通過量化模型更快地實(shí)現(xiàn)高性能:?Gemma 3 引入了官方量化版本,減少了模型大小和計(jì)算要求,同時(shí)保持了高精度。

    Gemma 3 的背景和動(dòng)機(jī)

    發(fā)表時(shí)間:2025年3月(技術(shù)報(bào)告,非正式發(fā)表)。

    研究問題:在Gemma 2的基礎(chǔ)上,進(jìn)一步提升模型的性能,并增加多模態(tài)(圖像理解)、長(zhǎng)文本處理和多語言支持能力。

    核心目標(biāo)

    硬件適配性:在消費(fèi)級(jí)硬件(手機(jī)、筆記本)上高效運(yùn)行。

    性能提升:通過架構(gòu)改進(jìn)和訓(xùn)練優(yōu)化,使4B參數(shù)的指令調(diào)優(yōu)模型(Gemma3-4B-IT)性能接近Gemma2-27B-IT,27B模型(Gemma3-27B-IT)對(duì)標(biāo)Gemini-1.5-Pro。

    研究背景

    多模態(tài)融合的需求:現(xiàn)實(shí)世界的信息通常以多種形式存在(如文本、圖像等),如何讓模型理解和處理多模態(tài)信息成為一個(gè)重要的研究方向。

    長(zhǎng)文本處理的挑戰(zhàn):LLM在處理長(zhǎng)文本時(shí),面臨著計(jì)算復(fù)雜度高、信息丟失等問題。

    多語言支持的重要性:為了讓LLM更好地服務(wù)于全球用戶,需要提升其多語言處理能力。

    Gemma 3?的相關(guān)研究

    Gemma 2:Gemma 3是Gemma 2的升級(jí)版,Gemma 2在性能和效率上都有不錯(cuò)的表現(xiàn),但多模態(tài)、長(zhǎng)文本和多語言能力有待加強(qiáng)。

    Gemini系列模型:Gemma 3在設(shè)計(jì)上與Gemini系列模型密切相關(guān),但Gemini是規(guī)模更大的前沿模型,Gemma 3旨在實(shí)現(xiàn)與Gemini相近的性能,同時(shí)保持輕量化。

    SigLIP:Gemma 3采用了SigLIP視覺編碼器,但需要針對(duì)Gemma的特點(diǎn)進(jìn)行調(diào)整和優(yōu)化,以降低圖像處理的計(jì)算成本。

    LLaVA:Gemma 3借鑒了LLaVA的Pan & Scan方法,以支持處理任意分辨率的圖像,但需要在Gemma中進(jìn)行適配和改進(jìn)。

    其他長(zhǎng)文本處理方法:現(xiàn)有長(zhǎng)文本處理方法(如增加local attention layers)在降低KV緩存的內(nèi)存占用方面有一定效果,但可能會(huì)影響模型性能,需要在Gemma 3中進(jìn)行權(quán)衡。

    Gemma 3?的核心思路

    Gemma 3的核心思路是在Gemma 2的基礎(chǔ)上,通過以下方式提升模型性能并增加多模態(tài)、長(zhǎng)文本處理和多語言支持能力:

    多模態(tài)

    采用SigLIP視覺編碼器,將圖像轉(zhuǎn)換為token序列,使LLM能夠處理圖像信息。

    通過Pan & Scan方法,支持處理任意分辨率的圖像。

    長(zhǎng)文本處理

    增加上下文窗口大小到128K tokens(1B模型為32K)。

    采用局部/全局注意力混合結(jié)構(gòu),降低KV緩存的內(nèi)存占用。

    多語言支持

    使用與Gemini 2.0相同的tokenizer,更好地支持非英語語言。

    增加多語言訓(xùn)練數(shù)據(jù),并采用Unimax策略處理語言不平衡問題。

    知識(shí)蒸餾:使用知識(shí)蒸餾技術(shù),將大型教師模型的知識(shí)遷移到小型學(xué)生模型中,提升模型性能。

    后訓(xùn)練:采用一種新穎的后訓(xùn)練方法,提升模型在數(shù)學(xué)、推理、聊天、指令跟隨和多語言等方面的能力。

    采用監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)人類反饋(RLHF)等技術(shù),使模型更好地遵循指令。

    使用權(quán)重平均獎(jiǎng)勵(lì)模型(WARM)等方法,提升模型的helpful, instruction-following, and multilingual abilities。

    量化感知訓(xùn)練

    對(duì)模型進(jìn)行量化,以減少內(nèi)存占用和計(jì)算成本。

    采用Quantization Aware Training?(QAT)方法,在訓(xùn)練過程中模擬量化,以減少量化帶來的性能損失。

    Gemma 3?的實(shí)驗(yàn)結(jié)論

    實(shí)驗(yàn)設(shè)計(jì)

    在多個(gè)benchmark上進(jìn)行評(píng)測(cè),包括MMLU、LiveCodeBench、MATH等,以評(píng)估模型的通用能力。

    在LMSYS Chatbot Arena上進(jìn)行人類評(píng)估,以評(píng)估模型的對(duì)話能力。

    進(jìn)行消融實(shí)驗(yàn),分析不同技術(shù)對(duì)模型性能的影響。

    實(shí)驗(yàn)結(jié)果

    長(zhǎng)上下文驗(yàn)證:在RULER和MRCR基準(zhǔn)測(cè)試中,128K上下文下Gemma 3-27B的KV緩存內(nèi)存僅為純?nèi)肿⒁饬δP偷?5%。

    多模態(tài)評(píng)估:DocVQA任務(wù)中,Gemma3-27B-IT達(dá)到90.4 ANLS,較Gemma2提升18.6%。

    多語言能力:Global-MMLU-Lite基準(zhǔn)上,Gemma3-27B準(zhǔn)確率75.7%,優(yōu)于Gemma2-27B的69.4%。

    消融實(shí)驗(yàn)表明,局部/全局注意力混合結(jié)構(gòu)可以在降低KV緩存內(nèi)存占用的同時(shí),保持模型性能。

    Pan & Scan方法可以有效提升模型處理任意分辨率圖像的能力。

    知識(shí)蒸餾中,大教師模型在長(zhǎng)訓(xùn)練周期下優(yōu)于小教師。

    Gemma 3 的缺點(diǎn)和不足

    視覺局限:固定分辨率編碼器導(dǎo)致高分辨率圖像細(xì)節(jié)丟失(如TextVQA任務(wù)中文本識(shí)別誤差)。

    量化精度損失:Int4量化使27B模型在MATH基準(zhǔn)準(zhǔn)確率從89.0%降至83.2%。

    多語言不平衡:低資源語言(如印地語)性能仍落后英語20%以上。

    長(zhǎng)文本處理的trade-off:為了降低KV緩存的內(nèi)存占用,Gemma 3采用了局部/全局注意力混合結(jié)構(gòu),但這可能會(huì)限制模型捕捉長(zhǎng)距離依賴關(guān)系的能力,需要在實(shí)際應(yīng)用中進(jìn)行權(quán)衡。

    知識(shí)污染的風(fēng)險(xiǎn):文章提到,盡管使用了decontamination技術(shù),但仍然存在benchmark被污染的風(fēng)險(xiǎn),這可能會(huì)影響評(píng)估結(jié)果的準(zhǔn)確性。


    0XU.CN

    [超站]友情鏈接:

    四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
    關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

    圖庫
    公眾號(hào) 關(guān)注網(wǎng)絡(luò)尖刀微信公眾號(hào)
    隨時(shí)掌握互聯(lián)網(wǎng)精彩
    贊助鏈接