
Gemma3最輕量化的LLM開源模型
Google的Gemma系列開源模型迎來更新,發(fā)布了針對(duì)多模態(tài)、長(zhǎng)上下文優(yōu)化的 Gemma 3,27B 版本性能比肩Gemini-1.5-Pro:
使用世界上最好的單加速器模型進(jìn)行構(gòu)建:?Gemma 3 以其尺寸提供最先進(jìn)的性能,在 LMArena 排行榜的初步人類偏好評(píng)估中勝過 Llama3-405B、DeepSeek-V3 和 o3-mini。這可以幫助您創(chuàng)建可安裝在單個(gè) GPU 或 TPU 主機(jī)上的引人入勝的用戶體驗(yàn)。
以 140 種語言走向全球:構(gòu)建使用客戶語言的應(yīng)用程序。Gemma 3 提供對(duì)超過 35 種語言的開箱即用支持和對(duì)超過 140 種語言的預(yù)訓(xùn)練支持。
打造具備高級(jí)文本和視覺推理能力的AI:輕松構(gòu)建分析圖片、文本、短視頻等應(yīng)用,開啟交互智能化新可能1。
使用擴(kuò)展的上下文窗口處理復(fù)雜任務(wù):?Gemma 3 提供 128k 令牌上下文窗口,讓您的應(yīng)用程序處理和理解大量信息。
使用函數(shù)調(diào)用創(chuàng)建 AI 驅(qū)動(dòng)的工作流程:?Gemma 3 支持函數(shù)調(diào)用和結(jié)構(gòu)化輸出,以幫助您自動(dòng)執(zhí)行任務(wù)并構(gòu)建代理體驗(yàn)。
通過量化模型更快地實(shí)現(xiàn)高性能:?Gemma 3 引入了官方量化版本,減少了模型大小和計(jì)算要求,同時(shí)保持了高精度。
Gemma 3 的背景和動(dòng)機(jī)
發(fā)表時(shí)間:2025年3月(技術(shù)報(bào)告,非正式發(fā)表)。
研究問題:在Gemma 2的基礎(chǔ)上,進(jìn)一步提升模型的性能,并增加多模態(tài)(圖像理解)、長(zhǎng)文本處理和多語言支持能力。
核心目標(biāo):
硬件適配性:在消費(fèi)級(jí)硬件(手機(jī)、筆記本)上高效運(yùn)行。
性能提升:通過架構(gòu)改進(jìn)和訓(xùn)練優(yōu)化,使4B參數(shù)的指令調(diào)優(yōu)模型(Gemma3-4B-IT)性能接近Gemma2-27B-IT,27B模型(Gemma3-27B-IT)對(duì)標(biāo)Gemini-1.5-Pro。
研究背景:
多模態(tài)融合的需求:現(xiàn)實(shí)世界的信息通常以多種形式存在(如文本、圖像等),如何讓模型理解和處理多模態(tài)信息成為一個(gè)重要的研究方向。
長(zhǎng)文本處理的挑戰(zhàn):LLM在處理長(zhǎng)文本時(shí),面臨著計(jì)算復(fù)雜度高、信息丟失等問題。
多語言支持的重要性:為了讓LLM更好地服務(wù)于全球用戶,需要提升其多語言處理能力。
Gemma 3?的相關(guān)研究
Gemma 2:Gemma 3是Gemma 2的升級(jí)版,Gemma 2在性能和效率上都有不錯(cuò)的表現(xiàn),但多模態(tài)、長(zhǎng)文本和多語言能力有待加強(qiáng)。
Gemini系列模型:Gemma 3在設(shè)計(jì)上與Gemini系列模型密切相關(guān),但Gemini是規(guī)模更大的前沿模型,Gemma 3旨在實(shí)現(xiàn)與Gemini相近的性能,同時(shí)保持輕量化。
SigLIP:Gemma 3采用了SigLIP視覺編碼器,但需要針對(duì)Gemma的特點(diǎn)進(jìn)行調(diào)整和優(yōu)化,以降低圖像處理的計(jì)算成本。
LLaVA:Gemma 3借鑒了LLaVA的Pan & Scan方法,以支持處理任意分辨率的圖像,但需要在Gemma中進(jìn)行適配和改進(jìn)。
其他長(zhǎng)文本處理方法:現(xiàn)有長(zhǎng)文本處理方法(如增加local attention layers)在降低KV緩存的內(nèi)存占用方面有一定效果,但可能會(huì)影響模型性能,需要在Gemma 3中進(jìn)行權(quán)衡。
Gemma 3?的核心思路
Gemma 3的核心思路是在Gemma 2的基礎(chǔ)上,通過以下方式提升模型性能并增加多模態(tài)、長(zhǎng)文本處理和多語言支持能力:
多模態(tài):
采用SigLIP視覺編碼器,將圖像轉(zhuǎn)換為token序列,使LLM能夠處理圖像信息。
通過Pan & Scan方法,支持處理任意分辨率的圖像。
長(zhǎng)文本處理:
增加上下文窗口大小到128K tokens(1B模型為32K)。
采用局部/全局注意力混合結(jié)構(gòu),降低KV緩存的內(nèi)存占用。
多語言支持:
使用與Gemini 2.0相同的tokenizer,更好地支持非英語語言。
增加多語言訓(xùn)練數(shù)據(jù),并采用Unimax策略處理語言不平衡問題。
知識(shí)蒸餾:使用知識(shí)蒸餾技術(shù),將大型教師模型的知識(shí)遷移到小型學(xué)生模型中,提升模型性能。
后訓(xùn)練:采用一種新穎的后訓(xùn)練方法,提升模型在數(shù)學(xué)、推理、聊天、指令跟隨和多語言等方面的能力。
采用監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)人類反饋(RLHF)等技術(shù),使模型更好地遵循指令。
使用權(quán)重平均獎(jiǎng)勵(lì)模型(WARM)等方法,提升模型的helpful, instruction-following, and multilingual abilities。
量化感知訓(xùn)練:
對(duì)模型進(jìn)行量化,以減少內(nèi)存占用和計(jì)算成本。
采用Quantization Aware Training?(QAT)方法,在訓(xùn)練過程中模擬量化,以減少量化帶來的性能損失。
Gemma 3?的實(shí)驗(yàn)結(jié)論
實(shí)驗(yàn)設(shè)計(jì):
在多個(gè)benchmark上進(jìn)行評(píng)測(cè),包括MMLU、LiveCodeBench、MATH等,以評(píng)估模型的通用能力。
在LMSYS Chatbot Arena上進(jìn)行人類評(píng)估,以評(píng)估模型的對(duì)話能力。
進(jìn)行消融實(shí)驗(yàn),分析不同技術(shù)對(duì)模型性能的影響。
實(shí)驗(yàn)結(jié)果:
長(zhǎng)上下文驗(yàn)證:在RULER和MRCR基準(zhǔn)測(cè)試中,128K上下文下Gemma 3-27B的KV緩存內(nèi)存僅為純?nèi)肿⒁饬δP偷?5%。
多模態(tài)評(píng)估:DocVQA任務(wù)中,Gemma3-27B-IT達(dá)到90.4 ANLS,較Gemma2提升18.6%。
多語言能力:Global-MMLU-Lite基準(zhǔn)上,Gemma3-27B準(zhǔn)確率75.7%,優(yōu)于Gemma2-27B的69.4%。
消融實(shí)驗(yàn)表明,局部/全局注意力混合結(jié)構(gòu)可以在降低KV緩存內(nèi)存占用的同時(shí),保持模型性能。
Pan & Scan方法可以有效提升模型處理任意分辨率圖像的能力。
知識(shí)蒸餾中,大教師模型在長(zhǎng)訓(xùn)練周期下優(yōu)于小教師。
Gemma 3 的缺點(diǎn)和不足
視覺局限:固定分辨率編碼器導(dǎo)致高分辨率圖像細(xì)節(jié)丟失(如TextVQA任務(wù)中文本識(shí)別誤差)。
量化精度損失:Int4量化使27B模型在MATH基準(zhǔn)準(zhǔn)確率從89.0%降至83.2%。
多語言不平衡:低資源語言(如印地語)性能仍落后英語20%以上。
長(zhǎng)文本處理的trade-off:為了降低KV緩存的內(nèi)存占用,Gemma 3采用了局部/全局注意力混合結(jié)構(gòu),但這可能會(huì)限制模型捕捉長(zhǎng)距離依賴關(guān)系的能力,需要在實(shí)際應(yīng)用中進(jìn)行權(quán)衡。
知識(shí)污染的風(fēng)險(xiǎn):文章提到,盡管使用了decontamination技術(shù),但仍然存在benchmark被污染的風(fēng)險(xiǎn),這可能會(huì)影響評(píng)估結(jié)果的準(zhǔn)確性。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 潮涌天山活力新 7904191
- 2 央視起底柯克之死 7808722
- 3 中產(chǎn)運(yùn)動(dòng)三件套又換了 7712104
- 4 多領(lǐng)域重點(diǎn)工程傳來好消息 7619241
- 5 持槍空降兵在孩子前一動(dòng)不敢動(dòng) 7520736
- 6 比亞迪李云飛回應(yīng)巴菲特清倉 7425642
- 7 內(nèi)蒙古一地集中采集男性居民血樣 7328002
- 8 安踏市值蒸發(fā)125億港元 7236409
- 9 浙江大學(xué)教授被留置 持股市值31億 7135936
- 10 特朗普兒子模仿爸爸引哄堂大笑 7044843