
通義千問Qwen3系列AI模型正式發(fā)布 繼續(xù)采用開源模式引領(lǐng)AI開源社區(qū)發(fā)展
聲明:該文章來自(藍(lán)點(diǎn)網(wǎng))版權(quán)由原作者所有,K2OS渲染引擎提供網(wǎng)頁加速服務(wù)。
2025 年 4 月 29 日,阿里巴巴人工智能團(tuán)隊(duì)通義千問推出最新的開源大型語言模型系列:Qwen3。根據(jù)通義千問團(tuán)隊(duì)的介紹,該模型在架構(gòu)、訓(xùn)練數(shù)據(jù)、推理效率、多模態(tài)能力等多方面實(shí)現(xiàn)顯著提升,為學(xué)術(shù)研究、產(chǎn)業(yè)應(yīng)用和開源社區(qū)注入新活力。
通義千問團(tuán)隊(duì)提供的權(quán)重包括旗艦版 Qwen3-235B-A22B,該模型在編程、數(shù)學(xué)和通用能力等基準(zhǔn)測(cè)試中,與 DeepSeek-R1、GPT-o1、GPT-o3-mini、Grok-3 和 Gemini-2.5-Pro 相比取得極具競(jìng)爭(zhēng)力的優(yōu)勢(shì)。
而 Qwen3 的小型 MoE 架構(gòu)模型 Qwen3-30B-A3B 激活參數(shù)量是 QwQ-32B 的 10 倍,得益于混合專家模式,即便是 Qwen3-4B 這類微型模型,其性能也可以與 Qwen2.5-72B-Instruct 相媲美。
Qwen3 在模型架構(gòu)方面的優(yōu)勢(shì):
在模型架構(gòu)上通義千問團(tuán)隊(duì)進(jìn)行深度優(yōu)化,相較于前代產(chǎn)品也就是 Qwen2.5 系列,引入更加先進(jìn)的 Transformer 變體設(shè)計(jì)。Qwen3 采用混合專家架構(gòu)的部分思想,通過動(dòng)態(tài)分配計(jì)算資源而顯著降低推理時(shí)的計(jì)算成本,同時(shí)還可以保持甚至提升模型能力。
這種設(shè)計(jì)使得 Qwen3 在處理復(fù)雜任務(wù)時(shí)能夠以更低的能耗實(shí)現(xiàn)更高的吞吐量,為大規(guī)模部署提供了可能。此外 Qwen3 提供多種尺寸選擇,包括小型的 3B 參數(shù)模型到超大型的 72B 參數(shù)模型,滿足開發(fā)者和企業(yè)在不同場(chǎng)景的使用需求,尤其是在資源受限的環(huán)境中。
Qwen3 的多模態(tài)能力全面升級(jí):
該模型不僅在自然語言處理方面表現(xiàn)出色,還在多模態(tài)能力上取得突破性進(jìn)展,Qwen3 增強(qiáng)對(duì)文本、圖像、音頻和視頻的統(tǒng)一處理能力,該模型使用統(tǒng)一多模態(tài)編碼技術(shù) (Unified Multimodal Encoding),通過單一模型架構(gòu)實(shí)現(xiàn)多模態(tài)輸入的深度融合,從而在視覺推理、語音交互、視頻分析等任務(wù)中展現(xiàn)出卓越性能。
例如在視覺推理任務(wù)中,Qwen3 能夠精準(zhǔn)解析復(fù)雜圖像中的數(shù)學(xué)公式、表格和文本內(nèi)容,并結(jié)合上下文進(jìn)行邏輯推理,這種能力在教育、科研和內(nèi)容創(chuàng)作等領(lǐng)域具有廣泛的應(yīng)用前景。Qwen3 支持實(shí)時(shí)語音生成和視頻流處理,因此在智能客服、虛擬助手和多媒體內(nèi)容生成等場(chǎng)景中表現(xiàn)出色。
Qwen3 的訓(xùn)練數(shù)據(jù)多樣化和規(guī)?;?/strong>
該模型的預(yù)訓(xùn)練數(shù)據(jù)集覆蓋超過 30 種語言并包含高達(dá)數(shù)萬億 token 的多模態(tài)數(shù)據(jù),包括但不限于文本、圖像、音頻和視頻等多種形式。Qwen3 在中文和英文數(shù)據(jù)方面的優(yōu)化尤為突出,使其在多語言任務(wù)中表現(xiàn)出色,尤其是中英文混合場(chǎng)景下的語義理解和生成能力。
為了減少模型偏見,開發(fā)團(tuán)隊(duì)還在數(shù)據(jù)清洗和質(zhì)量控制方面投入了大量精力,通過自動(dòng)化和人工審核相結(jié)合的方式,確保訓(xùn)練數(shù)據(jù)的多樣性和可靠性,以此減少模型偏見并提升模型在敏感任務(wù)中的魯棒性。
開源生態(tài)領(lǐng)域的繼續(xù)擴(kuò)展:
Qwen3 基于 Apache 2.0 許可協(xié)議發(fā)布,這意味著無論是個(gè)人還是企業(yè)都可以自由使用 Qwen3 模型并進(jìn)行修改和商業(yè)化,與 Meta Llama 復(fù)雜的許可協(xié)議相比,Qwen 系列模型的寬松許可模式有助于人工智能開源社區(qū)的進(jìn)一步發(fā)展。
下面是 Qwen3 不同權(quán)重和對(duì)應(yīng)的上下文長(zhǎng)度:
Qwen3-0.6B:32K
Qwen3-1.7B:32K
Qwen3-4B:32K
Qwen3-8B:128K
Qwen3-14B:128K
Qwen3-32B:128K
Qwen3 系列模型在上下文處理能力方面優(yōu)化了注意力機(jī)制并引入分塊預(yù)填充技術(shù),該技術(shù)大幅度降低長(zhǎng)序列推理的內(nèi)存占用,因此 Qwen3 能夠高效處理超長(zhǎng)文檔、代碼庫分析和多輪對(duì)話等任務(wù),為企業(yè)級(jí)應(yīng)用提供強(qiáng)有力的支撐。
目前該模型已經(jīng)在通義千問英文版 AI 平臺(tái)提供在線對(duì)話,同時(shí)開源權(quán)重模型也已經(jīng)在 HuggingFace 等平臺(tái)發(fā)布,有興趣的用戶可以下載 Qwen3 模型進(jìn)行本地測(cè)試、調(diào)試和部署。
在線對(duì)話:https://chat.qwen.ai/
模型下載:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級(jí)服務(wù)市場(chǎng):https://www.ijiandao.com/
- 1 像石榴籽一樣緊緊抱在一起 7904458
- 2 殲-35完成在福建艦上彈射起飛 7807963
- 3 深圳:建議準(zhǔn)備至少3天的應(yīng)急物資 7712945
- 4 唱著民歌迎豐收 7618311
- 5 日本“蘋果病”流行達(dá)歷史頂點(diǎn) 7523439
- 6 孩子的數(shù)學(xué)邏輯比運(yùn)算結(jié)果重要 7428294
- 7 榴蓮降至15元一斤 7328515
- 8 背簍老人等公交被拒載 司機(jī)被開除 7238783
- 9 六旬男子連挖10座墓偷11個(gè)骨灰盒 7138373
- 10 成都體育生跳越10把椅子一次成功 7048093