
AutoCodeBench – 騰訊混元開源測評大模型代碼能力的數(shù)據(jù)集
?AutoCodeBench是什么
AutoCodeBench 是騰訊混元推出的專門測評大模型代碼能力基準(zhǔn)測試集,包含 3920 個(gè)問題,均勻分布在 20 種編程語言中。數(shù)據(jù)集具有高難度、實(shí)用性和多樣性,能衡量大模型在多語言編程任務(wù)中的性能?;鶞?zhǔn)測試集通過自動(dòng)化工作流生成數(shù)據(jù),保證高質(zhì)量和覆蓋度,且提供了簡易版本(AutoCodeBench-Lite)和用在評估基礎(chǔ)模型的版本(AutoCodeBench-Complete)。
AutoCodeBench的主要功能
多語言代碼能力評估:提供3920個(gè)問題,覆蓋20種編程語言,全面衡量大模型的多語言代碼生成能力。
高難度基準(zhǔn)測試:支持設(shè)計(jì)高難度問題,有效識別大模型在復(fù)雜編程任務(wù)中的不足。
性能差異放大:基于篩選問題構(gòu)建AutoCodeBench-Lite,放大不同模型間的性能差異,便于對比分析。
基礎(chǔ)模型評估:用3-shot提示構(gòu)建AutoCodeBench-Complete,專門評估基礎(chǔ)模型的代碼生成性能。
自動(dòng)化代碼數(shù)據(jù)生成:基于LLM生成測試輸入并借助沙盒獲取輸出,合成高質(zhì)量多語言代碼生成數(shù)據(jù)。
多語言代碼執(zhí)行驗(yàn)證:提供MultiLanguageSandbox服務(wù),支持30多種編程語言的編譯和執(zhí)行,驗(yàn)證生成代碼的正確性。
AutoCodeBench的技術(shù)原理
自動(dòng)化數(shù)據(jù)生成:AutoCodeGen 通過大語言模型(LLM)生成測試輸入,將測試輸入傳遞給沙盒環(huán)境。沙盒環(huán)境執(zhí)行代碼并返回測試輸出,構(gòu)造高質(zhì)量的測試函數(shù)。基于逆序構(gòu)造編程問題,確保生成的問題具有高難度和多樣性。用多種策略過濾生成的數(shù)據(jù),進(jìn)一步保證數(shù)據(jù)的高質(zhì)量、高難度和實(shí)用性。
多語言支持:AutoCodeBench 中的 3920 個(gè)問題均勻分布在 20 種編程語言中,確保每種語言都有足夠的問題用在評估,避免語言分布不均的問題。MultiLanguageSandbox 支持超過 30 種編程語言的編譯和執(zhí)行,能驗(yàn)證生成代碼在不同語言環(huán)境下的正確性和性能,確保模型在多種語言上的表現(xiàn)能得到準(zhǔn)確評估。
高難度與實(shí)用性:基于逆序構(gòu)造問題和策略過濾,生成的問題具有較高的難度,能有效評估模型在復(fù)雜編程任務(wù)中的表現(xiàn)。生成的問題難度高,具有實(shí)際應(yīng)用價(jià)值,能反映真實(shí)編程場景中的復(fù)雜問題,幫助模型在實(shí)際應(yīng)用中更好地發(fā)揮作用。
AutoCodeBench的項(xiàng)目地址
項(xiàng)目官網(wǎng):https://autocodebench.github.io/
GitHub倉庫:https://github.com/Tencent-Hunyuan/AutoCodeBenchmark
HuggingFace模型庫:https://huggingface.co/datasets/tencent/AutoCodeBenchmark
arXiv技術(shù)論文:https://arxiv.org/pdf/2508.09101
AutoCodeBench的應(yīng)用場景
模型性能評估:用在全面衡量大模型在多語言編程任務(wù)中的代碼生成能力,幫助識別模型的強(qiáng)項(xiàng)和弱點(diǎn)。
數(shù)據(jù)集構(gòu)建與優(yōu)化:生成高質(zhì)量、高難度的代碼生成數(shù)據(jù)集,支持自定義數(shù)據(jù)集構(gòu)建,提升模型訓(xùn)練效果。
多語言能力驗(yàn)證:驗(yàn)證大模型在不同編程語言(包括低資源語言)中的表現(xiàn),推動(dòng)多語言編程能力的研究。
模型訓(xùn)練與驗(yàn)證:作為訓(xùn)練數(shù)據(jù)補(bǔ)充,提升模型復(fù)雜編程任務(wù)表現(xiàn),并定期驗(yàn)證訓(xùn)練效果。
學(xué)術(shù)與工業(yè)應(yīng)用:為學(xué)術(shù)研究提供標(biāo)準(zhǔn)化基準(zhǔn),支持工業(yè)場景中代碼生成工具的開發(fā)與優(yōu)化。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/

隨時(shí)掌握互聯(lián)網(wǎng)精彩
- 1 中美完全可以相互成就、共同繁榮 7904885
- 2 加沙已變“死城” 7808172
- 3 暴雨中臺下只剩1名觀眾 演員仍開演 7712319
- 4 近距離感受“大國重器” 7618084
- 5 美國大豆中國訂單量仍為零 7520764
- 6 試管嬰兒患腎病 父母要求醫(yī)院擔(dān)全責(zé) 7428150
- 7 女子婚后起訴父母返還18萬彩禮 7332466
- 8 網(wǎng)紅“戶晨風(fēng)”多平臺賬號被封 7235387
- 9 金價(jià)飆升 有非法淘金人井下生活兩年 7144053
- 10 特朗普升級辦公室:肉眼可見全是黃金 7040638