
Tinker API – Thinking Machines Lab推出的模型微調(diào)API
聲明:該文章來自(AI工具集)版權(quán)由原作者所有,K2OS渲染引擎提供網(wǎng)頁加速服務(wù)。
Tinker API是什么
Tinker API 是 Thinking Machines Lab 發(fā)布的首款產(chǎn)品,專為語言模型微調(diào)而設(shè)計(jì)。簡化語言模型的微調(diào)流程,讓研究人員和開發(fā)者能專注于算法和數(shù)據(jù),無需擔(dān)心復(fù)雜的分布式訓(xùn)練基礎(chǔ)設(shè)施。提供底層操作原語,如forward_backward和sample,讓開發(fā)者能構(gòu)建自定義微調(diào)或強(qiáng)化學(xué)習(xí)算法,支持從小到大的各類開放權(quán)重模型,切換模型僅需修改代碼中的一個字符串。Tinker 集成 LoRA 技術(shù),允許多個訓(xùn)練任務(wù)共享計(jì)算資源池,優(yōu)化成本效益。發(fā)布了開源庫 Tinker Cookbook,包含多種后訓(xùn)練方法實(shí)現(xiàn)。Tinker 作為托管服務(wù),運(yùn)行在 Thinking Machines 內(nèi)部集群上,為用戶包辦任務(wù)調(diào)度、資源分配和故障恢復(fù)等繁瑣事務(wù),讓開發(fā)者專注于算法和數(shù)據(jù)。目前處于免費(fèi)私測階段,未來將推出基于使用量的定價模型。
Tinker API的主要功能
- 底層操作原語:提供forward_backward和sample等操作原語,支持構(gòu)建自定義微調(diào)和強(qiáng)化學(xué)習(xí)算法。
- 廣泛模型支持:兼容從小型到大型開放權(quán)重模型,如 Qwen-235B-A22B,模型切換僅需修改代碼中的一個字符串。
- LoRA 技術(shù)集成:允許多個訓(xùn)練任務(wù)共享計(jì)算資源池,降低成本。
- 開源配套庫:發(fā)布 Tinker Cookbook,包含多種后訓(xùn)練方法的實(shí)現(xiàn)。
- 托管服務(wù):運(yùn)行在 Thinking Machines 內(nèi)部集群上,自動處理任務(wù)調(diào)度、資源分配和故障恢復(fù)。
- 用戶友好:提供 Python 原生接口,易于上手和使用。
Tinker API的項(xiàng)目地址
項(xiàng)目官網(wǎng):https://thinkingmachines.ai/blog/announcing-tinker/
如何使用Tinker API
- 申請?jiān)L問權(quán)限:訪問 Tinker 官方申請頁面?:https://form.typeform.com/to/jH2xNWIg申請加入用戶白名單。
- 安裝和配置:安裝 Tinker API 并配置相關(guān)環(huán)境。
- 編寫代碼:使用 Tinker 提供的底層操作原語編寫微調(diào)或強(qiáng)化學(xué)習(xí)算法。
- 運(yùn)行訓(xùn)練:將訓(xùn)練任務(wù)提交到 Thinking Machines 的托管基礎(chǔ)設(shè)施上運(yùn)行。
Tinker API的應(yīng)用場景
- 形式化定理證明:普林斯頓的 Goedel 團(tuán)隊(duì)使用 Tinker 和 LoRA 微調(diào)用于形式化定理證明的大語言模型,僅用 20% 的數(shù)據(jù)便達(dá)到了與全參數(shù)監(jiān)督式微調(diào)模型相當(dāng)?shù)男阅堋?/div>化學(xué)推理模型訓(xùn)練:斯坦福大學(xué)的 Rotskoff 實(shí)驗(yàn)室使用 Tinker 訓(xùn)練化學(xué)推理模型,在 LLaMA 70B 模型基礎(chǔ)上進(jìn)行強(qiáng)化學(xué)習(xí)后,從 IUPAC 命名轉(zhuǎn)換為化學(xué)式的準(zhǔn)確率從 15% 躍升至 50%。多智能體強(qiáng)化學(xué)習(xí):伯克利的 SkyRL 團(tuán)隊(duì)運(yùn)行了自定義的多智能體強(qiáng)化學(xué)習(xí)循環(huán),涉及異步的離策略訓(xùn)練和多輪工具使用。長上下文 AI 控制任務(wù):Redwood Research 使用 Tinker 在長上下文 AI 控制任務(wù)上對 Qwen3-32B 模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。經(jīng)典監(jiān)督式微調(diào):Tinker 支持從經(jīng)典監(jiān)督式微調(diào)到高度實(shí)驗(yàn)性強(qiáng)化學(xué)習(xí)流水線等多種應(yīng)用場景。
[超站]友情鏈接:
四季很好,只要有你,文娛排行榜:https://www.yaopaiming.com/
關(guān)注數(shù)據(jù)與安全,洞悉企業(yè)級服務(wù)市場:https://www.ijiandao.com/
- 1 家和萬事興 7904296
- 2 老戲骨集體景區(qū)再“上崗” 7808472
- 3 市民臺風(fēng)天堅(jiān)持辦席 飯菜撒一地 7712017
- 4 超大滿月中秋登場 7616041
- 5 美戰(zhàn)爭部長帶3068人做俯臥撐創(chuàng)紀(jì)錄 7523257
- 6 第一批去俄羅斯旅游的人體驗(yàn)如何 7427930
- 7 迪麗熱巴嫦娥造型像神女下凡 7331245
- 8 79歲羅家英扮唐僧在景區(qū)打工 7236427
- 9 越南女富豪被捕 曾撒錢踩“鈔票路” 7137285
- 10 智能表測睡眠是否真靠譜 7048834