Claude Sonnet 4.5 – Anthropic最新推出的AI編程模型

智能 2025-10-05 17:46

聲明：該文章來自（AI工具集）版權由原作者所有，K2OS渲染引擎提供網(wǎng)頁加速服務。

Claude Sonnet 4.5是什么

Claude Sonnet 4.5 是 Anthropic 最新推出的最強編程模型。模型在編程、計算機操作、推理和數(shù)學等多個領域表現(xiàn)出色，在 SWE-bench Verified 測試中登頂，能專注工作超 30 小時。模型具備強大的智能體能力，可通過 API 和工具實現(xiàn)復雜任務自動化。Claude Sonnet 4.5 在對齊性和安全性方面有顯著提升，減少不良行為、增強防御能力。Claude Sonnet 4.5支持多種應用場景，包括代碼生成、知識問答和內容創(chuàng)作等，目前，Claude Sonnet 4.5 已全面開放，包括 claude.ai 官網(wǎng)、App 和 API（API定價與前代Claude Sonnet 4相同）。

Claude Sonnet 4.5 為用戶推出Imagine with Claude臨時研究預覽功能，用戶通過自然語言指令能與 Claude 互動，實時生成和調整軟件代碼及功能，所有內容均為即時創(chuàng)造，無需預設代碼。該功能目前僅對 Max 訂閱用戶開放，旨在加速軟件開發(fā)、原型設計和創(chuàng)意探索，提供高效、靈活的交互體驗。

Claude Sonnet 4.5的主要功能

長時運行智能體：提供卓越的指令遵循、工具選擇、錯誤糾正和高級推理能力，適用面向客戶的智能體和復雜 AI 工作流。
代碼生成：Sonnet 4.5 能完成從初始規(guī)劃到漏洞修復、維護和大規(guī)模重構的整個軟件開發(fā)生命周期任務，支持最多 64K 輸出 tokens，適合復雜代碼生成和規(guī)劃。
瀏覽器和計算機操作：模型在計算機操作能力上領先，能可靠地處理各種基于瀏覽器的任務，從競爭分析到采購流程再到客戶入職，計算機操作能力比前代更準確可靠。
網(wǎng)絡安全：用 Sonnet 4.5 和 Claude Code 的團隊能部署智能體，自動修補漏洞以防止被利用，從被動檢測轉向主動防御。
金融分析：模型能處理從基礎金融分析到高級預測分析的所有任務，例如持續(xù)監(jiān)控全球監(jiān)管變化，提前調整合規(guī)系統(tǒng)，實現(xiàn)從手動審計準備到智能風險管理的轉變。
業(yè)務任務：模型在制作和編輯幻燈片、文檔和電子表格等辦公文件方面表現(xiàn)出色。
研究：Sonnet 4.5 能搜索外部和內部數(shù)據(jù)源，以綜合復雜信息環(huán)境中的全面見解。
內容生成與分析：模型在寫作方面表現(xiàn)出色，能理解細微差別和語調，生成更具吸引力的內容，在更深層次上分析內容。

Claude Sonnet 4.5的核心升級

Claude Code：Claude Sonnet 4.5 在 Claude Code 中新增檢查點功能，能保存進度、即時回退到之前狀態(tài)，同時更新終端界面、發(fā)布原生 VS Code 擴展，滿足用戶的強烈需求、提升開發(fā)體驗。
Claude API：Claude Sonnet 4.5 為 Claude API 新增上下文編輯功能和記憶工具，使智能體能運行更長時間、處理更復雜的任務，進一步增強 API 的功能和應用場景。
Claude 應用：Claude Sonnet 4.5 將代碼執(zhí)行和文件創(chuàng)建功能（包括電子表格、幻燈片和文檔）直接集成到 Claude 應用的對話中，為上個月加入等待列表的 Max 用戶提供 Chrome 擴展，提升用戶在實際使用中的便利性和效率。
Claude Agent SDK：Claude Sonnet 4.5 推出 Claude Agent SDK，為開發(fā)者提供構建 Claude Code 所使用的基礎設施和工具，使開發(fā)者能構建自己的前沿產品。

Claude Sonnet 4.5的性能表現(xiàn)

SWE-bench Verified 評估：Claude Sonnet 4.5 在 SWE-bench Verified 評估中達到行業(yè)領先水平。實際應用上，模型能在復雜、多步驟的任務中保持專注超過 30 小時。
OSWorld 基準測試：在 OSWorld 基準測試中，Claude Sonnet 4.5 的表現(xiàn)大幅提升，達到 61.4% 的準確率，領先于其他模型。
Chrome 瀏覽器：通過 Claude for Chrome 擴展，Sonnet 4.5 能直接在瀏覽器中工作，包括瀏覽網(wǎng)站、填寫電子表格和完成任務。
在推理和數(shù)學等廣泛評估：Claude Sonnet 4.5 在推理和數(shù)學等廣泛評估中展現(xiàn)改進的能力，相比之前的模型，在這些領域的表現(xiàn)更加出色。
在特定領域知識和推理能力：金融、法律、醫(yī)學和 STEM 領域的專家發(fā)現(xiàn)，Sonnet 4.5 在特定領域的知識和推理能力上相比舊模型（包括 Opus 4.1）有顯著提升。