Anthropic 推出 Claude Opus 4.5 重塑 AI 編碼與智能工作流
Anthropic 正式發布了其最新旗艦模型 Claude Opus 4.5,這款模型在軟體工程、代理系統和計算機使用等領域取得了業界領先的性能。根據官方聲明,Claude Opus 4.5 不僅在編碼能力上實現了顯著突破,同時在深度研究、數據分析以及日常工作任務上也表現出色。該模型現已在 Anthropic 的應用程式、API 介面以及三大主流雲端平台上線,定價為每百萬個 Token 5 美元和 25 美元,使得企業級 AI 能力變得更加平易近人。
軟體工程性能的量子躍進
Claude Opus 4.5 在軟體工程領域的表現堪稱突破性。根據 Anthropic 的內部評估,該模型在真實軟體工程測試中達到了業界最頂尖的水準。特別值得關注的是,Claude Opus 4.5 在 SWE-bench Multilingual 基準測試中表現領先,在 7 個編程語言中有 7 個取得最佳成績。
更引人注目的是,Anthropic 的招聘部門發現,在其著名的難度極高的工程師筆試考試中,Claude Opus 4.5 在規定的 2 小時內獲得的分數超過了曾參與考試的任何人類候選人。這項測試旨在評估應聘者在時間壓力下的技術能力和判斷力,反映出 AI 在複雜技術問題解決方面已經超越人類水準。Anthropic 指出,這一結果引發了人工智能如何改變工程職業的深遠思考,公司的社會影響和經濟未來研究團隊正在探索 AI 在多個領域帶來的類似變化。
代理系統與長期任務執行能力
Claude Opus 4.5 在代理系統和自主任務執行方面展現了新的維度。該模型能夠處理多步驟推理、複雜工作流程,並以更少的死胡同實現任務目標。在各類基準測試中,Claude Opus 4.5 都展現了超越前代模型的表現。
特別在長期自主任務上,該模型表現尤為突出。多家企業客戶的早期測試表明,Claude Opus 4.5 能夠處理需要持續推理和多步驟執行的複雜工作流程。例如,在 Terminal Bench 測試中,Claude Opus 4.5 相較 Sonnet 4.5 實現了 15% 的性能提升,這種改進在實際應用中尤其明顯。
在自我改進型 AI 代理方面,Claude Opus 4.5 同樣展現了突破性進展。根據測試數據,該模型能夠自主精進自身能力,在辦公任務自動化中實現了主動學習和經驗積累。在某些場景中,Claude Opus 4.5 能夠在 4 次迭代中達到峰值性能,而其他模型則需要超過 10 次迭代才能接近同等質量。
Token 效率與成本控制的革新
Claude Opus 4.5 的一大特色是其顯著的 Token 使用效率。隨著模型變得更加聰慧,它能夠以更少的步驟解決問題,減少了回溯、冗余探索和冗長推理的情況。相比前代模型,Claude Opus 4.5 使用的 Token 數量大幅下降,同時保持或提升了輸出品質。
為了滿足不同應用場景的需求,Anthropic 推出了新的「努力參數」功能,允許開發者根據具體任務需求調整模型的思考深度和輸出風格。當設置為中等努力級別時,Claude Opus 4.5 在 SWE-bench Verified 上與 Sonnet 4.5 的最佳表現相當,但輸出 Token 使用量減少了 76%。在最高努力級別下,Claude Opus 4.5 超越 Sonnet 4.5 的性能 4.3 個百分點,同時 Token 使用量仍減少 48%。
這種 Token 效率的提升對大規模應用具有深遠意義。開發者和企業能夠實現真正的成本控制,在不犧牲品質的前提下降低運營成本。多家客戶報告稱,在複雜長期任務中,Token 使用量減少了 50% 至 75%,同時保持或改進了執行品質。
多模態能力與視覺推理
Claude Opus 4.5 在視覺能力、推理能力和數學技能上均取得了進展。該模型在多個領域實現了業界最先進的水準,特別是在涉及計算機視覺和複雜可視化任務上表現突出。
在 τ2-bench 基準測試中,Claude Opus 4.5 展現了超越預期的創意問題解決能力。在航空服務代理場景中,模型需要幫助一位不滿意的客戶修改基礎經濟艙的訂單。雖然航空政策明確禁止修改基礎經濟艙的航班,但 Claude Opus 4.5 找到了一個合法且創意十足的解決方案:先升級艙位等級,再修改航班。這種洞察性的問題解決方式展現了模型的推理靈活性和理解用戶真實需求的能力。
提升的安全性與對抗攻擊能力
Anthropic 在系統卡中明確指出,Claude Opus 4.5 是該公司迄今發布的最具堅實對齐性的模型,並且很可能是業界任何開發者發布的最具對齐的前沿模型。該模型延續了 Anthropic 朝著更安全、更安靜模型發展的趨勢。
在安全評估中,Claude Opus 4.5 在應對提示注入攻擊方面取得了重大進展。提示注入攻擊是一種惡意技術,通過在輸入中嵌入欺騙性指令來誤導模型進行有害行為。根據由 Gray Swan 開發和運行的基準測試,Claude Opus 4.5 對提示注入攻擊的抵抗力超過了業界其他任何前沿模型。該模型展現了更強的防禦機制,能夠在面對複雜、多層次的惡意輸入時保持可靠的安全性。
在「令人擔憂的行為」評估中,Claude Opus 4.5 的表現同樣領先。這些評估涵蓋了廣泛的不對齊行為範疇,包括與人類濫用的合作以及模型自發採取的不良行動。該模型在防止獎勵黑客行為方面也進行了優化,能夠避免以意想不到的方式規避系統約束。
開發者平台的全面升級
除了核心模型性能的提升,Anthropic 還對 Claude 開發者平台進行了全面升級。新增的功能包括改進的上下文管理和記憶能力,這些功能能夠顯著提升代理任務的性能。在深度研究評估中,結合所有新技術的 Claude Opus 4.5 性能提升了將近 15 個百分點。
該平台變得更具組合性,為開發者提供了精確控制效率、工具使用和上下文管理的構建塊。Claude Opus 4.5 在管理次級代理團隊方面也表現出色,能夠實現複雜、協調良好的多代理系統構建。
應用生態的拓展與創新
Claude Code 作為展示 Claude 開發者平台全新升級成果的典型案例,獲得了兩項重要升級。計畫模式(Plan Mode)現在能夠構建更精確的計畫並更全面地執行任務。該模式首先提出澄清性問題,然後生成一份用戶可編輯的 plan.md 檔案再進行執行。
Claude Code 也已在 Anthropic 的桌面應用中推出,允許用戶平行執行多個本地和遠程會話。例如,一個代理可以修復 Bug,另一個可以研究 GitHub,第三個可以更新文檔。
在 Claude 應用程式層面,長談話不再會遇到上限。模型現在可以自動總結早期的上下文,讓對話持續進行。Claude for Chrome 插件使 Claude 能夠跨瀏覽器標籤處理任務,現已對所有 Max 用戶開放。Claude for Excel 的測試版存取權已擴展至所有 Max、Team 和 Enterprise 用戶。
為了優化用戶體驗,Anthropic 已移除了有 Opus 特定的使用上限。對於 Max 和 Team Premium 用戶,整體使用限制也已提高,使得用戶現在擁有大約與之前 Sonnet 相同數量的 Opus Token。這些限制是針對 Claude Opus 4.5 的專項調整,隨著未來模型的升級,相應限制也會進行更新。
客戶反饋與實際應用驗證
Anthropic 在測試階段收到了來自內部團隊和早期客戶的一致性反饋。測試人員普遍反映,Claude Opus 4.5 能夠處理模糊情況和推理權衡,不需要過度指導。當面對複雜的多系統 Bug 時,模型能夠迅速找到解決方案。許多在 Sonnet 4.5 下幾乎不可能完成的任務,現在都已在 Claude Opus 4.5 的能力範圍內。
許多企業級用戶的反饋突出了模型在實際應用中的價值。GitHub Copilot 的團隊報告稱,Claude Opus 4.5 提供了高品質的代碼,並擅長驅動重型代理工作流程。早期測試表明,該模型超越了內部編碼基準,同時 Token 使用量減半,特別適合代碼遷移和代碼重構等任務。
在 Excel 自動化和財務建模領域,Claude Opus 4.5 設定了新的標準。用戶報告稱,內部評估的準確性提升了 20%,效率提升了 15%,許多曾被認為無法實現的複雜任務現在已成為可能。
在長期編碼任務中,用戶發現 Claude Opus 4.5 的效率超過了所有已測試過的模型。模型在保持測試的同時實現了更高的通過率,同時 Token 使用量減少了 65%,使開發者獲得了真正的成本控制,而不犧牲品質。
代碼評審領域同樣見證了該模型的優勢。用戶報告稱,Claude Opus 4.5 在代碼評審中捕捉到了更多問題,同時不犧牲精度。對於大規模生產代碼評審來說,這種可靠性尤為重要。
定價策略與市場可及性
Claude Opus 4.5 的定價設定為每百萬個 Token 5 美元(輸入)和 25 美元(輸出),相較前代 Opus 模型大幅降低。這一定價策略使得企業級 AI 能力變得更加可及,讓更多用戶、團隊和企業都能利用 Opus 級別的能力。
根據 Anthropic 的表述,這個價點已經使 Opus 成為大多數任務的理想選擇模型。對於許多企業來說,Claude Opus 4.5 現在可以作為日常工作的主要模型,而無需承擔以前版本所帶來的成本負擔。
未來發展方向與行業影響
Claude Opus 4.5 的推出代表了 AI 系統能力的又一次重大進步,也預示著工作方式將面臨更大的變革。Anthropic 強調,該模型是一次實質性的飛躍,展現了 AI 在複雜推理、自主決策和創意問題解決方面的新高度。
隨著 Claude Opus 4.5 的推出,Anthropic 也在持續擴展其生態系統。該公司與微軟的戰略夥伴關係正在將 Claude 整合到 Azure 平台和 Microsoft 365 Copilot 中,進一步擴大了該模型在企業環境中的應用範圍。同時,Anthropic 也在推進非洲等地的 AI 教育計畫,與盧旺達政府和 ALX 合作,為整個大陸數十萬學習者提供 AI 教育機會。
Claude Opus 4.5 的發布反映了 Anthropic 在推進通用智能邊界方面的持續承諾。通過結合先進的推理能力、強化的安全性、提高的效率和更低的成本,該模型為開發者、企業和終端用戶提供了一個更加強大、可靠和經濟的 AI 解決方案。隨著時間的推移,該模型在各行業的應用案例將進一步展現 AI 技術在改造現代工作流程和提升生產力方面的潛力。
參考來源:https://www.anthropic.com/news/claude-opus-4-5?utm_source=www.therundown.ai&utm_medium=newsletter&utm_campaign=anthropic-enters-the-frontier-ai-fight&_bhlid=0f98a3edf85593fb2a939dde1998b1511a18dc28

AMICIS 與插畫家合作推出高品質玻璃滑鼠墊!

來自智慧型手機 RPG 遊戲《忍術大師 千手神樂 NEW LINK》的靈宿格物館中學的「Gekko」公仔,穿著原創的兔子服飾!

請注意她喝了酒後微醺的表情♪'Azure Lane「重型櫻花編隊航空母艦」Shinano「現已推出」Filling Oborozuki'皮膚的人偶!

迷人的身體是真正的 Ikitousen!來自「Shin Ikkitousen」的「Kanu Unchou」再次成為兔子Ver!

新系列 "NEW CRASH "正式上市! PPE Kokoro Shinozaki & Kitaro 的休閒 x 帥氣 "NEW" 風格!

THE KING OF FIGHTERS '98 中的女格斗家 「不知火舞」 加入 美少女 系列! 現在在 Amiami 接受預購!
最新電競產品評測

Saiga NAK 2023-08-28 16:42:10

Wellplayed Rizest 的控股公司 Kayac 宣布將投資東南亞具代表性的電競公司「Tier One Entertainment」並與之合作。

Switch 版 “Apex 英雄” 容量為 30GB… 容量不夠該怎麼辦? 由funglr Games編輯部精選三大值得推薦的microSD卡!

人類與妖怪的捉迷藏!《妖怪捉迷藏!》將在Nintendo Switch「試玩同樂會」登場!

今年夏天鐵拳7! 愛知縣松山市電子競技活動”第一代喜助無雙決戰!! 舉行

「Dead by Daylight」發售6周年!新篇章和「生化危機」合作情報!




![[公告] “尼亞複製品 ver.1.22474487139… 白雪編輯「開始接受預訂! 限量版,如別針徽章,聲音錄製腳本等進入特殊BOX!](https://i0.wp.com/uploads.saigacdn.com/2020/09/square-enix-nierreplicantv1p2-white-edition-release-00.jpg?resize=1200,630?resize=230,120)






