新聞

六款編程人工智能模型大剖析　功能強未必代表更安全

· 2025年12月3日

Sonar 發布研究報告《The Coding Personalities of Leading LLMs》，分析了 GPT-5、Claude Sonnet 4、Llama 3.2 等主流程式模型在 4,400 個 Java 任務中的表現。這份報告的關鍵發現是：在基準測試中表現頂尖的模型，在真實世界應用中，往往無法穩定產出安全且易於維護的程式碼。

軟體開發已成為人工智能應用的重點領域，Claude Code、Cursor 及 GitHub Copilot 等工具已逐漸成為開發者的標配。但問題是，我們對這些模型的評估方式往往過於片面。業界普遍依賴「性能基準測試」來比較不同的大語言模型，只關注它們解決複雜編程挑戰的能力。Sonar 最新發佈的《編程人工智能模型個性分析》報告指出，這種單向度評估方式會導致模型產生「極度不均衡的能力分佈」——換句話說，一個模型能夠解決困難的編程題目，不代表它寫出來的代碼是安全、可靠和容易維護的。報告共測試了六款主流編程模型，包括 GPT-5、Claude Sonnet 4、GPT-4o 等，針對超過 4,442 個 Java 編程任務進行深度分析，揭示了一個令人不安的趨勢：功能更強大的模型往往隱藏著更複雜、更難發現的安全風險。

所有模型的共同底線：強項與弱點

儘管各款模型各有風格，但它們在某些方面卻出奇地相似。從技術優勢來看，所有測試的模型都展現出三項共同的強項。首先，它們能夠生成語法正確的代碼，這是基礎要求。Claude Sonnet 4 在 HumanEval 基準測試上的成功率達 95.57％，而 GPT-5 最小推理模式的成功率約 92％，足以說明它們在代碼有效性方面的可靠性。其次，這些模型在演算法問題解決方面表現出色，加權平均通過率方面，GPT-5 最小模式達 75.37％，Claude Sonnet 4 則為 77.04％，反映了高度的技術能力。第三，模型展現出跨程式語言的概念轉移能力，證明它們能理解抽象邏輯並在不同程式語言環境中應用。

但光有功能性是不夠的。報告揭露了一個令人擔憂的現象：所有模型都存在結構性的安全缺陷。這不是偶然的錯誤，而是根植於語言模型的設計和訓練方式。所有非推理模型產生的弱點呈現相似的模式，大多數安全漏洞都被評為「最高級別威脅」。例如，路徑遍歷和注入攻擊漏洞普遍存在，因為防止這類漏洞需要追蹤從不受信任來源到敏感目標的數據流，而這超出了語言模型典型上下文窗口的範圍。硬編碼密鑰出現的原因更直接——這類缺陷存在於訓練數據中。

在工程紀律方面，所有模型都表現出一致的掙扎。資源洩漏（例如未正確關閉文件流）和 API 契約違反（例如忽視關鍵的錯誤返回值）在所有模型中都頻繁出現。更令人驚訝的是，代碼異味——即不直接導致功能故障但影響代碼質量的問題——佔據了所有報告問題的絕大多數。在 GPT-5 最小模式中，代碼異味更是佔了 94.87％的所有問題。這意味著即使代碼「有效」，它仍然充滿了維護負擔和隱藏的技術債務。

推理模型的雙面性：功能完美的代價

新一代推理模型（如 GPT-5）帶來了一個根本性的轉變。與傳統模型相比，推理模型的安全漏洞密度低 3 至 6 倍，這看起來是重大進步。GPT-5 最小模式產生的「最高級別威脅」漏洞比例只有 35％，遠低於其他模型的 56％至 71％。然而，這種改進是有代價的。推理模型為了達成更高的功能正確性，傾向於生成更詳細、更複雜的解決方案，進而引入了一類新的、更難察覺的漏洞。

具體來說，GPT-5 在「不足的輸入輸出錯誤處理」方面的漏洞比例達到 30％，遠高於其他模型的不足 8％。同時，它產生的並發及線程相關的錯誤達到 20％，是 Claude Sonnet 4 的兩倍多，也是任何其他模型的 10 倍以上。這反映了一個隱微但重要的現象：更複雜的代碼會創造更多的出錯表面積。推理模型試圖實現更精巧的解決方案，但這也意味著更多潛在的並發問題、更高的認知複雜度，以及更難追蹤的多層次漏洞。

六款模型的獨特人格：從架構師到快速原型製作者

報告將六款模型進行了人格分類，每一款都有其獨特的編碼風格和風險輪廓。GPT-5 最小模式被描述為「基線性能者」，它代表了推理模型的入門級，同時保留了傳統模型的風險特徵，例如高比例的路徑遍歲及注入攻擊漏洞，但加入了新的複雜性風險，導致最高比例的「關鍵級代碼異味」。

Claude Sonnet 4 是「資深架構師」，以 77.04％的基準通過率領先，代碼風格冗長且複雜，模仿資深工程師試圖實現企業級系統的做法。它特別容易產生並發問題和資源洩漏，這正是其雄心勃勃的設計哲學的負面影響。Claude 3.7 Sonnet 是「平衡的前代產品」，功能技能穩健且評論密度最高（16.4％），幾乎是 GPT-5 最小模式（2.1％）的八倍，使其代碼更易讀。但即使它看起來更保守，它仍然引入 56.03％的最高級別漏洞。

GPT-4o 是「效率通才」，介於冗長和簡潔之間，但它的獨特弱點在於邏輯精確性上的粗心，控制流程錯誤佔其所有錯誤的 48.15％，最高的比例。這說明它理解主要目標，但常在細節上失手。Llama 3.2 90B 被稱為「未實現的承諾」，儘管規模龐大且背景雄厚，其 61.47％的通過率僅略優於小得多的開源模型，而其最令人擔憂的特徵是安全漏洞中最高級別威脅佔 70.73％，超過任何其他模型。OpenCoder-8B 則是「快速原型製作者」，代碼最簡潔（120,288 行），適合駭客松和概念驗證，但它的問題密度最高（每千行代碼 32.45 個問題），產生最多的死代碼、未使用的代碼和冗餘代碼（佔代碼異味的 42.74％），是技術債務的製造機器。

升級危機：功能強化反而增加複雜風險

報告最驚人的發現是，模型「升級」可能會掩蓋實際風險的增加。從 Claude 3.7 Sonnet 升級到 Claude Sonnet 4，基準通過率提升了 6.3％，但其產生的錯誤更可能是最高級別威脅，比例從 56.03％增至 59.57％。這反映了功能改進的隱藏代價。

更複雜的是 GPT-5 帶來的權衡。雖然它的函數正確性更高，並大幅降低了最高級別威脅漏洞的比例（35％），但它引入了並發及線程錯誤的新問題，比例高達 20％，遠超其他模型。這種轉變的含義深遠：舊模型的錯誤往往更容易被發現，因為它們是常見且直接的；而新一代模型的錯誤則更細微、更難檢測、更難修復。開發者在享受功能提升的同時，必須適應風險從「已知的簡單問題」轉變為「未知的複雜陷阱」的局面。

「信任但驗證」的新要求

面對這個新時代，傳統的代碼審查和測試方法已經不足。報告的核心建議是，在依賴人工智能輔助開發時，驗證必須更加嚴格。開發者不應該被表面上看起來更簡潔的代碼所迷惑，而要意識到潛在的系統性問題，如並發錯誤和隱藏的技術債務。無論代碼由開發者還是人工智能生成，「信任但驗證」原則都至關重要，但在新一代模型面前，驗證的要求則更加迫切。

隨著越來越多的代碼由人工智能協助生成，責任地利用這些模型的能力需要超越性能基準測試的視角，轉向更加豐富、更加微妙的理解。每款模型都是一個獨特的「編碼個性」，各有其特殊的優勢和風險，開發者和組織需要根據具體的應用場景和安全要求，謹慎地選擇合適的模型，並建立相應的驗證機制，才能真正實現人工智能在軟體開發中的價值。

資料來源：https://www.sonarsource.com/the-coding-personalities-of-leading-llms.pdf