新聞

OpenAI 發布 GPT-5.2 專業知識工作模型領跑業界

· 2025年12月14日

OpenAI 正式推出 GPT-5.2，標誌著人工智能在專業知識工作領域的重大突破。這款前沿模型系列專為長時間運行的智能代理和複雜職場任務而設計，在多項行業基準測試中創立新標準，性能表現已超越業界專業人士水準。根據 OpenAI 的數據，現有 ChatGPT Enterprise 用戶表示每天可節省 40 至 60 分鐘，重度用戶每週更可節省超過 10 小時，而 GPT-5.2 的推出有望進一步擴大這些效率收益。

專業知識工作的新標杆

在評估定義明確的知識工作任務的 GDPval 基準中，GPT-5.2 Thinking 創下突破性成績。該評估涵蓋美國 GDP 貢獻最大的前九大產業中的 44 種職業，包括製作簡報、建立試算表、編寫程式碼等實際工作輸出。根據專家評審，GPT-5.2 Thinking 在 70.9% 的知識工作任務中表現比行業專業人士更優勝或表現相若，較前代模型 GPT-5 的 38.8% 大幅提升。

更值得關注的是，GPT-5.2 Thinking 生成輸出內容的速度比專業人士快 11 倍，成本不足專業人士的 1%，這對於在人類監督下協助處理專業工作具有重大意義。在針對初級投資銀行分析師的試算表建模任務中，包括為《財富》500 強公司建立格式與引用皆正確的三表模型，以及為私有化交易建立槓桿收購模型，GPT-5.2 Thinking 的平均得分從 59.1% 提升至 68.4%，相比 GPT-5.1 高出 9.3%。生成的試算表和簡報在細緻度和格式化方面均有明顯提升，充分展現了模型在實際商務應用中的能力。

軟件工程能力邁向新高度

在軟件工程領域，GPT-5.2 Thinking 的表現同樣令人矚目。該模型在 SWE-Bench Pro 上創下 55.6% 的新業界標準，較 GPT-5.1 Thinking 的 50.8% 顯著提升。SWE-Bench Pro 是一項針對真實世界軟件工程的嚴格評估，測試四種編程語言，具備更強的抗污染性、挑戰性、多樣性和工業相關性。在 SWE-Bench Verified 評估中，GPT-5.2 Thinking 更是達到 80% 的新高，較前代的 76.3% 進一步提升。

在日常工程工作中，這意味著模型能更可靠地對生產環境程式碼進行偵錯、處理功能開發需求、重構大型程式庫，並以更少人工介入完成端到端的修正。GPT-5.2 Thinking 在前端軟件工程能力上亦有明顯提升，特別是在複雜或非常規的使用者介面設計上表現更強，在涉及 3D 元素的情況下更是如此。早期測試者指出，該模型可作為工程師在不同技術層面的強大日常工作夥伴。Windsurf 行政總裁 Jeff Wang 表示，「GPT-5.2 是自 GPT-5 以來，在代理編碼方面最大的一次飛躍，也是同價位中達到 SOTA 水平的編碼模型。」

真實性與可靠性的顯著提升

對於依賴 AI 進行研究、寫作、分析和決策支援的專業人士而言，模型的真實性至關重要。GPT-5.2 Thinking 的幻覺率較 GPT-5.1 Thinking 明顯降低，在一組來自 ChatGPT 的去識別化查詢中，含錯誤的回覆相對下降了 38%。在啟用搜尋工具且推理強度設定為最高級別的情況下，模型在日常知識工作中表現更加可靠。在無搜尋工具的情況下，模型的正確率達到 88%，有搜尋工具時則達到 93.9%，均較前代模型有顯著改善。

OpenAI 同時強調，雖然 GPT-5.2 Thinking 並非完美，但針對任何關鍵事項，用戶應務必查核答案。對於論述層面的錯誤率，由於大部分回覆都包含多個論述，因此論述層面的錯誤率遠低於整體回覆層面的錯誤率。

長上下文理解能力的突破

在處理大規模文件和複雜資訊時，GPT-5.2 Thinking 在長上下文推理方面創下新標準。該模型在 OpenAI MRCRv2 評估中取得領先表現，該評估用於測試模型整合分散於長篇文件中資訊的能力。在真實應用情境中，當需要整合跨越數十萬 token 的資訊進行深度文件分析時，GPT-5.2 Thinking 的準確度遠高於 GPT-5.1 Thinking。特別值得一提的是，GPT-5.2 Thinking 是 OpenAI 首個在 4-needle MRCR 測試（上下文長度可達 256k token）中達到近乎 100% 準確度的模型。

在實際使用中，這讓專業人士能以 GPT-5.2 處理大量長文件，例如報告、合約、研究論文、各種文字紀錄及多檔案項目，並在數十萬個 token 的內容中保持高度連貫和準確。配合處理大量資訊的能力，GPT-5.2 特別適合進行深入分析、綜合和複雜的多來源工作流程。對於需要超出最大上下文視窗的推理任務，GPT-5.2 Thinking 亦可配合全新 Responses /compact 端點使用，以延伸模型的有效上下文視窗，讓其能夠處理更多依賴工具的長時間運行工作流程。

視覺理解能力的重大進步

GPT-5.2 Thinking 是 OpenAI 至今最強的視覺模型，在圖表推理及軟件介面理解方面的錯誤率減少約一半。在日常專業應用中，這代表模型能更準確地理解資訊主頁、產品螢幕截圖、技術圖表和視覺報告，支援金融、營運、工程、設計和客戶支援等高度依賴視覺資訊的工作流程。

在 CharXiv Reasoning 基準中，模型需回答來自科學論文的圖表問題，啟用 Python 工具後達到 88.7%，較 GPT-5.1 Thinking 的 80.3% 顯著提升。在 ScreenSpot-Pro 評估中，模型需理解來自不同專業領域的圖形使用者介面高解像度螢幕截圖，啟用 Python 工具後達到 86.3%，而 GPT-5.1 Thinking 僅為 64.2%。與以往模型相比，GPT-5.2 Thinking 更能準確地掌握圖像中元素的位置，特別適用於需要理解相對版面配置才能解決問題的任務。即使在畫質較低的圖像上，GPT-5.2 仍能辨識主要區域，並繪製與每個組件真實位置大致相符的方框。

工具調用能力的可靠性提升

GPT-5.2 Thinking 在 Tau2-bench Telecom 上取得 98.7% 的最新業界領先成績，展示模型在長時間、多輪次任務中可靠調用工具的能力。在對延遲特別敏感的用例中，GPT-5.2 Thinking 在「reasoning.effort=’none’」設定下的表現亦明顯領先 GPT-5.1 和 GPT-4.1。在 τ2-bench 評估中，模型需在與模擬用戶的多輪對話中使用工具完成客戶支援任務。

對於專業人士而言，這代表模型能支援更強大的端到端工作流程，例如處理客戶支援個案、從多個系統提取資料、進行分析及生成最終輸出，同時減少流程中斷。在複雜的客戶查詢涉及多個步驟、需要完整解析流程的情況下，模型能更有效地協調多個代理之間的工作。例如在旅客報告航班延誤、錯過轉機、行李丟失並需要特殊座位的情況下，GPT-5.2 能管理整個任務鏈，包括重新訂票、安排特別協助座位及處理賠償，提供的結果比 GPT-5.1 更加完整準確。

科學與數學領域的加速潛力

OpenAI 強調希望 AI 能加速科學研究並惠及所有人。在研究生級別、防止依靠搜尋引擎的科學問答基準 GPQA Diamond 中，GPT-5.2 Pro 取得 93.2%，GPT-5.2 Thinking 則達到 92.4%，成為全球最能有效協助並加速科學研究工作的模型。在 FrontierMath（第 1–3 級）的專家級數學評估中，GPT-5.2 Thinking 同樣創下新高，能解答 40.3% 的問題，較 GPT-5.1 Thinking 的 31% 顯著提升。

OpenAI 開始看到 AI 模型在數學和科學領域以具體方式顯著加速進展。在最近與 GPT-5.2 Pro 的研究工作中，研究人員探討了統計學習理論中的未解問題。模型提出的證明其後經由作者驗證並交由外部專家審閱，展示了前沿模型在嚴格人類監督下如何協助數學研究。在 HMMT（2025 年 2 月）數學比賽基準中，GPT-5.2 Thinking 達到 99.4% 的成績，AIME 2025 評估中更達到 100%。

通用推理能力的新境界

在 ARC-AGI-1（已驗證）這個用於衡量一般推理能力的基準測試中，GPT-5.2 成為首個突破 90% 門檻的模型，較去年 o3-preview 的 87% 進一步提升，同時將達至該表現的成本降低約 390 倍。這意味著 GPT-5.2 在保持高準確率的同時，大幅改善了成本效益。

而 ARC-AGI-2（已驗證）測試提升了難度，更有效地分離出流體推理能力。GPT-5.2 Thinking 在思路鏈模型中創下新的業界標準，取得 52.9% 的成績。GPT-5.2 Pro 的表現更佳，取得 54.2% 的成績，進一步拓展了模型在處理新穎及抽象問題時的推理能力。這些評估中的改進反映出 GPT-5.2 具備更強的多步推理能力、更高的量化準確度，以及在處理複雜技術任務時更可靠的問題解決能力。

安全與保護措施的強化

GPT-5.2 建基於 OpenAI 在 GPT-5 中提出的安全完成研究，令模型能在遵守安全界限的前提下提供最合適、最有用的回覆。在此版本中，OpenAI 持續加強模型在敏感對話中的回應能力，尤其在處理涉及自殺或自殘跡象、心理健康困擾、情緒依賴等提示詞時均有明顯改善。在心理健康評估中，GPT-5.2 Instant 的心理健康評分達到 0.995，較 GPT-5.1 Instant 的 0.883 大幅提升；GPT-5.2 Thinking 達到 0.915，較 GPT-5.1 Thinking 的 0.684 有大幅改善。

OpenAI 正處於推出年齡預測模型的初期階段，可自動為未滿 18 歲的用戶套用內容保護措施，以限制其接觸敏感內容。此功能延伸現有的未成年用戶保護方針，以及 OpenAI 的家長控制機制。

ChatGPT 中的用戶體驗提升

在 ChatGPT 中，用戶應會察覺到 GPT-5.2 在日常使用上更加好用，回覆更有結構、更可靠，同時仍然保持自然愉快的對話體驗。GPT-5.2 Instant 是一款快速實用的日常工作與學習工具，在資訊查詢、操作指南、技術寫作和翻譯方面均有明顯改進，並在 GPT-5.1 Instant 引入更溫暖的對話語氣基礎上進一步提升。早期測試者特別指出解釋更清晰，能夠在一開始就呈現關鍵資料。

GPT-5.2 Thinking 專為處理更深入的工作而設，協助用戶應付更複雜的任務。它在編碼、總結長文件、回答關於上載檔案的問題、逐步解決數學和邏輯問題，以及協助規劃與決策方面均有明顯進步，結構更加清晰，提供的細節亦更加實用全面。GPT-5.2 Pro 是 OpenAI 最智能、最可靠的模型，適用於需要高質量答案、且容許較長回應時間的艱深問題。早期測試顯示，模型的重大錯誤更少，在程式開發等複雜領域的表現亦更加強大。

模型可用性與定價策略

在 ChatGPT 中，OpenAI 將於推出之日起陸續推出 GPT-5.2 Instant、Thinking 和 Pro 三個版本，並率先提供予付費計劃（Plus、Pro、Business、Enterprise）用戶。GPT-5.2 會分階段部署，以確保 ChatGPT 的整體運作穩定。在 ChatGPT 中，GPT-5.1 將以現行模型形式供付費用戶使用三個月，之後將正式停用。

在 API 平台中，GPT-5.2 Thinking 現已可透過 Responses API 和 Chat Completions API 使用，模型名稱為 gpt-5.2；GPT-5.2 Instant 則為 gpt-5.2-chat-latest。GPT-5.2 Pro 在回覆 API 中以 gpt-5.2-pro 提供。開發人員現可在 GPT-5.2 Pro 中設定推理參數，而 GPT-5.2 Pro 和 GPT-5.2 Thinking 現亦支援全新的第五級推理強度「xhigh」，適用於以質素為最高優先的任務。

GPT-5.2 的收費方式為每百萬輸入 token $1.75，每百萬輸出 token $14，並對快取輸入提供 90% 折扣。GPT-5.2 Pro 的收費為每百萬輸入 token $21，每百萬輸出 token $168。在多項代理評估中，OpenAI 發現雖然 GPT-5.2 的單個 token 成本較高，但由於其 token 使用效率更佳，達至相同品質水平的總成本反而更低。ChatGPT 的訂閱收費維持不變，但在 API 中，由於模型能力更強大，GPT-5.2 的 token 收費會較 GPT-5.1 略高。不過其價格仍低於多個同級前沿模型，讓企業與開發人員能在日常工作與核心應用中持續深入使用。

OpenAI 目前並無計劃在 API 中淘汰 GPT-5.1、GPT-5 或 GPT-4.1。如有相關計劃，OpenAI 會事先充分通知開發人員。雖然 GPT-5.2 已能在 Codex 中直接運作並具良好表現，OpenAI 預計會在未來數週內推出一個針對 Codex 優化的 GPT-5.2 版本。

產業合作與基礎設施支持

GPT-5.2 是 OpenAI 與長期合作夥伴 NVIDIA 及 Microsoft 共同開發的成果。Azure 數據中心與 NVIDIA GPU（包括 H100、H200、GB200-NVL72）共同支撐 OpenAI 的大規模訓練，推動模型智能的重大提升。Notion、Box、Shopify、Harvey 和 Zoom 均認為 GPT-5.2 展現了最先進的長期推理和工具調用表現。Databricks、Hex 和 Triple Whale 認為 GPT-5.2 在智能代理數據科學和文件分析任務中表現出色。Cognition、Warp、Charlie Labs、JetBrains 和 Augment Code 表示，GPT-5.2 展現出頂尖的代理式編碼能力，在互動編碼、程式碼審核及偵錯等領域均有明顯提升。

Triple Whale 行政總裁 AJ Orbach 指出：「GPT-5.2 為我們帶來了整體架構上的突破。我們把原本脆弱、需要多個代理協作的系統，整合成一個具備 20 多項工具的單一大型智能代理。最令人驚喜的是，一切如此順暢。這個大型智能代理更快、更聰明，而且維護難度比以往簡單得多。我們現在看到延遲大幅下降、工具調用能力明顯增強，而且不再需要冗長複雜的系統提示，因為只需一行簡單的提示詞，GPT-5.2 就能乾淨俐落地為你完成任務。」

GPT-5.2 代表著 OpenAI 在人工智能發展道路上的持續推進。雖然此次更新在智能和工作效率方面都有實質提升，但 OpenAI 明白用戶在部分領域希望看到更多改進。在 ChatGPT 中，OpenAI 正積極改善已知問題（例如過度拒絕），同時持續提升整體安全機制與可靠性。這些變更牽涉的層面繁多，OpenAI 將全力確保其正確、穩妥地落實。隨著 GPT-5.2 的推出，專業工作者將獲得更強大的 AI 助手，助力他們在各自領域中創造更大的經濟價值與研究成果。

參考來源：https://openai.com/zh-Hant-HK/index/introducing-gpt-5-2/