GPT-5.2:OpenAI 專為專業知識工作量身打造的新模型
GPT-5.2 由 OpenAI 於 2025 年 12 月 11 日發布,是正在進行的 GPT-5 系列的一部分。它代表了 AI 能力的重大進步,特別針對專業知識工作量身打造,例如建立試算表、製作簡報、編寫程式碼、圖像感知、長上下文理解、工具使用以及管理複雜的多步驟專案。
OpenAI在發布時,將其描述為「迄今為止功能最強大的模型系列」,旨在為使用者節省大量時間——企業使用者平均每天可節省 40 到 60 分鐘,而重度使用者每週可節省超過 10 小時。這次發布是在OpenAI內部壓力之下進行的,其中包括執行長 Sam Altman 發出的「紅色警報」指令,要求在與 Google 的Gemini 3 Pro等模型競爭中加速開發。
GPT-5.2的主要變體
GPT-5.2主要有三種變體,每種變體都針對不同的使用情境進行了優化:
| 變體 | 產品說明 | 優點 |
| GPT-5.2 Instant | 專為日常任務和學習而設計;對話能力媲美GPT-5.1 ,但解釋更清晰,關鍵資訊更一目瞭然。 | 經改進的操作指南、技術寫作、翻譯、學習和職涯指導。 |
| GPT-5.2 Thinking | 專注於專業工作流程;擅長長上下文推理和成果建立。 | 在 OpenAI MRCRv2 等基準測試中,對於跨長文件資訊整合達到了業界領先水平;在試算表(建立、分析、格式設定)方面取得重大進步,並初步改進了投影片製作能力。 |
| GPT-5.2 Pro | 對於艱澀難懂的問題,它最聰明、也最值得信賴;非常適合處理複雜的領域。 | 在程式設計、數學/科學方面表現優異(例如,在GPQA Diamond基準測試中獲得93.2%),並能協助科學家;在幾乎沒有指導的情況下,就能處理證明等開放性問題。 |
GPT-5.2的效能與基準測試
GPT-5.2在多個領域都樹立了新的標準:
- 長上下文推理:在 OpenAI MRCRv2 上取得了領先分數,使其在跨數十萬個 tokens 的深度文件分析等任務中具有極高準確性。
- 專業任務:在 GDPval 基準測試(評估 44 種職業的知識工作,例如法律摘要、工程藍圖)中,GPT-5.2 Thinking 70% 的時間都能達到或超過人類專家,而 GPT-5 僅為 38%。
- 科學與數學:GPT-5.2 Pro 在 GPQA Diamond (研究生級別問答) 上得分 93.2%,超越了前代模型,並有助於透過已驗證的證明來解決開放性問題。
- 比較:早期測試顯示,在網頁開發方面,它在排行榜上超越了 Gemini 3,但具體結果因基準測試而異。它使用截至 2025 年 8 月 31 日的各種數據進行訓練,具有40萬個 tokens 的上下文視窗和12.8萬個最大輸出 tokens 。
GPT-5.2與其他領先模型的比較
| 基準 / 功能 | GPT-5.2 Thinking | Gemini 3 Pro | Claude Opus 4.5 | Grok 4.1 | Llama 3.1 405B |
| GDPval(知識工作勝率) | 70.9% | 53.3% | 59.6% | 約55% | 48.2% |
| SWE-Bench Pro (軟體工程) | 55.6% | 43.3% | 50.8% | 47.1% | 42.5% |
| GPQA Diamond(科學問答) | 92.4% | 91.9% | 88.1% | 89.5% | 85.3% |
| AIME 2025 (數學) | 100% | 95.0% | 92.0% | 94.2% | 88.7% |
| ARC-AGI-2 (抽象推理) | 52.9% | 31.1% | 37.6% | 40.3% | 35.8% |
| LMSYS Arena Elo (總體排名) | 1,485(第二名) | 1,501(第一名) | 1,492 (第一名) | 1,420 (第四名) | 1,380 (第六名) |
| 上下文視窗(Tokens) | 40萬 | 100萬-200萬 | 二十萬 | 一百萬 | 12.8萬 |
| API 定價(每百萬 Tokens 的輸入/輸出) | $1.75 / $14 | $2 / $12 | $3 / $15 | $2.50 / $13 | 免費(開源) |
| 主要優勢 | 長篇內容理解、試算表/簡報、減少幻覺(降低38%) | 多模態分析、智慧工作流程、成本效益 | 編碼可靠性、低拒絕率、符合倫理規範 | 即時數據(X整合)、同理心(EQ基準:1,586 Elo) | 開源應用程式的客製化程度高,部署成本低。 |
| 主要缺點 | Thinking模式下,輸出內容較為冗長 | 智能體中的工具使用不一致性 | 長時間使用會比較貴 | 抽象數學或科學方面比較弱 | 上下文有限,需要針對實際應用進行微調。 |
GPT-5.2 的可用性與定價
以下是訪問GPT-5.2的方法:
- HIX AI:這是體驗GPT-5.2最簡單的方式。只要到HIX AI的GPT-5.2頁面開始聊天,就能馬上體驗這個模型的強大功能。
- ChatGPT 推廣:從 2025 年 12 月 11 日開始,向付費方案(Plus、Pro、Business、Enterprise)開放;免費和 Go 使用者將於 12 月 12 日獲得存取權限。GPT-5.1 將作為傳統選項保留三個月。
- API 存取:開發者可透過 OpenAI 平台和 Codex 立即取得。定價:每百萬輸入 tokens $1.75(比 GPT-5.1 高 40%),每百萬輸出 tokens $14;快取輸入為每百萬 $0.175。
常見問題解答
GPT-5.2跟GPT-5.1有什麼不同?
GPT-5.2比GPT-5.1有了更深層的推理能力、更佳的指令遵循、更快且更可靠的輸出,以及增強的安全性與治理功能,特別適用於企業和智能體工作流程。
GPT-5.2的主要用例有哪些?
常見的應用包括軟體開發、數據與文件分析、內容起草與編輯、回答複雜問題、建構 AI 智能體,以及為需要高準確度和可解釋推理的企業應用提供支援。
GPT-5.2的上下文視窗有多大?
GPT-5.2 支援高達約40萬個 tokens 的上下文視窗,使其能夠在單次會話中處理大型程式碼庫、大量的文檔集或長期執行的專案。
GPT-5.2 是否更準確,且更不容易產生幻覺?
與先前的模型相比,GPT-5.2 減少了幻覺,並具有更強的基礎和循證行為,特別是在結合瀏覽或檢索等工具使用時;但它仍然可能犯錯,在高風險任務中應進行核實。


