GPT‑5.2는 전문 작업과 장시간 에이전트 실행에 최적화된 최신 프런티어 모델입니다.
공유
전문 지식 업무에서 가장 뛰어난 성능을 제공하는 새로운 모델 시리즈 GPT‑5.2를 소개합니다.
많은 ChatGPT Enterprise 사용자가 AI를 통해 하루에 40~60분을 절약하고 있으며, 사용량이 많은 사용자는 주당 10시간 이상을 절약하고 있다고 말합니다. OpenAI는 AI 모델이 사용자에게 더 큰 경제적 가치를 제공할 수 있도록 GPT‑5.2를 새롭게 설계했습니다. GPT‑5.2는 스프레드시트 생성, 프레젠테이션 제작, 코드 작성, 이미지 인식, 긴 컨텍스트 이해, 도구 활용, 여러 단계에 걸친 복잡한 프로젝트 작업에서 더욱 강화된 성능을 제공합니다.
GPT‑5.2는 여러 벤치마크에서 새로운 최고 기록을 달성했으며 44개 직종의 지식 업무를 명확한 기준으로 평가하는 GDPval에서도 업계 전문가를 능가하며 이를 입증했습니다.
GPT‑5.1 Thinking
GDPval(승리 또는 동점)
지식 작업
70.9%
38.8%(GPT‑5)
SWE-Bench Pro(공개)
소프트웨어 엔지니어링
55.6%
50.8%
SWE-bench Verified
소프트웨어 엔지니어링
80.0%
76.3%
GPQA Diamond(도구 미사용)
과학 문제
92.4%
88.1%
CharXiv Reasoning(Python 사용)
과학 도표 문제
88.7%
80.3%
HMMT(2025년 2월)
수학 토너먼트
99.4%
96.3%
FrontierMath(1~3등급)
고급 수학
40.3%
31.0%
ARC-AGI-1 (Verified)
추상적 추론
86.2%
72.8%
ARC-AGI-2 (Verified)
추상적 추론
52.9%
17.6%
Notion(새 창에서 열기), Box(새 창에서 열기), Shopify(새 창에서 열기), Harvey(새 창에서 열기), Zoom(새 창에서 열기)은 GPT‑5.2가 장시간 추론과 도구 호출에서 최고 수준의 성능을 발휘한다는 피드백을 전했으며 Databricks(새 창에서 열기), Hex(새 창에서 열기), Triple Whale(새 창에서 열기)은 GPT‑5.2가 에이전트 기반 데이터 과학과 문서 분석 작업에서 탁월한 성능을 보인다고 밝혔습니다. Cognition(새 창에서 열기), Warp(새 창에서 열기), Charlie Labs(새 창에서 열기), JetBrains(새 창에서 열기), Augment Code(새 창에서 열기)는 GPT‑5.2가 인터랙티브 코딩, 코드 리뷰, 버그 탐지 등에서 측정 가능한 향상을 보이며 최고 수준의 에이전트 코딩 성능을 제공한다고 평가했습니다.
GPT‑5.2 Instant, Thinking, Pro 모델은 오늘부터 ChatGPT에서 유료 플랜을 시작으로 순차 출시됩니다. API에서는 모든 개발자가 사용할 수 있습니다.
GPT‑5.2는 일반 지능, 긴 컨텍스트 이해, 에이전트형 도구 호출, 비전 기능 전반에서 큰 폭의 발전을 이루었고 복잡한 실제 작업을 처음부터 끝까지 수행하는 능력도 이전 모델보다 크게 강화되었습니다.
모델 성능
경제 가치가 높은 작업
GPT‑5.2 Thinking은 현실 세계의 전문 업무를 처리하는 데 있어 현존하는 모델 중 가장 뛰어난 성능을 보입니다. 44개 직종의 지식 업무를 명확한 기준으로 평가하는 GDPval에서는 GPT‑5.2 Thinking이 새로운 최고 기록을 세우며 인간 전문가 수준 혹은 그 이상에 도달한 첫 번째 모델로 평가되었습니다. 전문 심사자들은 GPT‑5.2 Thinking이 GDPval 지식 작업에서 진행된 비교 평가의 70.9%에서 업계 최고 수준의 전문가와 동등하거나 그를 능가하는 결과를 보였다고 평가했습니다. 이러한 작업에는 프레젠테이션, 스프레드시트, 기타 결과물 제작이 포함되었습니다. GPT‑5.2 Thinking은 GDPval 작업에서 전문가보다 11배 이상 빠른 속도로 결과물을 생성하면서도 비용은 1% 미만에 불과했습니다. 이는 인간의 검토와 함께 사용할 경우 GPT‑5.2가 전문 작업을 지원하는 데 매우 유용할 수 있음을 시사합니다. 속도와 비용 수치는 과거 지표를 기반으로 하며, ChatGPT에서 측정되는 실제 속도는 달라질 수 있습니다.
GDPval
Knowledge work tasks
GPT-5.2 Pro
GPT-5.2 Thinking
GPT-5 Thinking
0%
20%
40%
60%
80%
100%
업계 전문가 대비 승률
74.1%
70.9%
38.8%
전문가 수준
Wins
Ties
GDPval에서는 모델이 미국 GDP에 가장 크게 기여하는 9개 산업 전반의 44개 직종을 대상으로 명확히 정의된 지식 업무를 수행합니다. 업무 목표는 영업 프레젠테이션, 회계 스프레드시트, 응급 진료 스케줄, 제조 도면, 짧은 영상 등 실제 업무 환경에서 사용할 수 있는 결과물을 생성하는 것입니다. ChatGPT의 GPT‑5.2 Thinking 모델에서는 GPT‑5 Thinking에는 없던 새로운 도구들을 사용할 수 있습니다.
특히 우수한 결과물을 검토하던 한 GDPval 심사자는 “출력 품질이 확실히 도약한 것이 느껴진다… 전문 인력이 있는 회사가 만든 결과물처럼 보이며, 일부 작은 오류는 있지만 전반적인 구성과 제안이 놀라울 만큼 잘 정리되어 있다”고 평가했습니다.
또한 포춘 500대 기업을 위한 3대 재무제표 모델을 적절한 형식과 인용까지 갖춰 작성하거나 비상장 전환을 위한 LBO 모델을 구축하는 등 주니어 투자은행 애널리스트 수준의 스프레드시트 모델링 과제를 기준으로 한 내부 평가에서 GPT‑5.2 Thinking의 과제당 평균 점수는 68.4%로, 59.1%인 GPT‑5.1보다 9.3% 높게 나타났습니다.
나란히 비교해보면 스프레드시트와 슬라이드 서식 작업에서도 GPT‑5.2 Thinking이 더 정교한 결과를 제공하는 것이 확인됩니다.
워크포스 플래너
캡 테이블
프로젝트 관리
Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2
프롬프트: 인원 현황, 채용 계획, 이직률, 예산 영향을 포함한 인력 계획 모델을 작성하세요. 엔지니어링, 마케팅, 법무, 영업 부서를 모두 반영해야 합니다.
ChatGPT에서 새로운 스프레드시트 및 프레젠테이션 기능을 사용하려면 유료 플랜을 이용 중이어야 하며 GPT‑5.2 Thinking 또는 Pro를 선택해야 합니다. 복잡한 생성 작업은 몇 분이 소요될 수 있습니다.
코딩
GPT‑5.2 Thinking은 실제 소프트웨어 엔지니어링 문제를 엄격하게 평가하는 벤치마크인 SWE-bench Pro에서 55.6%를 기록하며 새로운 최고 기록을 달성했습니다. SWE-bench Pro는 Python만 평가하는 SWE-bench Verified와 달리 네 가지 언어를 테스트하며 오염 가능성을 줄이고 난도·다양성·산업 관련성을 높이도록 설계되었습니다.
SWE-Bench Pro (공개)
소프트웨어 및 엔지니어링
0
20,000
40,000
60,000
80,000
100,000
출력 토큰
30%
40%
50%
60%
정확도
GPT-5.1 Thinking (high)
GPT-5.1-Codex-Max (xhigh)
GPT-5.2 Thinking (xhigh)
GPT-5.2 Thinking
GPT-5.1 Thinking
GPT-5.1-Codex-Max
SWE-Bench Pro(새 창에서 열기)에서모델은 코드 리포지터리를 제공받아 실제 소프트웨어 엔지니어링 작업을 해결하기 위한 패치를 생성해야 합니다.
SWE-bench Verified에서는 GPT‑5.2 Thinking이 80%로 새로운 최고 기록을 달성했습니다(그래프에는 표시되지 않음).
일상적인 개발 업무 관점에서 보면 이는 프로덕션 코드를 더 안정적으로 디버깅하고 요청된 기능을 구현할 수 있으며, 대규모 코드베이스를 리팩터링하고 최소한의 수작업으로 전체 수정 작업을 마칠 수 있는 모델이라는 의미입니다.
GPT‑5.2 Thinking은 프런트엔드 소프트웨어 엔지니어링에서도 GPT‑5.1 Thinking보다 더 뛰어난 성능을 보입니다. 초기 테스트에서는 특히 3D 요소를 포함한 복잡하거나 비표준적인 UI 작업에서 성능 향상이 두드러졌으며, 모든 스택의 엔지니어에게 강력한 코딩 파트너가 될 수 있는 수준이라는 평가를 받았습니다. 아래는 하나의 프롬프트로 생성할 수 있는 몇 가지 작업 예시입니다.
해양 파도 시뮬레이션
홀리데이 카드 빌더
타이핑 레인 게임
프롬프트: 아래 요구사항을 충족하는 HTML 파일 기반의 싱글 페이지 앱을 만들어줘.
- 이름: 해양 파도 시뮬레이션
- 목표: 사실적인 파도 애니메이션 보여주기
- 기능: 바람 세기 조절, 파도 높이 조절, 조명 변화
- UI는 차분하고 현실감 있게 만들어줘
초기 테스터들은 GPT‑5.2의 코딩 역량에 대해 다음과 같은 의견을 전했습니다.
Windsurf
Warp
JetBrains
Augment Code
Cline
Charlie Labs
Kilo
Azad
“GPT-5.2는 GPT-5 이후 에이전트 기반 코딩에서 가장 큰 도약을 이룬 모델이며, 해당 가격대에서 최고 수준의 코딩 성능을 제공합니다. 버전 번호 상승이라는 것만으로는 이 지능 향상의 폭을 충분히 담아내기 어렵습니다. Windsurf 전반과 여러 핵심 Devin 워크로드에서 기본 모델로 적용하게 되어 기대가 큽니다.”
Jeff Wang, Windsurf CEO
사실성
GPT‑5.2 Thinking에서는 GPT‑5.1 Thinking보다 환각 오류가 더 적게 발생합니다. ChatGPT에서 비식별 처리된 쿼리 세트를 기준으로 분석한 결과, 오류가 포함된 응답 비율이 약 38% 감소했습니다. 이는 연구, 글쓰기, 분석, 의사 결정 지원과 같은 전문 작업에서 실수가 줄고 일상적인 지식 기반 업무에서도 더 안정적으로 활용할 수 있음을 보여줍니다.
비식별 처리된 ChatGPT 쿼리에 대한 응답 단위 오류율
GPT-5.2 Thinking
GPT-5.1 Thinking
0%
20%
40%
60%
80%
100%
오류가 하나 이상 있는 응답
6.2%
8.8%
추론 수준은 사용 가능한 최대치로 설정되었고 검색 도구가 활성화되었습니다. 오류는 다른 모델이 감지하며 이 모델들 역시 자체적인 오류를 일으킬 수 있습니다. 하나의 응답에는 여러 개의 주장이 포함되어 있기 때문에 응답 전체를 기준으로 할 경우 오류율이 높게 나타나는 반면, 주장 단위로 계산하면 훨씬 낮은 오류율을 보입니다.
다른 모든 모델처럼 GPT‑5.2 Thinking 역시 완벽하지는 않습니다. 중요한 작업에서는 반드시 답변을 다시 확인해야 합니다.
긴 컨텍스트
GPT‑5.2 Thinking은 긴 컨텍스트 추론에서도 새로운 기준을 세웠습니다. 긴 문서 곳곳에 흩어진 정보를 얼마나 잘 통합해 이해하는지를 평가하는 OpenAI MRCRv2에서 최고 수준의 성능을 기록했으며, 수십만 토큰에 걸친 연관 정보를 결합해야 하는 심층 문서 분석 같은 작업에서도 GPT‑5.1 Thinking보다 훨씬 높은 정확도를 보였습니다. 특히 최대 256k 토큰을 사용하는 4-needle MRCR 변형에서는 100%에 가까운 정확도를 달성한 최초의 모델로 평가됩니다.
실제 업무에서는 GPT‑5.2를 활용해 보고서, 계약서, 연구 논문, 미팅 기록, 다중 파일 프로젝트 같이 매우 긴 문서를 다루면서 수십만 개의 토큰에 걸쳐 일관성과 정확성을 유지할 수 있습니다. 이러한 능력 덕분에 GPT‑5.2는 심층 분석이나 정보 종합, 복잡한 다중 출처 기반 워크플로에 특히 적합합니다.
OpenAI MRCRv2, 4 needles
긴 컨텍스트
8k
16k
32k
64k
128k
256k
최대 입력 토큰
0%
50%
100%
평균 일치율
GPT-5.2 Thinking
GPT-5.1 Thinking
OpenAI MRCRv2, 8 needles
긴 컨텍스트
8k
16k
32k
64k
128k
256k
최대 입력 토큰
0%
50%
100%
평균 일치율
GPT-5.2 Thinking
GPT-5.1 Thinking
OpenAI-MRCR v2(다중 라운드 공동 지시문 해석)(새 창에서 열기)에서는 여러 개의 동일한 ‘needle’ 요청을 유사한 요청과 응답으로 이루어진 긴 ‘haystack’에 삽입한 뒤, 모델이 n번째 needle에 대한 응답을 재현할 수 있는지를 평가합니다. v2에서는 기준 정답 값이 잘못된 평가 항목 약 5%를 바로잡았습니다. 평균 일치율은 모델의 응답과 정답 간 문자열 일치 비율의 평균을 의미합니다. 256k 최대 입력 토큰 지점은 128k~256k 입력 토큰 범위의 평균을 나타내며, 이후 다른 지점도 같은 방식으로 표시됩니다. 여기서 256k는 256 × 1,024 = 262,114 토큰입니다. 추론 수준은 사용 가능한 최대치로 설정되었습니다.
최대 컨텍스트 윈도우를 넘어서는 추론이 필요한 작업에서는 새롭게 제공되는 Responses /compact 엔드포인트를 활용하여 모델의 컨텍스트 처리 범위를 확장할 수 있습니다. 이 엔드포인트를 사용하면 도구 사용이 많고 장시간 실행되는 워크플로도 기존 컨텍스트 길이의 한계를 넘어 처리할 수 있습니다. 자세한 내용은 API 문서(새 창에서 열기)를 참고하시기 바랍니다.
비전
GPT‑5.2 Thinking은 차트 해석과 소프트웨어 인터페이스 이해에서 오류율을 절반 수준으로 줄이며 지금까지 공개된 모델 가운데 가장 뛰어난 비전 성능을 제공합니다.
업무 현장에서는 이 모델을 통해 대시보드, 제품 화면, 기술 도면, 시각화 보고서를 더 정확하게 해석하여 금융, 운영, 엔지니어링, 디자인, 고객 지원 같이 시각 정보가 중요한 워크플로를 폭넓게 지원할 수 있습니다.
CharXiv 추론
과학 도표 문제
GPT-5.2 Thinking
GPT-5.1 Thinking
0%
20%
40%
60%
80%
100%
정확도
88.7%
80.3%
CharXiv Reasoning(새 창에서 열기)에서 모델은 과학 논문의 시각적 차트에 대한 질문에 답합니다. Python 도구가 활성화되었고, 추론 수준은 최대치로 설정되었습니다.
ScreenSpot-Pro
GUI 스크린샷 이해
GPT-5.2 Thinking
GPT-5.1 Thinking
0%
20%
40%
60%
80%
100%
정확도
86.3%
64.2%
ScreenSpot-Pro(새 창에서 열기)에서 모델은 다양한 전문 환경의 그래픽 사용자 인터페이스를 고해상도 스크린샷으로 보고 이를 기반으로 추론해야 합니다. Python 도구를 활성화한 상태에서 평가되었으며 추론 수준은 최대치로 설정되었습니다. Python 도구를 사용하지 않을 경우 점수가 크게 낮아집니다. 이러한 비전 작업에서는 Python 도구를 활성화할 것을 권장합니다.
이전 모델과 비교했을 때 GPT‑5.2 Thinking은 이미지 안에서 요소들이 어떻게 배치되어 있는지에 대한 이해도가 더 높아 상대적 레이아웃이 문제 해결에 중요한 작업에서 강점을 보입니다. 아래 예시에서는 모델에 이미지 입력(이 경우 메인보드)의 구성 요소를 식별하고 각 요소의 대략적인 바운딩 박스를 포함한 라벨을 반환하도록 요청했습니다. 이미지 품질이 낮은 상황에서도 GPT‑5.2는 주요 영역을 식별하고 각 구성 요소의 실제 위치와 대략적으로 일치하는 박스를 배치한 반면, GPT‑5.1은 일부 부품만 라벨링했으며 공간적 배치에 대한 이해도도 훨씬 낮게 나타났습니다.
GPT-5.1
Example output of GPT-5.1 identifying components in an image
GPT-5.2
Example output of GPT-5.2 identifying components in an image
도구 호출
GPT‑5.2 Thinking은 Tau2-bench Telecom에서 98.7%를 기록하며 장기·다중 단계 작업 전반에서 도구를 안정적으로 활용하는 능력을 입증했습니다.
레이턴시에 민감한 작업에서도 GPT‑5.2 Thinking은 reasoning.effort=‘none’ 설정에서 GPT‑5.1과 GPT‑4.1을 크게 앞서는 성능을 보였습니다.
Tau2-bench Telecom
고객 지원에서 도구 사용
GPT-5.2 Thinking (xhigh)
GPT-5.1 Thinking (high)
GPT-5.2 Thinking (none)
GPT-5.1 Thinking (none)
GPT-4.1
0%
20%
40%
60%
80%
100%
정확도
98.7%
95.6%
57.2%
47.8%
49.2%
Tau2-bench Retail
고객 지원에서 도구 사용
GPT-5.2 Thinking (xhigh)
GPT-5.1 Thinking (high)
GPT-5.2 Thinking (none)
GPT-5.1 Thinking (none)
GPT-4.1
0%
20%
40%
60%
80%
100%
정확도
82.0%
77.9%
77.6%
62.9%
72.6%
τ2-bench(새 창에서 열기)에서 모델은 시뮬레이션된 사용자와 여러 차례 대화하며 도구를 활용해 고객 지원 작업을 수행합니다. Telecom 도메인에서는 성능 향상을 위해 시스템 프롬프트에 짧고 일반적인 안내 문구가 추가되었습니다. Airline 서브셋은 정답 기준의 품질이 낮아 평가에서 제외되었습니다.
이러한 성능은 고객 지원 케이스 처리, 여러 시스템에서 데이터 수집, 분석 실행, 단계 간 혼선 없이 최종 산출물 생성 등 전문 업무 전반의 엔드 투 엔드 워크플로를 더욱 안정적으로 만듭니다.
예를 들어 여러 단계를 거쳐야 해결되는 복잡한 고객 서비스 문의의 경우 모델이 여러 에이전트에 걸친 전체 워크플로를 더 효과적으로 조율할 수 있습니다. 아래 사례에서 한 여행자는 항공편 지연으로 연결편을 놓친 뒤 뉴욕에서 1박과 의료 목적의 좌석 배정을 요청했습니다. GPT‑5.2는 재예약과 특별 지원 좌석 배정, 보상 처리까지 전체 작업 흐름을 관리해 GPT‑5.1보다 더 완성도 높은 결과를 제공합니다.
My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?
GPT-5.1
Example of tool calling output in GPT-5.1
GPT-5.2
Example of tool calling output in GPT-5.2
과학과 수학
OpenAI는 AI가 모두의 이익을 위해 과학 연구 속도를 높이는 데 기여할 수 있기를 바랍니다. 이를 위해 과학자들과 협력하며 실제 연구 과정에서 AI가 어떤 방식으로 속도를 높일 수 있는지 지속적으로 살펴보고 있으며, 지난달에는 초기 공동 연구 결과를 일부 공개하기도 했습니다.
OpenAI는 GPT‑5.2 Pro와 GPT‑5.2 Thinking이 과학자의 연구를 지원하고 가속화하는 데 있어 세계 최고 수준의 모델이라고 판단합니다. 석박사급 Google-proof Q&A 벤치마크인 GPQA Diamond에서는 GPT‑5.2 Pro가 93.2%를 기록했으며 GPT‑5.2 Thinking도 92.4%로 뒤를 이었습니다.
GPQA Diamond
과학 문제
GPT-5.2 Pro
GPT-5.2 Thinking
GPT-5.1 Thinking
0%
20%
40%
60%
80%
100%
정확도
92.4%
88.1%
93.2%
GPQA Diamond(새 창에서 열기)에서 모델은 물리학, 화학, 생물학에 대한 객관식 질문에 답합니다. 도구는 비활성화되었고 추론 수준은 최대치로 설정되었습니다.
전문가 수준의 수학 문제를 평가하는 FrontierMath(Tier 1–3)에서도 GPT‑5.2 Thinking은 40.3%의 문제를 해결하며 새로운 최고 기록을 세웠습니다.
FrontierMath(1~3등급)
고급 수학
GPT-5.2 Thinking
GPT-5.1 Thinking
0%
10%
20%
30%
40%
50%
정확도
40.3%
31.0%
FrontierMath(새 창에서 열기)에서 모델은 전문가 수준의 수학 문제를 해결합니다. Python 도구가 사용되었고, 추론 수준이 최대치로 설정되었습니다.
수학과 과학 분야에서는 AI 모델이 실질적인 발전을 이끄는 사례가 눈에 띄게 나타나기 시작했습니다. 한 가지 사례로 최근 연구에서 연구자들은 GPT‑5.2 Pro를 활용하여 통계적 학습 이론의 미해결 질문을 탐구했습니다. 조건이 제한되고 명확히 정의된 설정에서 모델이 하나의 증명안을 제시했고, 이후 연구진이 이를 직접 검증하고 외부 전문가와 함께 검토했습니다. 이 사례는 면밀한 인간의 감독 아래에서 프런티어 모델이 수학 연구를 어떻게 보조할 수 있는지를 보여줍니다.
ARC-AGI 2
일반적인 추론 능력을 측정하도록 설계된 벤치마크인 ARC-AGI-1 (Verified)에서 GPT‑5.2는 90%의 문턱을 넘은 최초의 모델로 평가됩니다. GPT‑5.2는 지난해 o3‑preview가 기록한 87%에서 성능을 끌어올린 동시에 해당 성능을 달성하는 데 드는 비용을 약 390배까지 낮추는 성과를 달성했습니다.
난이도를 높이고 유동적 추론 능력을 보다 명확하게 평가하도록 설계된 ARC-AGI-2 (Verified)에서 GPT‑5.2 Thinking은 연쇄 추론 모델 중 최고 성능인 52.9%를 기록했습니다. GPT‑5.2 Pro는 이를 넘어 54.2%를 달성하며 새로운 추상적 문제를 추론하는 모델의 역량을 한층 더 확장했습니다.
이러한 평가 전반에서 확인된 성과는 GPT‑5.2가 복잡한 기술 작업에서 더 강력한 다단계 추론과 높은 수치 정확도, 안정적인 문제 해결 능력을 제공할 수 있음을 보여줍니다.
초기 테스터들은 GPT‑5.2를 다음과 같이 평가했습니다.
Triple Whale
Notion
Zoom
Box
Hex
Databricks
Harvey
Parloa
Moveworks
Shopify
“GPT-5.2는 전체 아키텍처를 전환하는 계기가 됐습니다. Triple Whale 팀은 불안정한 다중 에이전트 시스템을 20개 이상의 도구를 사용하는 단일 메가 에이전트로 통합했습니다. 가장 큰 장점은 별다른 조정 없이도 제대로 작동한다는 점입니다. 메가 에이전트는 더 빠르고 더 똑똑하며 유지 관리도 100배 쉬워졌습니다. 지연 시간은 크게 줄었고 도구 호출 성능은 훨씬 강력해졌으며, 이제는 복잡한 시스템 프롬프트 없이도 간단한 한 줄 프롬프트만으로 깔끔하게 실행됩니다. 그야말로 마법처럼 느껴집니다.”
AJ Orbach, Triple Whale CEO
ChatGPT에 도입되는 GPT‑5.2
사용자는 이제 ChatGPT에서 GPT‑5.2를 일상적으로 이용하며 보다 향상된 모델 성능을 경험할 수 있습니다. 전반적으로 응답 구조가 더 분명해지고 신뢰성은 높아지면서도 편안하고 자연스러운 대화 스타일은 그대로 유지됩니다.
GPT‑5.2 Instant는 일상적인 업무와 학습에 적합한 빠르고 유능한 모델로, 정보 탐색이나 사용 방법 안내, 단계별 설명, 기술 문서 작성, 번역 작업 전반에서 뚜렷한 성능 개선을 보여주며 GPT‑5.1 Instant에서 도입된 따뜻한 대화 톤은 그대로 이어갑니다. 초기 테스터들은 특히 핵심 정보를 앞부분에서 명확하게 짚어주는 설명 방식이 인상적이었다고 평가했습니다.
GPT‑5.2 Thinking은 보다 깊이 있는 작업을 위해 설계된 모델로, 복잡한 과제를 더 높은 완성도로 처리할 수 있도록 돕습니다. 특히 코드 작성, 긴 문서 요약, 업로드된 파일에 대한 질의 응답, 수학·논리 문제의 단계별 풀이, 계획 수립과 의사 결정 지원에서 더 명확한 구조와 유용한 정보를 제공합니다.
GPT‑5.2 Pro는 높은 품질의 답변이 중요한 난이도 높은 질문에서 가장 뛰어난 지능과 신뢰도를 제공하는 옵션입니다. 초기 테스트 결과 중대한 오류가 줄고 프로그래밍 같은 복잡한 분야에서도 더 안정적인 성능을 보였습니다.
안전
GPT‑5.2는 GPT‑5에서 처음 도입한 안전 완료 연구를 기반으로 개발되었습니다. 이는 안전 범위를 준수하면서도 가장 유용한 답변을 제공하도록 모델을 훈련하는 기법입니다.
OpenAI 팀은 이번 릴리스에서도 민감한 대화에서 모델 응답을 강화하는 작업을 이어가며 자살이나 자해, 정신 건강 문제, 모델에 대한 감정적 의존을 암시하는 프롬프트에 대해 더 적절하게 대응하도록 기능을 개선했습니다. 이러한 조정 결과 Instant와 GPT‑5.2 Thinking 모두에서 GPT‑5.1, GPT‑5 Instant, GPT‑5 Thinking 대비 바람직하지 않은 응답이 감소한 것으로 나타났습니다. 자세한 내용은 시스템 카드에서 확인할 수 있습니다.
OpenAI는 18세 미만 사용자의 민감한 콘텐츠 접근을 제한하기 위해 연령 예측 모델의 초기 배포를 시작했습니다. 이 모델을 통해 18세 미만으로 판단되는 사용자에게는 콘텐츠 보호 조치가 자동으로 적용됩니다. 이는 이미 18세 미만임이 확인된 사용자에 대한 기존 접근 방식과 자녀 보호 기능을 확장한 조치입니다.
GPT‑5.2는 지속적인 개선 과정의 한 단계일 뿐이며 앞으로도 많은 발전이 이어질 것입니다. OpenAI는 이번 모델이 지능과 생산성에서 의미 있는 향상을 보였다는 점을 확인하면서도 사용자들이 여전히 더 많은 개선을 기대하는 부분이 있다는 점을 잘 이해하고 있습니다. 이에 따라 ChatGPT에서는 과도한 거절 같은 알려진 문제를 해결하는 한편, 전반적인 안전성과 신뢰성을 강화하는 작업도 지속적으로 수행하고 있습니다. 이러한 변화는 복잡한 과정이지만, 올바르게 구현하기 위해 앞으로도 개선을 이어나갈 계획입니다.
정신 건강 평가
GPT‑5.2
Instant
GPT‑5.1 Instant
GPT‑5.2
Thinking
GPT‑5.1 Thinking
정신 건강
0.995
0.883
0.915
0.684
감정적 의존
0.938
0.945
0.955
0.785
자해
0.938
0.925
0.963
0.937
지원 범위 및 가격
오늘부터 ChatGPT에서 유료 플랜(Plus, Pro, Business, Enterprise)을 대상으로 GPT‑5.2(Instant, Thinking, Pro) 모델이 순차 공개됩니다. OpenAI는 ChatGPT 서비스를 최대한 원활하고 안정적으로 유지하기 위해 점진적으로 GPT‑5.2를 배포하고 있습니다. 접속 시 신규 모델이 보이지 않는다면 나중에 다시 시도해 주시기 바랍니다. 또한 GPT‑5.1은 레거시 모델로서 유료 사용자에게 3개월 동안 계속 제공되며, 이후 지원이 종료될 예정입니다.
ChatGPT 및 API용 모델 명칭
ChatGPT
API
ChatGPT‑5.2 Instant
GPT‑5.2-chat-latest
ChatGPT‑5.2 Thinking
GPT‑5.2
ChatGPT‑5.2 Pro
GPT‑5.2 Pro
API 플랫폼에서는 오늘부터 GPT‑5.2 모델을 사용할 수 있습니다. Responses API와 Chat Completions API에서는 GPT‑5.2 Thinking이 gpt-5.2로 제공되며 GPT‑5.2 Instant는 gpt-5.2-chat-latest로 이용할 수 있습니다. GPT‑5.2 Pro는 Responses API에서 gpt-5.2-pro라는 명칭으로 제공됩니다. 이제 개발자는 GPT‑5.2 Pro에서 추론 수준을 매개변수로 지정할 수 있습니다. GPT‑5.2 Pro와 GPT‑5.2 Thinking 모두 새로운 다섯 번째 추론 수준인 xhigh를 제공하여 품질이 가장 중요한 작업에서 사용이 가능합니다.
가격은 입력 토큰 100만 개당 $1.75, 출력 토큰 100만 개당 $14이며 캐시된 입력값에는 90% 할인이 적용됩니다. 여러 에이전트 기반 평가에서 GPT‑5.2는 토큰당 비용이 더 높음에도 불구하고 토큰 효율성이 뛰어나 동일한 품질 수준을 달성하는 데 드는 전체 비용은 오히려 더 낮은 것으로 나타났습니다.
ChatGPT 구독 가격은 동일하게 유지되지만 API에서는 GPT‑5.2가 더 높은 성능을 갖춘 모델이기 때문에 GPT‑5.1보다 토큰당 비용이 높습니다. 그럼에도 다른 프런티어 모델보단 낮게 책정되어 있어 일상적인 업무나 핵심 애플리케이션에 계속해서 활용이 가능합니다.
토큰 100만 개당 가격
모델
입력
캐시된 입력값
출력
gpt-5.2 / gpt-5.2-chat-latest
$1.75
$0.175
$14
gpt-5.2-pro
$21
$168
gpt-5.1 / gpt-5.1-chat-latest
$1.25
$0.125
$10
gpt-5-pro
$15
$120
현재 API에서는 GPT‑5.1, GPT‑5, GPT‑4.1 지원을 중단할 계획이 없으며, 변동 사항이 생길 경우 개발자가 충분히 대비할 수 있도록 사전에 안내해 드릴 것입니다. GPT‑5.2는 Codex에서도 기본 설정만으로 원활하게 동작하지만 앞으로 몇 주 내에 Codex에 최적화된 GPT‑5.2 버전도 추가로 공개될 예정입니다.
OpenAI의 파트너
GPT‑5.2는 OpenAI가 NVIDIA 및 Microsoft와 오랜 기간 구축한 파트너십을 기반으로 개발되었습니다. Azure 데이터 센터와 H100, H200, GB200-NVL72를 포함한 NVIDIA GPU는 OpenAI의 대규모 모델 훈련 인프라를 지탱하며 모델 지능 향상에서 매우 중요한 역할을 하고 있습니다. OpenAI는 이러한 협업을 통해 연산 자원을 더욱 안정적으로 확장하고 새로운 모델을 더 빠르게 시장에 선보일 수 있습니다.
부록
상세 벤치마크
아래에서 GPT‑5.2 Thinking의 종합적인 벤치마크 점수와 함께 GPT‑5.2 Pro의 일부 결과를 함께 제공합니다.
전문가
GPT-5.2 Thinking GPT-5.2 Pro GPT-5.1 Thinking
GDPval (ties allowed, wins or ties) 70.9% 74.1% 38.8% (GPT-5)
GDPval (ties allowed, clear wins) 49.8% 60.0% 35.5% (GPT-5)
GDPval (no ties) 61.0% 67.6% 37.1% (GPT-5)
Investment banking spreadsheet tasks (internal) 68.4% 71.7% 59.1%
코딩
GPT-5.2 Thinking GPT-5.2 Pro GPT-5.1 Thinking
SWE-Bench Pro, Public 55.6% - 50.8%
SWE-bench Verified 80.0% - 76.3%
SWE-Lancer, IC Diamond* 74.6% - 69.7%
사실성
GPT-5.2 Thinking GPT-5.2 Pro GPT-5.1 Thinking
ChatGPT answers without errors (w/ search) 93.9% - 91.2%
ChatGPT answers without errors (no search) 88.0% - 87.3%
긴 컨텍스트
GPT-5.2 Thinking GPT-5.2 Pro GPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k 98.2% - 65.3%
OpenAI MRCRv2, 8 needles, 8k–16k 89.3% - 47.8%
OpenAI MRCRv2, 8 needles, 16k–32k 95.3% - 44.0%
OpenAI MRCRv2, 8 needles, 32k–64k 92.0% - 37.8%
OpenAI MRCRv2, 8 needles, 64k–128k 85.6% - 36.0%
OpenAI MRCRv2, 8 needles, 128k–256k 77.0% - 29.6%
BrowseComp Long Context 128k 92.0% - 90.0%
BrowseComp Long Context 256k 89.8% - 89.5%
GraphWalks bfs <128k 94.0% - 76.8%
Graphwalks parents <128k 89.0% - 71.5%
비전
GPT-5.2 Thinking GPT-5.2 Pro GPT-5.1 Thinking
CharXiv reasoning (no tools) 82.1% - 67.0%
CharXiv reasoning (w/ Python) 88.7% - 80.3%
MMMU Pro (no tools) 79.5% - -
MMMU Pro (w/ Python) 80.4% - 79.0%
Video MMMU (no tools) 85.9% - 82.9%
Screenspot Pro (w/ Python) 86.3% - 64.2%
도구 사용법
GPT-5.2 Thinking GPT-5.2 Pro GPT-5.1 Thinking
Tau2-bench Telecom 98.7% - 95.6%
Tau2-bench Retail 82.0% - 77.9%
BrowseComp 65.8% 77.9% 50.8%
Scale MCP-Atlas 60.6% - 44.5%
Toolathlon 46.3% - 36.1%
학술
GPT-5.2 Thinking GPT-5.2 Pro GPT-5.1 Thinking
GPQA Diamond (no tools) 92.4% 93.2% 88.1%
HLE (no tools) 34.5% 36.6% 25.7%
HLE (w/ search, Python) 45.5% 50.0% 42.7%
MMMLU 89.6% - 89.5%
HMMT, Feb 2025 (no tools) 99.4% 100.0% 96.3%
AIME 2025 (no tools) 100.0% 100.0% 94.0%
FrontierMath Tier 1–3 (w/ Python) 40.3% - 31.0%
FrontierMath Tier 4 (w/ Python) 14.6% - 12.5%
추상적 추론
GPT-5.2 Thinking GPT-5.2 Pro GPT-5.1 Thinking
ARC-AGI-1 (Verified) 86.2% 90.5% 72.8%
ARC-AGI-2 (Verified) 52.9% 54.2% (high) 17.6%
모델은 API에서 사용 가능한 최대 추론 수준으로 실행되었습니다(GPT‑5.2 Thinking과 Pro는 xhigh, GPT‑5.1 Thinking은 high). 단 전문 업무 평가에서는 ChatGPT Pro에서 사용할 수 있는 최대 수준인 heavy로 GPT‑5.2 Thinking을 실행했습니다. 벤치마크는 연구 환경에서 진행됐으며, 일부 경우에는 실제 ChatGPT 서비스 환경과 결과가 다소 다를 수 있습니다.
* SWE-Lancer에서는 OpenAI 인프라에서 실행되지 않은 237개 문항 중 40개를 제외했습니다.