한 달만에 GPT-5.4 Thinking 출시: 기능 및 성능, 사용자 반응 및 사용팁

GTP-5.4의 기능, 이전 세대 대비 달라진 점, 시장 반응 등을 정리해서 알려드릴게요.
Mar 16, 2026
한 달만에 GPT-5.4 Thinking 출시: 기능 및 성능, 사용자 반응 및 사용팁
🧑🏻‍💻
생성형AI 기업들이 새로운 모델을 내놓는 속도가 빨라지고 있어요. OpenAI가 GPT-5.3-Codex를 출시한지 약 1달만에 새로운 GPT 모델을 출시했습니다. 특히 이번 GPT-5.4는 속도 경쟁을 위해 보다 급하게 출시한 것이 아니냐는 여론도 있는데요. 이번 아티클에서는 GTP-5.4의 기능, 이전 세대 대비 달라진 점, 시장 반응 등을 정리해서 알려드릴게요.
 

GPT-5.4 Thinking 모델이란?

GPT-5.4 Thinking은 복잡한 일을 여러 단계로 나눠서 처리하고, 필요한 도구를 골라 쓰고, 작업 흐름까지 고려해 결과를 만들어내는 데 강점을 가진 모델입니다.
복잡한 요청을 했을 때, 무언가를 바로 내놓기보다 먼저 어떻게 풀어갈지 계획을 세우고, 그 흐름에 맞춰 작업을 진행하는 방식이 특징인데요. 그래서 사용자는 모델이 어떤 방향으로 문제를 풀고 있는지 파악하기 쉽고, 중간에 방향을 수정하거나 추가 지시를 주기도 더 편해졌어요.
OpenAI는 GPT-5.4 Thinking을 장기적인 작업이나 복잡한 전문 업무에 적합한 모델로 설명하고 있습니다.
Plus, Team, Pro 사용자라면, 아래 이미지처럼 Thinking 모델을 선택하여 바로 사용할 수 있어요.
notion image
 

GPT-5.4 Thinking 기능

전체적인 성능이 좋아졌지만, 그중에서도 특히 눈에 띄는 기능은 아래 다섯 가지예요.

1. 전문 지식이 필요한 업무를 더 잘해요

GPT-5.4 Thinking의 가장 큰 변화는, 단순히 말을 잘 만드는 수준을 넘어 실제 업무 처리 능력이 좋아졌다는 점이에요.
예를 들어 자료 조사, 문서 작성, 표 정리, 발표자료 구성, 분석 결과 정리처럼 회사에서 자주 하는 일을 더 안정적으로 수행할 수 있는데요. OpenAI에 따르면 44개 직군의 지식 업무를 평가한 GDPval 테스트에서 GPT-5.4는 83%의 사례에서 업계 전문가와 동등하거나 그 이상의 성과를 냈다고 합니다.

2. 엑셀, 문서, PPT 같은 결과물 작업이 강해졌어요

GPT-5.4는 단순히 글만 잘 쓰는 게 아니라, 스프레드시트·문서·발표자료처럼 손에 잡히는 결과물을 만드는 데 강점을 보입니다.
먼저 스프레드시트 모델링 성능은 크게 좋아졌어요. 관련 벤치마크에서 GPT-5.4는 87.3%를 기록했는데, GPT-5.2의 68.4%보다 높은 수치입니다. OpenAI는 이 정도 수준을 주니어 투자은행 애널리스트가 할 만한 업무에 가깝다고 설명했어요.
발표자료 쪽도 개선됐는데요. 인간 평가자들은 GPT-5.4가 만든 프레젠테이션을 GPT-5.2보다 68.0% 더 선호했다고 합니다. 보기 좋은 자료를 만드는 능력이 꽤 강화된 셈이에요.

3. 필요한 도구만 골라서 더 효율적으로 써요

GPT-5.4에는 Tool Search라는 기능이 들어갔어요. 수많은 도구 중에서 지금 필요한 도구만 찾아서 쓰는 기능인데요.
예전에는 모델이 사용할 수 있는 도구 설명을 처음부터 전부 읽고 시작해야 했어요. 도구가 많아질수록 속도는 느려지고 비용도 늘어날 수밖에 없었죠. 그런데 GPT-5.4는 먼저 도구 목록만 확인한 뒤, 필요한 도구 설명만 그때그때 불러와서 사용합니다. OpenAI에 따르면 AI가 외부 도구 중에서 필요한 것만 효율적으로 잘 쓰는지 보는 MCP Atlas 벤치마크에서 정확도는 유지하면서 전체 토큰 사용량이 47% 감소했다고 해요.

4. 웹 검색을 더 끈질기고 똑똑하게 해요

예전에는 한두 번 검색한 뒤 답을 정리하는 느낌이었다면, GPT-5.4는 필요한 정보를 찾을 때까지 여러 출처를 확인하고 비교하는 쪽으로 강화됐습니다.
웹에서 찾기 어려운 정보를 끝까지 찾아내는지 확인하는 BrowseComp 결과를 보면 GPT-5.4는 82.7%, GPT-5.2는 65.8%를 기록했어요. 단순 계산으로 보면 약 17%p 가까이 향상된 셈인데요. 찾기 어려운 정보나 여러 자료를 함께 검토해야 하는 질문에서도 더 안정적으로 답을 만들 가능성이 높아졌다는 뜻이에요.

5. 사람처럼 컴퓨터를 다루는 기능이 들어갔어요

이번 GPT-5.4에서 가장 직관적으로 와닿는 기능 중 하나가 바로 컴퓨터 사용(Computer Use)예요.
사람이 화면을 보며 버튼을 클릭하고 텍스트를 입력하듯이 AI도 비슷한 흐름으로 작업할 수 있는 기능인데요. 단순히 메뉴를 누르라고 안내하는 게 아니라, 스크린샷을 바탕으로 현재 화면 상태를 이해하고 다음 행동을 결정하는 식입니다.
OpenAI가 공개한 영상에 따르면, GPT-5.4는 직접 만든 체스 게임에서 마우스로 체스 말을 클릭하고 드래그하며 게임을 플레이하기도 했어요.
notion image
 

GPT-5.4 Thinking vs GPT-5.3-Codex

GPT-5.4 Thinking과 바로 직전 모델인 GPT-5.3-Codex를 비교해 봤어요.
카테고리
GPT-5.3-Codex
GPT-5.4 Thinking
모델 포지션
에이전트형 코딩과 장기 작업 수행에 강점을 둔 모델
GPT-5.3-Codex의 코딩 역량에 추론·도구 활용·전문 업무·컴퓨터 사용을 통합한 모델
작업 방식
도구를 활용해 복잡한 코딩·실행 작업을 수행하는 데 강점
더 긴 작업 흐름을 계획하고, 실행하고, 검토하는 능력이 강화됨
계획 수립
복잡한 작업을 수행할 수 있지만, ‘사전 계획 제시’가 핵심 특징으로 강조되진 않음
ChatGPT에서 필요 시 작업 전 사고 과정의 사전 계획을 제시할 수 있음
도구 활용
에이전트형 코딩/실행 환경에 최적화
필요한 도구를 더 효율적으로 선택·조합하는 방식이 강조됨
컴퓨터 사용
컴퓨터 작업 수행 능력을 강조한 모델
OpenAI가 내놓은 범용 모델 중 최초로 네이티브 컴퓨터 사용 기능 탑재
강점 영역
코딩, 코드 리뷰, 장기 실행형 개발 작업
코딩 + 문서·스프레드시트·프레젠테이션 등 전문 업무 전반
전문 업무 성과(GDPval)
70.9%
83.0%
GPT-5.3-Codex가 에이전트형 코딩과 장기 실행 작업에 특화된 모델이었다면, GPT-5.4 Thinking은 그 코딩 역량을 바탕으로 추론, 도구 활용, 전문 업무 처리, 컴퓨터 사용까지 하나의 모델 안에 더 넓게 통합한 버전이라고 볼 수 있어요.

GPT-5.4의 해외 사용자 반응 및 팁은?

좋은 점

해외 사용자들은 GPT-5.4를 분석과 실무에 강한 모델로 보는 분위기예요. 특히 복잡한 코드 구조를 이해하거나 버그를 찾고 수정하는 능력, 논리적으로 문제를 풀어가는 능력이 좋아졌다는 평가가 많습니다. 그래서 백엔드 작업, 리팩토링, 데이터 분석처럼 정확성과 구조 이해가 중요한 업무에서 강점이 뚜렷하다는 반응이 나옵니다.

아쉬운 점

반면 창의성이나 디자인 감각에 대해서는 아쉽다는 의견도 있어요. 결과물이 전반적으로 무난하고 안정적이긴 하지만, 시각적으로 인상적이거나 사용자의 추상적인 의도를 세련되게 구현하는 능력은 기대보다 약하다는 평가가 있습니다. 또 복잡한 지시를 줬을 때 일부 세부 요구사항을 놓치거나, 작업 과정에서 세심함이 부족했다는 경험담도 보입니다.

사용 팁

  • 바로 실행시키기보다 먼저 계획부터 세워달고 요청하기
  • 계획을 확인한 뒤 작업을 진행해 오류 줄이기
  • 분석, 버그 수정, 리팩토링 같은 구조적인 작업에 우선 활용하기
  • 디자인이나 프런트엔드 중심 작업은 다른 모델과 나눠 쓰기
 
GPT-5.4 Thinking은 이전 세대보다 실무형 작업 능력은 확실히 강화됐지만, 빠르게 출시된 만큼 모든 영역에서 압도적이라고 보긴 어려워 보여요.
다만 문서 작업, 분석, 리팩토링처럼 구조적인 업무를 자주 하는 사용자라면 이번 업데이트의 차이를 꽤 크게 체감할 수 있을 거라 예상돼요. Plus, Team, Pro 사용자도 바로 사용할 수 있는 만큼, 내 작업 방식에 얼마나 잘 맞는지 직접 써보며 확인해 보는 걸 추천해요.
 

 
참고자료
Share article

컨설팅부터 구축, 운영까지 - AX 통합 솔루션, 스파르타AX