post

OpenAI가 GPT 5.4를 출시했다. Tool Calling, Computer Use 등 Agent 성능이 크게 향상되었으며, 주요 벤치마크에서 타 모델들을 확연히 이기며 명실상부한 SOTA에 등극했다.

Weekly Tech Trend Talk 스터디(26.03.12)

GPT 5.4 주요 벤치마크 종합

GPT 5.4는 GDPval 83.0%, SWE-Bench Pro 57.7%, OSWorld-Verified 75.0%, Toolathlon 54.6%, BrowseComp 82.7%로 GPT-5.3-Codex와 GPT-5.2를 모든 항목에서 앞섰다.


GDPval - 업계 전문가 기준선 돌파

GDPval 벤치마크 결과

경제적으로 가치 있는 지식 업무를 평가하는 GDPval 벤치마크에서 GPT 5.4가 업계 전문가 기준선(약 50%)을 확실히 넘어섰다.

GPT-5.4 Pro는 Win 69.2% + Tie 12.8% = 82.0%, GPT-5.4는 Win 70.8% + Tie 12.2% = 83.0%를 기록했다. GPT-5.2 Pro(74.1%), GPT-5.2(70.9%)와 비교하면 확연한 차이를 보인다.


OSWorld-Verified - 데스크탑 조작 능력

OSWorld-Verified 결과

OSWorld-Verified는 스크린샷과 키보드, 좌표 기반 마우스 조작을 통해 데스크탑 환경을 탐색하는 능력을 평가하는 벤치마크다.

GPT 5.4는 도구 중단 횟수(tool call) 8~17회로 정확도 40~75%를 달성한 반면, GPT 5.2는 28~43회의 도구 호출로 20~50% 정확도에 그쳤다. 더 적은 도구 호출로 더 높은 정확도를 달성한 것이 핵심이다.


Computer Use - 빌트인 지원

Computer Use 동작 흐름

OpenAI가 GPT 5.4부터 빌트인 Computer Use 기능을 도입했다. 기존에는 Computer Use를 위해 별도의 모델을 사용해야 했지만, 이제 GPT 5.4에서 직접 지원한다.

동작 흐름은 다음과 같다:

  1. 스크린샷을 CUA Model에 전달
  2. 모델이 Computer tool call 생성 (예: click(left, 286, 102))
  3. Application code가 Action을 실행
  4. Computer environment에서 새 스크린샷 캡처 후 다시 1번으로
from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5.4",
    tools=[{"type": "computer"}],
    input="Check whether the Filters panel is open. If it is not open, click Show filters. Then type penguin in the search box. Use the computer tool for UI interaction.",
)

print(response.output)

응답 예시:

{
  "output": [
    {
      "type": "computer_call",
      "call_id": "call_002",
      "actions": [
        { "type": "click", "button": "left", "x": 405, "y": 157 },
        { "type": "type", "text": "penguin" }
      ],
      "status": "completed"
    }
  ]
}

물론 기존 방식인 Playwright MCP 활용 등의 방식도 더 뛰어나졌다.


Tool Search - 토큰 절감을 위한 도구 검색

Tool Search는 대량의 도구를 효율적으로 관리하기 위한 새로운 기능이다.

defer_loading을 설정한 함수는 모델에게 함수 이름과 설명만 전달되고 parameter schema는 숨겨져서 토큰을 절약할 수 있다. 모델이 도구 검색을 수행할 경우, defer_loading이 설정된 함수/네임스페이스/MCP를 보고 다시 도구를 선택한다.

from openai import OpenAI

client = OpenAI()

crm_namespace = {
    "type": "namespace",
    "name": "crm",
    "description": "CRM tools for customer lookup and order management.",
    "tools": [
        {
            "type": "function",
            "name": "get_customer_profile",
            "description": "Fetch a customer profile by customer ID.",
            "parameters": {
                "type": "object",
                "properties": {
                    "customer_id": {"type": "string"},
                },
                "required": ["customer_id"],
                "additionalProperties": False,
            },
        },
        {
            "type": "function",
            "name": "list_open_orders",
            "description": "List open orders for a customer ID.",
            "defer_loading": True,
            "parameters": {
                "type": "object",
                "properties": {
                    "customer_id": {"type": "string"},
                },
                "required": ["customer_id"],
                "additionalProperties": False,
            },
        },
    ],
}

response = client.responses.create(
    model="gpt-5.4",
    input="List open orders for customer CUST-12345.",
    tools=[
        crm_namespace,
        {"type": "tool_search"},
    ],
    parallel_tool_calls=False,
)

print(response.output)

토큰 절감 효과

Tool Search 토큰 절감 효과

도구 검색을 사용하면 총 65,320 토큰으로 처리되지만, 사용하지 않으면 123,139 토큰이 필요하다. 약 47%의 토큰 절감 효과를 보여준다.


추가 벤치마크

Abstract Reasoning

Abstract Reasoning 벤치마크

ARC-AGI-1(Verified)에서 GPT-5.4는 93.7%, GPT-5.4 Pro는 94.5%를 기록했다. ARC-AGI-2(Verified)에서는 GPT-5.4가 73.3%, GPT-5.4 Pro가 83.3%로, GPT-5.2(52.9%) 대비 크게 향상되었다.

FrontierMath

FrontierMath 벤치마크

FrontierMath에서도 GPT-5.4가 새로운 기록을 세웠다. Tiers 1-3에서 GPT-5.4 Pro가 가장 높은 성적을 기록했으며, Tier 4에서도 GPT-5.4 Pro(web app)가 Opus 4.6(max), Gemini 3 Pro를 크게 앞섰다.


모델 스펙

항목 사양
Context Window 1M 50K
최대 출력 토큰 128K
지식 Cut-off 2025.08.31

카테고리:

업데이트:

댓글남기기