챗GPT 업데이트: GPT-5 어디까지 왔나?

메녹 2025. 8. 8.

“GPT-5, 진짜로 달라졌나?” 출시 직후 쏟아진 평가나 벤치마크를 아주 쉽게 이유식 버전으로 한 장에 정리했습니다. 코딩이 어쩌고 복잡한 이야기는 넣어두고, 우리가 얼마나 사용할 수 있는건지 확인해보자구요. (업데이트: 2025-08-08)
내용이 너무 어려우신 분들은 간단 종합만 보시면 이번 업데이트에 대해서 대부분 이해하실 수 있으실거예요.

간단 종합

상황에 따라 자동으로 “빨리 답하기 vs 오래 생각하기”를 전환. “think hard about this” 같은 명령어로 원하는 내용에 더 깊게 접근할 수 있어요.
AI 거짓말(할루시네이션, 환각현상) 감소 했다고 해요.
코딩, 수학, 헬스, 멀티모달에서 벤치마크 상향 되었다고 해요.
더욱더 긴 명령어도 인식할 수 있어요. 예전에는 긴글을 복사해서 붙여넣어도 앞부분만 인식했다면 이제 긴 문서도 인식할 수 있어요.
가격대 별 사용량이 변경되었어요. gpt-5 / -mini / -nano 로 나뉘어서 고성능용 vs 대량 실시간 용으로 사용할 수 있게 구분되었어요.
기업 바로 응용: Microsoft 365 Copilot에 바로 탑재 시작되어서 당장 사용할 수 있어요.

1) 무엇이 새로워졌나 — “통합 시스템”의 실제 체감

GPT-5는 빠른 기본 모델 + 깊게 생각하는 모델(Thinking) + 실시간 라우터가 묶인 구조로 되어 있어요. 시스템 카드는 대화 유형·난이도·툴 사용 여부 등을 보고 라우터가 자동으로 모델을 고른다고 설명하네요. 사용자가 “think hard…”라고 명시하면 심층 추론으로 스위치됩니다.
짧은 요약·검색형 질문은 즉답, 복잡한 설계·디버깅·헬스 컨설팅은 “오래 생각” 모드로 넘어가 속도/품질 타협 비용을 사용자 없이 처리합니다. 초기 매체 리뷰도 이 점을 핵심 차별로 꼽습니다.

2) 성능 — 벤치마크 숫자와 “현업 체감” 사이

오피셜(공식): OpenAI는 AIME 2025, SWE-bench Verified, MMMU, HealthBench 등에서 SOTA급 수치를 주장합니다
서드파티(외부): Vellum, Qodo, Roboflow, Vals 등도 초기 측정을 냈습니다.

SWE-bench Verified: GPT-5가 74.9%(Thinking 켜짐)로 내부/타 모델 대비 우세.
PR 코드리뷰 벤치마크: 실제 PR 400건 기반의 리뷰·버그탐지에서 상위권.
비전·멀티모달: 80+ 실사용 테스트에서 기존 대비 이해·지시 이행 향상.
지식·종합(MMLU Pro): 상위권(약 86%)이지만, 벤치마크 포화 지적도 병행.

오피셜 수치는 최적 세팅(Thinking, 도구 사용 제한 등)을 전제로 한 경우가 많습니다. 그리고 서드파티 수치는 과제·데이터 공개성·체리피킹 여부를 체크하세요. 서로 다른 태스크를 합쳐 “종합 우열”을 가리기는 어려울것 같네요.

3) 환각(할루시네이션)·안전 — “감소했다”는 주장, 어디까지 믿을까

시스템 카드는 환각(사실오류, 할루시네이션) 저감·지시 따르기 개선·아첨/영합성 최소화를 주요 성과라고 이야기 하고 있어요.일부 매체는 Thinking 변형에서 환각률 추가 감소와 대규모 레드팀 테스트를 증명하기도 했는데, 사실 평가 세팅·브라우징 여부·체크 기준에 따라 수치가 달라진다는 점에서 확실하게 나아졌다고 말하기가 조금 어려움이 있네요.
또한 자율성/위험성 측면에서 METR의 초안 평가는 “수 시간 단위의 계획 지속성은 있으나, 고위험 시나리오 도달과는 거리”라는 결론을 냈습니다(훈련 특성에 대한 제조사의 보증을 전제로). 즉, 강력해졌지만 무제한 에이전트는 아님.

4) 컨텍스트 길이·가격 — 기사마다 다른 숫자, 무엇이 맞나

컨텍스트: 공식 개발자 문서·소개 글·언론 보도 간 표기가 256K~400K(문서), 일부 매체는 1M 토큰을 이야기 하고 있어요. 하지만 현재 공식 문서/모델 카드 기준으로 확인해보면서 제품 업데이트를 확인해봐야할것 같아요.
가격(USD/M 토큰) (2025-08-08 기준): gpt-5 입력 $1.25, 출력 $10 / gpt-5-mini 입력 $0.25, gpt-5-nano 입력 $0.05` 라고 하네요.

5) 실제 업무 적용

오피스 업무: Microsoft 365 Copilot이 GPT-5를 도입. 메일·문서·미팅 컨텍스트를 아우르는 상황 맞춤 응답을 예고. 기업 현장에서 체감이 빠를 전망.
코딩: API용 GPT-5 / -mini / -nano가 공개. 특히 에이전틱 코딩(멀티스텝 자동화)에 맞춘 튜닝이 강조되고, 주요 개발툴·IDE 생태계가 조기 통합 중.
문서작성: OpenAI는 헬스 관련 질의 정확도 향상과 글쓰기 조력 개선을 핵심 효용으로 제시. 일상 보고서·기획안 작성에서 품질/속도 동시 개선 기대.

6) 한계와 리스크 — 아직은 “강한 범용 도구”, AGI는 아님

샘 올트먼은 “AGI는 아직”이라며 선을 그은 상황이에요. 연속적 온라인 학습 같은 AGI의 요건으로 여겨지는 능력은 탑재되지 않았고, 도구 없이 열린 질의에선 여전히 오류가 발생하는걸 발견하고 있어요. 즉, “크게 좋아진 범용 도구”이지, “만능 두뇌”는 아니라는 점.

7) 어떤 버전을 고를까 (실무 기준)

ChatGPT 일반 사용자: 기본 GPT-5로 충분. 복잡한 설계·리서치는 “GPT-5 Thinking” 혹은 프롬프트에 think hard 명시.
개발·자동화: 배치·비용이 중요하면 mini/-nano. 복잡한 리팩토링·멀티스텝 에이전트는 gpt-5 + 도구 체인.
보안·컴플라이언스: 기업용은 Copilot/엔터프라이즈 플랜에서 거버넌스·감사 추적과 함께 도입 검토.

결론

GPT-5는 속도/정확/추론의 자동 균형과 할루시네이션이 줄어듬으로으로 “실사용자 간의 신뢰도”가 더욱 높아진것 같아요. 컨텍스트·가격·세부 수치는 문서/제품 업데이트에 따라 유동적이니 공식 페이지를 기준으로 확인을 해보시길 바래요.
현재로서는 과대평가도 과소평가도 금물이예요.당장 써보며 팀 워크플로우에 맞춘 베타 표준을 잡는 것이 최선으로 보이네요.

저작자표시 비영리 변경금지 (새창열림)

챗GPT 업데이트: GPT-5 어디까지 왔나?

간단 종합

1) 무엇이 새로워졌나 — “통합 시스템”의 실제 체감

2) 성능 — 벤치마크 숫자와 “현업 체감” 사이

3) 환각(할루시네이션)·안전 — “감소했다”는 주장, 어디까지 믿을까

4) 컨텍스트 길이·가격 — 기사마다 다른 숫자, 무엇이 맞나

5) 실제 업무 적용

6) 한계와 리스크 — 아직은 “강한 범용 도구”, AGI는 아님

7) 어떤 버전을 고를까 (실무 기준)

결론

댓글

티스토리툴바

챗GPT 업데이트: GPT-5 어디까지 왔나?

간단 종합

1) 무엇이 새로워졌나 — “통합 시스템”의 실제 체감

2) 성능 — 벤치마크 숫자와 “현업 체감” 사이

3) 환각(할루시네이션)·안전 — “감소했다”는 주장, 어디까지 믿을까

4) 컨텍스트 길이·가격 — 기사마다 다른 숫자, 무엇이 맞나

5) 실제 업무 적용

6) 한계와 리스크 — 아직은 “강한 범용 도구”, AGI는 아님

7) 어떤 버전을 고를까 (실무 기준)

결론

관련글

댓글

티스토리툴바