여러분이 사용하고 계신 브라우저는 HTML5를 지원하지 않기 때문에 몇몇 요소가 제대로 보이도록 JScript를 사용하고 있습니다. 하지만 여러분의 브라우저 설정에서 스크립트 기능이 꺼져있으므로, 현재 페이지를 제대로 확인하시려면 스크립트 기능을 켜주셔야 합니다. Anthropic Claude Sonnet 4.5 공개, Agent SDK와 함께 혁신 시작

Anthropic Claude Sonnet 4.5 공개, Agent SDK와 함께 혁신 시작

7일전 작성

Claude Sonnet 4.5 출시와 AI 개발 혁신

Claude Sonnet 4.5가 공식 출시되면서 AI 개발 분야에 새로운 혁신이 시작되었다. Anthropic이 발표한 이번 모델은 세계 최고의 코딩 성능을 자랑하며, 복잡한 AI 에이전트 구축과 컴퓨터 사용 능력에서 획기적인 발전을 보여준다. 추론과 수학 분야에서도 상당한 성능 향상을 달성했으며, 기존 Claude 모델 대비 정렬성도 크게 개선되었다. Claude Sonnet 4.5의 핵심 기능과 개발자들에게 제공되는 새로운 도구들을 자세히 살펴보자.

목차

핵심 성능

Claude Sonnet 4.5는 여러 핵심 영역에서 업계 최고 수준의 성능을 달성했다. SWE-bench Verified 평가에서 최고 점수를 기록하며 실제 소프트웨어 코딩 능력의 우수성을 입증했다. 이 모델은 복잡하고 다단계적인 작업에서 30시간 이상 집중력을 유지할 수 있는 놀라운 지속성을 보여준다.

컴퓨터 사용 능력에서도 획기적인 발전을 이뤘다. OSWorld 벤치마크에서 61.4%의 점수를 기록하며 선두를 차지했는데, 이는 불과 4개월 전 Claude Sonnet 4가 달성한 42.2%보다 크게 향상된 수치다. 이러한 성능 개선은 실제 컴퓨터 작업에서 AI가 웹사이트 탐색, 스프레드시트 작성, 복잡한 업무 완료 등을 더욱 정확하고 효율적으로 수행할 수 있음을 의미한다.

추론과 수학 분야에서도 상당한 성능 향상을 보였다. 다양한 공개 평가에서 기존 모델들을 크게 앞서는 결과를 달성했으며, 금융, 법률, 의학, STEM 분야 전문가들은 Claude Sonnet 4.5가 기존 Opus 4.1을 포함한 이전 모델들보다 해당 분야의 전문 지식과 추론 능력에서 극적인 개선을 보인다고 평가했다.

제품 업데이트

Claude Sonnet 4.5 출시와 함께 Anthropic의 제품군 전반에 걸쳐 대규모 업데이트가 이뤄졌다. Claude Code에는 가장 많은 요청을 받았던 체크포인트 기능이 추가되어 작업 진행상황을 저장하고 이전 상태로 즉시 되돌릴 수 있게 되었다. 터미널 인터페이스가 새롭게 디자인되었으며, VS Code 네이티브 확장 프로그램도 출시되었다.

Claude API에는 새로운 컨텍스트 편집 기능과 메모리 도구가 추가되어 에이전트가 더 오랫동안 실행되고 더 복잡한 작업을 처리할 수 있게 되었다. 이러한 개선사항은 개발자들이 더욱 정교하고 지속적인 AI 애플리케이션을 구축할 수 있는 기반을 제공한다.

Claude 앱에서는 코드 실행과 파일 생성 기능이 대화에 직접 통합되었다. 사용자들은 이제 스프레드시트, 프레젠테이션, 문서를 대화 중에 바로 생성하고 편집할 수 있다. 또한 지난달 대기자 명단에 등록한 Max 사용자들에게 Claude for Chrome 확장 프로그램이 제공되기 시작했다.

💡 가격 정책:
• Claude Sonnet 4.5 API 가격: $3/$15 per million tokens
• 기존 Claude Sonnet 4와 동일한 가격 유지
• 모든 유료 플랜에서 새로운 기능 이용 가능

Agent SDK

Anthropic은 Claude Code 개발 과정에서 축적한 6개월간의 경험을 바탕으로 Claude Agent SDK를 공개했다. 이 SDK는 Claude Code를 구동하는 것과 동일한 인프라를 기반으로 하며, 개발자들이 자체 AI 에이전트를 구축할 수 있는 강력한 도구를 제공한다.

Agent SDK는 AI 에이전트 개발의 핵심 과제들을 해결한다. 장기 실행 작업에서 메모리를 관리하는 방법, 자율성과 사용자 제어 사이의 균형을 맞추는 권한 시스템, 공통 목표를 향해 작업하는 하위 에이전트들의 조정 등이 그 예다. 이러한 문제들은 실제 AI 에이전트 개발에서 가장 어려운 부분들로, Anthropic의 솔루션은 개발자들에게 검증된 접근 방식을 제공한다.

흥미롭게도 Agent SDK는 코딩뿐만 아니라 매우 다양한 작업 영역에서 인상적인 성능을 보여준다. 개발자들은 이 SDK를 활용해 자신들이 해결하고자 하는 특정 문제에 맞는 강력한 도구를 구축할 수 있다. Anthropic이 Claude Code를 개발한 이유와 마찬가지로, 개발자들도 기존에 존재하지 않던 도구를 만들어낼 수 있는 기반을 얻게 된 것이다.

안전성 개선

Claude Sonnet 4.5는 Anthropic이 출시한 프론티어 모델 중 가장 높은 정렬성을 보여준다. 아첨, 기만, 권력 추구, 망상적 사고 조장과 같은 문제적 행동들이 상당히 감소했으며, 에이전트 및 컴퓨터 사용 기능에서는 프롬프트 인젝션 공격에 대한 방어 능력도 크게 향상되었다.

이번 모델은 AI Safety Level 3(ASL-3) 보호 조치 하에 출시되었다. 이는 모델의 능력에 적절한 안전장치를 매칭하는 Anthropic의 프레임워크에 따른 것이다. 특히 화학, 생물학, 방사선, 핵(CBRN) 무기와 관련된 위험한 입력과 출력을 탐지하는 분류기 필터가 포함되어 있다.

이러한 분류기들이 때때로 정상적인 콘텐츠를 잘못 플래그할 수 있다는 점을 고려해, Anthropic은 사용자들이 중단된 대화를 Claude Sonnet 4로 쉽게 이어갈 수 있도록 했다. 실제로 거짓 양성 반응은 처음 설명했을 때보다 10분의 1로, 5월 Claude Opus 4 출시 이후로는 절반으로 줄어들었다.

안전성 지표 개선 정도 주요 내용
정렬 행동 대폭 개선 아첨, 기만, 권력추구 행동 감소
프롬프트 인젝션 상당한 진전 에이전트 기능 보안 강화
거짓 양성 90% 감소 정상 콘텐츠 오탐지 대폭 줄임

Anthropic은 Claude Sonnet 4.5 시스템 카드에서 처음으로 기계론적 해석가능성 기법을 사용한 테스트를 포함한 상세한 안전성 및 정렬 평가 결과를 공개했다. 이는 AI 안전성 연구 분야에서 중요한 발전으로, 모델의 내부 작동 방식을 더 깊이 이해하고 검증할 수 있는 새로운 접근법을 제시한다.

 

Claude Sonnet 4.5는 AI 개발 분야의 새로운 이정표다. 세계 최고 수준의 코딩 성능과 컴퓨터 사용 능력, 그리고 향상된 안전성을 모두 갖춘 이 모델은 개발자들에게 강력한 도구를 제공한다. 특히 Agent SDK의 공개는 AI 에이전트 개발의 진입장벽을 크게 낮추며, 더 많은 혁신적인 애플리케이션의 탄생을 가능하게 할 것이다.

기존 Claude Sonnet 4와 동일한 가격으로 제공되는 이번 업그레이드는 모든 사용자에게 즉시 혜택을 제공한다. API 개발자들은 claude-sonnet-4-5 모델 스트링을 사용하면 되고, 앱 사용자들은 자동으로 개선된 성능을 경험할 수 있다.

AI 기술의 급속한 발전 속에서 Claude Sonnet 4.5는 성능과 안전성을 동시에 추구하는 균형잡힌 접근법을 보여준다. 개발자들과 기업들은 이 새로운 도구들을 활용해 더욱 정교하고 실용적인 AI 솔루션을 구축할 수 있을 것이다.

참고
Mingg`s Diary
밍구
공부 목적 블로그