🤖 AI 혼자서 30시간 동안 코딩한다고요?

안녕하세요! 요즘 개발자 사이에서 뜨거운 화제가 있어요. 바로 클로드 소네트 4.5가 30시간 넘게 혼자 코딩을 하면서 슬랙 같은 메신저 앱을 만들어낸다는 이야기예요.

"AI가 그렇게 오래 집중할 수 있어?" 하고 의아해하실 수도 있는데요. 실제로 앤트로픽이 공개한 시스템 프롬프트를 보면 이게 어떻게 가능한지 그 비밀이 숨어 있더라고요. 오늘은 그 속을 한번 파헤쳐볼게요.

클로드 소네트 4.5, 대체 얼마나 잘하길래?

먼저 숫자로 보면 확실히 와닿을 것 같아요. 클로드 소네트 4.5는 실제 깃허브 이슈를 해결하는 SWE-bench 검증 테스트에서 77.2%를 기록했어요. 병렬 연산을 사용하면 82%까지 올라가고요. 경쟁 모델인 GPT-5 코덱스가 74.5%인 걸 생각하면 꽤 앞서가는 거죠.

컴퓨터 사용 능력을 테스트하는 OSWorld에서는 61.4%를 기록했는데요. 불과 4개월 전 클로드 소네트 4가 42.2%를 기록했던 걸 생각하면 엄청난 도약이에요. 웹사이트 탐색하고, 스프레드시트 채우고, 복잡한 작업을 혼자서 척척 해내는 수준이랍니다.

수학 실력도 장난 아니에요. 고등학교 수학 경시대회인 AIME 2025에서 파이썬 도구를 사용했을 때 100% 만점을 받았거든요. 도구 없이도 87%를 기록했다니, 정말 놀랍지 않나요?

앤트로픽이 얼마나 잘나가고 있냐면

사실 이 모델의 성과는 회사 실적으로도 바로 나타나고 있어요. 앤트로픽의 연간 반복 매출이 2025년 7월 기준으로 50억 달러, 그러니까 약 6조 8천억 원을 돌파했어요. 2024년 12월에 약 1조 3천억 원이었던 걸 생각하면 불과 몇 개월 만에 5배나 뛴 거죠.

특히 클로드 코드라는 개발자용 도구는 5월 정식 출시 이후 단 3개월 만에 사용량이 10배 이상 증가하면서 약 6,800억 원의 매출을 올리고 있어요. 개발자들이 정말 열광하고 있다는 증거죠.

앤트로픽은 현재 30만 개 이상의 기업 고객을 보유하고 있고, 연 1억 3천만 원 이상을 지불하는 대형 고객사가 지난 1년간 7배나 늘었어요. 회사 가치도 2025년 9월 기준으로 약 250조 원에 달한다고 하니, 정말 무섭게 성장하고 있는 거죠.

그런데 어떻게 30시간 동안 일할 수 있는 걸까요?

여기서부터가 진짜 핵심이에요. AI가 그렇게 오랫동안 집중력을 잃지 않고 작업할 수 있는 비결은 뭘까요?

아티팩트 시스템으로 코드를 안전하게 관리해요

20줄 이상이나 1,500자 이상의 코드는 무조건 아티팩트로 만들어야 하고, 한 번에 하나의 아티팩트만 생성할 수 있어요. 이렇게 하면 큰 애플리케이션을 모듈별로 차근차근 쌓아올리면서도 내용이 잘리거나 사라지지 않거든요.

마치 레고 블록을 하나씩 쌓아 올리듯이 말이에요. 각 블록은 안전하게 고정되어 있고, 다음 블록을 올릴 때도 안정적이죠.

업데이트와 재작성을 명확하게 구분해요

작은 변경은 업데이트로, 큰 구조적 변경은 재작성으로 명확히 구분되어 있어요. 업데이트는 최대 4번까지 할 수 있고, 그 이상 필요하면 재작성을 하도록 되어 있죠.

이 방식으로 11,000줄 이상의 코드를 상태 손실 없이 완성할 수 있대요. 생각해보세요, 책 한 권 분량의 코드를 작성하면서도 앞에 뭘 썼는지 까먹지 않는 거예요!

안정적인 실행 환경을 보장해요

브라우저의 로컬스토리지나 세션스토리지 같은 불안정한 저장소는 아예 사용하지 못하게 막아놨어요. 모든 데이터는 메모리에만 저장하도록 해서, 채팅 UI 같은 걸 만들 때 몇 시간씩 작업해도 문제가 생기지 않는 거죠.

사용 가능한 도구를 명확하게 정해놨어요

사용할 수 있는 아티팩트 타입과 임포트 규칙이 화이트리스트로 딱 정해져 있어요. 단일 파일 HTML, 리액트 컴포넌트, CDN 같은 것들이요. 그래서 인증 화면, 채널 목록, 메시지 작성 창 같은 완전한 기능들을 도구 충돌 없이 만들어낼 수 있어요.

제품 수준의 앱을 만드는 비밀 무기들

리서치 모드로 철저하게 조사해요

복잡한 작업에는 최소 5번에서 최대 20번 정도의 도구 호출을 하는 리서치 모드가 작동해요. 계획을 세우고, 리서치 루프를 돌리고, 답변을 구성하는 명확한 레시피를 따르죠.

슬랙 같은 앱을 만들려면 어떤 프로토콜을 쓸지, UI 패턴은 어떻게 할지, 실시간 접속 상태는 어떻게 관리할지 같은 걸 조사해야 하잖아요? 이런 정보 검색을 체계적으로 지원하는 거예요.

추측하지 말고 확인하라는 원칙이 박혀 있어요

뭔가 불확실하면 추측하지 말고 도구를 활용해서 조사하라는 원칙이 시스템에 내장되어 있어요. 프레임워크 선택이나 스토리지 스키마, 배포 옵션 같은 걸 결정할 때 막다른 길에 빠지는 걸 줄여주죠.

생각과 실행을 분리해요

먼저 계획을 세우는 단계, 그다음 실행하는 단계로 나뉘어 있어요. 긴 세션 동안 이렇게 하면 큰 아티팩트를 망가뜨리지 않고 범위를 체계적으로 관리할 수 있거든요.

마치 여행 가기 전에 일정을 짜고, 그다음에 실제로 움직이는 것처럼요.

장기 자율 작업의 핵심 메커니즘

계획-피드백 루프가 돌아가요

시스템 프롬프트에는 보이저나 제너레이티브 에이전트 같은 아키텍처 패턴이 포함되어 있어요. 상태를 확인하고, 도구를 사용하고, 코드를 제안하고, 실행하고, 학습하는 사이클이 반복되죠. 이런 루프 덕분에 AI가 수십 시간에 걸쳐 진행 상황을 유지할 수 있는 거예요.

완전한 대화 상태를 유지해요

상태가 있는 앱을 만들 때는 매번 완전한 히스토리와 상태를 전송하도록 요구해요. 채팅 앱에서 UI 상태, 접속 상태, 메시지 히스토리가 여러 생성 사이클에 걸쳐 일관되게 유지되려면 이게 핵심이거든요.

오류가 나면 배우고 재시도해요

낡은 컨텍스트를 정리하고 학습한 교훈으로 재시도하도록 권장하는 패턴들이 들어 있어요. 12시간째 작업하다가 통합 오류가 터질 때 정말 중요한 기능이죠.

실용적인 선택이 성능을 만들어요

검증된 기술 스택을 추천해요

지식 범위를 고려해서 주류 프레임워크인 리액트, 플라스크, REST 같은 것들과 깔끔한 계층화를 추천해요. 슬랙 같은 시스템의 처리량과 정확성을 크게 향상시키는 거죠.

클로드 안에 또 클로드를 넣을 수 있어요

아티팩트 안에서 직접 LLM API를 호출할 수 있어요. 그래서 모델이 자기 자신을 돕는 개발 도구를 만들어낼 수 있죠. 코드 생성 어시스턴트나 스키마 마이그레이터 같은 것들이요.

기계가 읽을 수 있는 출력을 만들어요

엄격한 JSON 형식을 유지하면 다운스트림 스크립트나 테스트가 앱을 감싸서 모듈을 자동 검증할 수 있어요. 그래서 여러 시간 동안 무인으로 반복 작업이 가능한 거죠.

실제 성과는 어땠을까요?

앤트로픽 내부 코드 편집 벤치마크에서 소네트 4는 9%의 오류율을 보였는데, 소네트 4.5는 오류율이 0%로 떨어졌어요. 완벽한 코드 편집이 가능해진 거죠.

클로드 소네트 4.5는 클로드닷에이아이 웹 앱을 처음부터 다시 만들 수 있는 첫 번째 모델이에요. 약 5시간 30분이 걸렸고, 3,000번 이상의 도구를 사용했대요.

데빈이라는 AI 코딩 어시스턴트는 클로드 소네트 4.5를 사용한 후 계획 수립 성능이 18% 향상되고, 전체 평가 점수가 12% 올랐어요. 이건 클로드 소네트 3.6 출시 이후 가장 큰 도약이라고 하네요.

가격은 얼마나 할까요?

API 가격은 입력 토큰 100만 개당 약 4,000원, 출력 토큰 100만 개당 약 2만 원이에요. 이전 모델인 소네트 4와 같은 가격이니, 성능 향상을 공짜로 얻는 셈이죠.

프롬프트 캐싱을 사용하면 최대 90% 비용 절감이 가능하고, 배치 처리로는 50% 절감이 가능해요. 반복되는 쿼리가 많은 장기 에이전트 작업에는 정말 경제적이에요.

경쟁사인 오픈에이아이의 GPT-5가 입력 토큰 100만 개당 약 1,700원, 출력 토큰 100만 개당 약 1만 3천 원으로 더 저렴하긴 하지만, 코딩 성능을 생각하면 클로드의 가격도 충분히 합리적이에요.

안전성도 챙겼어요

클로드 소네트 4.5는 안전성 점수에서 98.7%를 기록했어요. 150개의 악의적인 코드 생성 요청 중 단 2개만 실패했을 정도로 안전성 훈련이 잘 되어 있죠.

아첨하기, 기만, 권력 추구, 망상적 사고 같은 문제 행동들도 크게 줄었어요. 기업에서 신뢰하고 쓸 수 있는 수준이 된 거죠.

이 모든 게 의미하는 것

결국 이 모든 프롬프트와 패턴들이 합쳐져서 규모 있는 작업의 조건을 만들어내는 거예요. 큰 아티팩트를 안전하게 생성할 수 있는 샌드박스, 코드 진화에 대한 반복적 제어, 체계적인 리서치와 도구 사용, 장기 메모리와 계획 루프, 그리고 실용적인 기술 선택까지요.

바로 이것이 AI가 긴 세션 동안 슬랙 스타일 앱을 위한 10,000줄 이상의 코드를 자체 복잡성에 무너지지 않고 현실적으로 쌓아올릴 수 있는 방법이에요.

생각해보면 정말 놀랍지 않나요? 우리가 며칠에 걸쳐 팀으로 만들던 앱을 AI 하나가 30시간 안에 만들어낸다니요. 물론 아직 완벽하진 않겠지만, 개발의 미래가 어떻게 바뀔지 엿볼 수 있는 대목이에요.

앞으로 개발자의 역할도 달라질 것 같아요. 단순히 코드를 작성하는 사람이 아니라, AI에게 정확한 지시를 내리고 결과물을 검토하고 개선하는 역할로 말이죠. 어쩌면 그게 더 창의적인 일일 수도 있겠네요.

여러분도 클로드를 사용하신다면 이런 원리들을 이해하고 활용하시면 훨씬 더 좋은 결과를 얻으실 수 있을 거예요. 특히 큰 프로젝트를 진행하실 때는 아티팩트 시스템과 반복적인 업데이트 방식을 적극 활용해보세요.

AI 시대의 개발, 이제 정말 새로운 장이 열리고 있어요!

300x250

'IT > AI' 카테고리의 다른 글

AI 제품, 기술보다 '글쓰기'로 승부한다? 🤖✍️ (1)	2025.11.04
🚨 AI 제품 개발의 역설, 3개월마다 쓸모없어지는 기능들 (0)	2025.11.03
🚀 AI 업계가 숨겨왔던 5가지 진실, 2025년 최대 서밋에서 드러나다 (0)	2025.11.03
🎯 CSV는 이제 그만! LLM이 가장 잘 이해하는 테이블 포맷은? (0)	2025.11.02
AI 시대, 바보 안 되는 딱 한 가지 원칙 🤖 (0)	2025.11.02

고팀장의 일잘러 이야기

🤖 AI 혼자서 30시간 동안 코딩한다고요?

클로드 소네트 4.5, 대체 얼마나 잘하길래?

앤트로픽이 얼마나 잘나가고 있냐면

그런데 어떻게 30시간 동안 일할 수 있는 걸까요?

제품 수준의 앱을 만드는 비밀 무기들

장기 자율 작업의 핵심 메커니즘

실용적인 선택이 성능을 만들어요

실제 성과는 어땠을까요?

가격은 얼마나 할까요?

안전성도 챙겼어요

이 모든 게 의미하는 것

'IT > AI' 카테고리의 다른 글

티스토리툴바

🤖 AI 혼자서 30시간 동안 코딩한다고요?

클로드 소네트 4.5, 대체 얼마나 잘하길래?

앤트로픽이 얼마나 잘나가고 있냐면

그런데 어떻게 30시간 동안 일할 수 있는 걸까요?

제품 수준의 앱을 만드는 비밀 무기들

장기 자율 작업의 핵심 메커니즘

실용적인 선택이 성능을 만들어요

실제 성과는 어땠을까요?

가격은 얼마나 할까요?

안전성도 챙겼어요

이 모든 게 의미하는 것

'IT > AI' 카테고리의 다른 글

'IT/AI' Related Articles

티스토리툴바