
"또 이 실수야?" 공감되시는 분 손 들어보세요
AI 에이전트를 실무에 써본 분이라면 한 번쯤 이런 경험을 해봤을 거예요. 지난주에도 같은 방식으로 틀렸는데, 이번 주에 또 똑같이 틀립니다. 프롬프트를 고치고, 다시 지시하고, 하다못해 시스템 메시지까지 수정해봐도 며칠 뒤엔 비슷한 오류가 반복됩니다.
이건 AI가 멍청해서가 아닙니다. 구조적인 이유가 있어요.
2026년 현재 AI 에이전트를 둘러싼 분위기를 보면 흥미로운 온도 차가 있습니다. 빅데이터 분석 플랫폼이 파악한 AI 에이전트 관련 감성 연관어를 보면, 기대와 혁신이라는 긍정적 단어 옆에 우려, 위험, 오류 같은 단어들이 함께 등장합니다. 기술에 대한 기대는 높은데, 신뢰는 아직 충분하지 않다는 뜻이에요.
오늘은 이 문제를 근본에서 해결한 방법론인 스킬리파이(Skillify)가 무엇인지, 그리고 실무에서 어떻게 활용할 수 있는지 이야기해볼게요.
AI 에이전트 도입, 왜 이렇게 어려운 걸까요
2026년이 AI 에이전트 본격 확산의 원년이라는 말이 많습니다. 가트너는 2026년까지 전사 애플리케이션의 40% 이상에 AI 에이전트가 통합될 것이라 전망했어요. 그런데 실제 현장 분위기는 좀 다릅니다.
AI 에이전트 도입에 실패하는 기업의 60% 이상이 처음부터 범위를 너무 넓게 설정하거나, 성공 기준 없이 도입을 진행하다가 어려움을 겪는다고 합니다. 맥킨지 설문에서도 응답 기업의 절반 이상이 아직 AI 에이전트를 도입조차 못했고, 완전한 대규모 적용을 이뤘다고 답한 비율은 4분의 1에도 못 미쳤어요.
왜 그럴까요? 이유는 단순합니다. 에이전트는 기억이 없기 때문입니다.
오늘 실수한 것을 내일 또 합니다. 대화가 새로 시작되면 에이전트는 빈 상태로 돌아와요. 워크플로가 길어질수록 초반의 작은 실수가 누적되어 최종 결과를 망칠 위험도 커집니다. 그리고 기존의 관측 도구는 성공과 실패 여부만 추적할 뿐, 에이전트가 어떤 경로로 추론했는지는 보여주지 못해요.
스킬리파이, 정확히 뭔가요
AI 엔지니어 개리 탄(Garry Tan)이 개발한 방법론인 스킬리파이는 에이전트가 같은 실수를 두 번 반복하지 않도록 만드는 워크플로입니다.
스킬(Skill)이란, 에이전트에게 특정 상황에서 어떻게 행동해야 하는지를 가르치는 절차서예요. 소프트웨어 개발로 치면 메서드 호출과 같습니다. 같은 절차를 서로 다른 입력에 반복 적용해, 항상 올바른 방향으로 움직이도록 고정하는 거죠.
핵심은 이겁니다. "AI가 생각하지 않아도 되는 것은 코드가 처리하게 만든다."
실제 사례를 보면 이해가 빠릅니다.
개리 탄이 에이전트에게 10년 전 싱가포르 출장 일정을 물어봤습니다. 에이전트는 캘린더 API를 호출했다가 막히고, 이메일을 검색했다가 결과가 불명확하고, 다시 캘린더 API를 재시도하기를 반복했어요. 5분이 지나고 나서야 로컬 지식베이스에서 검색해 정답을 찾았습니다. 정작 처음부터 로컬 파일에 3,000개가 넘는 색인된 캘린더 데이터가 있었는데도요.
또 다른 사례도 있습니다. 에이전트가 "다음 회의가 28분 뒤입니다"라고 했는데 실제로는 88분 뒤였어요. UTC 시간을 현지 시간으로 직접 계산하다가 1시간 오차가 난 겁니다. 이미 정확한 시간을 반환하는 스크립트가 존재했는데, 에이전트는 그걸 쓰지 않고 스스로 추론하려다가 틀렸어요.
두 사례의 공통점, 보이시나요? 코드가 처리했어야 할 작업을 AI가 추론으로 해결하려다 실패한 겁니다.
잠재 공간 vs 결정론적 공간, 이걸 구분해야 합니다
조금 낯선 개념인데 한 번만 이해하면 굉장히 유용해요.
잠재 공간은 모델이 판단하고 추론하는 영역입니다. "이 이메일을 어떤 톤으로 쓸까?", "이 상황에서 어떤 선택이 적절할까?" 같은 판단이 여기서 이루어져요. 맥락을 이해하고, 애매한 상황에서 결정을 내리는 AI의 강점이 발휘되는 영역입니다.
결정론적 공간은 코드가 정해진 방식으로 실행되는 영역입니다. "지금 서울 시각은 몇 시인가?", "이 파일이 존재하는가?" 같은 질문이 여기 해당돼요. 같은 입력이 들어오면 항상 같은 출력이 나오는, 정확성이 보장되는 영역입니다.
에이전트가 반복 실수를 하는 핵심 이유는 결정론적 공간에서 처리해야 할 작업을 잠재 공간에서 추론으로 해결하려 하기 때문입니다. 스킬리파이는 이 두 영역의 경계를 명확히 그어주는 방법이에요.
스킬리파이 10단계, 실무에서 어떻게 씁니까
개리 탄은 실수가 발생할 때마다 10단계를 거쳐 그 실수를 구조적으로 재현 불가능하게 만듭니다.
1단계는 SKILL.md 작성입니다. 스킬의 이름, 어떤 상황에서 실행되는지, 어떤 규칙을 따르는지를 문서화합니다.
2단계는 결정론적 코드 작성입니다. AI가 추론으로 처리하던 부분을 코드로 대체해 스크립트화합니다.
3단계와 4단계는 테스트입니다. 스크립트 함수 단위 테스트, 그리고 실제 데이터로 전체 흐름을 통합 검증합니다.
5단계는 LLM 평가입니다. AI 출력 품질을 AI가 심사하는 방식으로 검증해요.
6단계와 7단계는 라우터 등록과 평가입니다. 어떤 의도가 들어왔을 때 이 스킬이 실행될지 등록하고, 실제로 올바르게 라우팅되는지 확인합니다.
8단계는 중복 감사입니다. 비슷한 기능의 스킬이 여러 개 존재하지 않는지 점검해요.
9단계는 엔드투엔드 테스트입니다. 전체 파이프라인을 처음부터 끝까지 돌려봅니다.
10단계는 저장 규칙 정리입니다. 생성된 결과물이 올바른 위치에 저장되는지 확인합니다.
이 10단계를 통과하지 못한 스킬은 오늘 우연히 작동하는 코드일 뿐이에요. 실제로 첫 실행에서 40개 이상의 스킬 중 6개가 어떤 경로로도 도달할 수 없는 상태였다고 합니다. 전체 기능의 15%가 사실상 죽어있었던 거예요. 스킬이 존재한다고 에이전트가 그 스킬을 쓸 수 있는 게 아니라는 뜻입니다. 라우팅까지 검증해야 진짜 완성입니다.
"스킬리파이해줘" 한 마디로 바뀌는 것들
이 방법론이 정착되면 일하는 방식이 달라집니다.
에이전트와 대화하면서 무언가를 해결했을 때, 한 마디만 하면 됩니다. "스킬리파이해줘." 그러면 에이전트가 그 대화에서 나온 해결책을 스킬 문서, 코드, 테스트, 라우팅 등록까지 자동으로 구조화합니다.
한 시간 공들여 만든 웹훅 연동 방법이나, API 엔드포인트 검증 절차 같은 것들이 말 한마디로 영구적인 인프라가 되는 거예요. 일반 소프트웨어 개발에서 버그 티켓을 닫으면서 테스트를 추가하는 행위와 정확히 같은 개념입니다.
이 접근이 중요한 이유는 따로 있습니다. 지금 가장 가치 있는 개발자 역량은 AI 코딩 에이전트를 사용하는 방법 자체가 아니라, AI 에이전트를 디버깅하고 에이전트의 행동 품질을 평가하는 능력입니다. 스킬리파이는 이 개념을 일상 워크플로에 녹여낸 실천법이에요.
프레임워크가 해결해주지 못하는 것
LangGraph, CrewAI, AutoGen 같은 프레임워크들이 2026년에도 강세를 보이고 있습니다. 투자도 어마어마하게 받았어요. 그런데 개리 탄의 지적은 날카롭습니다. 도구는 줬는데 워크플로를 주지 않았다는 거예요.
헬스클럽 회원권은 있는데 운동 계획표가 없는 것과 같습니다.
마이크로소프트도 2026년 7대 AI 트렌드를 발표하면서 통제되지 않은 AI 에이전트의 위험성을 명시적으로 경고했어요. 에이전트가 의사결정과 업무 실행에 깊이 관여할수록, 실수 한 번의 파급력도 그만큼 커지기 때문입니다. 이메일을 잘못 보내거나, 파일을 잘못 수정하거나, 결제를 잘못 진행하는 건 단순 오류가 아니라 실질적인 손해입니다.
좋은 도구를 갖추는 것과 좋은 워크플로를 갖추는 것은 완전히 다른 이야기예요.
우리 실무에 바로 적용하는 법
스킬리파이를 그대로 복제할 필요는 없습니다. 개념만 빌려와도 충분해요.
첫째, AI 에이전트를 쓰다가 실수가 발생하면 왜 생겼는지 분석하는 습관을 들이세요. AI의 판단 영역에서 생긴 건지, 코드로 처리했어야 할 것을 AI가 추론했기 때문인지를 구분하는 게 첫 번째 단계입니다.
둘째, 코드로 처리할 수 있다면 스크립트를 만들고, 그 코드를 쓰도록 지침을 문서화하세요. 이것이 가장 단순한 형태의 스킬입니다. "과거 데이터를 조회할 때는 반드시 로컬 데이터베이스를 먼저 확인한다"처럼 규칙을 명시하고, 실제로 지켜지는지 테스트로 검증하면 돼요.
셋째, 에이전트가 특정 작업을 잘 처리했을 때 그 처리 방식도 문서화해두세요. 성공한 패턴도 스킬이 됩니다. 실패에서만 배우는 게 아니라 성공에서도 배워야 해요.
AI 에이전트가 매달 똑똑해지는 사람의 비밀
2025년 초 30~40%에 불과했던 복잡한 웹 과업 수행 성공률이 2026년 1분기 현재 87%까지 올라왔습니다. 모델 성능은 정말 빠르게 좋아지고 있어요. 그런데 성능이 오른다고 신뢰성이 자동으로 따라오진 않습니다.
에이전트가 더 많은 권한을 갖고 더 복잡한 작업을 수행할수록, 실수 한 번의 파급력도 커집니다. 결국 AI 에이전트 시대의 진짜 경쟁력은 모델 성능이 아닐 수 있어요.
실수가 발생했을 때 그것을 구조화하고, 다시는 같은 실수를 하지 않도록 만드는 시스템을 가진 사람이 앞서 나갑니다. 실수 하나가 스킬 하나가 되고, 그 루프가 쌓이면 에이전트는 매달 더 똑똑해집니다. 단순히 모델이 업그레이드되어서가 아니라, 나만의 실패 경험이 인프라가 되었기 때문에요.
마무리
AI 에이전트가 같은 실수를 반복하는 건 AI의 한계가 아닙니다. 그 실수를 구조적으로 방어하지 않은 탓입니다. 소프트웨어 개발에서 버그가 생기면 테스트를 추가하듯, AI 에이전트가 실수하면 스킬을 추가하면 됩니다.
지금 당장 에이전트를 쓰고 있다면, 다음 실수가 발생했을 때 이렇게 물어보세요. "이 실수를 다음에 구조적으로 막으려면 뭘 만들어야 하지?" 그 질문 하나가 스킬리파이의 시작입니다. 그리고 그게 쌓이면, 6개월 뒤의 여러분은 지금과 완전히 다른 수준의 AI 에이전트를 갖게 될 거예요.
'IT > AI' 카테고리의 다른 글
| AI가 틀린 판단을 내리는 이유, WRING이 해결책일까요? (1) | 2026.05.31 |
|---|---|
| 🤖 Hermes Agent, OpenClaw 대신 쓰는 사람들이 늘어난 진짜 이유 (0) | 2026.05.31 |
| 🎨 AI 에이전트에게 취향을 이식하는 법 — 스킬 파일이 답이다 (0) | 2026.05.27 |
| AI가 내 화면을 기억한다? OpenAI Codex Chronicle이 바꾸는 개발 환경 (0) | 2026.05.27 |
| 🎨 말 한마디로 디자인이 완성된다? Claude Code 스킬 "화수디자인" 써봤습니다 (0) | 2026.05.27 |