본문으로 건너뛰기

6부: 비용 통제

AI 개발에 관한 일반적인 질문은 "얼마나 빨리 배포할 수 있는가?"입니다. 더 나은 질문은 "이것을 소유하는 데 드는 비용은 무엇인가?"입니다. 속도는 실제 경제성을 숨깁니다. 정직한 지표는 총 소유 비용이며, AI 워크플로에서 이를 지배하는 것은 단 하나입니다. 바로 토큰 경제입니다.

빠르게 가는 것의 숨겨진 부채

즉흥적인 프롬프팅은 거의 무료처럼 보입니다 — 구독료와 가벼운 프롬프트, 초기 비용은 거의 없습니다. 청구서는 나중에 도착하며, 복리로 불어납니다.

  • 토큰 소모. 거대한 비정형 파일을 컨텍스트 창에 쏟아붓고 모델에게 검증되지 않은 자체 실수를 고치라고 요청하면, 낮은 1차 성공률로 인한 비용이 큰 재시도 루프가 만들어집니다. 실패한 시도는 아무 성과 없이 소모된 토큰입니다.
  • 유지 보수세. 비정형 생성 코드는 일관성이 부족합니다. 6개월 후, 엔지니어는 아무도 설계하지 않은 "스파게티" 코드를 역공학으로 분석하는 데 며칠을 소비합니다.
  • 보안 수정 비용. 평가 하네스 없이는 빠른 코드 생성이 빠른 취약점 생성이 됩니다. 프로덕션에서 결함을 수정하는 비용은 설계 시점에 잡는 비용보다 훨씬 큽니다.

구조적인 접근 방식은 이를 역전시킵니다. 스키마, 테스트, 컨텍스트에 선행 투자하면, 각 기능을 배포하고 유지 보수하는 한계 비용이 급격히 낮아집니다. 구축 비용은 높지만, 소유 비용은 훨씬 낮습니다.

레버 1: 1차 성공률

사용하지 않는 토큰이 가장 저렴한 토큰입니다. 정보 밀도가 높은 규칙 파일(1부)과 잘 관리된 컨텍스트(2부)는 에이전트의 1차 성공률을 높여, 돈을 낭비하는 시행착오 루프를 직접적으로 줄입니다. 컨텍스트 엔지니어링은 품질 관행일 뿐만 아니라 비용 통제 관행이기도 합니다. 출력을 개선하는 동일한 간결한 CLAUDE.md가 지출도 줄입니다.

10만 토큰짜리 저장소 전체를 모든 프롬프트에 전달하는 것은 규모상 재정적으로 실행 불가능합니다. 관련된 것만 검색하고, 사용하는 것에만 비용을 지불하십시오.

레버 2: 태스크별 라우팅

즉흥적인 워크플로에서는 모든 것에 하나의 대형 프런티어 모델을 사용합니다 — 오탈자를 수정하거나 보일러플레이트 테스트를 생성하는 데도 프리미엄 가격을 지불합니다. 설계된 워크플로는 태스크 복잡도에 따라 라우팅합니다.

  • 아키텍처, 난도 높은 설계 → 프런티어 모델 — 최대 추론 능력이 필요
  • 초기 복잡한 구현 → 프런티어 모델 — 고위험, 모호함
  • 테스트 생성 → 소형/저비용 모델 — 결정론적, 명확하게 명세됨
  • 코드 검토 (1차) → 소형/저비용 모델 — 패턴 매칭
  • CI / 모니터링 확인 → 소형/저비용 모델 — 반복적, 범위 좁음

간단한 라우팅 설정이 이를 구체화합니다.

routing:
default: small-fast
rules:
- match: ["architecture", "design", "migration plan"]
model: frontier
- match: ["write tests", "lint", "review diff", "ci check"]
model: small-fast
- match: ["implement feature"]
model: frontier

멀티 모델 혼합을 오케스트레이션하면 중요한 곳에서 출력 품질을 유지하면서, 결정론적 작업의 대다수에 드는 비용을 낮출 수 있습니다.

레버 3: 동적 컨텍스트와 스킬

이를 2부와 연결하십시오. 모든 것을 정적으로 로드하면 모든 호출에서 그 비용을 지불하게 됩니다. 태스크별 지식을 온디맨드로 로드되는 스킬에 넣고, 프롬프트에 모든 것을 구워 넣는 대신 온디맨드 호출을 통해 도구에 접근하면 요청당 페이로드를 작게 유지할 수 있습니다. 규모가 커지면, "항상 모든 것을 로드"와 "필요한 것만 로드" 사이의 차이는 실행 가능한 비용 구조와 그렇지 않은 것의 차이입니다.

직관적인 계산 예시

규칙 파일과 몇 가지 스킬에 투자한 후 1차 성공률이 40%에서 80%로 올라간다고 가정합니다. 이전에 약 2.5번의 시도가 필요했던 태스크가 이제 약 1.25번으로 줄어듭니다. 같은 출력에 절반의 토큰이 필요합니다 — 단 하나의 태스크도 더 저렴한 모델로 라우팅하기 전에 말입니다. 여기에 라우팅을 추가하면(테스트 생성과 검토를 저비용 모델이 처리하며, 이것이 호출의 절반을 차지할 수 있음) 운영 비용 곡선이 급격히 꺾입니다.

자신만의 워크플로를 구성하십시오

  • 속도만 측정하는 것을 중단하고, 배포된 기능당 토큰 지출을 추적하기 시작하십시오.
  • 1차 성공률을 높이고 재시도 루프를 없애기 위해 규칙 파일을 구체적으로 강화하십시오.
  • 모델 라우팅을 설정하십시오: 테스트 생성, 검토, CI에는 저비용 모델을, 아키텍처와 어려운 구현에는 프런티어 모델을 사용하십시오.
  • 태스크별 컨텍스트를 온디맨드 스킬로 이동하여 모든 호출에서 그 비용을 지불하지 않도록 하십시오.
  • 투자 전후의 기능당 비용을 비교하십시오 — 선행 투자는 낮아진 지속적인 청구서로 나타나야 합니다.