AI 코딩 도구를 도입하고 나서 가장 먼저 맞닥뜨린 현실은 예상보다 빠르게 쌓이는 비용 청구서였다.
토큰이라는 개념은 알고 있었지만, 실제로 어떻게 줄여야 하는지는 직접 부딪히며 배웠다.
이 글은 그 과정에서 효과가 검증된 7가지 전략을 정리한 실무 기록이다.
토큰 비용 구조부터 이해하자
토큰 비용은 AI와 주고받는 문자열의 양으로 결정된다.
중요한 건 입력과 출력의 단가 차이다.
| 구분 | Opus 기준 단가 |
|---|---|
| 입력 (Input) | $5 / MTok |
| 출력 (Output) | $25 / MTok |
출력이 입력보다 5배 비싸다. 즉, AI가 길게 대답할수록 비용이 기하급수적으로 올라간다.
이 구조를 이해하면 절감 전략의 방향이 보인다.
핵심 원칙: 입력은 한글로 구체적으로, 출력은 꼭 필요한 것만.
전략 1 — RTK 압축 도구로 40% 이상 절감
입출력 텍스트를 자동으로 압축해주는 RTK 도구를 사용하면 추가 작업 없이 40% 이상 비용을 줄일 수 있다.
별도 설정 없이 기존 워크플로에 끼워 넣기만 하면 되기 때문에 가장 먼저 적용을 권장한다.
- GitHub: https://github.com/rtk-ai/rtk
전략 2 — 소스 코드 요약 문서 구축
프로젝트를 새로 분석할 때마다 AI에게 같은 코드를 반복해서 읽히는 건 낭비다.
핵심 모듈·구조·의존관계를 요약한 문서를 한 번 만들어두면, 이후 작업에서 코드 전체를 컨텍스트로 넘길 필요가 없어진다.
- Before: 매 세션마다 코드 전체 첨부 → 높은 입력 토큰
- After: 요약 문서만 첨부 → 입력 토큰 50~70% 감소
전략 3 — AI 지침 문서는 영문으로 작성
한글로 작성된 지침 문서는 영문 대비 30~50% 더 많은 토큰을 소모한다.
컨텍스트에 자동으로 주입되는 지침 파일(github-instructions.md, claude.md 등)은 모두 영문으로 작성하는 것이 효율적이다.
| 문서 종류 | 권장 언어 | 이유 |
|---|---|---|
| AI 지침 / 규칙 파일 | 영문 | 토큰 절감, 사람이 직접 관리 불필요 |
| AI 자체 기록 문서 (메모리·요약 파일 등) | 영문 | 사람이 관리할 필요 없으므로 토큰 절감 우선 |
| 팀 가이드 / 설계 문서 | 한글 | 가독성·유지보수 우선 |
전략 4 — AI 엔진 역할 분리
모든 작업에 고성능 모델을 쓰면 비용이 급격히 오른다.
작업 성격에 따라 모델을 나눠 쓰면 품질은 유지하면서 비용은 낮출 수 있다.
| 작업 단계 | 권장 모델 | 이유 |
|---|---|---|
| 설계 | Sonnet | 빠른 초안, 반복 수정에 적합 |
| 설계 리뷰 | Opus (1M context) | 복잡한 판단, 전체 구조 검증 |
| 개발 | Sonnet | 반복 작업, 충분한 품질 |
| 코드 리뷰 | Opus (1M context) | 전체 코드 파악 필요 |
| 문서화 | Haiku | 단순 정리, 최저 비용 |
전략 5 — 외부 AI 도구 병행 활용
모든 질문을 Claude에 던질 필요는 없다.
아래 경우에는 Gemini나 ChatGPT를 활용해 비용 자체를 발생시키지 않는 것이 낫다.
- 과도한 토큰 사용이 예상되는 탐색성 질문
- 웹 검색 기반의 최신 정보가 필요한 경우
전략 6 — 컨텍스트를 적극적으로 관리하라
1M 컨텍스트 모델은 강력하지만 주의력 분산과 중간 정보 무시 현상(Lost in the middle) 이라는 약점이 있다.
대부분의 작업은 기본 컨텍스트 크기로 충분하다.
특히 기본 모델은 compact가 주기적으로 자동 호출되어 컨텍스트가 쌓일수록 자동으로 압축이 이루어진다.
1M context 모델은 이 압축 주기가 길어져 오히려 불필요한 토큰이 누적되는 역효과가 생길 수 있다.
| 상황 | 권장 액션 |
|---|---|
| 작업 전환 시 이전 내용 유지 필요 | /compact — 컨텍스트 압축 |
| 연관성이 낮은 새 작업 시작 | /clear — 컨텍스트 초기화 |
| 대형 프로젝트 전체 리팩토링 | 1M context 모델 선택적 사용 |
전략 7 — 캐시를 재사용하는 작업 습관
Claude Code는 효율적인 캐시 관리로 토큰을 절감하는 구조를 가지고 있다.
그런데 창을 닫거나 모델을 변경하면 캐시가 즉시 삭제된다.
- 캐시 재구축에는 추가 비용이 발생
- 하나의 창에서 agent 병렬 작업으로 캐시를 최대한 재사용
- 불필요한 모델 변경과 창 닫기를 최소화
마무리 — 조합이 핵심이다
각 전략을 단독으로 적용해도 효과가 있지만, 조합할수록 절감 폭이 커진다.
RTK 압축 + 요약 문서 + 영문 지침 + 모델 분리만 적용해도 실무에서 총 비용의 50~60% 절감은 충분히 가능하다.
비용을 줄이는 것이 목적이 아니라, 같은 예산으로 더 많은 작업을 해내는 것이 진짜 목적이다.
작은 습관 변화가 장기적으로 큰 차이를 만든다.
'AI 활용 > 개발 자동화' 카테고리의 다른 글
| DeepSeek + Open Claude로 Claude Code 절반 가격에 사용하기 (0) | 2026.04.26 |
|---|