AI한테 일 시켰더니 할당량 제한.. 토큰 아끼는 법 알려드립니다

"거의 다 만들었다..!" 하는 순간, 화면에 뜬 문구 하나. '1일 사용량 한도에 도달했습니다.'

지난 5일 동안 Antigravity랑 Claude Code로 제가 쓸 프로그램을 뚝딱뚝딱 만들고 있었거든요. 버튼 하나 고치고, 기능 하나 추가하고, 점점 그럴듯한 모양이 잡혀가는 게 정말 재밌었어요. 근데 딱 흥이 올라올 때쯤, 하루 할당량이 바닥나버리는 거예요.

처음엔 "내가 뭘 그렇게 많이 썼나?" 싶었습니다. 분명 몇 번 안 물어본 것 같은데, 게이지는 이미 바닥. 뭔가 제가 모르는 사이에 사용량을 확확 깎아먹는 구조가 있는 건 아닌지 의심이 들더라구요.

1. 아껴쓰는 방법을 알면 더 많이 쓸 수 있어요

이거 저만 겪는 문제가 아니었어요. 찾아보니까 Claude Code 사용자들 사이에서 "토큰이 너무 빨리 소진된다"는 불만이 꽤 많더라구요. 그리고 꽤 많은 사람들이 저처럼 왜 빨리 닳는지 그 이유를 모른 채 그냥 답답해하고 있었습니다.

저도 처음엔 제가 뭘 잘못 쓰고 있나 생각했는데, 알고 보니 토큰이 소진되는 데는 분명한 구조적 이유가 있었어요. 이걸 이해하고 나니까 "아, 내가 많이 쓰게 만들었구나" 하고 더 빨리 알아보지 않은 것을 후회했습니다.

핵심은 딱 두 가지입니다. 1. 토큰이 뭔지 이해하는 것. 2. AI가 대화를 처리하는 방식을 아는 것. 이 두 가지만 알면 같은 작업을 하더라도 사용량을 확 줄일 수 있어요. 지금부터 제가 직접 테스트하면서 알아낸 것들을 하나씩 풀어볼게요.

2. 직접 써보고 알게 된 것들

토큰이 대체 뭔가요?

토큰은 AI가 글자를 처리하는 최소 단위예요. 우리가 보기엔 "안녕하세요"라는 한 문장이지만, AI 입장에서는 이걸 몇 개의 조각으로 쪼개서 읽습니다. 이 조각 하나하나가 토큰이에요.

쉽게 비유하자면 이래요. 마트에서 장을 볼 때 카트에 물건을 담잖아요? 토큰은 카트에 담기는 물건 하나하나이고, 컨텍스트 윈도우는 카트의 크기입니다. Claude의 Sonnet4.6 모델 기준으로 이 카트에 한 번에 담을 수 있는 게 약 100만 토큰이에요. 카트가 꽉 차면 더 이상 물건을 못 담는 것처럼, 토큰이 꽉 차면 AI도 더 이상 대화를 이어가기 어려워져요.

AI는 사람처럼 읽지 않는다

여기서 진짜 중요한 포인트가 하나 있어요.

카카오톡 채팅을 생각해보세요. 사람은 새 메시지가 오면 그 메시지만 읽잖아요? 이전 대화를 처음부터 다시 읽는 사람은 없죠. 그런데 AI는 달라요. 메시지를 보낼 때마다 대화방의 모든 내용을 처음부터 끝까지 다시 읽습니다.

이게 무슨 뜻이냐면, 대화가 10번 오간 상태에서 11번째 질문을 하면, AI는 앞의 10번 대화를 전부 다시 읽고 나서 11번째 답을 만든다는 거예요. 대화가 길어질수록, 파일을 많이 읽힐수록, 같은 질문을 해도 소모되는 토큰이 점점 늘어나는 구조인 거죠.

저도 이걸 몰랐을 때는 하나의 채팅창에서 이것저것 계속 이어서 작업했거든요. "앞에서 했던 작업이랑 이어지니까 같은 창에서 하는 게 낫겠지?"라고 생각했는데, 그게 오히려 토큰을 가장 빠르게 소진시키는 방법이었습니다.

모델 선택이 토큰 소모량을 갈라놓는다

Claude Code IDE에서 모델 설정 화면 — Claude Code에서 모델 설정 화면

여기서 충격적인 사실 하나. 저는 Pro 플랜을 쓰고 있는데, 기본 모델이 Opus로 설정되어 있었어요. Opus는 가장 똑똑한 모델이지만, 토큰 소모가 Sonnet에 비해 4~5배나 많다고 합니다.

개발자에 비유하면 이런 느낌이에요.

Opus = 연봉 높은 시니어 개발자. 어려운 문제는 확실히 잘 풀지만, 간단한 일에도 투입하면 낭비하는 느낌
Sonnet = 실력 좋은 중급 개발자. 대부분의 작업을 무난하게 처리하고 합리적
Haiku = 빠르고 저렴한 주니어 개발자. 간단한 작업에 딱 맞음

저는 그걸 모르고 간단한 기능 하나 추가하는 데도 Opus를 쓰고 있었던 거예요. 베테랑 개발자에게 심부름이나 시킨 격이랄까요.

이제 실제 토큰 소모량이 얼마나 차이가 나는지 알아보기 위해 계산기를 만들어보라고 할거에요. 똑같은 오더에 어떤 결과가 나오는지, 얼마나 토큰을 소비하는지 비교하기위해 "계산기 만들어줘." 라고만 입력해볼게요.

좌측 Opus 4.6이 만든 계산기 / 우측 Sonnet 4.6이 만든 계산기

* Opus4.6으로 작업했을 때 : 작업 내용은 동일하게 "계산기 만들어줘." 라고 입력함. [ 4% 소모 ]

* Sonnet4.6으로 작업을 했을 때 : 작업 내용은 동일하게 "계산기 만들어줘." 라고 입력함. [ 2% 소모 ]

유튜브같은 곳에서 말하는 것처럼 모델에 따라 4~5배까지 토큰소모량이 차이나지 않았어요. 계산기 만들기 테스트에서 Opus4.6은 4%, Sonnet4.6은 2%로 2배 정도 소모량이 차이나긴 했지만요. 확실히 비슷한 결과를 내더라도 더 깊게 생각하는 Opus가 토큰소모량이 큰 것을 확인할 수 있었어요.

새 채팅 하나로 토큰 소모가 이렇게 달라진다

그 다음으로 테스트해본 건 컨텍스트 관리예요. 같은 채팅창에서 이어서 작업하는 것 vs 새 채팅창을 열고 작업하는 것, 이 차이가 생각보다 컸습니다.

기존에 제가 URl 크롤러 프로그램을 제작하던 채팅창의 모든 대화 수는 73회였습니다. 작업을 시키기도 하였고, 모르는 것을 물어보기도 하여 대화 내용이 꽤 많이 쌓였죠. 이 대화창을 기존 채팅으로 하여 Opus4.6모델로 테스트를 진행하겠습니다.

테스트는 "1부터 50까지의 숫자 중 소수를 모두 찾고, 각각 왜 소수인지 간단히 설명해"로 결정했습니다. 이런 문장을 선택한 이유는 창의성이 개입되지 않아 출력 분량이 일정하게 나타날 것이기 때문입니다.

* 새 채팅을 열고 같은 작업을 했을 때: [ 2% 소모 ]

* 기존 채팅에서 이어서 작업했을 때: [ 29% 소모 ]

와.... 이렇게까지 큰 차이가 날거라고는 상상도 못했습니다. 2%와 29%. 무려 15배의 토큰소모량 차이를 보여줬습니다. 보고도 믿기 힘들 정도의 차이를 보여주네요.

이 결과를 보고 나서부터는 작업 하나가 끝나면 무조건 새 채팅을 여는 습관을 들이기 시작했어요. 귀찮아 보이지만, 장기적으로는 이게 엄청난 양의 토큰을 아끼는 방법이더라구요. 여러분께서도 AI를 이용하실 때는 반드시 작업이 끝날때마다 새로운 채팅에서 진행하시기 바랍니다.

3. 이 글이 딱 맞는 분, 안 맞는 분

이런 분께 도움이 될 거예요 ✅

AI 코딩 도구(Claude Code, Antigravity 등)를 쓰기 시작했는데 사용량이 왜 이렇게 빨리 줄어드는지 궁금한 분
Pro 플랜인데 하루에 작업 몇 번 못 하고 한도가 차버리는 분
토큰이 뭔지, 왜 관리해야 하는지 기초부터 알고 싶은 비개발자

이런 분께는 안 맞을 수 있어요 ❌

이미 컨텍스트 엔지니어링 개념을 잘 알고 실천하고 계신 분
Max 플랜을 쓰고 있어서 사용량 걱정이 크지 않은 분
CLI 환경에서의 고급 설정 팁을 찾는 분

4. 총평

효과 체감	★ ★ ★ ★ ★	모델만 바꿔도 체감이 확 옵니다
실천 난이도	★ ★ ★ ★ ☆	매번 체크하기 귀찮지만, 어려울 게 없어요
초보자 접근성	★ ★ ★ ★ ☆	용어만 좀 낯설 뿐, 개념 자체는 단순해요
Pro 플랜 필수도	★ ★ ★ ★ ★	Pro 플랜이라면 이건 진짜 필수입니다
장기적 가성비	★ ★ ★ ★ ☆	습관이 되면 같은 요금으로 훨씬 많이 씁니다

5. 지금 바로 해볼 수 있는 한 가지

여기까지 읽으셨다면, 당장 해보실 수 있는 게 하나 있어요.

지금 쓰고 계신 Claude Code나 Antigravity같은 바이브코딩 프로그램에서 현재 모델이 뭘로 설정되어 있는지 확인해보세요. 만약 상위 모델로 되어 있다면, 기본 모델로 바꿔보시고 같은 작업을 해보세요. 또 이때까지 하나의 채팅에서 많은 작업을 진행하셨다면, 꼭 새로운 대화창에서 작업을 이어나가보세요. 그리고 그 차이를 직접 눈으로 확인하는 순간, "아, 이래서 토큰이 빨리 닳았구나" 하고 바로 체감하실 겁니다.

저도 이제 막 이 구조를 이해한 단계라, 앞으로 더 효율적으로 쓰는 방법을 찾아가며 기록할 예정이에요. 앞으로도 바이브코딩 입문자가 궁금할 내용들을 하나씩 알아올테니, 궁금하신 분들은 다음 글도 기대해주세요!

Q & A

Q1. 토큰이랑 사용량 한도가 같은 건가요? 거의 같다고 보시면 됩니다. 토큰은 AI가 글자를 처리하는 단위이고, 사용량 한도는 하루에 쓸 수 있는 토큰 총량이라고 보시면 됩니다. 토큰을 많이 쓸수록 한도가 빨리 차는 거죠.

Q2. Pro 플랜 말고 무료로도 이 팁을 써볼 수 있나요? 네, 무료 플랜에서도 모델 선택이나 새 채팅 열기 같은 기본적인 습관은 그대로 적용할 수 있어요. 다만 무료 플랜은 사용량 자체가 적어서 체감이 더 클 수 있습니다.

Q3. Sonnet으로 바꾸면 결과물 퀄리티가 떨어지지 않나요? 솔직히 걱정했는데, 대부분의 작업에서는 차이를 거의 못 느꼈어요. 정말 복잡한 로직을 짤 때만 Opus가 확실히 나은 정도이고, 대부분의 일반적인 기능 구현은 Sonnet으로 충분했습니다.

Q4. 비개발자인데 이 설정을 제가 직접 바꿀 수 있나요? IDE 환경이라면 설정 화면에서 클릭 몇 번이면 돼요. 코드를 직접 수정하거나 명령어를 외울 필요 없습니다.

Q5. 컨텍스트가 쌓이면 토큰만 낭비되는 건가요? 토큰 낭비에 더해서 AI 응답 퀄리티도 떨어져요. 이전 작업 잔해가 남아 있으면 AI가 헷갈려서 엉뚱한 답을 내놓기도 하는데, 이걸 "할루시네이션"이라고 합니다. 줄여 말하면, 안 치우면 토큰도 날리고 결과물도 이상해지는 이중고예요.

Q6. 하루 한도가 차면 다음 날까지 기다려야 하나요? Pro 플랜 기준으로는 일정 시간이 지나면 한도가 리셋돼요. 주간 한도가 남아있다면 5시간 뒤에 다시 쓸 수 있게 됩니다. 주간 한도까지 모두 사용하시면 해당 주간이 끝나기를 기다리셔야 합니다. 급하시면 Max 플랜으로 올리거나 추가 사용량을 충전하는 것도 방법이에요.

Q7. Antigravity에서도 같은 방법이 통하나요? Antigravity는 사용량 게이지가 Claude Code처럼 직관적으로 보이진 않지만, 토큰을 소모하는 원리 자체는 동일해요. 새 채팅 열기, 구체적으로 요청하기, 모델 선택하기 같은 기본 원칙은 그대로 적용됩니다.

tamasblog 님의 블로그