토큰 수로 평가받는 시대 — AI 활용을 측정하는 법을 우리는 틀리고 있다

“당신이 이번 분기에 소비한 토큰은 2,100억 개입니다.” OpenAI의 어느 엔지니어가 받은 리포트다. Meta는 직원의 AI 소비량을 인사평가에 반영하기 시작했다. 같은 주, Anthropic이 발표한 연구는 정반대를 말한다 — 숙련된 사용자일수록 AI에 덜 맡긴다.


1. 토큰을 세는 시대가 왔다

2026년 3월, Gizmodo는 충격적인 보도를 내놨다. Meta가 직원들의 AI 토큰 소비량을 추적하고, 이를 인사평가에 반영하기 시작했다는 것이다. OpenAI 역시 내부 엔지니어의 토큰 사용량을 리포트 형태로 공유하고 있다. 한 엔지니어의 소비량은 2,100억 토큰 — Wikipedia 33개 분량이다. Greg Brockman은 GPT-5.4 출시 일주일 만에 하루 5조 토큰 처리를 달성했다며, 이것이 연간 10억 달러의 신규 매출로 이어졌다고 자랑했다.

숫자는 쉽다. 세기도 쉽고, 비교하기도 쉽고, 그래프로 만들기도 쉽다. 그래서 조직은 숫자를 좋아한다.

이 흐름은 테크 기업에만 국한되지 않는다. 미국의사회(AMA) 조사에 따르면, 미국 의사의 80%가 이미 진료에 AI를 활용하고 있다. 가장 보수적인 직군 중 하나로 꼽히는 의료계가 이 정도다. 법률, 금융, 교육 — 모든 전문직에서 AI 활용은 이제 선택이 아니라 기대치가 되었다. “너 아직 AI 안 써?”라는 질문이 “너 아직 이메일 안 써?”와 같은 무게를 갖기 시작했다.

조직의 논리는 직관적이다. AI는 생산성 도구다. 도구를 많이 쓰는 직원이 많이 생산한다. 따라서 토큰 소비량이 높은 직원이 더 생산적이다. QED.

정말 그런가?


2. 숙련자는 왜 덜 쓰는가

Anthropic은 2026년 3월, 자사 Economic Index의 새로운 보고서 *“Learning Curves”*를 발표했다. Claude 사용자 데이터를 장기 분석한 이 리포트에서 가장 눈에 띄는 발견은 이것이다.

6개월 이상 사용한 장기 사용자는, 신규 사용자보다 대화 성공률이 4 퍼센트포인트 높았다.

4 퍼센트포인트가 대단해 보이지 않을 수 있다. 하지만 이 숫자가 특정 작업이 아닌 모든 사용 맥락을 통제한 뒤에도 유지되었다는 점을 생각하면, 이것은 구조적 차이다. 같은 모델, 같은 기능, 같은 작업을 주더라도, 오래 써본 사람이 더 나은 결과를 얻는다.

어떻게?

리포트는 몇 가지 패턴을 포착했다. 장기 사용자의 프롬프트는 교육 수준이 6% 더 높았다. 여기서 교육 수준이란 어휘의 난도나 문장의 길이가 아니다. 요구사항의 구조화 정도 — 무엇을 원하는지, 어떤 제약이 있는지, 결과물의 형태가 어때야 하는지를 얼마나 명확하게 전달하는가 — 를 측정한 것이다. 사용 기간이 1년 늘어날 때마다, 프롬프트의 교육 수준이 약 1년치 상승했다.

더 흥미로운 것은 위임 패턴의 변화다. 장기 사용자는 directive usage — AI에게 완전한 자율권을 부여하는 사용 방식 — 이 줄어들었다. “알아서 해줘”가 아니라 “이 범위 안에서, 이 조건으로, 이 형식으로 해줘”로 바뀐 것이다. 동시에 task iteration and validation — 결과를 확인하고 수정 지시를 내리는 반복 패턴 — 이 늘어났다.

풀어서 말하면 이렇다. 초보자는 AI에게 많이 맡기고, 결과를 그대로 쓴다. 숙련자는 AI에게 정확히 시키고, 결과를 검증하고, 다시 시킨다. 토큰 소비량으로 보면 초보자가 더 많이 쓸 수 있다. 길고 모호한 프롬프트에 길고 장황한 답변이 돌아오기 때문이다. 숙련자는 짧고 정확한 프롬프트로 짧고 정확한 답변을 받는다. 토큰은 적게 쓰지만, 결과는 더 좋다.

리포트는 또 하나의 숫자를 제시한다. 장기 사용자는 개인적 용도의 사용이 10% 감소하고, 업무 관련 사용이 7 퍼센트포인트 증가했다. 숙련될수록 AI를 “놀이”가 아닌 “도구”로 쓴다는 의미다. 하지만 이것은 동시에, 숙련자가 AI를 쓰는 영역이 더 좁아진다는 뜻이기도 하다. 이것저것 시켜보는 대신, 자기가 AI를 잘 활용할 수 있는 영역을 파악하고 그 안에서 집중적으로 쓴다.

이 데이터를 Meta의 토큰 추적 정책 옆에 놓으면, 아이러니가 선명해진다. Meta는 토큰을 많이 쓰는 직원에게 높은 평가를 준다. Anthropic의 데이터는 토큰을 현명하게 — 그리고 종종 적게 — 쓰는 사람이 더 좋은 결과를 낸다고 말한다. 조직이 보상하는 행동과, 실제로 성과를 내는 행동이 정반대를 향하고 있다.


3. 많이 쓸수록 커지는 그림자

숙련자가 AI 사용을 줄이는 것은 단순히 효율의 문제만이 아니다. 리스크를 인식하기 때문이기도 하다.

2026년 1월 29일, 일본 정보처리추진기구(IPA)는 매년 발표하는 정보보안 10대 위협에서 전례 없는 결과를 내놨다. “AI 활용에 따른 사이버보안 리스크”가 첫 등장하자마자 3위에 올랐다. 1위 랜섬웨어, 2위 서플라이체인 공격 — 수년간 부동의 상위권을 유지해온 위협들 바로 아래다. 신규 항목이 처음부터 3위에 진입한 것은 이 위협의 긴급성을 말해준다.

IPA의 경고는 구체적이다. 직원이 기밀 정보를 클라우드 기반 AI에 입력하면, 그 데이터가 모델 학습에 사용되거나 제공업체에 노출될 수 있다. IPA의 2024년 기업 영업비밀 관리 실태조사에 따르면, **기밀 유출을 인지한 기업은 35.5%**로, 2020년의 5.2%에서 약 7배 증가했다. 사이버 공격 관련 유출은 8.0%에서 36.6%로 급증했다.

기업들의 대응은 양극화되고 있다. 26.2%의 기업이 생성AI 사용을 아예 금지했다 — 16.3%는 사내 규정으로, 9.8%는 기술적 차단으로. 반대편에서는 사용을 허용하되, 클라우드 대신 자체 인프라에 AI를 구축하는 움직임이 가속화되고 있다. 보안 기업 Secom은 자사 데이터센터에 AI 인프라를 구축하기 시작했고, KDDI는 2026년 1월 “오사카 사카이 데이터센터”를 가동하며 기업들이 기밀 데이터를 외부에 내보내지 않고 AI를 활용할 수 있는 환경을 제공하기 시작했다.

Breached.Company의 조사는 더 직접적이다. 직원의 77%가 AI 도구를 통해 기업 데이터를 외부로 유출하고 있다. 의도적이 아니다. 업무를 더 잘 하려고, 더 빨리 처리하려고 AI에 데이터를 넣는 것이다. “AI를 많이 써라”는 조직의 압력이, 의도치 않은 보안 구멍을 만들고 있다.

여기에 또 다른 역설이 겹친다. Forbes Japan은 같은 주에 “AI가 창조적 업무를 빼앗고 잡무를 늘린다”는 분석을 보도했다. AI 도입의 약속은 “반복적인 잡무를 자동화해서 인간이 창조적 업무에 집중하게 하겠다”였다. 현실은 거꾸로다. AI가 글쓰기, 디자인, 기획 같은 창조적 작업을 대신하고, 인간에게는 AI의 결과물을 검수하고, 프롬프트를 조율하고, 데이터를 정리하는 새로운 종류의 잡무가 늘어나고 있다.

“AI를 많이 쓸수록 좋다”는 전제 위에 서 있는 조직은, 이 세 가지 그림자를 동시에 키우고 있다. 보안 리스크, 업무의 질적 하락, 그리고 측정 지표의 왜곡.


4. 양이 아니라 설계를 측정하라

Gizmodo가 인용한 비판이 핵심을 찌른다. “페인트 소비량으로 도장 품질을 판단하는 것과 같다.”

페인트를 많이 쓴 화가가 좋은 그림을 그린 것인가? 페인트를 적게 쓴 화가가 게으른 것인가? 수묵화의 대가는 붓을 한 번 긋는다. 초보자는 열 번 덧칠한다. 잉크 소비량은 초보자가 압도적으로 많다.

AI 활용에서도 마찬가지다. 문제는 토큰을 세는 것이 아니라, AI를 어떤 구조 안에서 쓰고 있는가를 보는 것이다.

Anthropic은 같은 주에 또 다른 블로그 포스트를 발표했다. 자사 엔지니어링팀이 **멀티에이전트 하네스(multi-agent harness)**를 활용해 프론트엔드 디자인과 장기적인 자동 소프트웨어 엔지니어링을 수행하는 방법에 대한 기술 블로그다. 주목할 점은 접근법이다. AI에게 “알아서 코드를 짜라”가 아니라, 에이전트들 사이의 역할을 설계하고, 검증 루프를 삽입하고, 인간이 개입하는 체크포인트를 명시적으로 배치한 것이다. AI의 자율성을 높이되, 그 자율성이 작동하는 경계를 인간이 설계한다.

같은 시기에 론칭된 Anthropic Science Blog도 비슷한 철학을 보여준다. AI를 과학 연구에 투입하되, “AI에게 연구를 시키는 것”이 아니라 “연구자가 AI를 활용해 특정 단계를 가속화하는 것”에 초점을 맞추고 있다. AI가 논문을 읽고 가설을 제안하면, 인간 연구자가 그 가설을 평가하고 실험을 설계한다. 자율이 아니라 협업이다.

이 사례들이 가리키는 방향은 분명하다. AI 활용의 질은 토큰 수가 아니라 워크플로우의 설계에 있다. 얼마나 많이 썼는가가 아니라, 어떤 구조 안에서 썼는가. 검증 단계가 있는가. 인간의 판단이 개입하는 지점이 명시되어 있는가. AI의 출력을 그대로 쓰는가, 아니면 검토하고 수정하는가.

그렇다면 조직은 무엇을 측정해야 하는가? 토큰 수 대신 물어야 할 질문들이 있다.

첫째, AI가 프로세스에 구조적으로 통합되어 있는가? 개인이 산발적으로 ChatGPT에 질문을 던지는 것과, 팀의 워크플로우에 AI 에이전트가 명시적 역할로 배치된 것은 근본적으로 다르다. 전자는 AI Enabled이고, 후자가 AI Native다. 측정해야 할 것은 토큰이 아니라 프로세스 재설계율이다.

둘째, AI의 출력이 검증되고 있는가? AI가 생성한 코드, 문서, 분석이 그대로 사용되는 비율과, 인간이 검토한 후 사용되는 비율. 전자가 높으면 조직은 리스크를 축적하고 있다. 후자가 높으면 AI를 도구로서 제어하고 있다. 측정해야 할 것은 검증 루프의 유무와 밀도다.

셋째, AI 도입 전에는 불가능했던 일이 가능해졌는가? Anthropic의 내부 연구에 따르면, Claude를 활용한 업무의 27%는 “기존에는 하지 않았을 일”이었다. 효율화가 아니라 가능성의 확장. 토큰을 많이 쓰는 조직이 반드시 새로운 가치를 만들고 있는 것은 아니다. 기존 업무를 AI로 대체하는 것과, AI 덕분에 새로운 업무를 시작하는 것은 완전히 다른 차원이다.


5. 측정이 행동을 만든다

경제학에 Goodhart’s Law라는 것이 있다. “측정 지표가 목표가 되는 순간, 그것은 좋은 지표이기를 멈춘다.” 영국의 경제학자 Charles Goodhart가 1975년에 제시한 이 법칙은, 반세기가 지난 지금 AI 시대에 정확히 재현되고 있다.

토큰 소비량을 KPI로 세우면, 조직은 토큰을 많이 쓰는 방향으로 움직인다. 짧고 정확한 프롬프트 대신 길고 모호한 프롬프트를 쓰고, 결과를 검증하는 대신 더 많은 질문을 던지고, AI가 필요하지 않은 업무에도 AI를 끼워넣는다. 토큰은 늘어나지만, 생산성은 제자리이거나 오히려 하락한다. 기밀 데이터는 더 많이 외부로 흘러나가고, 창조적 업무는 AI에게 넘어가고, 인간에게는 AI 관리라는 새로운 잡무가 쌓인다.

Anthropic의 데이터가 보여주는 숙련자의 모습은 이와 정반대다. 그들은 AI를 덜 쓰면서 더 잘 쓴다. 더 정교한 프롬프트, 더 제한된 영역, 더 엄격한 검증. 그들의 토큰 소비량을 측정하면 평범하거나 낮을 수 있다. 하지만 그들의 출력물의 질은 일관되게 높다.

스웨덴의 한 소프트웨어 엔지니어는 Claude Code 사용 비용이 자신의 연봉보다 높다고 보도되었다. 이 사람은 AI를 잘 쓰고 있는 것인가, 아니면 과용하고 있는 것인가? 토큰 수만으로는 답할 수 없다. 그가 AI로 만들어낸 것이 무엇인지, 그 과정에 어떤 구조가 있었는지를 봐야 한다.

조직이 AI 활용을 진정으로 촉진하고 싶다면, 토큰을 세는 대신 이런 것들을 물어야 한다.

  • 우리 팀의 워크플로우에서 AI가 명시적 역할을 갖고 있는가?
  • AI의 출력을 검증하는 단계가 프로세스에 내장되어 있는가?
  • AI 도입 후, 이전에는 하지 못했던 일을 시작했는가?
  • AI에 입력되는 데이터의 민감도를 분류하고 있는가?
  • AI 사용이 팀의 의사결정 품질을 향상시키고 있다는 근거가 있는가?

이 질문들은 토큰 수보다 측정하기 어렵다. 그래서 가치가 있다. 쉽게 셀 수 있는 것을 세면 편하지만, 그 편함이 조직을 엉뚱한 방향으로 이끈다.

페인트 소비량으로 화가를 평가하는 미술관은 없다. 주행거리로 택시 기사의 실력을 평가하는 회사도 없다. 토큰 수로 AI 활용 역량을 평가하는 조직이 있다면, 그 조직은 아직 AI를 이해하지 못한 것이다.

AI를 잘 쓴다는 것은, AI를 많이 쓴다는 것이 아니다. AI가 작동하는 구조를 설계할 수 있다는 것이다. 그리고 그 설계 능력은, 토큰 리포트에 나타나지 않는다.


참고 자료:

  • Anthropic, “Economic Index: Learning Curves” (March 2026)
  • Gizmodo Japan, “AI使うほど人事評価が上がる?テック企業が従業員の「消費トークン」をカウントし始める” (March 2026)
  • IPA, “情報セキュリティ10大脅威 2026” (January 2026)
  • IPA, “企業における営業秘密管理に関する実態調査 2024” (August 2025)
  • Forbes Japan, “生成AIの機密漏洩リスクにIPAが警告” (March 2026)
  • Forbes Japan, “AIが生み出した皮肉な現実──創造的業務を奪い、雑務を増やす” (March 2026)
  • Anthropic Engineering Blog, “Multi-Agent Harness for Frontend Design and Long-Horizon Software Engineering” (March 2026)
  • AMA Survey on Physician AI Usage (2026)