AI First의 명과 암 — "누구에게" 맞느냐가 핵심이다
AI First의 명과 암 — “누구에게” 맞느냐가 핵심이다
“AI First가 실패했다”도, “AI가 사람을 대체한다”도 절반만 맞다. Klarna는 AI로 700명을 줄였다가 다시 뽑고 있고, Microsoft는 코드의 30%를 AI로 쓰며 6,000명을 줄이고 있다. 같은 기술인데 결과가 갈린다. 핵심은 “AI를 쓰느냐 마느냐”가 아니라, “어디에, 누가” 쓰느냐다.
1. “AI First” 실험의 결산 — Klarna라는 교훈
2024년, Klarna CEO Sebastian Siemiatkowski는 자신 있게 선언했다. “AI가 700명의 고객서비스 직원이 하던 일을 대신하고 있다.” 그 말 뒤에 22%의 인력 감축이 뒤따랐다. 투자자들은 환호했고, 테크 미디어는 “AI First 기업의 모범 사례”라는 타이틀을 붙였다.
그런데 1년 반이 지난 지금, Klarna는 사람을 다시 뽑고 있다.
무슨 일이 있었을까. AI 챗봇은 전체 고객 문의의 2/3~3/4을 처리했고, 숫자상으로는 나쁘지 않았다. 하지만 고객이 체감하는 서비스 품질은 떨어졌다. 간단한 FAQ 응답은 20초 이상 걸렸고, 첫 번째 대화를 넘어가면 “균열이 보이기 시작했다(PolyAI).” 복잡한 결제 분쟁, 감정적인 불만, 맥락을 이해해야 하는 반복 클레임 — 이런 영역에서 AI는 “정책에 따르면…” 류의 정형화된 답변만 반복했고, 결과는 미해결 문의 25% 증가로 나타났다. 고객은 “기계와 싸우고 있다”는 인상을 받았다.
Siemiatkowski 자신이 인정했다. “비용이 지배적인 평가 기준이었다. 그 결과 품질이 낮아졌다.” “AI 도입을 너무 공격적으로 밀어붙였다(Bloomberg, Fast Company).” Klarna는 이제 Uber 스타일의 유연 인력 모델 — 학생, 재택 부모, 지방 거주자를 원격 에이전트로 채용 — 로 전환하면서 AI와 사람의 하이브리드 모델을 구축하고 있다(Fortune).
Klarna는 예외적인 사례가 아니다. Salesforce도 비슷한 길을 걸었다. 고객지원 인력 4,000명을 줄이고 AI 에이전트를 투입했는데, 이후 경영진이 **“AI의 실전 준비도를 과대평가했다”**고 공개적으로 시인했다(CMSWire). 자동화 시스템이 뉘앙스 있는 이슈, 에스컬레이션, 롱테일 고객 문제에서 고전하면서 서비스 품질이 떨어지고 불만이 늘었다. 기술적 한계도 드러났다 — LLM에 8개 이상의 지시사항을 주면 일부를 무시하기 시작한다는 것이 Salesforce의 실전 경험에서 밝혀졌다.
Gartner의 2026년 2월 보고서는 더 넓은 그림을 보여준다. AI를 활용해 인력을 줄인 기업의 50%가 2027년까지 재채용에 나설 것이라는 예측이다. 흥미로운 점은, 재채용되는 직함이 바뀐다는 것이다. “고객서비스 담당자”가 아니라 “솔루션 컨설턴트”, “트러스티드 어드바이저”, “프로덕트 스페셜리스트”. 실제로 고객서비스 리더 중 인력을 실질적으로 줄인 비율은 20%에 불과했다. 대다수는 인원을 유지하면서 더 많은 고객을 지원하는 쪽을 택했다.
한편 Qualtrics 조사는 AI 고객 서비스를 이용한 소비자의 5명 중 1명이 아무런 도움을 받지 못했다고 보고한다 — 다른 분야의 AI 활용 대비 실패율이 4배 높다. 투자 규모도 문제다. 2025년 상반기에 AI에 투입된 470억 달러 중 89%가 미미한 수익만 냈다.
“AI First”가 실패한 것이 아니다. “무분별한 AI First”가 실패한 것이다. 그리고 그 “무분별함”의 본질은, AI가 잘하는 일과 못하는 일을 구분하지 않은 채 통째로 밀어넣은 데 있다.
2. 그런데 — AI가 실제로 작동하는 곳도 있다
Klarna의 실패를 보고 “AI는 과대광고”라고 결론 내리면, 그것도 절반만 맞는 판단이다. 같은 시기에 AI가 실질적인 성과를 내고 있는 곳이 분명히 있다. 차이를 만드는 것은 **“무엇을 맡겼느냐”**다.
고객 서비스에서 AI가 성공한 곳을 보자. Freshworks의 Freddy AI는 소매 고객 문의의 53%를 자동 처리하면서, 첫 응답 시간을 12분에서 12초로, 해결 시간을 1시간 이상에서 2분으로 줄였다. GrandStay Hotels는 AI 도입 후 고객 만족도가 22% 상승했다(Freshworks, Sobot). 이들의 공통점은 명확하다 — 좁은 범위의 정형화된 문의에만 AI를 적용하고, 복잡한 이슈는 처음부터 사람에게 연결했다. 3년간 ROI 210%, 6개월 미만 투자 회수를 달성한 기업들은 하나같이 “깨끗한 데이터, 통합된 시스템, 좁은 초기 범위, 명확한 에스컬레이션 경로”를 갖추고 있었다.
고객 서비스의 구조를 데이터로 보면 패턴이 더 뚜렷해진다. 전체 고객 문의의 60~70%는 단순 문의다 — 비밀번호 재설정, 주문 조회, FAQ. 이 영역에서 AI의 해결률은 96~97%에 달하며, 고객 만족도도 사람과 동등하거나 더 높다. 소비자의 61%가 단순한 문의에는 오히려 셀프서비스를 선호한다. 반면 30~40%는 복잡한 문의 — 분쟁, 감정적 불만, 정책 예외 처리 — 이고, 여기서 AI는 체계적으로 실패한다. AI가 “패턴을 인식하고 다음에 올 말을 예측”하는 방식으로 작동하지, “의미를 해석”하는 것이 아니기 때문이다(HBS Online). Klarna와 Freddy AI의 차이는 기술력이 아니라 이 경계를 존중했느냐 여부다.
소프트웨어 엔지니어링에서도 같은 패턴이다. Microsoft는 코드베이스의 20~30%를 AI가 작성하도록 전환하고 6,000명을 줄였다. 하지만 이 숫자를 분해하면 이야기가 달라진다. AI가 작성하는 코드는 주로 보일러플레이트 — getter/setter, CRUD 오퍼레이션, 단순 함수 — 이다. 분석가들은 AI의 코딩 능력을 “대략 주니어 개발자 수준”으로 평가한다. 워싱턴주에서 감축된 2,000명 중 40% 이상인 817명이 소프트웨어 엔지니어, 373명이 프로덕트 매니저였는데(Seattle Times), 공식 목표는 “관리 레이어를 줄이는 것”이었다. 아키텍처 설계, 시스템 디자인, 복잡한 디버깅을 하는 시니어 엔지니어는 그대로 남아 있다.
의료 분야는 가장 극적이면서도 가장 미묘한 사례다. 의료 문서 전사(transcription) 업무의 자동화가 급속히 진행되어 BLS는 이 직종의 고용이 2023~2033년에 5% 감소할 것으로 전망한다(BLS). 하지만 “99% 자동화”라는 말은 절반만 맞다. AI 전사는 인간과 질적으로 다른 오류를 만든다. 예를 들어 “digoxin 0.25mg”을 “digoxin 2.5mg”으로 자신 있게 바꿔 적는 식이다 — 10배 용량 차이(DeepCura). 결과적으로 의료 전사원이 “사라진” 것이 아니라, “타이핑하는 사람”에서 “AI 출력을 검증하는 사람”으로 역할이 전환되었다. 숫자는 줄었지만 남은 사람에게 요구되는 역량은 더 높아졌다.
방사선학도 비슷하다. FDA가 승인한 방사선 AI 알고리즘은 873개에 달하고, 방사선과 의사의 85%가 AI가 환자 치료를 개선할 것이라고 답했다(RSNA). 하지만 “방사선과 의사를 AI가 대체한다”는 초기 예측은 빗나갔다. 실제로 일어난 것은 **“AI를 쓰는 방사선과 의사가 AI를 안 쓰는 방사선과 의사를 대체하는 것”**이다. 의료 코딩에서도 AI는 오류를 40% 줄이고 생산성을 33% 올렸지만(PMC), 인간의 감독은 여전히 필수다.
세 산업을 나란히 놓으면 패턴이 보인다.
| 산업 | AI가 대체한 태스크 | AI가 대체하지 못한 태스크 |
|---|---|---|
| 고객 서비스 | 단순 문의(FAQ, 주문조회, 비밀번호) | 분쟁 해결, 감정적 응대, 정책 예외 판단 |
| 소프트웨어 | 보일러플레이트 코드, 단순 함수 생성 | 아키텍처 설계, 복잡한 디버깅, 보안 설계 |
| 의료 | 문서 전사, 기본 코딩 | 임상 판단, 환자 대면, AI 출력 검증 |
공통 분모: 입력이 정형화되어 있고, 출력 형태가 정해져 있고, 판단의 범위가 좁은 태스크에서 AI는 사람보다 빠르고 저렴하다. 반면 맥락 해석, 예외 판단, 감정적 상호작용, 시스템 수준의 사고가 필요한 태스크에서 AI는 체계적으로 실패한다. 이것은 “AI의 능력 문제”가 아니라, AI라는 기술의 구조적 특성이다.
3. “직업”이 아니라 “태스크”가 갈린다 — 그리고 주니어가 위험하다
여기서 한 걸음 더 들어가보자. “어떤 회사는 줄이고, 어떤 회사는 늘린다”는 표면적 현상 뒤에는, 연구자들이 포착한 더 근본적인 패턴이 있다.
MIT 경제학자 David Autor는 2003년에 제시한 “루틴/비루틴” 프레임워크를 AI 시대에 맞게 업데이트했다. 핵심 구분은 이렇다(Brookings, NBER):
- 자동화 도구(Automation tool): 전문성의 필요성 자체를 제거한다. 그 일을 하던 사람이 필요 없어진다.
- 협업 도구(Collaboration tool): 전문성을 증폭한다. 이미 아는 사람이 더 많은 일을 할 수 있게 된다.
같은 AI 기술이 같은 직업 안에서도 태스크에 따라 자동화 도구가 되기도 하고, 협업 도구가 되기도 한다. 의료 전사에서 “받아쓰기”는 자동화되었지만, “검증”이라는 새로운 협업 태스크가 생겼다. 코딩에서 “보일러플레이트 생성”은 자동화되었지만, “AI가 쓴 코드 리뷰”라는 협업 태스크가 더 중요해졌다.
여기에 이전 자동화 물결과 결정적으로 다른 점이 있다. Stanford 경제학자 Erik Brynjolfsson는 이를 **“튜링 트랩(Turing Trap)“**이라 부른다(Stanford Digital Economy Lab):
“사람을 흉내 내는 AI(자동화)는 임금을 낮춘다. 사람이 못하던 것을 가능하게 하는 AI(증폭)는 임금을 올린다.”
과거의 자동화는 주로 중간 숙련도의 루틴 업무를 대체했다 — 공장 조립, 사무 보조, 데이터 입력. 하지만 LLM 기반 AI는 고숙련 인지 노동에까지 손을 뻗는다. 이것은 이전 자동화 물결의 역전이다. 이전에는 “안전하다”고 여겨졌던 고학력·고소득 직종의 태스크 — 법률 문서 분석, 코드 작성, 의료 진단 보조 — 가 이번에는 자동화 대상이 된 것이다.
그런데 데이터를 보면 결과가 직관과 다르다. 달라스 연방준비은행(Dallas Fed)의 2026년 2월 분석에 따르면, 경험 프리미엄이 높은 직종 — 변호사, 보험 심사관, 신용분석가 — 에서는 AI 도입 후 오히려 임금이 상승했다. 변호사가 판례를 검색하는 데 3시간 걸리던 일을 AI가 10분으로 줄여준다. 하지만 그 판례를 해석하고, 전략을 세우고, 의뢰인을 설득하는 일은 여전히 변호사의 몫이다. AI가 “자동화 도구”가 아니라 “협업 도구”로 작동한 것이다.
반면 경험 프리미엄이 낮은 직종 — 발권 담당자, 패스트푸드 점원, 데이터 입력 — 에서는 고용이 감소하고 임금이 정체했다. 10년 차와 1년 차의 업무 처리 속도 차이가 미미한 직종에서는, AI가 그 일을 할 수 있게 되면 사람을 고용할 이유 자체가 줄어든다. 컴퓨터시스템설계 분야의 임금 상승률이 **16.7%**인 반면 전국 평균은 **7.5%**에 그친다.
그리고 가장 뼈아픈 데이터가 있다. Harvard/SSRN의 2025년 연구는 285,000개 미국 기업과 6,200만 명의 노동자를 분석했다. 기업이 생성형 AI를 도입하면, 주니어 고용이 6분기 내에 9~10% 감소한다. 시니어 고용은 거의 변화가 없다. 주목할 점은 이것이 “해고”가 아니라 **“채용 중단”**이라는 것이다. 자리가 비어도 새로 뽑지 않는 것이다.
Stanford의 데이터는 더 구체적이다. 2225세 소프트웨어 개발자의 고용이 2022년 정점 대비 거의 20% 감소했다(Understanding AI). 상위 15개 테크 기업의 엔트리 레벨 채용은 20232024년에 25% 줄었다. 500명의 테크 리더를 대상으로 한 설문에서 72%가 “엔트리 레벨 개발자 채용을 줄일 계획”이라 답했고, 64%가 “대신 AI 도구에 투자할 것”이라 답했다(CIO).
이것이 만드는 구조적 문제가 있다. 주니어 개발자는 보일러플레이트 코드를 쓰면서 배운다. 단순한 CRUD를 구현하면서 데이터베이스를 이해하고, 단위 테스트를 작성하면서 코드 구조를 체득한다. AI가 이 “수련 과정”을 대체하면, 57년 뒤에는 시니어가 될 사람이 없는 파이프라인 단절이 발생한다. Companion Group의 한 엔지니어는 AI 도구를 많이 쓴 뒤 “예전에는 본능적으로 하던 작업이 수동적이고 번거로운 것이 되었다”고 보고했다(Stack Overflow). AI에 대한 개발자들의 긍정적 인식은 202324년의 70% 이상에서 2025년에는 60%로 하락했다.
이 모든 데이터가 가리키는 결론은 같다. AI는 “직업”을 통째로 대체하는 것이 아니라 “태스크”를 선별적으로 대체한다. 그리고 대체되는 태스크는 주로 정형화된 반복 업무다. AI 도입을 설계할 때 이 구분을 정확하게 하느냐가 성패를 가른다 — Klarna와 Freshworks의 차이가 정확히 여기에 있다.
4. “모든 직원을 AI 빌더로”의 함정
이 맥락에서 최근 주목받은 스타트업 이야기를 해야 한다.
Gumloop은 2026년 3월, 시리즈 B 라운드에서 5,000만 달러를 유치했다. 노코드 AI 에이전트 빌더를 표방하며, “모든 직원이 AI 에이전트를 만들 수 있는 세상”을 비전으로 내세웠다. 드래그 앤 드롭으로 워크플로우를 설계하고, 코드 한 줄 없이 AI 에이전트를 배포할 수 있다는 것이다.
매력적인 비전이다. 개발자가 아니어도 AI를 활용할 수 있다면, 조직 전체의 생산성이 올라갈 것이다. 맞는 말이다 — 이론적으로는.
현실의 데이터는 다른 이야기를 한다. RAND Corporation의 2025년 보고서에 따르면 AI 프로젝트의 실패율은 **80.3%**다. 더 좁혀서 생성형 AI 파일럿 프로젝트만 보면, 95%가 개념 증명(PoC) 단계를 넘어 스케일링에 실패한다. 전 세계적으로 AI에 투입된 6,840억 달러 중 80% 이상이 기대한 성과를 내지 못하고 있다는 분석도 있다(Pertama Partners).
왜 실패할까? 도구가 부족해서가 아니다. 문제를 정의하는 능력이 부족하기 때문이다.
노코드 AI 빌더가 해결하는 것은 “구현의 장벽”이다. 코드를 몰라도 에이전트를 만들 수 있다. 하지만 “이 업무의 어떤 부분을 자동화해야 하는가?”, “입력 데이터의 품질은 어떻게 보장할 것인가?”, “에이전트가 잘못된 판단을 내렸을 때 어떻게 감지하고 복구할 것인가?” — 이런 질문에 답하는 것은 도구가 아니라 사람의 역량이다. 노코드가 아무리 쉬워져도, 무엇을 만들어야 하는지 모르면 쉬운 도구로 빠르게 잘못된 것을 만들 뿐이다.
그리고 “AI가 만들어주니까 빠르게 만들 수 있다”는 체감 자체가 착각일 수 있다는 데이터가 있다. METR의 2025년 무작위 대조 실험(RCT)은 충격적인 결과를 내놓았다. 16명의 숙련된 오픈소스 개발자(평균 2만 2천 스타 이상의 레포 관리자)에게 AI 도구를 주고 실제 태스크를 수행하게 했다. AI를 사용한 그룹이 실제로는 19% 더 느렸다. 그런데 본인들은 20% 더 빨라졌다고 믿었다. 실험이 끝난 뒤에도 이 인식은 변하지 않았다. 원인은 불완전한 프롬프팅, AI 인터페이스와의 씨름, 높은 품질 기준과 AI 제안의 불일치, 그리고 AI를 “실험”하느라 소비한 인지적 비용이었다.
코드 품질 데이터는 더 직접적이다. CodeRabbit의 2025년 분석은 GitHub의 470개 PR(AI 공동 작성 320개, 인간 전용 150개)을 비교했다. AI가 관여한 코드는 PR당 이슈가 10.83건 vs 인간 전용 6.45건으로, 약 1.7배 많았다. 단순히 “버그가 많다”는 것이 아니라 유형이 다르다:
- 로직/정확성 오류: +75%
- 보안 취약점: 1.5~2배 (비밀번호 처리 부실, 안전하지 않은 객체 참조)
- 코드 가독성 문제: 3배
- 성능 비효율(과도한 I/O): 거의 8배
- 동시성 제어 오류: 2.29배
GitClear의 5년간 2억 1,100만 줄 분석(Google, Microsoft, Meta 포함)은 코드베이스 수준의 변화를 보여준다. 복사/붙여넣기 코드가 2020년 8.3%에서 2024년 12.3%로 48% 증가했고, 리팩터링된 코드는 24.1%에서 9.5%로 반 이상 줄었다. 코드 이탈률(새 코드가 2주 내에 수정/되돌려지는 비율)은 5.5%에서 7.9%로 올랐다. AI가 코드를 더 빠르게 생성하지만, 그 코드를 다시 고치는 데 드는 시간도 늘어나고 있다는 뜻이다.
결국 노코드 AI 빌더의 진짜 수혜자는 누구인가? 업무 프로세스를 이해하고, 자동화의 경계를 판단할 수 있고, 결과물을 검증할 수 있는 사람이다. 이들에게 노코드는 “구현 시간을 줄여주는 도구”가 된다. 반대로 그런 판단 없이 도구만 쥐어주면, 빠르게 잘못된 것을 만들 뿐이다.
도구가 쉬워지는 것과, 그 도구를 어디에 적용할지 설계하는 것은 전혀 다른 영역의 일이다. AI 도입의 성패를 가르는 것은 도구의 성능이 아니라, 적용 지점을 정확하게 설계하는 전문성이다.
5. 역사는 같은 패턴을 반복한다 — 단, 이번에는 속도가 다르다
불안해질 수 있다. 주니어 채용이 줄고, AI 실패율이 80%이고, 코드 품질은 떨어진다. 언론은 이런 숫자를 선별적으로 뽑아 공포를 조성하는 데 능하다. 하지만 기술이 노동시장을 바꾼 것은 이번이 처음이 아니다. 역사적 패턴을 보면, 지금 일어나는 일의 윤곽이 좀 더 선명해진다.
ATM과 은행 창구 직원(1970s~). ATM이 등장했을 때 모든 전문가가 창구 직원의 종말을 예언했다. 실제로 지점당 창구 직원 수는 1988년 20명에서 2004년 13명으로 줄었다. 하지만 지점 운영 비용이 떨어지면서 은행들은 도시 지역에 43% 더 많은 지점을 열었다. 순 고용은 오히려 노동력 평균보다 빠르게 증가했다(AEI). 창구 직원의 역할은 “현금 계수”에서 “관계 관리와 상품 상담”으로 전환되었다.
스프레드시트와 회계사(1980s~). VisiCalc(1979), Lotus 1-2-3, Excel이 등장하면서 20시간 걸리던 수작업 계산이 15분으로 줄었다. 결과: 회계 사무원(bookkeeper)은 40만 명 감소했지만, 정규 회계사(accountant)는 60만 명 증가했다(NPR). 계산이 쉬워지자 기업들은 이전에는 시도하지 않았을 시나리오 분석, 전략적 모델링을 요구하기 시작했고, 숫자를 “만드는” 사람 대신 숫자를 “해석하는” 사람의 수요가 폭발했다.
두 사례에서 동일한 4단계 패턴이 반복된다:
- 루틴 실행 태스크가 자동화된다 (현금 계수, 수작업 계산, 수작업 제도)
- 해당 기능의 비용이 떨어지면서 수요 자체가 증가한다 (지점 증설, 시나리오 분석 증가)
- 남은 인간 태스크의 가치가 상승한다 (관계 관리, 전략적 해석, 설계 판단)
- 넓은 분야의 순 고용은 유지되거나 증가한다
AI에서도 같은 패턴이 보이기 시작한다. 코드 생성 비용이 떨어지면서 소프트웨어 프로젝트의 총량이 늘고, 아키텍처와 시스템 설계의 가치가 올라가고 있다. 의료에서 전사 비용이 사라지면서 진료 기록의 양이 폭발하고, 그것을 검증·분석하는 역량의 수요가 늘고 있다.
하지만 결정적인 차이가 하나 있다: 속도.
ATM의 전환은 40년에 걸쳐 일어났다. 그 사이에 창구 직원들은 새로운 역할로 재교육받을 시간이 있었다. 스프레드시트도 회계 사무원이 정규 회계사로 전환할 수 있는 교육과 자격 취득의 시간이 있었다. AI의 전환은 3년 만에 일어나고 있다. 주니어 개발자 채용이 20% 줄어드는 데 2년이 걸렸다. Klarna가 700명을 줄이고 다시 뽑기까지 1년 반이었다. 재교육과 적응의 시간이 압도적으로 부족하다.
이것이 역사적 패턴에서 읽을 수 있는 진짜 교훈이다. 장기적으로 AI는 새로운 역할을 만들어낼 것이다. 하지만 단기적으로 전환 속도가 적응 속도를 앞지르면, 그 사이에 사람이 다친다. “결국 괜찮아질 것”이라는 장기 전망은 맞을 수 있다. 하지만 그 “결국”까지의 과정이 이전보다 훨씬 가파르다는 것이 이번의 고유한 위험이다.
6. “AI Effective”라는 정답 — 단, 조건부
그렇다면 올바른 접근은 무엇인가?
최근 업계에서 등장한 개념이 있다. “AI Effective” — AI를 무조건 적용하는 것이 아니라, AI가 효과적인 곳에만 적용하는 설계 철학이다.
AI First는 “모든 프로세스에 AI를 먼저 적용하고, 안 되는 곳을 나중에 빼자”는 접근이다. 공격적이고 빠르다. 하지만 Klarna가 보여줬듯이, “안 되는 곳”을 나중에 발견하는 비용이 크다. 고객 이탈, 품질 하락, 재채용 비용. 실험의 대가를 고객과 직원이 치른다.
AI Effective는 반대다. “AI가 효과적인 곳을 먼저 식별하고, 거기에만 적용하자.” Freshworks가 소매 문의의 53%만 AI에 맡기고 나머지를 사람에게 남긴 것이 이 접근의 예다. Microsoft가 보일러플레이트 코드 작성에만 AI를 투입하고 아키텍처 설계는 시니어에게 맡긴 것도 마찬가지다. 의료에서 전사는 AI에게, 검증은 경험 있는 전사원에게 맡기는 것도.
AI Effective가 옳다. 동의한다. 하지만 여기에 전제 조건이 있다.
“AI가 효과적인 곳”을 식별하려면, 먼저 업무 자체를 깊이 이해하고 있어야 한다. 고객 서비스에서 단순 문의 60%와 복잡 문의 40%의 경계를 알려면 고객 서비스 운영 경험이 필요하다. 코드에서 보일러플레이트와 핵심 로직의 경계를 알려면 소프트웨어 아키텍처에 대한 이해가 필요하다. 의료 전사에서 AI가 자신 있게 틀리는 1%를 잡아내려면 의료 도메인 지식이 필요하다.
AI Effective의 “Effective”를 판단하는 것 자체가 전문성의 영역이다. 이것은 도구가 해결해주지 않는다. 노코드가 해결해주지 않는다. Brynjolfsson가 말하는 “튜링 트랩”을 피하려면 — 즉, AI를 “사람을 대체하는 도구”가 아니라 “사람을 증폭하는 도구”로 설계하려면 — 무엇이 대체 가능하고 무엇이 증폭 가능한지를 구분하는 눈이 필요하다. 그 눈은 현장 경험과 기술적 이해의 교차점에서 생긴다.
그래서 AI 시대에 중요해지는 것은 역설적으로 **“사람의 전문성”**이다. 자기 업무의 태스크를 분해할 수 있고, AI가 맡을 60%와 사람이 맡을 40%의 경계를 정확하게 설계할 수 있는 역량. Klarna가 1년 반 만에 배운 것을 처음부터 알고 설계하는 것과, 시행착오로 배우는 것 사이에는 엄청난 비용 차이가 있다. AI 도입에서 “올바른 설계”가 가능한 파트너를 선택하는 것이 결과를 가른다.
7. 결론 — 같은 AI, 다른 결과를 만드는 것은 “설계”다
정리하자.
“AI가 일자리를 뺏는다” — 반만 맞다. AI가 대체하는 것은 “직업”이 아니라 “태스크”다. 그리고 그 태스크는 주로 정형화된 반복 업무다. Dallas Fed 데이터, Harvard 연구, Stanford 데이터가 모두 같은 방향을 가리킨다 — AI는 전문성을 가진 사람에게는 증폭기이고, 루틴 업무에는 대체재다.
“AI First가 실패했다” — 반만 맞다. 실패한 것은 고객 서비스의 60%와 40%를 구분하지 않고, 보일러플레이트와 아키텍처를 구분하지 않고, 전사와 검증을 구분하지 않은 무분별한 AI First다. 태스크 수준에서 정확하게 적용한 기업들은 실제로 ROI 210%, 비용 50% 절감 같은 성과를 내고 있다.
“모든 직원이 AI 빌더가 되어야 한다” — 방향은 맞지만 전제가 빠져 있다. METR 실험이 보여주듯, AI 도구를 쓰는 것만으로는 빨라지지 않는다. 도구가 쉬워져도 “어디에 적용할 것인가”를 설계하는 능력은 도구에서 오지 않는다. Freshworks와 Klarna의 차이는 AI 기술의 차이가 아니라 적용 설계의 차이였다.
“장기적으로 괜찮아질 것이다” — 역사적 패턴을 보면 아마 맞다. ATM 이후에 은행 직원 수는 늘었고, 스프레드시트 이후에 회계사 수는 늘었다. 하지만 40년 걸린 전환이 3년 만에 일어나고 있다. 그래서 지금 당장 중요한 것은 전환의 속도를 견딜 수 있는 설계다.
결국 AI 도입에서 가장 비싼 실수는 “AI를 도입하지 않는 것”이 아니다. **“어디에 적용할지 설계하지 않고 도입하는 것”**이 가장 비싼 실수다. Klarna는 그 수업료로 1년 반의 고객 이탈과 재채용 비용을 치렀다. Salesforce는 4,000명을 줄이고 나서 “AI의 실전 준비도를 과대평가했다”고 시인해야 했다.
반면 같은 시기에 Freshworks는 53%의 문의만 AI에 맡기고 ROI 210%를 달성했다. Microsoft는 보일러플레이트만 AI에 맡기고 시니어 엔지니어의 생산성을 끌어올렸다. 의료 분야는 전사를 AI에 맡기되, 검증은 경험 있는 전문가에게 남겼다.
차이를 만든 것은 기술이 아니라 “어디까지 AI에게 맡기고, 어디서부터 사람이 하는가”를 정확하게 설계한 전문성이다. AI가 잘하는 60%와 사람이 해야 하는 40%의 경계를 아는 것. AI가 쓴 코드의 보안 취약점(2배)과 동시성 오류(2.3배)를 검증할 수 있는 역량을 갖추는 것. AI 전사가 “자신 있게 틀리는” 1%를 잡아낼 수 있는 도메인 지식을 확보하는 것.
AI 시대에 가장 가치 있는 역량은 AI 자체가 아니다. AI를 올바른 곳에 배치하는 설계 능력이다. 그리고 그 설계는 기술과 비즈니스를 모두 이해하는 곳에서만 나온다.