파운데이션 모델의 종분화 — GPT의 대안은 GPT가 아닐지도 모른다
파운데이션 모델의 종분화 — GPT의 대안은 GPT가 아닐지도 모른다
“같은 주에, 금융 시장의 언어를 읽는 모델과, 시계열을 예측하는 모델과, 토크나이저 없이 말하는 모델이 동시에 GitHub 트렌딩에 올랐다. 셋 다 자신을 ‘foundation model’이라고 불렀다. 셋 다 LLM이 아니었다.”
2026년 4월 10일 기준 GitHub Trending을 열면, 이상한 풍경이 보인다.
shiyu-coder/Kronos가 12,180 스타를 찍고 일일 +245로 올라가고 있다. “A Foundation Model for the Language of Financial Markets”라는 부제가 붙어 있다. 금융 시장의 주문 흐름과 가격 행동을 “언어”로 취급하고, transformer 아키텍처를 적용해 그 언어의 패턴을 학습하는 모델이다. 중국 대학 연구팀의 프로젝트다.
같은 주간 트렌딩에 google-research/timesfm이 15,985 스타, 주간 +3,095로 올라와 있다. Google Research의 pretrained time-series foundation model이다. 소매, 날씨, 에너지 — 도메인을 가리지 않고 zero-shot으로 시계열 예측을 수행한다. “시계열의 GPT”라는 포지셔닝이다.
그리고 OpenBMB/VoxCPM이 7,644 스타, 일일 +496으로 올라와 있다. 다국어 음성 합성과 voice cloning을 수행하는 모델인데, 핵심 기술적 선택이 하나 있다 — tokenizer-free. 토크나이저를 쓰지 않는다. 텍스트를 토큰으로 쪼개는 것은 LLM의 가장 기본적인 전처리 단계인데, VoxCPM은 그것을 아예 버렸다. 오디오 도메인에서 토큰화라는 개념 자체가 적합하지 않다는 판단이다.
세 모델의 공통점은 두 가지다. 첫째, 셋 다 자신을 “foundation model”이라고 부른다. 둘째, 셋 다 LLM이 아니다. 텍스트를 입력으로 받아 텍스트를 출력하는 모델이 아니라, 금융 주문 흐름, 시계열 수치, 음성 파형이라는 전혀 다른 데이터 도메인에 특화된 모델이다. 서로 다른 대륙(중국 대학, Google Research, OpenBMB)의 서로 다른 연구 그룹이, 같은 주에, 같은 단어 — foundation model — 를 자기 도메인의 전문 모델에 붙여서 공개한 것이다.
이 에세이는 이 동시성이 우연이 아니라 구조적 추세의 가시화라고 주장한다. 지난 3년간 AI 담론을 지배한 서사는 “더 크고, 더 범용적인 LLM이 모든 것을 해결한다”였다. GPT-5, Claude Opus 4.6, Gemini 3.1 — 매 분기마다 더 큰 모델이 나오고, 그 모델이 더 많은 영역을 커버하면서 “하나의 거대한 범용 FM이 모든 도메인의 문제를 푼다”는 통합주의(unificationism)가 당연시되었다. 그런데 2026년 4월, 바로 그 연구 커뮤니티가 — 범용 FM을 만들 능력이 있음에도 — 도메인 특화 FM을 따로 만들어서 내놓고 있다. 왜?
이 글은 그 “왜”를 세 가지 층위에서 해부한다. 데이터, 아키텍처, 경제학. 그리고 이 현상을 30년 전에 이미 한 번 일어났던 역사적 선례 — 데이터베이스의 종분화 — 와 대비하면서, “foundation model”이라는 단어의 의미가 어떻게 변하고 있는지, 그리고 그 변화가 실무자에게 무엇을 의미하는지를 논한다.
이전 에세이 “오픈모델 전쟁 2026”에서 분석한 것은 AI 모델의 “오픈 vs 클로즈드” 축이었다. Google이 Gemma 4를 Apache 2.0으로 풀고, AMD가 Lemonade를 오픈소스로 릴리스하고, Alibaba가 Qwen 3.6-Plus를 공개하는 — 그 전쟁은 모델의 접근 방식에 관한 것이었다. 이 에세이가 다루는 것은 그 전쟁과 직교하는 다른 축이다. 범용 vs 전문화. 오픈이든 클로즈드든, 모든 모델이 범용을 지향해야 하는가, 아니면 도메인별로 갈라져야 하는가. 같은 시장의 두 번째 단층선이다.
1. 세 개의 모델 해부 — 각각은 무엇을 다르게 설계했는가
세 모델을 단순히 “도메인 특화 모델”이라고 묶는 것으로는 부족하다. 각각이 왜, 어떤 설계 선택을 통해 범용 LLM과 다른 길을 걸었는지를 들여다봐야 이 종분화의 실체가 보인다.
Kronos — 금융 시장의 “언어”를 읽는 모델
Kronos의 가장 흥미로운 점은 프레이밍이다. “A Foundation Model for the Language of Financial Markets.” 여기서 “language”라는 단어는 은유가 아니라 아키텍처 설계의 근거다. 금융 시장의 주문 흐름(order flow) — 매수 주문, 매도 주문, 체결, 취소, 수정 — 을 시계열이 아니라 시퀀스로 취급한다. 자연어에서 단어가 순서대로 나열되어 문장을 이루듯, 주문 이벤트가 순서대로 나열되어 시장의 “문장”을 이룬다는 관점이다.
이 관점에서 transformer 아키텍처를 적용하는 것은 자연스러운 선택이 된다. Attention mechanism이 시퀀스 내의 장거리 의존성을 포착하는 데 강하고, 금융 시장의 주문 흐름에는 장거리 의존성이 실재하기 때문이다. 오전 9시 30분에 대량 매수 주문이 들어오면, 그 영향이 오후 2시의 가격 변동에까지 이어지는 식의 의존성이다. 이것을 자연어의 문맥 의존성과 구조적으로 동형(isomorphic)이라고 보는 것이 Kronos의 핵심 통찰이다.
그런데 왜 GPT-5나 Claude Opus 4.6에 주문 흐름 데이터를 넣으면 안 되는가? 두 가지 이유가 있다.
첫째, 데이터 형식의 불일치. 범용 LLM은 텍스트 토큰을 입력으로 받는다. 주문 흐름 데이터는 텍스트가 아니다. 가격(연속형 실수), 수량(정수), 주문 유형(범주형), 타임스탬프(시간형)가 얽힌 다차원 구조화 데이터다. 이것을 텍스트로 변환해서 LLM에 넣을 수는 있지만, 변환 과정에서 정보가 손실된다. “101.35에 500주 매수”라는 텍스트와 (101.35, 500, BUY)라는 벡터는 같은 정보를 담고 있지만, 전자를 토큰화하는 순간 숫자의 연속성과 크기 관계가 이산적 토큰 임베딩 안에서 희석된다.
둘째, 학습 데이터의 부재. 범용 LLM의 사전학습 코퍼스는 인터넷 텍스트다. 금융 시장의 주문 흐름 데이터는 인터넷에 올라가지 않는다. 거래소의 마이크로스트럭처 데이터, 레벨 2 오더북, 틱 단위 체결 기록 — 이것들은 유료이고, 라이선스 제약이 있으며, 일반 웹 크롤러가 수집할 수 없다. GPT-5가 아무리 거대해도, 학습한 적 없는 데이터 분포에 대해서는 할 수 있는 것이 제한적이다. Kronos는 이 데이터로 직접 사전학습된 모델이다.
12,180 스타라는 숫자는 이 접근에 대한 커뮤니티의 관심 수준을 보여준다. 금융공학 분야에서 GitHub 프로젝트가 만 스타를 넘기는 것은 매우 드문 일이다.
TimesFM — 시계열의 GPT
TimesFM은 Google Research의 프로젝트로, 접근법이 더 명시적이다. “GPT가 텍스트에 한 것을 시계열에 하겠다”는 선언이다. 대규모 시계열 데이터로 사전학습한 뒤, 특정 도메인에 파인튜닝 없이 zero-shot으로 예측을 수행한다. 소매점의 수요 예측, 기상 관측소의 온도 예측, 전력망의 부하 예측 — 도메인을 가리지 않는다.
15,985 스타, 주간 +3,095. 이 수치가 의미하는 것은 시계열 예측이라는 문제 영역의 크기다. 시계열 예측은 산업 전반에 걸쳐 존재하는 문제이지만, 지금까지 그 문제를 풀기 위해 도메인마다 별도의 모델을 처음부터 훈련해야 했다. ARIMA, Prophet, N-BEATS — 각각의 모델을 각 도메인의 데이터에 맞춰 세팅하는 것이 표준 워크플로였다. TimesFM은 이 워크플로를 뒤집는다. 한 번 사전학습하면, 새 도메인에 zero-shot으로 적용 가능하다.
TimesFM이 범용 LLM과 결정적으로 다른 것은 inductive bias다. 시계열 데이터에는 텍스트에 없는 구조적 특성이 있다. 시간적 국소성(temporal locality) — 가까운 시점의 데이터가 먼 시점의 데이터보다 예측에 더 중요하다. 주기성(periodicity) — 일간, 주간, 연간 패턴이 반복된다. 추세(trend) — 장기적으로 상승하거나 하강하는 방향성이 있다. 범용 transformer는 이런 구조를 데이터로부터 학습해야 하지만, TimesFM의 아키텍처는 이런 구조를 모델 설계에 내재시킨다. 시간축에 대한 특별한 positional encoding, 다중 해상도 입력 처리, 예측 지평선(horizon)에 최적화된 디코딩 전략 — 이런 설계 선택들이 같은 파라미터 수에서 범용 모델보다 시계열 예측을 더 잘 수행하게 만든다.
Google Research라는 이름도 중요하다. 이것은 소규모 연구실의 실험이 아니다. 세계 최대 규모의 AI 연구 조직이, 범용 LLM(Gemini)을 만들 수 있는 자원과 기술을 보유하면서도, 별도로 도메인 특화 FM을 만들어 공개한 것이다. 범용 모델로 시계열 문제를 “충분히” 풀 수 있었다면 굳이 이런 프로젝트를 진행할 이유가 없다. Google이 TimesFM을 만들었다는 사실 자체가, 범용 LLM의 시계열 처리 능력에 한계가 있다는 것을 Google 스스로가 인정한 것이다.
VoxCPM — 토크나이저를 버린 모델
VoxCPM은 세 모델 중 가장 급진적인 설계 선택을 했다. Tokenizer-free. LLM의 세계에서 토크나이저는 공기와 같은 존재다. 입력 텍스트를 모델이 처리할 수 있는 이산적 토큰으로 변환하는 첫 번째 단계이며, GPT 시리즈의 BPE(Byte Pair Encoding)부터 SentencePiece까지, 모든 주요 LLM이 어떤 형태로든 토크나이저를 사용한다. VoxCPM은 이것을 아예 제거했다.
왜 음성 합성에서 토크나이저가 문제인가. 텍스트는 이산적(discrete) 데이터다. 단어와 단어 사이에 명확한 경계가 있고, 유한한 어휘로 환원된다. 음성은 연속적(continuous) 데이터다. 파형은 매끄럽게 흐르고, 어디서 자르느냐에 따라 의미가 달라진다. 음성을 토큰화한다는 것은 연속적 신호를 강제로 이산적 단위로 쪼개는 것인데, 이 과정에서 필연적으로 정보가 손실된다. 특히 운율(prosody), 감정(emotion), 화자 특성(speaker identity) 같은 미세한 음향 특성이 토큰화 과정에서 버려진다. VoxCPM이 voice cloning을 핵심 기능으로 내세울 수 있는 것은, 토크나이저를 버림으로써 화자 특성 정보를 보존하기 때문이다.
7,644 스타, 일일 +496. OpenBMB는 Tsinghua University에서 시작된 연구 그룹으로, 대규모 언어 모델 분야에서 이미 여러 프로젝트(CPM 시리즈)를 발표한 바 있다. 이들이 LLM 아키텍처를 잘 알면서도, 음성 도메인에서는 의도적으로 LLM의 핵심 구성요소(토크나이저)를 폐기했다는 것이 의미심장하다. 이것은 LLM 아키텍처가 만능이 아님을 LLM 전문가가 스스로 선언한 것에 가깝다.
Tokenizer-free라는 선택은 단순한 기술적 결정을 넘어 **종분화의 표지(marker)**다. 생물학에서 종분화는 공통 조상에서 갈라져 나온 집단이 서로 다른 환경에 적응하면서 교배 불가능할 정도로 달라지는 과정이다. LLM과 VoxCPM은 같은 deep learning이라는 공통 조상에서 출발했지만, VoxCPM이 토크나이저를 버린 순간 — LLM의 가장 기본적인 데이터 처리 파이프라인과 호환 불가능해진 순간 — 두 모델은 서로 다른 “종”이 된 것이다.
2. “Foundation Model”이라는 단어의 의미 변천
이 세 모델이 공통으로 사용하는 “foundation model”이라는 단어는 어디서 왔는가. 그리고 그 단어의 의미는 2021년에서 2026년 사이에 어떻게 변했는가.
2021년: Stanford CRFM의 정의
“Foundation model”이라는 용어가 학술적으로 정의된 것은 2021년, Stanford의 Center for Research on Foundation Models(CRFM)가 발표한 “On the Opportunities and Risks of Foundation Models”(Bommasani et al.)이다. 이 논문에서 foundation model은 다음과 같이 정의된다. “대규모 데이터로 사전학습되어 다양한 하위 작업에 적응(adaptation)할 수 있는 모델.” 핵심은 **전이 가능성(transferability)**이다. 한 번 훈련하면 여러 작업에 쓸 수 있다는 것.
이 정의에서 주목할 것은, “범용”이라는 단어가 정의의 필수 요소가 아니라는 점이다. Bommasani et al.은 foundation model이 범용이어야 한다고 말하지 않았다. “다양한 하위 작업에 적응 가능”이라고 했을 뿐이다. 다양한 하위 작업은 도메인 내부의 하위 작업일 수도 있다. 시계열 예측이라는 도메인 안에서 소매 예측, 기상 예측, 에너지 예측 — 이것도 “다양한 하위 작업”이다. TimesFM은 이 정의를 정확히 충족한다.
그러나 2021년 이후 담론은 이 원래 정의를 넘어서 달려갔다.
2022-2024년: “Foundation Model = 거대 범용 LLM”으로의 의미 수렴
ChatGPT의 등장(2022년 11월)은 “foundation model”이라는 단어의 의미를 사실상 재정의했다. 대중 담론에서 foundation model은 GPT-4, Claude, Gemini 같은 거대 범용 LLM의 동의어가 되었다. 스케일링 법칙(scaling laws) — 모델이 커질수록 더 많은 영역에서 더 잘 작동한다 — 이 이 수렴의 이론적 근거를 제공했다. “모델을 충분히 크게 만들면 모든 도메인을 커버할 수 있다”는 신념이 업계를 지배했다.
이 시기에 도메인 특화 접근은 “레거시” 또는 “naive”로 취급되었다. “금융 전용 모델? GPT-5가 금융도 잘할 텐데 왜?” “시계열 전용 모델? LLM에 숫자 데이터를 넣으면 되지 않나?” 이런 반응이 주류였다. 도메인 특화 모델은 자원이 부족한 연구실이 범용 모델을 만들 수 없어서 택하는 차선책이라는 인식이 깔려 있었다.
2025-2026년: 종분화의 시작
그런데 2025년 후반부터 풍향이 바뀌기 시작했다. 범용 LLM이 놀라운 속도로 발전했음에도 불구하고, 특정 도메인에서는 도메인 특화 모델이 범용 모델을 명확하게 앞서기 시작한 것이다. AlphaFold가 단백질 구조 예측에서 그랬고, 기상 예측 분야의 GraphCast/Pangu-Weather가 그랬다. 이 모델들은 LLM이 아니었지만, 각각의 도메인에서 “foundation model”이라는 지위를 획득했다.
2026년 4월의 Kronos, TimesFM, VoxCPM은 이 흐름의 연장선이지만, 한 가지 결정적 차이가 있다. 세 모델이 같은 주에 동시에 트렌딩에 올랐다. AlphaFold나 GraphCast는 각각 단독으로 화제가 되었다. 그때는 “대단한 도메인 모델이 나왔네”라는 개별 사건이었다. 지금은 서로 다른 도메인의 서로 다른 연구 그룹이 동시에 같은 방향을 향하고 있다. 이것은 개별 사건이 아니라 추세다.
“Foundation model”이라는 단어의 의미가 다시 원래의 정의 — Bommasani et al.의 “다양한 하위 작업에 적응 가능한 사전학습 모델” — 로 돌아가고 있다. 다만 이번에는 그 “다양한 하위 작업”이 범도메인(cross-domain)이 아니라 도메인 내(within-domain)의 다양성을 의미한다. Foundation model은 범용 모델의 별명이 아니라, 특정 도메인의 기초(foundation)가 되는 모델이라는 문자 그대로의 의미로 회귀하고 있다.
3. 역사적 유비 — 데이터베이스 종분화의 30년
이 현상을 이해하기 위해 가장 적합한 역사적 유비는 데이터베이스의 역사다. 1980년대부터 2020년대까지 약 40년에 걸친 데이터베이스의 진화는, foundation model이 앞으로 겪을 종분화의 거의 완벽한 선행 사례다. 이 유비를 에세이의 중심축으로 삼는 이유는, 단순한 비유가 아니라 구조적 동형성(structural isomorphism)이 존재하기 때문이다. 같은 힘(경제적 압력, 데이터 특성의 다양화, 워크로드 전문화)이 같은 결과(범용 시스템의 해체와 전문 시스템의 부상)를 만들어낸다.
1980년대: 범용 RDBMS의 전성시대
1980년대의 데이터베이스 시장은 Oracle과 IBM DB2가 지배했다. 관계형 데이터베이스 관리 시스템(RDBMS)은 하나의 기술로 모든 데이터 문제를 풀겠다는 야심을 가지고 있었다. 재무 데이터도 RDBMS, 인사 기록도 RDBMS, 재고 관리도 RDBMS, 분석 리포트도 RDBMS. Edgar Codd가 1970년에 제안한 관계형 모델은 데이터의 “범용 표현”이었고, SQL은 그 범용 표현에 대한 “범용 질의 언어”였다.
이 시기의 Oracle은 지금의 GPT-4나 Claude Opus 4.6과 구조적으로 같은 위치에 있었다. “하나의 시스템이 모든 워크로드를 처리한다.” 기업은 Oracle 하나를 사서 모든 데이터를 집어넣고, 모든 질의를 돌렸다. 물론 워크로드마다 성능 차이가 있었지만, “다른 시스템을 따로 사는 것보다 Oracle 하나로 통일하는 것이 총비용(TCO)이 낮다”는 논리가 통했다. 하나의 시스템에 대한 전문성만 확보하면 되고, 운영팀을 하나만 두면 되고, 백업과 복구 절차를 하나만 만들면 되기 때문이다.
이것은 2023-2025년의 AI 담론과 정확히 같은 구조다. “GPT-4 하나로 코딩도 하고 번역도 하고 분석도 하면 된다. 도메인별로 따로 모델을 관리하는 것보다 총비용이 낮다.” 하나의 API에 대한 전문성만 확보하면 되고, 프롬프트 엔지니어링 패턴을 하나만 익히면 되고, 평가 파이프라인을 하나만 만들면 된다.
1990년대: OLAP의 분리 — 첫 번째 종분화
1990년대에 들어서면서, 하나의 RDBMS가 모든 워크로드를 처리한다는 가정에 균열이 생기기 시작했다. 균열의 원인은 워크로드의 분화였다. 기업의 데이터 워크로드는 크게 두 종류로 나뉜다는 것이 점점 명확해졌다. OLTP(Online Transaction Processing) — 개별 거래를 빠르게 처리하는 것. 은행 이체, 주문 접수, 재고 차감. 소량의 데이터를 아주 빠르게 읽고 쓰는 워크로드다. OLAP(Online Analytical Processing) — 대량의 데이터를 모아서 분석하는 것. 월별 매출 추이, 지역별 판매 비교, 고객 세그먼트 분석. 대량의 데이터를 읽기만 하지만, 집계와 조인이 복잡한 워크로드다.
문제는 OLTP와 OLAP가 데이터베이스에 요구하는 것이 정반대라는 데 있었다. OLTP는 행(row) 단위 접근이 빠르고, 동시성 제어(concurrency control)가 정교하며, 쓰기 성능이 좋아야 한다. OLAP는 열(column) 단위 접근이 빠르고, 대량 스캔 성능이 좋으며, 읽기에 최적화되어야 한다. 하나의 엔진이 두 가지를 모두 잘할 수는 있지만, 어느 한 쪽을 극한까지 최적화하면 다른 쪽이 희생된다. 범용 RDBMS는 두 워크로드 모두에서 “괜찮은” 성능을 냈지만, 어느 쪽에서도 “최고”는 아니었다.
이것이 데이터 웨어하우스의 탄생으로 이어졌다. OLAP 워크로드만을 위한 별도의 시스템을 만들자. OLTP는 기존 RDBMS에 남기고, 분석용 데이터는 데이터 웨어하우스로 옮겨서 별도로 질의하자. Teradata, Sybase IQ 같은 제품이 이 시장을 열었다. “범용은 만능이 아니다”라는 인식의 첫 번째 균열이었다.
FM 세계에서 이 단계에 대응하는 것은 무엇인가. 범용 LLM이 텍스트 생성(OLTP에 대응 — 빠른 개별 응답)과 대규모 데이터 분석(OLAP에 대응 — 대량 데이터의 패턴 추출)을 동시에 잘해야 한다는 가정의 균열이다. 코딩 에이전트 워크로드는 빠른 응답과 정확한 도구 호출이 필요하고, 연구 분석 워크로드는 긴 컨텍스트와 깊은 추론이 필요하다. Claude가 Opus(고성능 분석)와 Sonnet/Haiku(고속 응답)를 분리한 것은 이미 이 분화의 초기 징후다.
2000년대: 컬럼 스토어 혁명 — Vertica와 Greenplum
2000년대에 들어서면서 종분화는 가속했다. Vertica(2005년)와 Greenplum(2005년)이 **컬럼 지향 스토어(columnar store)**를 들고 등장했다. 전통적 RDBMS가 데이터를 행(row) 단위로 저장하는 것과 달리, 컬럼 스토어는 각 열(column)을 연속된 블록으로 저장한다. OLAP 쿼리가 통상 전체 행이 아니라 특정 열만 스캔하기 때문에, 이 저장 방식은 OLAP 워크로드에서 행 기반 RDBMS 대비 10배에서 100배의 성능 향상을 가져왔다.
이것은 inductive bias의 승리다. 컬럼 스토어는 “분석 쿼리는 소수의 열만 접근한다”는 사전 가정을 스토리지 엔진 설계에 내재시킨 것이다. 범용 RDBMS는 이런 가정을 하지 않는다. 그래서 어떤 워크로드에든 적용할 수 있지만, 특정 워크로드에서 극한 성능을 내지 못한다. 컬럼 스토어는 분석 워크로드라는 좁은 영역에서 범용 RDBMS를 압도적으로 이겼다.
FM 세계에서 이 단계에 대응하는 것이 바로 TimesFM이다. 범용 transformer가 시계열 데이터를 처리할 수 있다. 하지만 시계열의 시간적 국소성과 주기성이라는 구조적 특성을 아키텍처에 내재시킨 TimesFM이, 같은 파라미터 수에서 시계열 예측을 압도적으로 잘 수행한다. Vertica가 Oracle을 OLAP에서 이긴 것과 같은 메커니즘이다. 적절한 inductive bias가 적절한 워크로드에서 범용 시스템을 이긴다.
2010년대: 캄브리아기 대폭발 — Neo4j, InfluxDB, Elasticsearch, MongoDB, Cassandra
2010년대는 데이터베이스의 캄브리아기 대폭발이었다. 한 줄로 요약하면 이렇다 — 각 데이터 유형과 워크로드 패턴마다 최적의 엔진이 따로 존재한다는 것이 업계의 합의가 되었다.
- Neo4j (2007년 시작, 2010년대 부상) — 그래프 데이터베이스. 관계(relationship)가 핵심인 데이터에 특화. 소셜 네트워크, 추천 시스템, 사기 탐지. RDBMS에서 JOIN을 수십 단계 중첩하면 성능이 기하급수적으로 떨어지지만, 그래프 DB에서 관계 탐색은 상수 시간에 가깝다.
- InfluxDB (2013년) — 시계열 데이터베이스. 센서 데이터, 모니터링 메트릭, IoT 디바이스 데이터. 시간축을 따라 연속적으로 생성되는 데이터에 특화. 시간 범위 쿼리, 다운샘플링, 리텐션 정책이 기본 내장.
- Elasticsearch (2010년) — 검색 엔진. 전문 검색(full-text search)에 특화. 역인덱스(inverted index)라는 RDBMS와 완전히 다른 자료구조를 핵심에 둔다. RDBMS에서 LIKE ‘%keyword%‘로 텍스트를 검색하면 전체 테이블을 스캔해야 하지만, Elasticsearch는 역인덱스 덕분에 밀리초 안에 결과를 반환한다.
- MongoDB (2009년) — 도큐먼트 데이터베이스. 스키마가 유동적이고 반구조화된 데이터에 특화. JSON 문서를 그대로 저장하고 질의한다. RDBMS의 엄격한 스키마가 오히려 방해되는 워크로드에서 채택되었다.
- Cassandra (2008년) — 분산 와이드 컬럼 스토어. 대규모 쓰기 처리에 특화. 쓰기 성능이 읽기 성능보다 중요한 워크로드(로그 수집, 이벤트 스트리밍)에 적합하다.
- Pinecone (2021년, 2020년대의 추가 종분화) — 벡터 데이터베이스. 고차원 벡터의 유사도 검색에 특화. AI 시대에 임베딩 기반 검색이 폭증하면서 등장한 가장 최신의 종분화 사례다.
각각의 데이터베이스는 특정 데이터 유형과 워크로드 패턴에 대한 깊은 이해를 설계에 반영했다. 그리고 각각이 자신의 영역에서 범용 RDBMS를 압도적으로 이겼다. Oracle이 죽었는가? 아니다. Oracle은 여전히 거대한 회사이고, RDBMS는 여전히 기업의 핵심 시스템에서 돌아간다. 하지만 “모든 데이터 문제를 Oracle 하나로 푼다”는 시대는 끝났다. 2020년대의 기업은 OLTP에 PostgreSQL, OLAP에 BigQuery, 검색에 Elasticsearch, 캐시에 Redis, 벡터에 Pinecone을 사용한다. 각 워크로드에 최적의 도구를 선택한다. 이것을 polyglot persistence라고 부른다.
이제 이 유비를 FM 세계에 매핑해보자.
4. 종분화의 역학 — 왜 범용 LLM이 모든 도메인을 커버할 수 없는가
데이터베이스의 종분화를 이끈 힘은 세 가지였다. 데이터 유형의 다양화, 워크로드 패턴의 분화, 경제적 압력. Foundation model의 종분화를 이끄는 힘도 정확히 같은 세 가지다.
데이터 모트(data moat) — LLM이 보지 못한 세계
범용 LLM의 사전학습 코퍼스는 인터넷 텍스트다. Common Crawl, Wikipedia, 코드 저장소, 학술 논문, 소셜 미디어 — 이것들이 수조 토큰 규모로 합쳐져서 학습 데이터가 된다. 이 코퍼스의 특성을 한 문장으로 요약하면 이렇다 — 사람이 텍스트로 작성하여 인터넷에 올린 것.
Kronos가 다루는 금융 시장의 주문 흐름 데이터는 사람이 텍스트로 작성한 것이 아니다. 거래소의 매칭 엔진이 밀리초 단위로 생성하는 기계 데이터다. 이 데이터는 인터넷에 올라가지 않는다(유료이고, 라이선스 제약이 있고, 실시간 스트리밍이다). GPT-5가 아무리 커져도 이 데이터를 학습하지 못한다면, 이 데이터의 분포를 이해할 수 없다. 금융 시장에 대한 GPT의 지식은 사람이 금융에 대해 쓴 텍스트 — 뉴스 기사, 보고서, 교과서, 블로그 — 에서 온다. 이것은 시장 자체가 아니라 시장에 대한 사람의 해석이다. Kronos는 시장 자체의 데이터로 학습한다. 이 차이는 근본적이다.
TimesFM이 다루는 시계열 데이터도 마찬가지다. 센서가 초 단위로 측정하는 온도, 습도, 전력 소비량 — 이것들은 텍스트가 아니다. 인터넷에 올라가는 시계열 데이터는 전체 시계열 데이터의 극히 일부에 불과하다. 대부분의 시계열 데이터는 공장의 SCADA 시스템, 병원의 환자 모니터링 장비, 전력회사의 스마트 미터 안에 있다. LLM이 접근할 수 없는 데이터다.
VoxCPM이 다루는 음성 데이터는 텍스트와 가장 거리가 먼 도메인일 수 있다. 음성은 파형이다. 사람의 목소리에 담긴 감정, 악센트, 리듬, 호흡 — 이것들은 텍스트 전사(transcription)로 환원되지 않는다. LLM이 음성에 대해 아는 것은 음성을 텍스트로 변환한 뒤의 텍스트에 대한 것이다. 음성 자체가 아니다.
데이터베이스 역사에서 이것에 대응하는 것은 데이터 유형의 다양화다. 1980년대에는 거의 모든 기업 데이터가 정형 테이블(행과 열)로 환원 가능했다. 2010년대에는 JSON 문서, 그래프, 시계열, 전문 텍스트, 고차원 벡터 등 환원 불가능한 데이터 유형이 폭증했다. 각 데이터 유형에는 고유한 저장 방식과 접근 패턴이 있었고, 범용 RDBMS의 행-열 모델로는 이 다양성을 효율적으로 다룰 수 없었다.
FM 세계에서 데이터의 다양화는 이미 진행 중이다. 텍스트, 주문 흐름, 시계열, 음성, 단백질 서열, 기상 관측, 위성 이미지, 유전체 — 각각은 고유한 구조와 분포를 가진 데이터 도메인이고, 이 도메인들의 데이터는 인터넷 텍스트 코퍼스에 들어있지 않다. 범용 LLM이 이 모든 도메인을 “텍스트로 변환해서” 처리하는 것은 가능하지만, 변환 과정에서의 정보 손실이 불가피하고, 원본 데이터로 직접 학습한 도메인 FM에 비해 성능이 떨어진다.
Inductive bias — 구조적 사전 지식의 가치
범용 transformer의 강점은 최소한의 가정으로 거의 모든 시퀀스 데이터를 처리할 수 있다는 것이다. Attention mechanism은 시퀀스 내 어떤 위치의 원소든 서로 직접 상호작용할 수 있게 하며, 이 범용성이 transformer를 universal approximator로 만든다.
그러나 최소한의 가정은 양날의 검이다. 시계열 데이터에는 “가까운 시점이 먼 시점보다 중요하다”는 강한 구조가 있다. 범용 transformer는 이 구조를 데이터로부터 학습해야 한다. TimesFM은 이 구조를 아키텍처에 직접 내재시킨다. 결과적으로 TimesFM은 같은 파라미터 수에서 범용 transformer보다 시계열 예측을 더 잘 수행한다. 더 적은 데이터로 더 빠르게 학습하고, 더 적은 연산으로 더 정확한 예측을 내놓는다.
금융 데이터에는 regime structure가 있다. 시장은 평상시(normal)와 위기(crisis)라는 질적으로 다른 상태 사이를 전환하며, 각 상태에서의 데이터 분포가 완전히 다르다. 2008년 금융위기 때의 가격 변동 패턴과 평상시의 패턴은 같은 확률 분포에서 나온 것이 아니다. Kronos의 아키텍처는 이런 regime 전환을 명시적으로 모델링한다. 범용 LLM에는 이런 메커니즘이 없다.
음성 데이터에는 **위상 일관성(phase coherence)**이 있다. 음성 파형의 물리적 특성은 시간 영역뿐 아니라 주파수 영역에서도 의미를 가진다. 포먼트(formant) 구조, 기본 주파수(F0)의 변화, 하모닉 구조 — 이것들은 텍스트 토큰의 순서 관계와는 완전히 다른 종류의 구조다. VoxCPM이 tokenizer를 버린 것은 이 구조를 직접 다루기 위한 설계 선택이다.
데이터베이스 역사에서 이것에 대응하는 것은 자료구조의 분화다. B-tree는 범위 쿼리에 강하고, 해시 인덱스는 정확 매칭에 강하고, 역인덱스는 전문 검색에 강하고, R-tree는 공간 쿼리에 강하다. 각 자료구조는 특정 접근 패턴에 대한 사전 가정을 구현한 것이고, 그 가정이 맞는 워크로드에서 범용 자료구조(B-tree)를 압도한다. Elasticsearch가 전문 검색에서 Oracle을 이기는 것은 역인덱스라는 전문 자료구조의 힘이다. TimesFM이 시계열 예측에서 GPT를 이기는 것은 시계열 전용 inductive bias의 힘이다. 같은 메커니즘이다.
계산 경제학 — 1B가 1T를 이기는 지점
세 번째 힘은 경제학이다. 이것은 가장 즉물적이고 가장 설득력 있는 논거다.
범용 LLM은 크다. GPT-4 급 모델은 수천억 파라미터 이상이고, 추론에 수십 개의 고가 GPU가 필요하다. API 호출 비용은 입력 토큰당, 출력 토큰당 과금되며, 대량 처리 시 월 수백만 원에서 수천만 원의 비용이 발생한다.
도메인 특화 FM은 작다. TimesFM은 수억 파라미터 규모로, 단일 GPU에서 실행 가능하다. Kronos도 마찬가지다. VoxCPM은 더 작을 수 있다. 이 모델들은 자체 도메인에서 범용 LLM보다 더 정확한 결과를 내놓으면서, 연산 비용은 수십 분의 일에 불과하다.
구체적으로 계산해보자. 기업이 매일 100만 건의 시계열 예측을 수행해야 한다고 가정하자. 방법 1: GPT-5 API에 시계열 데이터를 텍스트로 변환해서 보내고, 예측 결과를 텍스트로 받는다. 각 요청에 평균 500 토큰의 입력과 100 토큰의 출력이 필요하다면, 입력 500M 토큰 + 출력 100M 토큰의 일일 비용이 발생한다. 토큰 단가에 따라 다르지만, 월 수백만 원에서 수천만 원이 든다. 방법 2: TimesFM을 자체 서버에 배포하고 직접 추론한다. A100 GPU 1장 내지 2장이면 충분하고, 월 클라우드 비용은 수십만 원 수준이다.
비용 차이가 10배에서 100배다. 그리고 방법 2의 정확도가 방법 1보다 높다. 더 싸고 더 정확하다면, 선택은 자명하다.
이것은 데이터베이스 세계에서 NoSQL이 RDBMS를 대체한 동학과 정확히 같다. 2010년대 초, MongoDB와 Cassandra가 부상한 핵심 이유는 성능이 아니라 비용이었다. 대규모 쓰기 워크로드를 Oracle에서 처리하려면 RAC(Real Application Clusters) 라이선스에 수억 원을 내야 했다. Cassandra는 오픈소스이고, commodity 하드웨어에서 수평 확장이 가능했다. 같은 워크로드를 10분의 1 비용으로 처리할 수 있다면, Oracle의 기술적 우수성은 경제적 합리성 앞에서 힘을 잃는다.
FM 세계도 같은 힘이 작동하고 있다. 범용 LLM의 API 비용이 도메인 특화 FM의 자체 운영 비용보다 압도적으로 높다면, 그리고 도메인 특화 FM의 성능이 범용 LLM 이상이라면, 기업은 도메인 특화 FM을 선택한다. 이것은 의지의 문제가 아니라 산술의 문제다.
5. Tokenizer-free의 의미 — LLM 아키텍처 가정 탈피의 상징
세 모델 중 VoxCPM의 “tokenizer-free” 선택은 별도로 깊이 논의할 가치가 있다. 이 선택은 단순한 기술적 결정이 아니라, FM 종분화의 가장 명확한 물리적 증거이기 때문이다.
토크나이저는 LLM 아키텍처의 첫 번째 레이어다. 모든 입력은 토크나이저를 통과해야 모델에 들어갈 수 있다. 토크나이저는 연속적인 텍스트를 이산적 토큰의 시퀀스로 변환하며, 모델의 어휘(vocabulary)를 정의한다. GPT 시리즈의 tiktoken, LLaMA의 SentencePiece, Claude의 자체 토크나이저 — 구현은 다르지만 원리는 같다. 텍스트를 쪼갠다.
이 “쪼개기”는 텍스트에 대해서는 자연스럽다. 텍스트는 본질적으로 이산적이다. 알파벳, 음절, 단어라는 자연스러운 분할 단위가 존재한다. BPE 같은 알고리즘은 이 자연적 분할을 통계적으로 최적화한 것이다.
그러나 음성, 이미지, 시계열 같은 연속적(continuous) 데이터에는 이런 자연적 분할 단위가 없다. 음성 파형을 20ms 프레임으로 쪼개는 것은 관례일 뿐, 물리적 필연성이 아니다. 이미지를 16x16 패치로 쪼개는 것(ViT)도 마찬가지다. 이런 인위적 분할은 편의를 위한 것이지, 데이터의 본질을 반영한 것이 아니다.
VoxCPM이 토크나이저를 버렸다는 것은, “LLM의 데이터 처리 파이프라인을 음성 도메인에 강제로 적용하는 것이 부적절하다”는 선언이다. 음성은 텍스트가 아니고, 텍스트를 위해 설계된 전처리 파이프라인은 음성에 맞지 않는다. 이것은 단순한 기술적 판단이 아니라, 도메인의 고유성을 인정하는 것이다.
생물학적 종분화에서, 두 집단이 같은 종인지 다른 종인지를 판단하는 핵심 기준은 교배 가능성(reproductive compatibility)이다. 토크나이저가 있는 모델과 토크나이저가 없는 모델은 데이터 파이프라인 수준에서 호환되지 않는다. 같은 입력을 받을 수 없고, 같은 출력 형식을 생성하지 않으며, 같은 평가 프레임워크로 비교할 수 없다. 이 비호환성은 두 모델이 서로 다른 “종”임을 의미한다.
이 관점에서 VoxCPM의 tokenizer-free 설계는, Kronos의 금융 특화나 TimesFM의 시계열 특화보다 더 급진적인 종분화 사례다. Kronos와 TimesFM은 여전히 transformer 아키텍처의 변형을 사용하고, 어떤 형태의 토큰화(discretization)를 수행한다. 입력 데이터를 이산적 단위로 변환하는 첫 단계가 존재한다는 점에서 LLM과 아직 공통 조상의 흔적을 공유한다. VoxCPM은 그 마지막 공통점마저 버렸다. 이것이 VoxCPM을 세 모델 중 가장 극단적인 종분화 사례로 만든다.
데이터베이스 역사에서 이것에 대응하는 것은 Neo4j의 등장이다. 컬럼 스토어(Vertica)나 도큐먼트 스토어(MongoDB)는 여전히 테이블이라는 개념을 변형된 형태로 유지했다. Neo4j는 테이블이라는 개념 자체를 버리고, 노드와 엣지라는 완전히 다른 추상화를 도입했다. SQL이 아니라 Cypher라는 새로운 질의 언어를 만들었다. RDBMS와의 호환성을 포기하는 대신, 그래프 데이터에 대해 RDBMS가 도달할 수 없는 성능과 표현력을 얻었다. VoxCPM이 토크나이저를 버린 것은 Neo4j가 테이블을 버린 것과 같은 종류의 결정이다.
6. 서방과 중국이 같은 방향을 향한다 — 동시성의 의미
세 모델의 출처를 보면 흥미로운 지리적 분포가 나타난다. TimesFM은 Google Research(미국), Kronos는 중국 대학 연구팀, VoxCPM은 OpenBMB/Tsinghua University(중국)이다. 서로 다른 대륙의 서로 다른 조직이, 같은 주에, 같은 방향(도메인 특화 FM)을 향해 움직이고 있다.
이 동시성에 두 가지 가능한 해석이 있다. 낙관적 해석은 “우연의 일치”다. 각자 자기 도메인의 문제를 풀다 보니 비슷한 시기에 결과가 나온 것일 뿐, 구조적 추세라고 볼 근거는 없다. 비관적 해석은 — 이 에세이가 주장하는 바이지만 — “같은 구조적 압력에 대한 독립적 응답”이다. 데이터 모트, inductive bias의 우위, 경제적 합리성이라는 세 가지 힘이 전 세계적으로 동시에 작용하고 있기 때문에, 서로 연락하지 않은 연구 그룹들이 같은 결론에 도달한 것이다.
후자가 더 설득력 있다고 보는 이유는, 이런 패턴이 기술 역사에서 반복적으로 관찰되기 때문이다. 전화기를 Alexander Graham Bell과 Elisha Gray가 같은 날 특허를 출원한 것, 미적분학을 Newton과 Leibniz가 독립적으로 발견한 것 — “시대가 무르익으면 같은 발견이 동시에 나온다”는 것은 과학사의 상수다. FM의 도메인 특화도 마찬가지다. 시대가 무르익었다.
“오픈모델 전쟁 2026”에서 분석한 것처럼, Google, AMD, Alibaba가 같은 주에 오픈 모델을 동시에 릴리스한 것은 “전쟁”의 신호였다. 이번에 Google Research, 중국 대학, OpenBMB가 같은 주에 도메인 FM을 동시에 트렌딩에 올린 것은 “종분화”의 신호다. 두 신호는 같은 생태계의 서로 다른 단층선에서 나오고 있다.
여기에 보조 데이터로 NVIDIA/personaplex를 추가할 수 있다. 같은 주에 8,745 스타, 주간 +2,745를 기록한 이 프로젝트는 AI 페르소나/개인화에 특화된 모델이다. NVIDIA라는 거대 기업이 범용 AI가 아니라 “개인화”라는 특정 vertical에 집중하는 프로젝트를 내놓은 것도, 같은 종분화 추세의 또 다른 표현이다.
동시성의 지리적 분포도 의미심장하다. 미중 기술 경쟁이 격화되는 환경에서, 양측이 동시에 같은 방향(도메인 FM)을 향하고 있다. 이것은 미중 어느 한쪽의 특수한 전략이 아니라, 기술적 필연성에 가까운 추세라는 것을 시사한다. 미국이 범용 LLM만 밀고 중국이 도메인 FM만 밀었다면, 이것은 전략적 차이로 해석할 수 있다. 양측이 동시에 같은 방향을 향하고 있다면, 이것은 기술 발전의 내재적 방향성이다.
7. 경제학: 1B 전문 모델이 1T 범용 모델을 이기는 지점
종분화의 경제학을 더 구체적으로 파고들 필요가 있다. “도메인 FM이 더 싸다”는 직관적 주장을 넘어, 정확히 어떤 조건에서 전문 모델이 범용 모델을 경제적으로 이기는지를 분석해야 한다.
모델 크기와 성능의 비선형 관계
범용 LLM의 스케일링 법칙은 대략 이렇다. 모델 크기를 10배 늘리면 성능이 일정 비율 향상된다. 이것은 모든 도메인에 걸친 “평균적” 성능 향상이다. 하지만 특정 도메인에서의 성능 향상은 이 평균과 다를 수 있다. 인터넷 텍스트에 잘 표현된 도메인(일반 지식, 코딩, 문서 작성)에서는 스케일링의 이득이 크다. 인터넷 텍스트에 잘 표현되지 않은 도메인(금융 마이크로스트럭처, 센서 시계열, 음성 합성)에서는 스케일링의 이득이 작다.
이것은 수확 체감(diminishing returns)이 도메인마다 다른 속도로 일어난다는 뜻이다. 범용 LLM이 1조 파라미터까지 커져도 금융 주문 흐름 예측에서의 성능 향상이 미미하다면, 100억 파라미터의 Kronos가 그 도메인에서 더 나은 성능을 보이는 것은 전혀 놀랍지 않다.
추론 비용의 구조적 차이
추론 비용은 파라미터 수에 대략 비례한다. 1T 파라미터 모델의 추론 비용은 1B 파라미터 모델의 약 1,000배다. GPU 메모리 요구량, 연산량, 전력 소비 — 모두 파라미터 수에 비례해서 증가한다.
구체적 비교를 해보자.
범용 LLM 경로: GPT-5 급 모델의 API 비용을 가정한다. 입력 토큰 $10/1M 토큰, 출력 토큰 $30/1M 토큰이라고 하자(2026년 기준 추정). 시계열 예측을 위해 데이터를 텍스트로 인코딩하면, 하루 100만 건의 예측에 대해 입력 5억 토큰, 출력 1억 토큰이 필요하다고 가정한다. 일일 비용 = $5,000(입력) + $3,000(출력) = $8,000. 월 비용 약 $240,000(약 3억 2천만 원).
도메인 FM 경로: TimesFM을 자체 서버에 배포한다. A100 GPU 2장이면 충분하다고 가정한다. 클라우드 기준 A100 한 장의 월 비용은 약 $3,000. 두 장이면 월 $6,000(약 800만 원). 여기에 엔지니어링 비용을 더해도 월 $10,000(약 1,300만 원)을 넘기지 않는다.
비용 차이: 약 24배. 그리고 도메인 FM의 예측 정확도가 범용 LLM보다 높다.
이것이 “1B가 1T를 이기는 지점”이다. 도메인 특화 FM이 범용 LLM보다 성능이 같거나 높으면서 비용이 수십 배 낮은 영역. 이 영역은 현재 금융, 시계열, 음성에서 이미 존재하며, 앞으로 더 많은 도메인으로 확장될 것이다.
도메인 FM의 TCO 분석
물론 도메인 FM에는 범용 LLM API에 없는 비용이 있다. 모델 배포와 운영의 엔지니어링 부담, 모델 업데이트와 파인튜닝의 지속적 비용, 장애 대응과 모니터링 인프라 구축 비용이다. 범용 LLM API는 이 모든 것을 제공자가 부담한다.
하지만 이 추가 비용을 감안해도, 대량 처리 워크로드에서는 도메인 FM의 총소유비용(TCO)이 범용 LLM API보다 낮다. 데이터베이스 세계에서 Oracle에서 PostgreSQL+ElasticSearch 조합으로의 전환이 일어난 것과 같은 동학이다. Oracle은 “하나의 라이선스로 모든 것”이라는 편리함을 제공했지만, 워크로드가 일정 규모를 넘어서면 전문 DB 조합의 TCO가 Oracle 단독보다 낮아졌다. 그 티핑 포인트를 넘긴 기업들이 하나둘 Oracle을 떠나기 시작했고, 이것이 2010년대의 “NoSQL movement”로 이어졌다.
FM 세계에서도 같은 티핑 포인트가 다가오고 있다. 일정 규모 이상의 도메인 특화 워크로드를 가진 기업이, 범용 LLM API에서 도메인 FM 자체 운영으로 전환하기 시작할 것이다. Kronos, TimesFM, VoxCPM의 GitHub 스타 수는 이 전환의 선행 지표다.
8. Polyglot FM — “Foundation Model”이 “Verticalized FM”을 의미하게 되는 시점
데이터베이스 세계에서 “polyglot persistence”가 정착하는 데 약 10년이 걸렸다. 2005년경에 첫 번째 전문 DB들이 등장하기 시작했고, 2015년경에 “워크로드마다 최적의 DB를 선택한다”는 것이 업계 상식이 되었다. 그 10년 동안 Oracle은 죽지 않았다. 여전히 가장 큰 DB 회사였다. 하지만 Oracle의 지위는 “유일한 선택”에서 “여러 선택 중 하나”로 변했다.
FM 세계에서도 같은 궤적을 예측할 수 있다. GPT-5, Claude, Gemini 같은 범용 LLM은 죽지 않는다. 텍스트 기반 범용 작업에서 여전히 최고의 선택이 될 것이다. 하지만 “모든 AI 문제를 GPT로 푼다”는 시대는 끝나가고 있다. 2-3년 안에, “foundation model”이라는 단어는 기본적으로 verticalized FM을 의미하고, 범용 LLM은 그 중 하나의 vertical(텍스트/일반 지식)을 담당하는 FM이라는 인식이 자리잡을 것이다.
이것을 “Polyglot FM” 시대라고 부를 수 있다. 기업의 AI 스택이 다음과 같은 모양이 되는 시대.
- 텍스트 생성/일반 추론: Claude, GPT, Gemini (범용 LLM)
- 시계열 예측: TimesFM 또는 후속 도메인 FM
- 금융 분석: Kronos 또는 후속 금융 FM
- 음성 합성/처리: VoxCPM 또는 후속 음성 FM
- 이미지/비전: 도메인 특화 비전 FM
- 코드 생성: 코드 특화 FM (이미 Codex에서 시작된 흐름)
- 검색/임베딩: 검색 특화 임베딩 모델
각 도메인에 최적의 FM을 선택하고, 오케스트레이션 레이어가 이들을 조합하는 구조다.
이 구조에서 가치가 이동하는 방향은 명확하다. 개별 FM의 가치는 commodity화되고, 오케스트레이션 레이어 — 어떤 FM을 어떤 태스크에 어떻게 라우팅하는가 — 의 가치가 부상한다. 데이터베이스 세계에서 개별 DB의 가치가 commodity화되고, 데이터 파이프라인과 ETL 도구(Airflow, dbt, Fivetran)의 가치가 부상한 것과 같은 동학이다.
“오픈모델 전쟁 2026”에서 분석한 “시나리오 2: 분산 — 아무도 이기지 못한다”와 이 전망은 직접 연결된다. 그 에세이에서 “오픈모델이 commodity화되면서 어느 한 회사도 모델 레이어를 지배하지 못한다”는 시나리오를 가장 가능성 높은 것으로 평가했다. Polyglot FM은 그 시나리오의 확장판이다. 범용 모델 사이의 commodity화뿐 아니라, 도메인 FM까지 포함한 전체 FM 생태계의 다변화가 일어나는 것이다.
오케스트레이션의 부상
Polyglot FM 시대의 핵심 기술 계층은 FM 오케스트레이션이다. 사용자의 요청을 분석하고, 적절한 도메인 FM으로 라우팅하고, 여러 FM의 결과를 조합하여 최종 응답을 생성하는 계층이다.
흥미로운 것은, 이 오케스트레이션 계층 자체가 범용 LLM의 역할이 될 가능성이 있다는 점이다. 범용 LLM은 자연어 이해에 강하다. 사용자의 의도를 파악하고, 적절한 전문 모델로 요청을 분배하는 것은 자연어 이해의 문제다. “내일 서울의 최고 온도가 몇 도일까?”라는 질문이 들어오면, 범용 LLM이 이것을 시계열 예측 문제로 분류하고 TimesFM에 위임하는 식이다.
이렇게 되면 범용 LLM의 역할은 “모든 것을 직접 답하는 모델”에서 “적절한 전문가를 찾아주는 라우터”로 변한다. Oracle이 “모든 데이터를 직접 관리하는 시스템”에서 점차 “다른 전문 시스템과 연결되는 허브”로 진화한 것과 비슷한 궤적이다. Oracle Data Integrator, Oracle GoldenGate — Oracle이 다른 DB와의 연결성을 핵심 제품으로 내놓기 시작한 것은 자사의 범용 DB가 모든 워크로드를 직접 처리하지 않는다는 현실을 인정한 것이었다.
9. 종분화는 실패가 아니다 — 기술 성숙의 표지
여기서 중요한 구분 하나가 필요하다. FM의 종분화는 범용 LLM의 실패가 아니다. 이것은 기술 성숙(maturation)의 표지다.
생물학에서 종분화는 환경에 대한 적응(adaptation)의 결과다. 공통 조상이 실패해서 종분화가 일어나는 것이 아니라, 서로 다른 환경에서 각각 더 잘 적응한 변이가 선택되면서 종분화가 일어난다. 다윈의 핀치새는 갈라파고스 제도의 각 섬에서 서로 다른 먹이에 적응하면서 부리의 모양이 달라졌다. 원래의 핀치새가 “실패”한 것이 아니다. 환경의 다양성에 맞춰 최적화가 일어난 것이다.
데이터베이스의 종분화도 마찬가지다. NoSQL의 부상은 RDBMS의 실패가 아니었다. 데이터의 종류가 다양해지고, 워크로드의 규모가 커지고, 경제적 압력이 증가하면서, 범용 시스템보다 전문 시스템이 유리한 영역이 생겨난 것이다. 이것은 기술 생태계의 건강한 분화(healthy differentiation)다.
FM의 종분화도 같은 맥락에서 이해해야 한다. GPT-5가 시계열 예측을 못해서 TimesFM이 등장한 것이 아니다. 시계열 예측이라는 워크로드가 충분히 중요하고, 충분히 고유한 특성을 가지고 있어서, 전용 FM이 범용 LLM보다 더 나은 해법을 제공할 수 있게 된 것이다. 이것은 FM이라는 기술 패러다임이 성숙했다는 증거다. 초기에는 하나의 모양으로 시작하지만, 성숙하면서 환경에 맞게 분화한다.
이 점에서 “GPT의 대안은 GPT가 아닐지도 모른다”라는 이 에세이의 부제가 의미를 가진다. GPT의 대안은 “더 나은 GPT”(더 큰 범용 LLM)일 수도 있지만, 점점 더 많은 도메인에서 GPT의 대안은 “GPT가 아닌 것”(도메인 특화 FM)이 되고 있다. 금융에서는 Kronos가, 시계열에서는 TimesFM이, 음성에서는 VoxCPM이 GPT의 대안이다. 이 대안들은 GPT보다 작고, GPT보다 좁고, GPT보다 싸다. 하지만 각자의 도메인에서 GPT보다 낫다.
10. 실무자에게 주는 시사점 — 선택지 다각화
이 분석이 실무자에게 주는 시사점은 무엇인가.
시사점 1: “모든 것을 GPT/Claude로” 전략의 재검토
현재 많은 기업이 AI 도입을 “범용 LLM API 도입”과 동일시하고 있다. 모든 AI 워크로드를 GPT-5나 Claude API로 처리하는 전략이다. 이 전략은 단순하고 빠르게 시작할 수 있다는 장점이 있다. 하지만 워크로드가 특정 도메인에 집중되어 있다면 — 예를 들어 시계열 예측이 핵심 워크로드인 제조업체, 금융 데이터 분석이 핵심인 투자 회사, 음성 처리가 핵심인 컨택센터 — 범용 LLM API가 최적의 선택이 아닐 수 있다.
도메인 특화 FM이 존재하는지, 그것이 범용 LLM보다 나은 성능을 보이는지, 총소유비용이 더 낮은지를 검토하는 것이 첫 번째 단계다. 이 검토 없이 관성적으로 범용 LLM API를 선택하는 것은, 2015년에 “모든 데이터를 Oracle에 넣자”고 결정하는 것과 같은 종류의 실수일 수 있다.
시사점 2: Polyglot FM 역량 확보
Polyglot persistence가 DBA에게 “여러 데이터베이스를 다룰 줄 알아야 한다”는 요구를 만들었듯, Polyglot FM은 AI 엔지니어에게 “여러 FM을 다룰 줄 알아야 한다”는 요구를 만들 것이다. 범용 LLM의 프롬프트 엔지니어링만 알아서는 부족해진다. TimesFM의 입력 형식, Kronos의 데이터 파이프라인, VoxCPM의 음성 처리 API — 각각에 대한 이해가 필요하다.
이것은 위협이 아니라 기회이기도 하다. 범용 LLM은 모두가 접근할 수 있고, 모두가 같은 API를 사용한다. 차별화가 어렵다. 도메인 특화 FM은 도메인 전문성이 필요하고, 모델 운영 역량이 필요하다. 이 역량을 확보한 기업은 범용 LLM API만 사용하는 경쟁자에 대해 구조적 우위를 가진다.
시사점 3: 오케스트레이션 레이어에 대한 투자
여러 FM을 조합하는 오케스트레이션 레이어는 앞으로 AI 스택의 핵심 계층이 될 것이다. LangChain, LlamaIndex 같은 도구가 이미 이 방향을 향하고 있지만, 아직은 범용 LLM 중심의 설계다. 도메인 FM을 포함한 진정한 polyglot 오케스트레이션은 아직 초기 단계에 있다. 이 영역에 일찍 투자하는 것이 장기적으로 유리하다.
시사점 4: 데이터 전략의 재정의
범용 LLM을 사용하는 기업의 데이터 전략은 “프롬프트를 잘 만들고, RAG를 잘 구성하는 것”이 핵심이다. 도메인 FM을 사용하는 기업의 데이터 전략은 다르다. 자사 도메인의 고유 데이터를 수집하고, 정제하고, 도메인 FM의 파인튜닝이나 추가 학습에 활용하는 것이 핵심이 된다. 데이터가 범용 LLM과의 차별화 원천이 된다.
이것은 “오픈모델 전쟁 2026”에서 “모델은 미끼이고, 진짜 가치는 생태계에 있다”고 분석한 것의 연장선이다. Polyglot FM 시대에는 “모델은 commodity이고, 진짜 가치는 도메인 데이터와 오케스트레이션 역량에 있다”로 확장된다.
11. 전망 — 종분화의 다음 단계
2026년 4월의 Kronos, TimesFM, VoxCPM은 FM 종분화의 첫 번째 가시적 물결이다. 다음에 올 것은 무엇인가.
단기 (2026-2027): 더 많은 도메인 FM의 등장
현재 도메인 FM이 등장한 영역은 금융, 시계열, 음성이다. 하지만 “인터넷 텍스트에 잘 표현되지 않는 데이터 도메인”은 이것 외에도 무수히 많다. 의료 영상, 위성/리모트 센싱 이미지, 유전체(genomics), 분자 구조, 기상 관측, 산업 IoT 센서, 로봇 제어 신호 — 각각의 도메인에서 foundation model을 자처하는 모델이 등장할 것이다.
이 물결의 가속 요인은 오픈소스다. Kronos, TimesFM, VoxCPM이 모두 GitHub에서 오픈소스로 공개된 것은 우연이 아니다. 오픈소스는 “이 접근이 유효하다”는 증거를 커뮤니티에 제공하고, 후속 연구자들이 같은 방법론을 다른 도메인에 적용하도록 촉진한다. 한 도메인의 성공이 다른 도메인의 시도를 낳고, 그 시도가 또 다른 도메인으로 확산되는 자기 강화 루프가 형성될 것이다.
중기 (2027-2028): 도메인 FM 생태계의 성숙
더 많은 도메인 FM이 등장하면, 그것들을 관리하고 조합하는 인프라의 수요도 폭증한다. FM 레지스트리(어떤 도메인 FM이 어디에 배포되어 있는가), FM 라우터(들어온 요청을 어느 FM에 보낼 것인가), FM 모니터링(각 FM의 성능이 기대 수준을 유지하고 있는가) — 이런 인프라 계층이 하나의 시장을 형성할 것이다.
데이터베이스 세계에서 polyglot persistence가 정착하면서 dbt, Airbyte, Fivetran 같은 데이터 파이프라인 도구가 부상한 것과 같은 궤적이다. FM의 polyglot 시대는 FM 파이프라인 도구의 시대를 열 것이다.
장기 (2028-2029): “Foundation Model”의 의미 변천 완성
이 시점에서 “foundation model”이라는 단어는 기본적으로 “특정 도메인의 기초 모델”을 의미하게 될 것이다. 누군가 “foundation model”이라고 하면, 첫 번째 질문은 “어떤 도메인의?”가 된다. “범용 FM”은 “범용”이라는 수식어를 명시적으로 붙여야 하는 특수 사례가 된다. 마치 “데이터베이스”라고 하면 “어떤 종류의?”라고 묻는 것이 자연스럽고, “범용 RDBMS”는 명시적으로 지정해야 하는 것처럼.
이것은 2021년 Stanford CRFM의 원래 정의 — “다양한 하위 작업에 적응 가능한 사전학습 모델” — 로의 회귀이지만, 그 의미의 무게 중심은 달라져 있다. 2021년에 이 정의는 GPT-3 같은 모델을 설명하기 위한 것이었다. 2028년에 이 정의는 TimesFM, Kronos, VoxCPM 같은 모델을 설명하기 위한 것이 될 것이다. 같은 단어, 다른 지시 대상. 언어는 변하지 않았지만 세계가 변한 것이다.
12. 결론
2026년 4월 10일의 GitHub Trending은 하나의 질문을 던지고 있다. “Foundation model은 하나의 거대한 범용 모델이어야 하는가, 아니면 도메인마다 각각의 기초 모델이 있어야 하는가?”
이 에세이의 답은 후자다. 그리고 그 답의 근거는 30년 전에 데이터베이스가 이미 제공했다. 1980년대의 Oracle이 “모든 데이터를 하나의 RDBMS로”라는 비전을 가지고 있었지만, 데이터의 종류가 다양해지고 워크로드가 분화하면서 그래프 DB, 시계열 DB, 검색 엔진, 도큐먼트 DB, 벡터 DB가 각각 자기 영역에서 범용 RDBMS를 이겼다. Oracle은 죽지 않았지만, Oracle만의 세계는 끝났다.
같은 일이 FM에 일어나고 있다. Kronos는 금융 시장의 언어를 직접 읽는다 — GPT가 금융에 대해 쓴 텍스트를 읽는 것과는 다른 차원의 이해다. TimesFM은 시계열의 구조적 특성을 아키텍처에 내재시킨다 — 범용 transformer가 데이터로부터 그 구조를 학습하기를 기다리는 것보다 효율적이다. VoxCPM은 토크나이저를 버렸다 — 음성이라는 도메인의 본질이 텍스트와 근본적으로 다르다는 것을 인정한 것이다.
이 세 모델이 같은 주에 동시에 트렌딩에 올랐다는 것은 우연이 아니다. 같은 구조적 힘 — 데이터 모트, inductive bias의 우위, 계산 경제학 — 이 서로 다른 대륙의 서로 다른 연구 그룹을 같은 방향으로 이끈 것이다. 이것은 개별 사건이 아니라 추세다. FM의 종분화가 시작되었다.
GPT-5의 대안이 GPT-6일 것이라는 가정은 너무 좁다. 금융 분석에서 GPT-5의 대안은 Kronos일 수 있고, 시계열 예측에서 GPT-5의 대안은 TimesFM일 수 있고, 음성 합성에서 GPT-5의 대안은 VoxCPM일 수 있다. GPT의 대안은 GPT가 아닐지도 모른다.
실무자에게 주는 메시지는 하나다. 선택지를 다각화하라. “우리 회사의 AI = GPT API”라는 등식을 재검토하라. 당신의 핵심 워크로드가 무엇인지 식별하고, 그 워크로드에 최적화된 도메인 FM이 존재하는지 확인하라. 존재한다면, 범용 LLM과의 비용-성능 비교를 해보라. 존재하지 않는다면, 2년 안에 등장할 가능성을 열어두고 아키텍처를 설계하라.
데이터베이스의 역사가 가르쳐주는 것은, 범용 시스템에서 전문 시스템으로의 전환은 하루아침에 일어나지 않는다는 것이다. 10년이 걸렸다. 하지만 그 전환이 시작되는 시점을 인지한 기업과 인지하지 못한 기업의 차이는, 10년 뒤에 매우 크다. 2026년 4월 10일의 GitHub Trending은 그 시작을 알리는 신호 중 하나다.
출처:
- shiyu-coder/Kronos — A Foundation Model for the Language of Financial Markets
- google-research/timesfm — Pretrained time-series foundation model for forecasting
- OpenBMB/VoxCPM — Tokenizer-Free TTS for multilingual speech generation with voice cloning
- NVIDIA/personaplex — AI persona/personalization
- Bommasani et al. (2021). “On the Opportunities and Risks of Foundation Models.” Stanford CRFM
- 오픈모델 전쟁 2026 — Google, AMD, Alibaba가 무료로 푸는 이유