코드 너머의 직업들

GPU 위에서 일하는 사람들
저자: 김상기 · 2026 · 코드 너머의 시리즈 II · v1.1.1

코드 너머의 직업들

GPU 위에서 일하는 사람들

저자: 김상기 시리즈: 코드 너머의 전작: 코드 너머의 시대 (한빛미디어) 버전: 1.1.1 발행일: 2026-05-17


목차

PART 1. 인프라가 먼저 가고, 사람이 따라온다 - 1장. 반도체는 늘 먼저 갔다 — PC·인터넷·모바일의 같은 순서 - 2장. 시차는 점점 짧아진다 — 그리고 AI는 더 빠르다 - 3장. 우리는 지금 어디쯤 와 있나 — Nvidia 신고가, SaaS 회귀, 채용 시장의 신호

PART 2. AI 위에서 일이 돌아가는 방식 - 4장. GPU와 데이터센터가 가능하게 한 것들 — 길이·속도·비용 - 5장. 에이전트가 일을 한다는 것 — 도구가 아니라 동료에 가까운 - 6장. 새로운 비즈니스 모델 — 시트당 과금에서 결과물 과금까지

PART 3. 새 직업의 해부 - PART 3 도입 — 공통 능력과 한국 도착 단계 - 7장. AI Product Manager — 모델을 제품으로 만드는 사람 - 8장. Forward Deployed Engineer — 고객 현장에서 모델을 다듬는 사람 - 9장. Applied AI Engineer — 백엔드·풀스택 개발자의 자연스러운 다음 자리 - 10장. Agent 운영자 / AgentOps — 이 책의 시그니처 직군 - 11장. Eval Engineer · AI Reliability — 품질을 측정하고 책임지는 사람

막간. 정직한 한 페이지: 우리가 틀릴 수 있는 9가지

PART 4. 어디서 어디로 — 현직자의 전환 지도 - 12장. 한국 시장에서 이 흐름은 어떻게 다른가 — 대기업·스타트업·SI의 자리 - 13장. 어디서 어디로 — 현직별 전환 경로와 사례 - 14장. 다음 5년을 준비하는 90일 플랜 — 자가진단부터 행동까지


책을 펴내며

이 책은 어느 날 SNS에 올린 짧은 글 한 편에서 시작되었습니다.

2025년 봄, 반도체는 먼저 갔고, 소프트웨어는 따라올까요라는 제목으로 글 한 편을 썼습니다. PC와 인터넷과 모바일이 세 번 반복한 시대 전환 패턴 위에 AI 사이클이 올라가 있다는 관찰. 그리고 끝의 풍경이 아니라 다음을 기다리는 풍경에 더 가깝다는 짧은 한 줄.

그 글이 예상보다 멀리 퍼졌습니다. 한국과 미국의 개발자·PM 친구들이 글을 공유하면서 답글을 달았습니다. 답글의 대부분이 한 가지 질문으로 모였습니다. 그렇다면 다음 단계의 주인공이 될 회사는 어디이고, 그 회사에서 일하는 사람들은 누구인가.

질문이 명확해지자 답도 분명해졌습니다. 다음 단계의 주인공은 새로 등장한 회사들이 될 것이고, 그 안에서 일하는 사람들은 우리가 알던 직업과는 다른 모양을 하고 있을 것이라는 답. 그리고 그 직업들의 이름이, 지금 미국 빅테크의 채용 공고에 폭증하고 있다는 사실.

이 책은 그 답을 풀어 본 결과입니다.

이 책을 누가 읽으면 좋은가

1순위 독자는 현직 개발자와 PM입니다. 5년에서 15년 차의 백엔드 개발자, PM, SI 컨설턴트, SRE, QA, 데이터 엔지니어 — 자기 자리에서 일을 잘 해 왔지만, AI 시대에 어디로 옮겨갈 수 있는지가 막연한 분들. 이 책의 3부 직업 도감과 4부 전환 지도가 그 막연함에 한 가지 좌표를 제공합니다.

2순위는 시대를 읽고 싶은 일반 직장인과 기획자입니다. 직접 개발자가 아니더라도, 2025~2030년의 산업 풍경이 어떻게 변할지를 읽고 싶은 분들. 이 책의 1부 시대론과 2부 작동 원리가 그 풍경의 좌표가 됩니다.

전작 코드 너머의 시대를 읽으셨다면, 이 책은 자연스러운 짝입니다. 전작이 어떤 사람으로 살아남을까에 대한 책이었다면, 이 책은 어떤 자리에서 살아남을까를 다룹니다. 두 책이 한 시리즈를 이룹니다.

어떻게 읽으면 좋은가

처음부터 끝까지 순서대로 읽는 것을 추천합니다. 1부 시대론이 책 전체의 토대를 깔고, 2부 작동 원리가 본론을 받치며, 3부 직업 도감과 4부 전환 지도가 무게중심을 이룹니다.

시간이 부족한 분들에게는 선택 독서 가이드를 제안합니다.

본론 5개 직업 챕터(7~11장)는 같은 다섯 칸 포맷을 따릅니다. 하루의 풍경 / 무엇이 다른가 / 어떤 사람이 잘 맞나 / 한국 채용 신호 / 90일 행동. 책장을 옆으로 넘기면서 같은 칸끼리 비교하시면 좋습니다.

감사의 말

이 책의 본문은 SNS 글 한 편에서 시작되었지만, 그 사이의 모든 자료는 세 갈래의 리서치가 받쳐 주었습니다. 학술 논문 24편 이상, 채용 데이터 분석 80여 건, 실무자 인터뷰와 커뮤니티 발화 100건 이상. 본문 곳곳에 그 자료들이 인용되어 있습니다. 참고문헌에 출처를 정리해 두었습니다.

특히 한국 시장 분석에 영주.dev, DEVOCEAN, 카카오스타일 PM 이미준, 한빛미디어 편집팀이 도움을 주셨습니다. 한국 SI 산업의 진화 로드맵은 영주.dev의 분석에 빚지고 있습니다.

이 책의 모든 오류는 저자의 몫입니다.

— 김상기, 2026년 5월

프롤로그. 풍경이 닮아 있다 — 2010년의 모바일, 2025년의 AI

“아이팟, 전화기, 인터넷 통신기. 이건 세 개의 기기가 아닙니다. 하나의 기기입니다.” — 스티브 잡스, 2007년 1월 9일 Macworld 키노트

2010년에 비슷한 풍경이 있었습니다.

Qualcomm과 ARM이 시장을 끌고 있었습니다. 반도체 회사들의 주가는 매주 새 기록을 썼습니다. 그 위에서 돌아갈 만한 소프트웨어 회사들은 잘 보이지 않았습니다. 당시 많은 사람들은 모바일이 결국 기존 인터넷의 보조 수단에 머무를 것이라고 생각했습니다. 작은 화면. 느린 속도. 답답한 입력. 모바일은 데스크톱의 부속품처럼 보였습니다.

새 인프라가 깔리고 있다는 것은 모두 알고 있었습니다. 다만 그 위에서 무엇이 자라날지는 보이지 않았습니다. 인프라 회사들의 시가총액은 매주 새 신고가를 갱신했고, 그 위에 올라탈 소프트웨어 회사들의 가치는 가만히 있었습니다. 어떤 분석가들은 그 시기를 “기다림의 풍경”이라고 불렀습니다. 어떤 사람들은 더 단정적으로 말했습니다. “모바일은 끝났다.”


5년 뒤, 풍경이 달라져 있었습니다

5년이 지난 2015년, 풍경은 완전히 달라져 있었습니다.

Uber, Airbnb, Instagram, WhatsApp이 시장의 주인공이 되어 있었습니다. 모바일이라는 인프라 위에서 태어난 회사들이, 그 시대의 거인이 되었습니다. 누구도 더 이상 “모바일은 데스크톱의 보조”라고 말하지 않았습니다.

이 회사들의 등장 시점을 한 줄로 정렬해 보면 흥미로운 풍경이 보입니다. Airbnb가 2008년 8월. UberCab이 2008년 11월. WhatsApp이 2009년 1월. Instagram이 2010년 10월. 모두 아이폰 출시(2007년 1월) 이후 1~3년 안에 등장했습니다.

그런데 이 회사들이 그 시대의 주인공이 되기까지는 다시 4~5년이 더 필요했습니다. 미국 스마트폰 보급률이 처음 50%를 넘긴 게 2013년 5월이었습니다. 페이스북의 분기별 모바일 광고 매출 비중이 2012년 초 0%였다가 2013년 말 약 50%까지 올라온 것이 같은 시기였습니다. 인프라가 충분히 깔리고, 그 위에서 무엇이 가능한지 사람들이 발견하고, 비즈니스 모델이 자리를 잡은 다음에야, 위대한 소프트웨어 회사들이 시장의 주인공이 되었습니다.

이 순서는 우연이 아니었습니다. 인프라 → 가능성의 발견 → 비즈니스 모델 정립 → 위대한 소프트웨어 회사. 같은 순서가 차례로 일어났습니다. 그리고 매번, 그 시대의 주인공은 새로 등장한 회사였습니다. PC 시대를 연 IBM은 인터넷 시대의 주인공이 되지 못했고, 인터넷 시대 초기 강자였던 Yahoo는 모바일 시대로 매끄럽게 넘어가지 못했습니다. 시대가 바뀌면, 주인공도 바뀌었습니다.


지금의 풍경도 어딘가 닮아 있습니다

지금의 풍경도 어딘가 닮아 있습니다.

Nvidia는 사상 최고가를 갱신합니다. 2026년 5월 현재 시가총액은 약 5조 2,300억 달러. 세계 1위. 데이터센터 칩 매출 점유율 81%. 모바일 시대의 Qualcomm과 ARM이 그랬듯, AI 시대의 인프라 챔피언이 정점을 지나고 있습니다.

그런데 그 GPU 위에서 돌아갈 소프트웨어는 가격을 받지 못하고 있습니다. SaaS 멀티플은 지난 10년 평균으로 조용히 회귀했습니다. Bessemer Cloud 100 사모 평균 EV/Revenue가 2023년 26배에서 2025년 20배로 내려왔습니다. 3년 연속 하락. 2021년 정점 대비 41% 압축. 분석가 보고서의 제목에는 “Software Collapse Broadens with Nowhere to Hide”라는 표현이 등장합니다. 누군가는 “SaaSmageddon”이라는 단어를 만들어 냅니다.

2024년 12월 12일, Satya Nadella가 BG2 팟캐스트에 출연해 한 문장을 던졌습니다.

“SaaS is dead.”

전통 비즈니스 앱은 “예쁜 로그인 화면을 단 데이터베이스에 불과”하며, AI 에이전트가 등장하면 붕괴할 것이라는 발언이었습니다. 며칠 사이에 그 발언은 시대 전환의 신호처럼 받아들여졌습니다. 어떤 사람들은 더 단정적으로 말합니다. “소프트웨어의 시대는 끝났다.”

정말 그럴까요.


끝의 풍경이 아니라, 다음을 기다리는 풍경

2010년의 풍경을 다시 떠올려 봅니다. 인프라 회사의 가치는 올라가고, 그 위에서 돌아갈 소프트웨어는 보이지 않던 시기. 그때도 “모바일은 끝났다”고 말하는 사람들이 있었습니다. 5년 뒤에 그 풍경이 어떻게 바뀌었는지를 우리는 이미 알고 있습니다.

지금 우리가 보는 풍경은, 끝의 풍경이 아닐지도 모릅니다. 다음을 기다리는 풍경에 더 가깝습니다.

그리고 다음 단계의 주인공은, 새로 등장하는 회사들과 그 회사들이 만들어 낸 새로운 직업들입니다. 그 직업들은 우리가 알던 직업과는 다른 모양을 하고 있습니다.

AI Product Manager. Forward Deployed Engineer. Applied AI Engineer. Agent 운영자. Eval Engineer. 5년 전에는 이름조차 명확하지 않았던 자리들이, 지금 미국 빅테크의 채용 공고에 폭증하고 있습니다. Bloomberry의 분석에 따르면 Forward Deployed Engineer 채용 공고는 전년 대비 1,165% 폭증했습니다. LinkedIn 데이터에서 AI Engineer 직군은 3년간 +143.2% 성장했습니다. 한국에서도 흐름이 시작되고 있습니다. LG CNS는 AI 직군 11개 직무에서 1,000명을 확보하겠다고 발표했습니다. 업스테이지는 30개 직무를 동시에 채용 중입니다. 뤼튼은 17개 분야 채용 공고에 합격자 보너스 2,000만 원을 걸었습니다.

새 직업이 자라고 있습니다. 인프라가 깔리고, 그 위에서 무엇이 가능한지 사람들이 발견하고, 비즈니스 모델이 잡혀 가는 단계의 한복판에서.

이 책은 그 새 직업들의 도감입니다. 동시에 현직 개발자와 PM이 어디로 옮겨갈 수 있는지의 전환 지도입니다. 1부에서는 왜 이 순서가 매번 반복되었는지, 그 시차가 어떻게 짧아져 왔는지를 봅니다. 2부에서는 AI 인프라가 만들어 낸 새로운 환경의 작동 원리를 봅니다. 3부에서 새로 등장한 다섯 개 직업을 같은 포맷으로 비교해 봅니다. 4부에서는 한국 시장의 풍경과, 현직에서 새 자리로 어떻게 옮겨갈지의 90일 일정표를 봅니다.

전작 코드 너머의 시대가 이 시대에 어떤 사람으로 살아남을까를 다뤘다면, 이 책은 같은 질문을 한 발 더 들여놓습니다. 어떤 자리에서 살아남을까.

다음 장에서, 그 풍경이 왜 매번 같은 순서로 펼쳐져 왔는지부터 보겠습니다.

PART 1. 인프라가 먼저 가고, 사람이 따라온다

시대를 봅니다. 패턴을 짧고 단단하게.

PC도, 인터넷도, 모바일도 같은 순서를 따랐습니다. 매번 반도체가 먼저 갔고, 5년에서 14년의 시차를 두고 그 위에서 위대한 소프트웨어 회사들이 등장했습니다. 그리고 매번, 그 시대의 주인공은 새로 등장한 회사들이었습니다.

PART 1은 그 패턴을 세 장에서 짚습니다. 1장은 PC·인터넷·모바일의 같은 순서. 2장은 시차가 매번 짧아져 온 메커니즘. 3장은 2025~2026년의 시장 신호를 그 패턴 위에 올려놓는 작업.

이 PART의 톤은 기록자입니다. 과거 세 번의 시대 데이터와 지금의 신호를 나란히 놓고, 독자가 스스로 판단하게 합니다. 책 전체의 토대가 되는 1부입니다.

1장. 반도체는 늘 먼저 갔다 — PC·인터넷·모바일의 같은 순서

“새 기술의 진정한 사회·경제적 잠재력은, 거대한 금융 붕괴가 지나간 다음의 ’전개 단계(Deployment Period)’에 와서야 실현됩니다.” — Carlota Perez, Technological Revolutions and Financial Capital (2002)

같은 풍경이, 세 번 반복되었습니다.

PC 시대도, 인터넷 시대도, 모바일 시대도 그랬습니다. 매번 반도체와 인프라가 먼저 시장을 끌었습니다. 그 위에서 돌아갈 소프트웨어 회사들이 시대의 주인공이 되기까지는 시간이 필요했습니다. 그 시간을 다 기다린 다음에야, 새로운 거인들이 등장했습니다.

이 순서는 우연이 아니었습니다. 매번 같은 메커니즘으로 일어났습니다. 그 메커니즘을 살펴보기 위해, 세 시대를 차례로 들여다보겠습니다.


PC 시대 — 1981년에 깔리고, 1993년에 무게가 옮겨졌습니다

1981년 8월 12일. IBM Personal Computer 모델 5150이 발표되었습니다. Intel 8088 프로세서. 가격은 16KB RAM과 키보드 기준 1,565달러. 디스크 드라이브는 없었습니다. 플로리다 보카 라톤의 IBM 소규모 팀이 1년이 채 되지 않는 기간에 만들어 낸 결과물이었습니다.

PC 시대의 인프라가 깔리는 순간이었습니다. 출시 1년 안에 IBM PC용 소프트웨어 패키지가 750개 이상 등장했습니다. 그러나 그 시기의 주인공은 IBM과 Intel이었습니다. 시가총액으로도, 영향력으로도, IBM이 컴퓨터 산업의 정점에 있었습니다. 사람들은 “PC는 IBM의 시대”라고 말했습니다.

그 다음 10년 동안, 무게가 조금씩 옮겨가기 시작했습니다.

1990년에 Microsoft가 소프트웨어 회사 중 최초로 매출 10억 달러를 돌파했습니다. 그리고 1993년 초, 결정적인 사건이 일어났습니다. Microsoft의 시가총액이 처음으로 IBM을 넘어섰습니다. 인프라 회사(IBM)에서 소프트웨어 회사(Microsoft)로의 무게 이동을 상징하는 사건이었습니다.

그 다음 2년이 결정적이었습니다. 1995년 8월 24일, Windows 95가 출시되었습니다. 첫 1년에 4,000만 카피가 팔렸습니다. Microsoft는 광고에 2억 달러를 썼고, Rolling Stones의 “Start Me Up”을 라이선스했으며, Jay Leno가 출시 행사에 등장했습니다. 출시 분기 Microsoft 매출은 전년 동기 대비 62% 증가한 20억 2천만 달러였습니다. Coca-Cola가 Microsoft에 마케팅 자문을 구하러 올 정도였다는 일화가 그 시기의 분위기를 요약합니다.

1990년대 Microsoft의 평균 연수익률은 약 60%. 누적 수익률은 9,300%를 넘었습니다. 1999년 말에는 Microsoft 시가총액이 IBM의 세 배에 도달했습니다. 한 Institutional Investor 기사에 인용된 한 문장이 그 시대 전환의 본질을 짚었습니다.

“Bill Gates parlayed that breakthrough into industry dominance, proving his theory that software would be more valuable than hardware.”

소프트웨어가 하드웨어보다 가치 있다는 가설. 그 가설이 10년 만에 시장에서 증명되었습니다.

PC 인프라(1981) → 시장 지배자 등극(1993~1995). 약 12~14년의 시차. PC 시대가 우리에게 보여 준 첫 번째 그림이었습니다.


인터넷 시대 — 1995년에 깔리고, 2004년에 무게가 옮겨졌습니다

인터넷 시대의 시작은 1995년 무렵이었습니다.

Cisco가 그 시기의 인프라 챔피언이었습니다. 1995년 1월 John Chambers가 CEO에 취임한 뒤로 Cisco의 매출은 폭증했습니다. 1995 회계연도 19억 8천만 달러였던 매출이 4년 만에 121억 5천만 달러가 되었습니다. 6배 이상의 성장. 1996년 한 해에만 11건의 인수가 있었고, 그 중 StrataCom 인수가 46억 7천만 달러로 가장 컸습니다.

Sun Microsystems가 같은 시기의 또 다른 인프라 챔피언이었습니다. 1995 회계연도 매출 59억 달러. 1997년에는 86억 달러까지 도달했습니다. 회사의 슬로건은 “We’re the dot in dot-com.” 닷컴 시대의 마침표를 자임했습니다.

닷컴 버블이 정점에 이르렀던 2000년 3월 27일, Cisco 주가는 80달러에 도달했고 시가총액은 5,690억 달러가 되었습니다. Microsoft를 제치고 세계 1위 기업이 되었습니다. 그리고 그 직후, 버블이 무너졌습니다. Cisco는 가치의 약 90%를 잃고 2002년 말 600억 달러까지 내려왔습니다.

기억해 둘 만한 한 가지가 있습니다. Cisco의 주가가 그 정점을 다시 회복한 것은, 25년이 지난 2025년 12월이었습니다. 한 세대 가까이 걸렸습니다.

같은 시기에, 또 다른 풍경이 펼쳐지고 있었습니다. 인프라 챔피언의 그림자 안에서, 다음 시대의 주인공이 자라고 있었습니다.

2004년 8월 19일, Google이 IPO 했습니다. 주당 85달러. 1,960만 주 발행, 시가총액 230억 달러로 시작했고, 첫날 18% 상승했습니다. 2년 뒤인 2006년 3월 14일에는 Amazon이 S3를 출시했습니다. 그해 8월에 EC2가 정식 출범했습니다. AWS의 시작이었습니다. 그리고 그 직후 SaaS가 자라기 시작했습니다.

인터넷 인프라(1995~1996) → 시장 지배자 등극(2004~2006). 약 9~11년의 시차. PC 시대보다 2~3년 짧아진 시차였습니다.

그리고 그 시대의 주인공도, 또다시 새로운 회사들이었습니다. Cisco도, Sun도, IBM도, Yahoo도 아니었습니다. Google. Amazon. 인프라 챔피언이 90% 손실을 견디는 동안, 응용 회사들이 자라났습니다.


모바일 시대 — 2007년에 깔리고, 2012~13년에 무게가 옮겨졌습니다

모바일 시대의 시작점은 명확합니다. 2007년 1월 9일, Macworld 키노트에서 스티브 잡스가 한 문장을 던졌습니다.

“An iPod, a phone, and an Internet communicator. These are not three separate devices. This is one device.”

그 다음 분기에 iPhone이 출시되었습니다. 1년 반 뒤인 2008년 7월 10일에는 App Store가 열렸습니다. 첫날 500개 앱이 등록되었고, 그 중 25%가 무료 앱이었습니다. 첫 주말에만 1,000만 다운로드를 기록했습니다. 2008년 9월에는 누적 1억 다운로드, 2009년 4월에는 10억 다운로드를 돌파했습니다. 같은 해 1월 앱 수가 15,000개를 넘었습니다.

모바일 시대의 인프라가 깔리는 풍경이었습니다.

그 인프라 위에서, 다음 시대의 주인공들이 자라기 시작했습니다. 창업 시점을 한 줄로 정렬해 보겠습니다.

모두 iPhone 출시 이후 1~3년 안에 등장한 회사들이었습니다. 그러나 이 회사들이 시대의 주인공이 되기까지는 다시 4~5년이 필요했습니다.

Pew Research가 2012년 3월에 발표한 조사가 있습니다. 미국 성인의 46%가 스마트폰을 가지고 있었습니다. 1년 전(35%)보다 11퍼센트포인트 늘어난 수치였습니다. 그리고 2013년 5월, 56%에 도달했습니다. Pew가 추적을 시작한 이래 처음으로 과반이었습니다.

그 시기에 또 다른 곡선이 그려졌습니다. 페이스북 분기별 모바일 광고 매출 비중을 한 줄로 정렬해 보겠습니다.

1년 만에 0%에서 50%까지. Mark Zuckerberg가 2012년 말에 한 말이 그 변화를 요약합니다.

“In 2012, we connected over a billion people and became a mobile company.”

페이스북이 자신을 “모바일 회사”라고 부르기 시작한 시점입니다. 페이스북뿐 아니라 Uber와 Airbnb와 Instagram과 WhatsApp이 거의 동시에 시장의 주인공이 되었습니다. 2014~2015년의 일이었습니다.

모바일 인프라(2007~2008) → 시장 지배자 등극(2012~2015). 약 5~6년의 시차. PC 시대의 절반 이하로 짧아진 시차였습니다.


시차 정리

세 시대를 한 표로 정리해 보면 패턴이 분명해집니다.

시대 인프라 깔린 시점 시장 지배자 등극 시차
PC 1981 (IBM PC + Intel 8088) 1993 (MS > IBM) ~ 1995 (Windows 95) 12~14년
Internet 1995~96 (Cisco/Sun 폭증) 2004 (Google IPO) ~ 2006 (AWS S3) 9~11년
Mobile 2007~08 (iPhone, App Store) 2012~13 (보급률 50%, FB 모바일 광고 50%) 5~6년

매번 반도체와 인프라가 먼저 갔습니다. 매번 시차를 두고 소프트웨어 회사가 시장의 주인공이 되었습니다. 그리고 매번, 그 주인공은 새로 등장한 회사들이었습니다.


같은 순서가 반복된 세 가지 이유

세 번의 시대, 같은 순서. 한 번이면 우연이지만, 세 번이면 패턴입니다.

순서가 반복된 이유는 세 가지입니다.

첫째, 인프라가 충분히 깔려야 했습니다.

미국 스마트폰 보급률이 50%를 넘은 게 2013년이었습니다. 그 전에는 아무리 좋은 모바일 서비스를 만들어도 쓸 사람이 충분하지 않았습니다. 디바이스가 사람들의 손에 충분히 쥐어진 다음에야, 그 위에서 돌아갈 서비스의 시장이 열립니다. PC도 마찬가지였습니다. 1980년대 후반 사무실 PC 보급이 본격화되기 전까지는, Microsoft가 만든 Office가 갈 시장 자체가 좁았습니다. 인터넷도 그랬습니다. 1995년 Netscape Navigator가 등장하기 전, 인터넷에 접속해 본 사람의 수가 미국에서도 한 자릿수 퍼센트 안쪽이었습니다.

둘째, 그 인프라로 무엇이 가능해졌는지 발견하는 시간이 필요했습니다.

Uber는 단순한 택시 앱이 아닙니다. GPS, 결제, 푸시 알림, 평가 시스템, 백그라운드 매칭이 동시에 가능해졌을 때 비로소 성립한 서비스입니다. 누군가가 이 모든 조각을 하나로 엮어 “길에서 차를 부른다”는 새로운 경험을 만들어 내야 했습니다. 기존 데스크톱 서비스를 모바일로 옮긴 것이 아니라, 모바일이라는 환경에서만 가능한 무언가를 발견하는 시간이었습니다.

Google도 그랬습니다. 검색 자체는 1990년대 후반부터 있었지만, PageRank로 링크의 권위를 검색 순위에 반영한다는 발견이 있고 나서야 검색의 가치가 폭발했습니다. Amazon S3가 등장하기 전까지 “서버 인프라를 시간 단위로 빌려 쓴다”는 발상 자체가 명확하지 않았습니다.

새 인프라 위에서 무엇이 가능해졌는지를 발견하는 시간. 이것이 두 번째 단계입니다.

셋째, 그 가치를 돈으로 바꾸는 모델이 정립되어야 했습니다.

페이스북이 모바일 네이티브 광고로 본격 전환한 게 2012~2013년이었습니다. 이때부터 모바일 소프트웨어의 수익 모델이 작동하기 시작했습니다. 사용자가 모이는 것과 그 사용자로부터 돈을 버는 것은 다른 문제였습니다. Google도 검색이 시장의 중심이 된 2000년대 초가 아니라, AdWords로 검색 광고 모델을 굳힌 2003~2004년부터 진짜 폭발이 시작되었습니다. SaaS도 마찬가지였습니다. 시트당 월 과금이라는 모델이 굳어진 2005~2010년 무렵에야 SaaS의 황금기가 열렸습니다.

인프라 → 가능성의 발견 → 비즈니스 모델 정립. 세 단계가 차례로 일어난 다음에야, 위대한 소프트웨어 회사가 시장의 주인공이 되었습니다.

그리고 매번, 그 시대의 주인공은 새로 등장한 회사였습니다. PC 시대를 연 IBM은 인터넷 시대의 주인공이 되지 못했고, 인터넷 시대 초기 강자였던 Yahoo는 모바일 시대로 매끄럽게 넘어가지 못했습니다. 시대가 바뀌면, 주인공도 바뀌었습니다.


지금은 어디인가 — Installation 후반의 풍경

경제사학자 Carlota Perez가 2002년에 Technological Revolutions and Financial Capital이라는 책에서 정리한 패턴이 있습니다. 산업혁명 이래 다섯 번의 기술 사이클을 추적한 책입니다.

Perez의 모형은 단순합니다. 모든 기술 혁명은 두 단계를 거칩니다.

앞 단계는 Installation Phase(약 20년). 핵심 기술과 인프라를 구축하고, 자본이 광적으로 베팅하는 시기입니다. Installation Phase는 다시 Irruption(약 10년 — 핵심 기술의 등장)과 Frenzy(약 10년 — 자본의 광적 투기)로 나뉩니다. 그리고 그 끝에 Turning Point가 옵니다. 거대한 금융 조정. 닷컴 버블의 붕괴 같은 사건입니다.

뒷 단계는 Deployment Phase(약 30년). 응용의 황금기입니다. 사회 전반이 새 인프라 위에서 일하는 방식을 바꾸고, 새로운 직업·새로운 비즈니스 모델·새로운 회사들이 자리를 잡는 시기입니다. Perez는 이 단계에 대해 책 첫머리에 인용한 한 문장을 남겼습니다.

“It is during the Deployment Period — after the major financial collapse — that the full social and economic potential of the new technologies can be realized.”

거대한 금융 조정이 지나간 다음에야, 새 기술의 진정한 잠재력이 실현된다는 것. 그리고 그 시기의 주인공은 인프라 챔피언이 아니라, 응용을 만들어 낸 새 회사들이라는 것.

Perez의 모형을 우리 시대에 끼워 맞춰 보면, 지금 AI는 정확히 어디에 있을까요.

Perez 본인이 인터뷰에서 자주 답한 좌표가 있습니다. AI는 Installation Phase의 후반, Frenzy 단계에 있다는 것이었습니다. 자본이 인프라에 광적으로 베팅하는 시기. 시장이 무엇이 가능한지를 발견하기 직전의 시기. Turning Point가 오기 직전의 시기.

Cisco의 차트가 그 좌표를 잘 보여 줍니다. 2000년 정점에서 90%가 무너진 다음 25년 만에 회복한 그 곡선. 그 90%가 무너지는 동안 무슨 일이 일어났는지를 잠깐 떠올려 보면, 풍경이 다르게 보입니다. Cisco가 90% 손실을 견디고 있던 2002~2006년이, Google이 본격적으로 자라고 Amazon이 AWS를 출범하던 시기였습니다. 인프라가 무너지는 동안 응용이 자라는 풍경이었습니다.

같은 시기에 SaaS가 자리잡기 시작했습니다. 검색 광고가 표준이 되었습니다. 소셜 네트워크가 만들어졌습니다. 닷컴 시대의 인프라 챔피언이 그림자 속에서 가치를 잃는 동안, 다음 시대의 직업들이 자라고 있었습니다. Web Developer, Search Engineer, Community Manager, Cloud Architect 같은 자리들이 이때 처음 채용 공고에 등장하기 시작했습니다. 어느 자리도 1995년에는 이름조차 명확하지 않았습니다.

이 책이 그 다음 단계를 다룹니다.

세 번 반복된 패턴이 네 번째 사이클로 들어왔습니다. 그리고 매번, 시차는 짧아져 왔습니다. PC 시대 12~14년. 인터넷 시대 9~11년. 모바일 시대 5~6년. AI 시대는 더 짧을지도 모릅니다.

다음 장에서, 그 시차가 왜 매번 짧아져 왔는지를 보겠습니다.

2장. 시차는 점점 짧아진다 — 그리고 AI는 더 빠르다

“AI 도구를 도입한 콜센터 상담사들의 시간당 해결 이슈 수는 평균 14% 늘었습니다. 신입과 저숙련 상담사에게서는 34%까지 늘었습니다.” — Brynjolfsson, Li, Raymond, Generative AI at Work (NBER, 2023)

지난 장에서 본 시차를 한 번 더 정렬해 보겠습니다.

시대 시차
PC 12~14년
Internet 9~11년
Mobile 5~6년

매번 짧아져 왔습니다. PC 시대에서 인터넷 시대로 넘어오면서 2~3년이 짧아졌고, 모바일 시대에는 다시 4~5년이 더 줄었습니다.

이 단축이 왜 일어났는지를 살펴보면, AI 사이클이 어디까지 빨라질지를 가늠해 볼 수 있습니다.


시차가 짧아진 네 가지 메커니즘

첫째, 사용자의 학습 곡선이 짧아졌습니다.

1981년 IBM PC가 처음 등장했을 때, 일반 사용자가 그 위에서 무언가를 한다는 것은 큰 진입 장벽이었습니다. 명령어 인터페이스. 플로피 디스크. 두꺼운 매뉴얼. PC가 사무실에 들어오기까지 거의 10년이 걸렸고, 가정으로 들어오기까지는 더 오래 걸렸습니다.

인터넷 시대는 그보다 빨랐습니다. 1995년 Netscape Navigator가 등장한 뒤로, 웹 브라우저는 거의 직관적인 도구가 되어 있었습니다. 클릭하면 어딘가로 이동한다는 인터페이스가 사용자의 학습 곡선을 거의 0에 가깝게 만들었습니다.

모바일 시대는 그보다도 짧았습니다. iPhone 키노트에서 스티브 잡스가 보여 준 동작은 손가락으로 화면을 만진다는 것이었습니다. 어떤 매뉴얼도 필요 없었습니다. 5살 어린이도 처음 스마트폰을 쥐면 거의 즉시 사용했습니다.

AI 시대는 어떨까요. 2022년 11월 ChatGPT가 공개되었을 때, 사용자가 학습해야 할 것은 거의 없었습니다. 말로 묻고, 말로 답을 받는다는 인터페이스. ChatGPT가 출시 5일 만에 100만 사용자, 두 달 만에 1억 사용자에 도달한 것은 우연이 아닙니다. 사용자의 학습 곡선이 매번 짧아져 왔고, AI에 와서는 거의 사라졌습니다.

둘째, 개발자 도구가 매번 성숙해진 채로 다음 시대를 맞이했습니다.

PC 시대 초기의 소프트웨어 회사는 거의 모든 것을 직접 만들어야 했습니다. 운영체제와 컴파일러와 라이브러리. 데이터베이스도 직접 짜는 경우가 많았습니다. 한 회사가 한 제품을 출시하는 데 몇 년이 걸렸습니다.

인터넷 시대에는 그 위에 PC 시대의 도구들이 그대로 쌓여 있었습니다. Linux, Apache, MySQL, PHP. LAMP 스택이 표준이 되었습니다. 처음 등장한 인터넷 회사들은 이 스택 위에 자신들의 응용만 얹으면 되었습니다. 모바일 시대에는 다시 그 위에 iOS와 Android의 SDK가 깔렸습니다. App Store가 분배 채널까지 해결해 주었습니다. 한 사람이 주말에 앱 하나를 만들어 출시하는 것이 가능해진 시대였습니다.

AI 시대에는 모든 것이 한 번 더 단순해졌습니다. OpenAI와 Anthropic의 API. LangChain과 LlamaIndex 같은 오케스트레이션 라이브러리. Cursor와 Claude Code 같은 코딩 어시스턴트. 5년 걸리던 AI 작업이 API 문서와 한가한 오후 한 번이면 가능해졌습니다. Latent Space 뉴스레터의 Shawn Wang(Swyx)이 2023년에 한 표현이 그 시기를 요약합니다.

셋째, 자본이 매번 더 빨리 움직였습니다.

PC 시대의 벤처 캐피털 시장은 비교적 작았습니다. Sand Hill Road의 몇 개 펀드. Seed 라운드부터 IPO까지 8~10년이 걸리는 게 정상이었습니다. 인터넷 시대에는 그 속도가 빨라졌습니다. 1999년 닷컴 버블의 정점에서, 일부 회사들은 창업 1년 만에 IPO를 했습니다. 모바일 시대에는 Series A 1억 달러가 흔해졌습니다. Uber와 Airbnb는 창업 6년 만에 100억 달러 평가가치를 받았습니다.

AI 시대에는 그보다도 더 빠릅니다. Cursor를 운영하는 Anysphere는 2025년 1월 ARR 1억 달러에서 2026년 2월 20억 달러까지 1년 만에 20배 성장했습니다. 평가가치는 같은 기간 25억 달러에서 500억 달러 협상 단계까지 갔습니다. B2B 회사가 3년 만에 0에서 ARR 20억 달러에 도달한 사상 최단 기록입니다. Sierra(Bret Taylor의 회사)는 2024년 2월 출시에서 2026년 5월 158억 달러 평가가치까지 2년이 채 걸리지 않았습니다.

넷째, 글로벌 시장이 매번 더 통합되어 있었습니다.

PC 시대에 한국에서 PC를 쓰는 사람과 미국에서 쓰는 사람의 거리는 매우 멀었습니다. 인터넷 시대부터 그 거리가 좁아졌습니다. Google과 Amazon은 출시 직후부터 전 세계 사용자를 가지고 있었습니다. 모바일 시대에는 App Store와 Google Play가 하루 만에 글로벌 분배 채널 역할을 했습니다. Instagram은 출시 18개월 만에 1억 사용자를 모았고, 그 중 절반 이상이 미국 바깥에 있었습니다.

AI 시대는 처음부터 글로벌이었습니다. ChatGPT는 출시 첫 주부터 한국·일본·인도·브라질에서 같은 인터페이스로 사용되었습니다. Anthropic이 2025년 말 18개국 동시 출시를 한 것도 같은 맥락입니다.

이 네 가지 메커니즘이 매번 강해졌습니다. 그래서 시차는 매번 짧아졌습니다.


J-Curve — 보이지 않는 자본이 먼저 쌓입니다

시차가 짧아지긴 했지만, 그래도 시차는 존재합니다. 0이 되지는 않았습니다. 왜 그럴까요.

Erik Brynjolfsson과 동료들이 2021년 American Economic Journal: Macroeconomics에 발표한 논문이 그 메커니즘을 정량적으로 짚었습니다. The Productivity J-Curve라는 제목의 논문이었습니다.

논문의 발견을 한 줄로 요약하면 이렇습니다. 새 기술이 도입된 초기에 측정된 생산성은 오히려 떨어지는 것처럼 보입니다. 이것이 J 곡선의 바닥입니다. 그 다음 시간이 흘러야 생산성이 위로 올라옵니다.

왜 처음에는 떨어져 보일까요. 새 기술이 가치를 내려면 무형 자본에 막대한 투자가 필요하기 때문입니다. 공정 재설계. 비즈니스 모델 혁신. 사람을 새로 채용하고 훈련시키는 것. 데이터를 모으고 정리하는 것. 이 모든 투자는 회계 장부에 비용으로 잡히지만, 그 자체가 자산은 아닙니다. 그래서 GDP와 TFP 통계에서는 이 시기에 생산성이 떨어지는 것처럼 보입니다.

Brynjolfsson 팀은 미국 데이터에서 ICT 무형 자본을 보정하면 2017년 말 TFP가 공식 통계보다 15.9% 높다는 것을 추정했습니다. 통계가 보지 못한 자본이, 보이지 않게 쌓이고 있었습니다.

이 J-Curve가 시차의 본질입니다. 인프라가 깔린 다음, 그 위에서 일하는 방식을 새로 만드는 무형 자본이 쌓여야 합니다. 그 무형 자본이 임계점에 도달한 다음에야, 생산성이 J 곡선의 위쪽으로 올라옵니다.

PC 시대의 Microsoft Office가 사무실 일하는 방식을 바꾸기까지 5년 이상이 걸렸습니다. 인터넷 시대의 e-commerce가 어떻게 사람들이 물건을 사는지를 바꾸기까지 10년 가까이 걸렸습니다. 모바일 시대의 Uber가 길에서 차를 부른다는 행동을 표준으로 만들기까지 다시 5년이 걸렸습니다.

이 J-Curve가 짧아지는 것이, 시차가 짧아지는 것의 정량적 정의입니다.


콜센터에서 본 가속 — 신입이 가장 빠르게 큽니다

Brynjolfsson과 Danielle Li, Lindsey Raymond가 2023년에 또 다른 논문을 냈습니다. Generative AI at Work라는 제목으로 NBER에 발표된 이 연구는, 한 콜센터에서 일어난 자연 실험을 다뤘습니다.

콜센터에 GPT 기반 대화 보조 도구가 단계적으로 도입되었습니다. 5,179명의 상담사가 무작위로 도구를 받았습니다. 도구가 들어온 뒤로, 평균 시간당 해결 이슈 수가 14% 늘었습니다.

여기까지는 평범한 결과입니다. 그러나 데이터를 사람별로 쪼개 보니 한 가지 의외의 풍경이 나타났습니다.

가장 큰 수혜가 신입과 저숙련자에게 갔습니다. 도구가 고숙련자의 best practice를 추출해 신입에게 전달하는 메커니즘으로 작동했기 때문입니다. 6개월이 채 안 된 신입이 도구를 쓰면, 같은 작업에서 1년 차 숙련자와 비슷한 결과를 냈습니다. 경험 곡선이 압축되는 풍경이었습니다.

부수 효과도 있었습니다. 고객의 부정적인 발화가 9% 줄었습니다. 매니저 개입 요청은 25% 줄었습니다. 직원 이직률도 떨어졌습니다.

이 결과가 무엇을 말하는지를 다시 정리해 보면, 시차의 메커니즘이 좀 더 분명해집니다. AI는 평균을 끌어올리는 게 아니라, 신입을 빠르게 숙련자로 만든다. 그래서 시차가 짧아집니다. 새 인프라 위에서 일하는 방식을 모두가 학습하는 시간이 짧아집니다.


그래서 AI 시대는 어디인가

지금까지 본 메커니즘을 AI 시대에 끼워 맞춰 보면, 좌표가 잡힙니다.

ChatGPT가 출시된 게 2022년 11월입니다. 인프라가 본격적으로 깔리기 시작한 시점입니다. 기업이 본격적으로 AI를 도입하기 시작한 게 2024년쯤입니다. 모바일 사이클의 시차(2007년 iPhone → 2014~2015년 위대한 소프트웨어 회사)를 그대로 적용하면, AI 시대의 위대한 소프트웨어 회사들이 등장하는 시점은 2027~2028년 어디쯤이 됩니다.

그리고 시차는 매번 짧아져 왔습니다. AI는 그것보다도 더 빠를지 모릅니다.

이 네 가지를 보면, 2027년보다 더 빠를 가능성이 있습니다.

그러나 이 가속이 균일하지는 않습니다. 잠시 단서들을 짚어 보겠습니다.

규제 단서. EU AI Act, 미국 행정명령, 한국 AI 기본법. 각국의 규제가 매번 다르게 적용되면서, 글로벌 시장 통합이 PC·인터넷·모바일 시대보다 약화될 수 있습니다.

신뢰성 단서. UC Berkeley의 Cemri 연구팀이 2025년 Why Do Multi-Agent LLM Systems Fail?이라는 논문에서, 7개 SOTA 다중 에이전트 시스템의 실패율이 41~86.7%에 이른다는 것을 보였습니다. 인프라가 깔렸다고 해서 그 위에서 만든 시스템이 자동으로 작동하는 게 아닙니다. 신뢰성을 책임지는 새로운 일이 추가로 필요합니다.

대기업 도입 속도 단서. 한국 기업들이 AI를 본격적으로 도입하기 시작한 것은 2025년부터입니다. 미국 빅테크의 도입 속도와 차이가 있습니다. 같은 사이클이 지역별로 시차를 두고 일어나고 있습니다.

이 단서들은 AI 시대의 시차가 0으로 수렴하지는 않는다는 것을 말합니다. 그러나 모바일 시대보다는 빠를 것이고, 어쩌면 우리가 기다리는 시점이 지금부터 2~3년 안일 가능성도 있습니다.


다음 장으로

여기까지가 시차의 메커니즘이었습니다. 인프라가 먼저 깔리고, 그 위에서 일하는 방식이 임계점에 도달할 때까지의 시간. 그 시간이 매번 짧아져 왔다는 것.

다음 장에서, 그 좌표를 지금의 데이터로 한 번 더 확인하겠습니다. Nvidia의 시가총액. SaaS 멀티플의 압축. 채용 시장의 신호. 그리고 그 신호들이 2010년의 모바일 시대와 어떻게 닮아 있는지를 보겠습니다.

3장. 우리는 지금 어디쯤 와 있나 — Nvidia 신고가, SaaS 회귀, 채용 시장의 신호

“SaaS is dead.” — Satya Nadella, BG2 팟캐스트, 2024년 12월 12일

지금 어디쯤 와 있는지를 묻기 위해, 시장 풍경의 몇 가지 신호를 한 자리에 모아 보겠습니다. 인프라 챔피언의 시가총액. 소프트웨어 회사들의 멀티플. 채용 시장의 키워드. 그리고 그 신호들이 어디서 본 적이 있는 풍경에 닮아 있는지.


Nvidia — 인프라 챔피언의 정점

Nvidia의 시가총액을 한 줄로 정렬해 보겠습니다.

GPU 시장에서 AI 학습과 배포용 점유율 80% 이상. TOP500 슈퍼컴퓨터의 75%에 Nvidia GPU가 들어가 있습니다. IDC가 추적하는 데이터센터 칩 매출에서 Nvidia가 차지하는 비중은 81%입니다.

PC 시대의 IBM과 Intel이 정점에 있을 때의 풍경과, 인터넷 시대의 Cisco가 정점에 있을 때의 풍경과, 모바일 시대의 Qualcomm과 ARM이 정점에 있을 때의 풍경이 거의 같은 모양으로 반복되고 있습니다. 반도체는 늘 먼저 갑니다. 그리고 그 인프라 챔피언이 가장 빛나는 시점은, 다음 시대의 응용 회사들이 자라기 직전입니다.


SaaS의 그림자 — 가격을 받지 못하는 소프트웨어

같은 시기에, Nvidia가 만들어 내는 GPU 위에서 돌아갈 소프트웨어의 가격은 가만히 있습니다. 어떤 카테고리에서는 가격이 내려가고 있습니다.

Bessemer Venture Partners가 매년 발표하는 BVP Cloud Index의 최근 데이터를 보겠습니다.

공개 시장에서 SaaS 회사들의 평균 EV/Revenue(시가총액 대비 매출 비율)는 2026년 1분기 기준 약 7.5~8배입니다. 1년 전 6배 수준에서 약간 회복했지만, 2021년 정점 대비 여전히 큰 압축이 남아 있습니다.

사모 시장에서 Cloud 100(매년 Bessemer가 선정하는 100개 비상장 클라우드 회사) 평균 EV/Revenue를 한 줄로 정렬하면 다음과 같습니다.

3년 연속 하락. 2021년 정점 대비 41% 압축입니다.

Bessemer의 분석가들이 시장을 두 부분으로 쪼개서 보기 시작했습니다. “AI Wrappers”라고 부르는 카테고리 — OpenAI나 Anthropic API 위에 얇게 한 겹 올린 회사들. 이 회사들의 멀티플은 더 빠르게 무너지고 있습니다. 리텐션이 무너지고 있다는 신호도 있습니다. 그리고 상위 25%의 회사들 — NRR(Net Revenue Retention)이 강하고, 40% 이상 성장하며, Rule of 40을 50 이상으로 맞추는 회사들. 이 그룹의 멀티플은 비교적 잘 버티고 있습니다.

Bessemer의 한 보고서가 이 풍경을 이렇게 정리했습니다.

“As AI makes it easier to achieve product parity, the value of platform companies will diverge even further from traditional SaaS companies.”

AI가 제품의 동등성에 도달하기 쉽게 만든다는 말. SaaS의 진입 장벽이 낮아지면서, 평범한 SaaS 회사의 가치가 빠르게 압축되고 있다는 진단입니다.


가격 모델이 무너지고 있습니다

2025년 한 해 동안, 주요 SaaS 회사들이 차례로 가격 모델을 바꾸기 시작했습니다.

HubSpot은 2025년 4월 14일부터 Breeze Prospecting Agent의 과금을 바꿨습니다. 기존의 월간 contact 등록 수에서, 영업팀에 넘긴 qualified lead 1건당 1달러로. 고객 서비스 에이전트는 해결된 대화 수 기준 과금이 되었습니다. 다른 에이전트들은 무료 번들로 묶었습니다.

ServiceNow는 같은 해 4월 9일부터 AI add-on 가격을 전 포트폴리오에서 폐지했습니다. 3티어(Foundation, Advanced, Prime)로 단순화했습니다. AI 기능은 무료로 번들했습니다.

Salesforce는 8월 1일부터 Enterprise/Unlimited Edition 가격을 6% 인상했습니다. Agentforce가 만들어 내는 가치를 반영한다는 명분이었습니다.

Atlassian은 Rovo AI 에이전트와 Teamwork Graph를 모든 클라우드 제품에 추가 비용 없이 임베드했습니다.

네 회사가 각기 다른 방향으로 움직였지만, 공통점이 한 가지 있습니다. 시트당(seat) 과금이 무너지고 있습니다. 사람 머릿수로 라이선스를 파는 모델이, 어떤 회사에서는 결과 단위로, 어떤 회사에서는 번들로, 어떤 회사에서는 인상으로 바뀌고 있습니다. 한 줄로 정리하면, 그 변화의 본질은 AI가 사람을 대체하기 시작하면 시트 수 자체가 줄어든다는 것입니다.

Battery Ventures가 2025년 State of AI 리포트에서 이 변화를 한 문장으로 요약했습니다.

“Software shifts from aiding human productivity to autonomously completing work.”

소프트웨어가 사람의 생산성을 돕는 일에서 자율적으로 일을 끝내는 일로 이동한다는 것. 그러면 시트 단위 과금이 의미를 잃습니다.


“SaaS is dead” — 한 문장의 영향

2024년 12월 12일. Bill Gurley와 Brad Gerstner가 진행하는 BG2 팟캐스트에 Satya Nadella가 출연했습니다. 그 자리에서 Nadella가 한 문장을 던졌습니다.

“SaaS is dead.”

전통 비즈니스 앱(CRM, 프로젝트 관리, HR)은 “예쁜 로그인 화면을 단 데이터베이스에 불과”하며, AI 에이전트가 등장하면 “붕괴할 것(collapse)”이라고 주장했습니다.

이 발언이 며칠 만에 시장에 퍼졌습니다. JPMorgan은 “Software Collapse Broadens with Nowhere to Hide”라는 제목의 보고서를 냈고, Jefferies는 “SaaSmageddon”이라는 신조어를 만들어 냈습니다. 어떤 사람들은 더 단정적으로 말했습니다. “소프트웨어의 시대는 끝났다.”

물론 모든 사람이 동의한 것은 아니었습니다.

Benchmark의 파트너 Sarah Tavel이 같은 시기에 반론을 제기했습니다. Benchmark 포트폴리오 중 매출이 수억 달러에 도달한 회사들의 구성을 살펴보면, 엔지니어 50명 미만에 영업 인력 100명 가까운 형태가 흔하다는 관찰이었습니다. 이 구성이 빠르게 확장 중이라는 것. AI 시대에도 엔터프라이즈 판매에는 사람이 필요하다는 반론이었습니다.

두 입장을 한 문장으로 정리해 보면, 시장의 풍경이 좀 더 입체적으로 보입니다.

이 두 풍경이 동시에 진행 중입니다. SaaS의 시대가 끝났다는 말은, 어떤 형태의 SaaS가 끝나고, 어떤 형태의 소프트웨어가 자라기 시작했다는 의미에 가깝습니다.


박스 — Cisco와 NVIDIA, 인프라 챔피언의 운명은 갈립니다

지난 장에서 잠깐 언급한 Cisco의 차트를, 한 번 더 들여다보겠습니다. 지금의 NVIDIA에 닿는 한 가지 경계 신호이기 때문입니다.

Cisco는 2000년 3월 27일에 시가총액 5,690억 달러로 세계 1위 기업이 되었습니다. 그 직후 닷컴 버블이 무너졌습니다. Cisco는 가치의 90%를 잃고, 2002년 말 600억 달러까지 내려왔습니다. 그리고 그 정점을 다시 회복한 것이 25년이 지난 2025년 12월이었습니다. 한 세대 가까이 걸렸습니다.

Harding Loevner의 한 분석 보고서가 NVIDIA와 Cisco를 비교한 적이 있습니다. “NVIDIA and the Cautionary Tale of Cisco Systems.” 두 회사가 모두 각자의 시대 인프라 챔피언이라는 공통점. 그러나 닷컴 시대 Cisco가 닷컴 회사들에 라우터를 팔았고 그 회사들이 무너지면서 매출도 함께 무너졌다는 것. NVIDIA의 매출 구조도 비슷한 위험에 노출되어 있는지를 묻는 보고서였습니다.

이 비교가 예측이라기보다는 경계에 가깝습니다. NVIDIA가 Cisco의 운명을 그대로 따라간다는 의미는 아닙니다. 그러나 지난 시대의 인프라 챔피언이 90% 손실을 견디고 25년 만에 정점을 회복한 사례가 있다는 것을, 인프라 단계에 베팅하는 자본이 한 번쯤 떠올려 볼 만한 일입니다.

그리고 그 90%가 무너지는 동안 무슨 일이 일어났는지가, 이 책의 핵심 풍경입니다. 인프라 챔피언이 그림자를 견디는 동안, 응용을 만든 새 회사들이 자랐습니다. 닷컴 시대의 그늘에서 Google이 자랐고, Amazon AWS가 출범했고, SaaS의 모델이 자리를 잡았습니다.

지금 우리가 보는 풍경이 어디쯤인지를 가늠하는 데 도움이 되는 비교입니다.


채용 시장 — 가장 빠른 신호

가격과 시가총액보다 빨리 움직이는 신호가 있습니다. 채용 시장입니다.

Stanford HAI가 매년 발표하는 AI Index Report의 2025년 판은 2024년 한 해 동안 GenAI 관련 채용 공고가 어떻게 변했는지를 추적했습니다.

LinkedIn이 발표하는 Future of Work 보고서는 직군별 변화를 추적합니다. AI Engineer 직군의 채용 공고가 지난 3년간 +143.2% 성장했습니다. Prompt Engineer는 +135.8%. 가장 빠르게 자라는 스킬은 Custom GPTs, AI Productivity, AI Agents. 그리고 2030년까지 직무 핵심 스킬의 70%가 변화할 것이라고 추정합니다.

이 데이터들이 무엇을 말하는지는 분명합니다. 새 직업의 이름들이 채용 공고에 빠르게 등장하고 있습니다. AI Engineer. AI Product Manager. Forward Deployed Engineer. AgentOps. Eval Engineer. 5년 전에는 이름조차 모호했던 자리들입니다.


반대 신호 — 신입이 진입하지 못합니다

그러나 채용 시장의 또 다른 면을 보면, 풍경이 좀 더 복잡해집니다.

Anthropic이 정기적으로 발표하는 Economic Index의 5차 보고서(2026년 3월)에 한 가지 데이터가 있었습니다. 22~25세 노출 직업 진입 신입의 구직률이 ChatGPT 출시 후 14% 감소했다는 발견입니다. 즉, AI에 노출된 직군(소프트웨어 엔지니어, 컨설턴트, 작가 등)에서 신입 진입 자체가 좁아졌다는 것입니다.

여기에는 다소 모순이 있습니다. 지난 장에서 본 Brynjolfsson의 콜센터 연구에서는, AI를 쓰는 신입의 생산성이 34% 올랐습니다. 그러나 Anthropic Index에서는 AI에 대체될 만한 위치의 신입이 진입 자체가 막혔습니다. 같은 신입에 대해 두 방향의 신호가 동시에 나오고 있습니다.

이 모순을 책에서는 한 문장으로 요약합니다. AI를 쓰는 신입은 빠르게 큰다. AI에 대체되는 위치의 신입은 진입 자체가 막힌다. 이 두 풍경이 동시에 진행 중인 것이 지금의 채용 시장입니다.

같은 시기에 ILO(국제노동기구)가 발표한 2025년 보고서가 또 한 가지 큰 그림을 보여줍니다. 전 세계 노동자의 약 25%가 GenAI에 어느 정도 노출되어 있고, 고노출 비율은 3.3%. 고소득국 34% vs 저소득국 11%로 격차가 큽니다. 그리고 보고서는 한 가지 톤을 분명히 했습니다. 대규모 대체보다는 변형(transformation)이 주된 효과라는 것. 일자리가 없어지는 게 아니라, 일의 모양이 바뀌고 있다는 진단입니다.


지금의 풍경을 한 줄로

지금까지 본 신호들을 한 자리에 놓아 보면, 풍경이 분명해집니다.

같은 풍경이 어디서 본 적이 있는지를 다시 떠올려 보면, 답은 분명합니다. 2010년의 모바일 시대. Qualcomm·ARM이 끌고 있었지만 그 위에서 돌아갈 소프트웨어가 보이지 않던 시기. “모바일은 끝났다”는 말이 있었던 시기.

지금 우리가 서 있는 자리는, 거의 똑같은 좌표입니다. 다만 이번에는, 지난 세 번의 사이클이 보여 준 패턴 덕분에 다음에 무엇이 올지를 우리는 알고 있습니다. 그 다음 단계의 주인공은, 새로 등장하는 회사들과 그 회사들이 만들어 내는 새로운 직업들입니다.

다음 장에서, AI 인프라가 정확히 무엇을 가능하게 했는지부터 한 단계 더 내려가 보겠습니다.

PART 2. AI 위에서 일이 돌아가는 방식

지형을 압니다. 새 직업이 왜 그런 모양을 하는지의 전제.

PART 1에서 시대 패턴을 봤다면, PART 2는 그 위에서 일이 어떻게 돌아가는지의 작동 원리를 본격적으로 들여다봅니다.

4장은 AI 인프라의 세 축 — 길이·속도·비용 — 을 정리합니다. 컨텍스트 윈도우 250배. 토큰당 비용 연 50~200배 하락. 그리고 그 세 축이 만들어 낸 새로운 일감이 본론 5개 직업의 일감의 원료가 됩니다. 5장은 에이전트가 도구에서 동료에 가까운 자리로 올라온 풍경. 6장은 시트당 과금이 결과물 과금으로 옮겨가는 비즈니스 모델 변화.

이 세 장이 왜 지금 새 직업이 자라는지에 대한 가장 단단한 답을 제공합니다.

4장. GPU와 데이터센터가 가능하게 한 것들 — 길이·속도·비용

“Big Tech is about to spend $700 billion on AI this year. No one knows where the buildout ends.” — Fortune, 2026년 4월

GPU와 데이터센터가 깔리는 풍경은, 멀리서 보면 천문학적 숫자들의 연속입니다. 그러나 가까이서 보면, 그 안에 세 가지 축이 움직이고 있습니다. 길이가 길어지고. 속도가 빨라지고. 비용이 떨어지고.

이 세 축이 매번 한 단계씩 움직일 때마다, 그 위에서 새로운 일이 가능해집니다. 그리고 그 일들이, 새 직업의 일감이 됩니다.


길이 — 한 번에 처리할 수 있는 정보의 양

LLM의 컨텍스트 윈도우 변천을 한 줄로 정렬해 보겠습니다.

시점 모델 컨텍스트 윈도우
2022년 11월 GPT-3.5 (ChatGPT 출시 시점) 4K 토큰
2023년 3월 GPT-4 8K → 32K
2023년 11월 Claude 2.1 200K
2024년 초 Gemini 1.5 Pro 1M (최초의 1M GA)
2025년 8월 Claude Sonnet 4 1M
2026년 3월 Claude Sonnet 4.6, GPT-5.4 1M GA

3년 만에 4K → 1M = 250배. 일부 모델은 10M까지 갔습니다.

250배가 무엇을 의미하는지는, 그 위에서 가능해진 일을 보면 알 수 있습니다.

문서 요약과 분석. 4K 시절에는 한 페이지짜리 문서를 요약하는 것이 한계였습니다. 1M에서는 기업 분기보고서 1년 치, 약 300페이지를 한 번에 넣고 분석할 수 있습니다.

코드베이스 탐색. 4K로는 함수 하나를 검토하는 수준이었습니다. 1M에서는 중규모 리포지토리의 50% 이상을 한 번에 컨텍스트에 올릴 수 있습니다. Cursor와 Claude Code 같은 도구들이 가능해진 배경입니다.

장기 에이전트. 4K로는 멀티턴 대화 자체가 어려웠습니다. 길어지면 앞 부분을 잊었습니다. 1M에서는 수십 분짜리 작업 흐름을 끝까지 유지할 수 있습니다. Anthropic이 2025년 Rakuten 사례에서 보여 준 7시간 자율 작업은 이 길이가 받쳐 주지 않으면 불가능한 풍경입니다.

길이가 길어지는 것이 만들어 내는 새 일감은 분명합니다. 맥락이 긴 작업. 사람이 한 번에 머릿속에 담아내기 어려운 작업들을, AI가 한 번에 다루기 시작했습니다.


속도 — 첫 응답이 도착하는 시간

길이가 길어지는 동안, 속도도 빨라졌습니다.

토큰 생성 속도(throughput)를 측정하는 단위는 초당 토큰 수입니다. 그리고 첫 응답 지연(Time To First Token, TTFT)이 사용자 체감에 가장 큰 영향을 줍니다.

Groq라는 회사가 처음 추론 속도에 집중하기 시작했습니다. LPU(Language Processing Unit)라는 결정론적 컴파일러 기반 아키텍처. Llama 2 70B Chat에서 초당 241 토큰을 달성했습니다.

Cerebras가 그보다 더 빨랐습니다. 웨이퍼 한 장 전체를 한 칩으로 쓰는 CS-3 아키텍처. Llama 3.1 모델에서 측정된 속도는 다음과 같습니다.

Artificial Analysis라는 독립 벤치마크 기관이 측정한 바로는, Cerebras가 같은 모델에서 일반 GPU 대비 약 20배 빠릅니다.

속도가 빨라지면 무엇이 가능해질까요. 대화의 호흡이 자연스러워집니다. 응답이 1~2초 안에 시작되면, 사람은 그 시스템을 대화 상대로 받아들이기 시작합니다. 응답이 10초 걸리면, 시스템은 문서 작성 도구에 가깝게 느껴집니다.

이 차이가 만들어 내는 새 일감은 두 가지 방향입니다.

실시간 어시스턴트. 코딩 중에 옆에서 한 줄 한 줄 같이 쓰는 도구. Cursor의 autocomplete, GitHub Copilot의 인라인 제안. 1초 안에 응답이 오지 않으면 의미가 없는 사용성입니다.

음성 인터페이스. 사람과 대화하는 음성 에이전트. 자연스러운 호흡을 만들려면 첫 응답이 0.5초 안에 와야 합니다. Sierra가 만든 고객 응대 에이전트, OpenAI의 Advanced Voice 모드 같은 제품들이 이 속도 위에 올라가 있습니다.


비용 — 한 번 호출하는 데 얼마인가

세 번째 축은 비용입니다. 그리고 이 축이 가장 빠르게 움직였습니다.

GPT-4가 처음 출시된 2023년 3월 가격을 기억해 보겠습니다.

입력: $30 / 1M 토큰 출력: $60 / 1M 토큰

3년 뒤인 지금, GPT-4 수준의 성능에 도달하는 모델의 가격은 1M 토큰당 1달러 미만입니다. GPT-4.1 같은 후속 모델은 입력 $2, 출력 $8 수준에서 같은 작업을 처리합니다. 단순 비교로 15~30배 인하입니다.

Epoch AI라는 연구 기관이 Algorithmic Efficiency and the Falling Cost of AI Inference라는 보고서에서 이 곡선을 정량적으로 분석했습니다. 성능 마일스톤별로 가격이 얼마나 빠르게 떨어졌는지를 추적한 보고서입니다. 그 결과를 한 줄로 정리하면 이렇습니다.

성능 마일스톤별로 가격이 연 9배에서 900배까지 떨어졌습니다. 중앙값은 연 50배. 그리고 2024년 1월 이후 가속도가 200배까지 올라갔습니다.

특정 성능 — 예를 들어 박사 수준 과학 질문 — 을 풀 수 있는 능력의 가격이 연 40배 떨어지는 곡선이 측정되었습니다.

Epoch AI 보고서가 한 문장으로 이 현상을 요약했습니다.

“The fastest trends (e.g. 900x per year) start after January 2024.”

가장 빠른 가격 하락이 2024년 1월 이후에 시작되었다는 것. 다시 말하면, 2024년 이후가 본격적인 비용 가속의 시대라는 진단입니다.

비용이 떨어지면 무엇이 가능해질까요. 그 전에는 너무 비싸서 시도조차 안 했던 일들이 가능해집니다.

평가 자동화. 한 번의 평가에 LLM을 100~1,000번 호출하는 LLM-as-judge 시스템. 토큰당 30달러 시대에는 사치였습니다. 토큰당 1달러 미만이 된 다음에야 표준 도구가 되었습니다.

대량 분류. 콜센터 대화 1,000만 건을 한꺼번에 분류하는 일. 토큰당 비용이 100배 떨어진 다음에야 그 작업 전체를 LLM에 맡길 수 있게 되었습니다.

에이전트 루프. 자기 자신에게 여러 번 질문을 던지면서 작업을 풀어 가는 에이전트. 한 작업에 1,000~10,000번의 LLM 호출이 필요한 경우가 흔합니다. 비용이 떨어지지 않았다면 가능하지 않았던 풍경입니다.

길이·속도·비용. 이 세 축이 동시에 움직이면서, 새 일감의 카탈로그가 매년 두꺼워지고 있습니다.


capex의 규모 — 인프라가 깔리는 풍경

이 세 축이 가능해진 배후에는, 데이터센터에 들어간 자본이 있습니다.

4대 하이퍼스케일러 — Microsoft, Meta, Google, Amazon — 의 연간 capex 합계를 한 줄로 정렬해 보겠습니다.

분기당 합산으로 보면, 2025년 후반 분기당 capex가 1,300~1,400억 달러 수준입니다. 한 분기에 일본의 일년 정부 ICT 예산보다 많은 자본이 데이터센터로 들어가는 풍경입니다.

회사별 가이던스를 잠깐 들여다보겠습니다.

Microsoft. FY2026 capex 예상 $190B. Q4 단독 $40B 이상. Q3 FY2026 기준 Azure 연 매출이 $75B를 돌파했고, 34% 성장 중입니다. Microsoft는 지난 12개월 동안 신규 데이터센터 용량 2GW를 확보했습니다. 전 세계 70개 리전, 400개 이상의 데이터센터를 운영합니다.

Amazon. 2025년 capex $100B로 가이던스했습니다. 2024년 $83B에서 증가한 수치입니다.

Alphabet (Google). FY2026 capex 가이던스 $180~190B.

이 capex가 어디로 들어가는지를 한 줄로 정리하면, GPU와 그것을 받쳐 줄 데이터센터 설비입니다. 전력. 냉각. 네트워크. 그리고 그 위에 올라가는 Nvidia GPU들.

Fortune의 한 기사가 이 풍경을 한 줄로 요약했습니다.

“Big Tech is about to spend $700 billion on AI this year. No one knows where the buildout ends.”

빅테크가 올해 AI에 7,000억 달러를 쓰려고 한다는 것. 그리고 그 건설이 어디서 끝나는지를 아무도 모른다는 것.


모바일과 같은 그림 — 한꺼번에 가능해진 것들

지난 사이클들이 그랬듯, 인프라가 깔리는 것 자체가 시대를 만드는 것은 아닙니다. 그 인프라가 한꺼번에 무엇을 가능하게 했는지가 시대를 만듭니다.

모바일 시대를 잠깐 떠올려 보겠습니다. iPhone이 깔린 다음에, 그 안에서 한꺼번에 가능해진 것들이 있었습니다.

이 다섯 가지가 한꺼번에 가능해진 다음에야 Uber가 성립했습니다. 그 전에는 길에서 차를 부른다는 발상 자체가 명확하지 않았습니다.

AI 시대에 한꺼번에 가능해진 것들을, 같은 형식으로 정리해 보겠습니다.

이 세 가지가 한꺼번에 가능해진 다음에 새 직업의 일감이 자라기 시작했습니다.

길이가 만든 일감 = Applied AI Engineer의 일감. RAG 시스템에서 어떤 청크를 가져올지, 1M 토큰을 어떻게 효율적으로 채울지, 컨텍스트가 길어졌을 때 모델이 어디까지 집중하는지를 모니터링하는 일. 백엔드 개발자가 자연스럽게 옮겨갈 수 있는 자리입니다.

속도가 만든 일감 = Forward Deployed Engineer의 일감. 고객 현장에서 실시간 응답 시스템을 튜닝하는 일. 1초 안에 응답이 와야 하는 음성 에이전트를 고객사 환경에 맞춰 배포하는 일. SI 컨설턴트가 옮겨가는 자리입니다.

비용이 만든 일감 = Eval Engineer의 일감. 평가를 자동화하는 일. LLM-as-judge 시스템을 설계하고 편향을 잡는 일. 한 번의 평가에 1,000번 호출하는 게 가능해진 다음에야 직업이 된 자리입니다.

세 축이 함께 만든 일감 = Agent 운영자의 일감. 에이전트가 길게, 빠르게, 싸게 작동하는 동안 그 행동을 추적하고 실패 모드를 카탈로그화하는 일. 다음 장에서 본격적으로 다룰 풍경입니다.

이 직업들의 일감이 AI 인프라의 어떤 축에서 나왔는지를 한 줄로 매핑할 수 있는 것이, 이 시대의 특징입니다. 인프라와 직업이 정확히 짝지어 있습니다.


다음 장으로

여기까지가 AI 인프라의 세 축이었습니다. 길이. 속도. 비용. 그리고 그 위에서 한꺼번에 가능해진 일감들.

다음 장에서, 그 일감 중 가장 새로운 풍경을 들여다보겠습니다. 에이전트가 일을 한다는 것이 어떤 의미인지를. 도구에서 어시스턴트로, 어시스턴트에서 동료에 가까운 존재로, 한 단계씩 올라온 풍경을 살펴보겠습니다.

5장. 에이전트가 일을 한다는 것 — 도구가 아니라 동료에 가까운

“환각은 모델만의 문제가 아닙니다. 프로덕션에서는, 시스템 설계의 문제입니다.” — Galileo AI 블로그

지난 장에서 본 길이·속도·비용이 한꺼번에 가능해진 다음, 새로 자라기 시작한 풍경이 한 가지 있습니다. 에이전트입니다.

에이전트라는 단어는 매년 의미가 조금씩 바뀌어 왔습니다. 2022년 말의 에이전트는 대화 봇에 가까웠습니다. 2023년의 에이전트는 도구를 호출할 수 있는 LLM이었습니다. 2024년이 지나면서 스스로 계획하고 여러 단계를 수행하는 시스템으로 의미가 옮겨갔습니다. 2026년 지금의 에이전트는, 어떤 작업에서는 동료에 가까운 존재가 되어 있습니다.

이 변화가 무엇을 의미하는지, 한 단계씩 들여다보겠습니다.


도구·어시스턴트·에이전트 — 누가 주도권을 쥐는가

세 가지 단어가 매번 같은 자리에 등장하지만, 그 사이에 한 가지 큰 차이가 있습니다. 누가 주도권을 쥐고 있는가입니다.

도구. 망치, 계산기, 검색창. 사용자가 목적을 정하고, 단계를 결정하고, 결과를 평가합니다. 도구는 시키는 일만 합니다. 한 번에 하나씩.

어시스턴트. 비서, 인턴, 자동완성 기능. 사용자가 큰 방향을 정하고, 어시스턴트가 한 단계를 제안합니다. 사용자가 그 제안을 받아들이거나 거절하면서 작업이 진행됩니다. 주도권은 여전히 사용자에게 있지만, 어시스턴트가 다음에 무엇을 할지에 대해 제안을 합니다.

에이전트. 동료. 사용자가 목표를 던지면, 에이전트가 단계를 스스로 결정해 수행합니다. 중간에 사용자에게 보고할 수도 있고, 안 할 수도 있습니다. 주도권의 상당 부분이 에이전트에게 넘어가 있습니다.

같은 LLM이라도 어떤 시스템 안에 들어가 있느냐에 따라 이 세 가지 중 어떤 것도 될 수 있습니다. 그러나 에이전트로 작동시키는 것이 가장 어렵고, 그래서 가장 값나가는 일이 되었습니다.


에이전트의 네 모듈 — Profile, Memory, Planning, Action

런민대학교 Renmin University의 Lei Wang 외 연구팀이 2023년에 A Survey on Large Language Model based Autonomous Agents라는 서베이 논문을 냈습니다(arXiv:2308.11432). 200편 이상의 관련 연구를 정리하면서, 저자들이 LLM 기반 에이전트의 공통 구조를 네 가지 모듈로 추출했습니다.

Profile (역할 정의). 이 에이전트가 무엇을 하는 존재인지, 어떤 톤으로 응답할지, 어떤 사용자에게 봉사하는지를 정의하는 모듈입니다. 시스템 프롬프트가 가장 단순한 형태입니다.

Memory (기억). 단기 기억(현재 대화 컨텍스트)과 장기 기억(과거 상호작용·문서·데이터베이스)을 관리하는 모듈입니다. RAG가 가장 흔한 구현 방식입니다.

Planning (계획). 큰 목표를 작은 단계로 쪼개고, 어떤 순서로 수행할지를 결정하는 모듈입니다. ReAct 패턴, Chain-of-Thought, Tree-of-Thoughts 같은 기법들이 이 모듈에 들어갑니다.

Action (행동). 외부 세계에 영향을 주는 모듈입니다. API 호출, 파일 쓰기, 코드 실행, 다른 시스템과의 통신.

이 네 모듈이 서로 맞물려 작동할 때에야 에이전트가 됩니다. 어느 한 모듈이라도 약하면, 에이전트는 어시스턴트 수준에 머뭅니다.

그리고 이 네 모듈을 각각 전문으로 다루는 사람이 새 직업의 후보입니다. Profile을 전문으로 하는 사람 — 어떤 사람들은 프롬프트 아키텍트라고 부릅니다. Memory를 전문으로 하는 사람 — RAG 엔지니어 또는 Applied AI Engineer가 흔히 다룹니다. Planning을 전문으로 하는 사람 — 가장 새로운 자리입니다. Action을 전문으로 하는 사람 — Forward Deployed Engineer에 가깝습니다.

직업 다섯 개로 깔끔하게 매핑되지는 않지만, 본론 챕터에서 살펴볼 자리들이 이 네 모듈의 어느 한 면과 짝지어 있다는 점은 분명합니다.


자율성 단계 — 사람에서 에이전트로 주도권이 옮겨가는 곡선

에이전트의 자율성을 한 줄로 정렬해 보면, 다음과 같은 단계가 보입니다.

  1. 단발 응답. 한 번 질문하고 한 번 답을 받는다.
  2. 멀티턴 대화. 여러 번 주고받지만, 매번 사람이 다음 입력을 던진다.
  3. 도구 사용. 모델이 스스로 외부 도구를 호출한다. 예: 계산기, 검색.
  4. 장기 작업. 모델이 여러 단계를 스스로 계획하고 수행한다. 사람은 결과만 본다.
  5. 자율 운영. 모델이 스스로 시작하고, 스스로 마무리한다. 사람은 가끔 보고를 받는다.

2026년 지금, 대부분의 프로덕션 시스템이 3단계 어디쯤에 있습니다. 4단계가 본격적으로 작동하기 시작한 게 2025년 중반부터입니다. 5단계는 아직 실험 단계입니다.

Anthropic이 2025년에 일본의 Rakuten 그룹과 함께 발표한 사례가 있습니다. Claude를 이용한 자율 에이전트가 7시간 동안 자율적으로 작업해서, 1,250만 줄 규모의 코드베이스에서 엔지니어링 작업을 완료한 사례였습니다. 4단계와 5단계 사이쯤의 풍경입니다.

7시간 자율 작업. 이 표현이 가지는 의미를 잠깐 곱씹어 볼 만합니다. 7시간 동안 사람이 옆에 없는 상태에서 시스템이 작동했다는 것. 길이·속도·비용의 세 축이 받쳐 주지 않으면 가능하지 않은 풍경입니다.


그러나 — 다중 에이전트는 80%가 망가져 있습니다

이 풍경을 너무 낙관적으로만 그리면, 책의 톤이 흐트러집니다. 같은 시기에 학계가 정직하게 측정한 데이터가 있습니다.

UC Berkeley의 Cemri 외 연구팀이 2025년 Why Do Multi-Agent LLM Systems Fail?라는 논문을 발표했습니다(arXiv:2503.13657). 7개의 오픈소스 다중 에이전트 시스템에서 발생한 1,600건 이상의 실행 트레이스를 6명의 전문가가 그라운디드 시어리(grounded theory) 방식으로 분석한 연구였습니다.

논문이 만든 핵심 결과물은 두 가지입니다.

MASFT(Multi-Agent System Failure Taxonomy). 14가지 실패 모드를 3개 카테고리로 분류한 분류 체계입니다. 카테고리 1은 시스템 설계(역할 정의 부족, 권한 충돌 등). 카테고리 2는 에이전트 간 부정렬(같은 작업을 중복 수행, 의사소통 실패). 카테고리 3은 작업 검증(결과 검증 실패, 실패 모드 감지 못함).

실패율 측정. SOTA(state-of-the-art) 오픈소스 다중 에이전트 시스템의 실패율이 41%에서 86.7%까지였습니다. 단일 에이전트 베이스라인 대비 성능 향상이 최소이거나 오히려 마이너스인 경우가 흔했습니다.

논문이 한 문장으로 정리한 결론입니다.

“Despite the enthusiasm surrounding multi-agent LLM systems, our analysis reveals failure rates of 41% to 86.7% across seven state-of-the-art frameworks — performance gains over single-agent baselines are often minimal or negative.”

다중 에이전트에 대한 열광에도 불구하고, 측정해 보면 기본적으로 작동하지 않는다는 것. 단일 에이전트보다 좋아지는 경우가 드물다는 것.

이 데이터가 무엇을 말하는지가 분명합니다. 에이전트가 동료처럼 일하기 시작했다는 풍경은 사실이지만, 그 동료의 80%가 망가져 있다는 것도 사실입니다. 동료에 가까울수록, 그 옆에 운영하는 사람이 필요합니다.


동료에 가까운 자리가 만들어 낸 새 일감

에이전트가 단순 도구가 아니라 동료에 가까운 존재로 올라온 다음, 그 옆에서 함께 일하는 사람에게 새로운 일감이 생겼습니다. 한 줄로 정리해 보면 다음과 같습니다.

행동 설계. 에이전트가 어떤 상황에서 어떻게 행동해야 하는지를 미리 설계하는 일. 시스템 프롬프트, 도구 권한 설정, 가드레일 정의. 코드를 쓰는 게 아니라, 행동을 쓰는 일에 가깝습니다.

성공 기준 정의. 에이전트가 작업을 끝냈다는 것을 어떻게 측정할지를 정의하는 일. 결정론적 시스템이라면 단위 테스트가 했던 일을, 비결정론적 시스템에서는 evals가 합니다. 11장에서 본격적으로 다룰 풍경입니다.

실패 모드 추적. 에이전트가 망가졌을 때, 어떻게 망가졌는지의 패턴을 추적하고 카탈로그화하는 일. Cemri 논문의 14가지 실패 모드가 그 카탈로그의 첫 줄에 해당합니다.

사후 검증. 에이전트가 결과를 냈을 때, 그것이 정말 맞는지를 사후에 확인하는 일. LLM-as-judge 시스템이 이 영역에 들어갑니다.

이 네 가지 일을 통째로 책임지는 자리가, 10장에서 만나게 될 Agent 운영자(AgentOps)입니다. 책의 시그니처 직군입니다. 가장 새롭고, 한국 시장에 가장 생소하며, 가장 빨리 자라고 있는 자리.

Galileo AI의 한 블로그 글이 이 일감의 본질을 한 문장으로 정리했습니다.

“환각은 모델만의 문제가 아닙니다. 프로덕션에서는, 시스템 설계의 문제입니다.”

모델의 문제처럼 보이지만, 사실은 시스템 설계의 문제. 그 시스템 설계를 담당하는 사람이, 새 직업이 됩니다.


SRE에서 AgentOps로 — 관측의 대상이 바뀌었습니다

5장의 마지막 한 절은, 10장으로 가는 다리입니다.

지난 10년 동안 SRE(Site Reliability Engineering)와 DevOps 같은 직업이 자랐습니다. 서비스가 작동 중이라는 것을 보장하는 일을 담당했습니다. 관측 가능성(observability). 알람. 회복 자동화. 이 직업들이 시스템의 상태를 추적하는 데 집중했습니다.

AgentOps는 그 직업의 다음 진화입니다. 추적의 대상이 시스템의 상태에서 시스템의 행동으로 바뀌었습니다.

SRE는 서비스가 죽었는지를 추적합니다. AgentOps는 에이전트가 이상한 결정을 내렸는지를 추적합니다.

SRE는 CPU와 메모리와 응답 시간을 봅니다. AgentOps는 에이전트의 의사결정 트리, 도구 호출 패턴, 실패 모드를 봅니다.

SRE는 알람이 울리면 사람이 개입합니다. AgentOps는 에이전트가 잘못 행동했을 때 그 패턴을 학습해 다음에는 막는 시스템을 짭니다.

같은 도구 — 트레이싱, 메트릭, 알람 — 가 다른 대상을 향해 사용됩니다. 그래서 SRE에서 AgentOps로 옮겨가는 것은 가까운 점프입니다. 그러나 완전히 같은 일은 아닙니다.

10장에서, 이 직업이 정확히 어떤 일을 하는지를 하루의 풍경부터 다섯 칸 포맷으로 들여다보겠습니다.

다음 장에서는, 그 전에 한 번 더 짚어 볼 풍경이 있습니다. 비즈니스 모델입니다. 에이전트가 일을 한다는 것이 돈의 흐름을 어떻게 바꾸고 있는지. 시트당 과금이 무너지고 결과물 과금이 자라는 풍경.

6장. 새로운 비즈니스 모델 — 시트당 과금에서 결과물 과금까지

“Software shifts from aiding human productivity to autonomously completing work.” — Battery Ventures, State of AI 2025

에이전트가 일을 한다는 것이, 돈의 흐름을 한 단계씩 바꿉니다. SaaS의 황금기를 떠받쳤던 시트당 과금이 무너지기 시작했고, 그 자리에 토큰 단위 과금결과물 과금이 자라고 있습니다.

이 변화는 단순한 가격 정책의 이동이 아닙니다. 직업의 KPI가 무엇이 되는지가, 이 가격 모델에 따라 결정됩니다. 그래서 본론 7~11장의 직업을 들여다보기 전에, 그 일들이 어떤 KPI를 향해 움직이는지를 한 번 짚어 두는 게 좋겠습니다.


시트당 과금이 SaaS의 황금기를 만들었습니다

2010년대 SaaS의 황금기는, 한 가지 단순한 모델 위에 서 있었습니다. 사람 머릿수 × 월 단가.

Salesforce가 사용자 한 명당 월 $25~$300으로 시작했고, HubSpot이 좌석당 $50~$1,200으로 굳혔고, ServiceNow가 엔터프라이즈에 시트당 $100~$300을 받았습니다. 이 모델이 좋았던 이유는 분명했습니다.

예측 가능했습니다. 직원 수가 1,000명이면 이번 분기 매출이 얼마인지 거의 자동으로 계산되었습니다. 회사가 자라면 매출도 같이 자랐습니다. 이게 SaaS 회사들의 Rule of 40을 가능하게 한 구조였습니다.

확장이 단순했습니다. 새 시장에 들어갈 때, 얼마나 많은 사람에게 팔 수 있는가만 계산하면 되었습니다. 시트 수 = 시장 크기 = 매출 천장.

Gross margin이 높았습니다. 한 번 만든 소프트웨어를 한 사람에게 팔든 천 명에게 팔든, 한계 비용이 거의 0이었습니다. 그래서 SaaS 회사들의 gross margin이 80~90%를 유지했습니다.

10년 동안 이 모델이 작동했습니다. 그 위에서 SaaS의 황금기가 펼쳐졌습니다. 그러나 2024년부터 이 모델에 균열이 생기기 시작했습니다.


토큰 단위 과금 — 두 얼굴

균열은 토큰 단위 과금에서 시작했습니다. OpenAI와 Anthropic이 API 가격을 토큰 사용량으로 정한 게 출발점이었습니다.

이 모델의 첫 번째 얼굴은 공급자에게 좋은 면입니다. 매출이 사용량에 비례합니다. 큰 고객이 큰 사용량을 만들면, 매출이 빠르게 인식됩니다. 큰 모델이 더 잘 쓰이면, 그 모델의 매출이 자연스럽게 증가합니다.

그러나 같은 모델의 두 번째 얼굴은 마진 압박입니다. 사용자가 얼마나 쓸지가 매번 다르기 때문에, 매출이 예측 가능하지 않습니다. 그리고 API 호출 한 번에 실제 GPU 비용이 발생하기 때문에, gross margin이 SaaS 시대처럼 80~90%가 아닙니다.

Battery Ventures와 Bessemer가 동시에 짚은 한 수치가 있습니다. AI 시대의 gross margin이 50~60% 수준이라는 추정입니다. SaaS 시대 80~90%에서 30~40%포인트가 빠진 풍경입니다.

이 두 얼굴 사이에서, 회사들이 세 번째 모델을 찾기 시작했습니다.


결과물 과금 — 새 모델의 챔피언들

결과물 단위로 과금한다는 발상은 단순합니다. AI가 완성한 결과 1건당 얼마. 사용량이 아니라, 성공한 일에 가격이 매겨집니다.

이 모델을 가장 먼저 시도한 회사 중 하나가 Intercom의 Fin입니다.

Fin. 고객 응대 AI 에이전트. 가격은 1건당 99센트. 한 대화에서 여러 질문에 답하더라도, 그 대화가 문제를 끝까지 해결하거나 사람으로 핸드오프되면 99센트 한 번만 과금됩니다. Intercom의 헬프데스크 통합 없이 Zendesk나 Salesforce 위에서 Fin을 단독으로 쓰면, 셋업·통합·플랫폼 수수료가 없습니다.

Fin.ai 가격 페이지에 적힌 한 줄이 이 모델의 본질을 짚었습니다.

“You only pay when Fin delivers value.”

가치가 전달될 때만 비용을 낸다는 것.

같은 시기에 Zendesk가 Resolution Platform을 발표했습니다. 2024년 8월. 고객 경험(CX) 업계 최초의 outcome-based pricing이라고 명시했습니다. 가격 구조는 다음과 같습니다.

자동 해결 건수 단가
1~100건 $1.50/건
101~1,000건 $1.30/건
1,001~5,000건 $1.10/건
5,001건+ $1.00/건
약정 없음 (pay-as-you-go) $2.00/건

규모가 클수록 단가가 떨어지는 구조. 그리고 AI 에이전트가 끝까지 해결하지 못하고 사람에게 에스컬레이션될 경우, 과금하지 않습니다. Fin의 모델을 산업 표준으로 끌어올린 시도였습니다.

세 번째로 살펴볼 회사는 Sierra입니다. 전 Salesforce 공동 CEO Bret Taylor와 전 Google Labs의 Clay Bavor가 2024년 2월에 출범시킨 회사. 처음부터 outcome-based pricing을 표방했습니다.

Sierra의 성장 곡선을 한 줄로 정렬해 보겠습니다.

2년이 채 되지 않는 기간에 매출이 0에서 1억 5천만 달러, 평가가치가 158억 달러까지 올라온 회사입니다.

Sierra의 과금은 세 가지 결과 중 하나가 발생할 때만 일어납니다.

  1. 에이전트가 대화를 성공적으로 해결한 경우
  2. 해지하려던 고객을 유지한 경우(해지 만회)
  3. 업셀을 완료한 경우

Bret Taylor가 한 인터뷰에서 한 발언이 이 모델의 본질을 정리했습니다.

“Outcome-based pricing aligns the vendor’s incentive with the customer’s business outcome.”

공급자의 인센티브를 고객의 비즈니스 결과와 일치시킨다는 것. 시트당 모델에서는 사용자 수가 늘어나는 것에 공급자의 인센티브가 있었고, 토큰 모델에서는 사용량이 늘어나는 것에 인센티브가 있었습니다. 결과물 모델에서는 결과가 좋아지는 것에 인센티브가 있습니다.

이 정렬이, AI 시대 비즈니스 모델의 새로운 표준이 되어 가고 있습니다.


빛과 그림자 — Klarna의 사례

결과물 과금이 모든 경우에 성공한 것은 아닙니다. 빛만큼 명확한 그림자가 있습니다. 그 그림자를 한 사례로 들여다보겠습니다.

스웨덴의 핀테크 회사 Klarna가 2024년 2월, OpenAI와 협업해서 AI 어시스턴트를 도입했습니다. 출시 직후 발표한 숫자가 놀라웠습니다.

이 발표가 시장에 큰 인상을 남겼습니다. AI가 사람을 700명만큼 대체했다는 메시지로 자주 인용되었습니다. 같은 기간 Klarna의 직원 수는 5,527명에서 3,422명으로 약 2,000명이 줄었습니다.

그러나 2025년 후반, 풍경이 한 번 더 바뀌었습니다. Klarna가 사람 고객 응대 인력을 다시 채용하기 시작했습니다. Customer Experience Dive에 인용된 CEO Sebastian Siemiatkowski의 발언이 그 변화의 이유를 짚었습니다.

“We focused too much on efficiency and cost. The result was lower quality.”

효율과 비용에 너무 집중했다는 것. 그 결과 품질이 떨어졌다는 것.

여기서 한 가지 짚어 둘 만한 것이 있습니다. “700명을 대체했다”는 표현이 종종 700명이 해고되었다는 의미로 인용되지만, 정확히는 성장기에 추가로 채용하지 않은 일감 규모에 가까웠습니다. 그리고 직원 수가 2,000명 줄어든 데에는 다른 비용 절감 요인도 함께 작용했습니다. 본문에서 인용할 때 이 구분을 정확히 해 두는 것이 좋습니다.

Klarna의 재채용을 결과 과금 모델의 실패로 읽을 수도 있고, 어떤 자리에 사람이 남아야 하는지의 신호로 읽을 수도 있습니다. 이 책은 후자에 가깝게 읽습니다. 결과물 과금 모델이 무너졌다기보다, 결과를 책임지는 일에서 사람이 빠질 수 없는 영역이 드러난 사건에 가깝습니다. 그리고 그 자리에 새로운 직업이 자라고 있습니다. 본론에서 다룰 11장 Eval Engineer와 10장 Agent 운영자가, Klarna가 다시 사람으로 돌아온 그 자리의 옆에서 일하는 사람입니다.


시장의 흐름 — 시트가 빠지고, 하이브리드가 자라고 있습니다

Bessemer Venture Partners가 2026년 AI Pricing and Monetization Playbook에서 200개 이상의 AI 벤더를 추적한 데이터가 있습니다. 1년 전후의 가격 모델 변화를 한 줄로 정리하면 다음과 같습니다.

12개월 만에 시트 모델 비중이 6%p 줄었고, 하이브리드가 14%p 늘었습니다.

또 한 가지 데이터가 있습니다. 시트 기반 가격을 고수하는 AI 회사들의 재무 특성입니다. Bessemer가 추적한 바로는, 시트를 고수하는 회사들이 gross margin이 40% 낮고, churn이 2.3배 높다는 결과가 나왔습니다. 시장이 시트 모델에서 도망치고 있다는 것을 정량적으로 보여 주는 데이터입니다.

이 흐름의 원인이 무엇인지를 Bessemer가 한 문장으로 정리했습니다.

“AI 에이전트는 사람 수 자체를 줄입니다. 시트 과금이 의존하는 ’seat count’가 압축됩니다.”

시트 모델이 가정하는 사람 수 × 단가에서, 사람 수 부분이 무너지고 있습니다. 그래서 가격 정의의 단위가 바뀌어야 합니다.


AI 회사들의 매출 구조 — 한 자리에서 비교

이 변화 안에서 자라고 있는 회사들의 매출 구조를, 한 표로 정리해 보겠습니다.

OpenAI. 2026년 4월 월 매출 약 $2B, 연 환산 약 $24B. 1년 만에 매출이 4배. 엔터프라이즈 비중이 2025년 30%에서 2026년 40% 이상으로 올라갔습니다. 2026년 말에는 컨슈머와 엔터프라이즈가 거의 동률이 될 거라는 전망입니다. 2026년 펀딩 $122B 추가, 평가가치 $852B.

Anthropic. 연간 환산 ARR이 2025년 말 $9B에서 2026년 3월 초 $19B를 거쳐 현재 약 $30B 수준(보도 기준)으로 추정됩니다. 컨슈머 단계가 거의 없다는 점이 OpenAI와의 큰 차이입니다. 엔터프라이즈 API와 Google Cloud·AWS 클라우드 파트너십이 매출 기반입니다. 학습 비용이 OpenAI의 약 1/4 수준이라는 분석도 있습니다.

Cursor (Anysphere). ARR 변화를 한 줄로 정렬하면, 2025년 1월 $100M → 2025년 6월 $500M → 2025년 11월 $1B → 2026년 2월 $2B. 3년 만에 0에서 $2B까지, B2B 회사 사상 최단 기록입니다. 평가가치는 2025년 1월 $2.5B에서 2026년 4월 $50B 펀딩 협상까지. 사용자 200만, 유료 100만 이상, ARPU 약 $500/년.

Perplexity. 2025년 매출 $200M, 2026년 목표 $650M. 컨슈머 검색 시장에 가장 집중되어 있습니다.

이 네 회사의 매출 구조가 한 가지 공통점을 가지고 있습니다. 시트당 과금이 아니라는 것. 토큰 사용량, 구독, 결과 단위, 또는 그 조합으로 매출을 만들고 있습니다.


직업의 KPI가 바뀌고 있습니다

이 비즈니스 모델 변화가, 직업의 KPI를 어떻게 바꿀까요. 본론 7~11장의 직업을 미리 한 줄씩 짚어 보겠습니다.

AI Product Manager (7장) — KPI가 기능 출시 수에서 결과물 단가 절감으로 옮겨갑니다. PRD를 짜는 게 아니라, evals가 기능 명세를 대신합니다. 비즈니스 모델 KPI가 Resolution Rate해지 만회 건수가 되는 회사에서는, PM이 그 지표를 직접 책임집니다.

Forward Deployed Engineer (8장) — KPI가 프로젝트 마감일에서 현장 도입 후 결과 도달까지의 시간으로 옮겨갑니다. 코드를 배포한 다음 고객의 KPI가 실제로 움직이는지가 일의 끝입니다.

Applied AI Engineer (9장) — KPI가 응답 시간·가용성에서 토큰당 비용·결과당 비용으로 옮겨갑니다. 한 번 호출에 들어가는 토큰을 줄이는 게, 백엔드 개발자의 일감이 됩니다.

Agent 운영자 / AgentOps (10장) — KPI가 시스템 가동률에서 에이전트 행동의 분포로 옮겨갑니다. 잘못 행동한 비율을 어떻게 줄일지가 일의 본질입니다.

Eval Engineer · AI Reliability (11장) — KPI가 통과/실패율에서 측정 가능성 자체로 옮겨갑니다. 어떤 평가셋이 진짜 품질을 잡는지를 책임집니다.

다섯 개 직업 모두가, 비즈니스 모델 변화의 결과로 KPI가 다시 정의된 자리들입니다. 이 변화가 빠를수록, 이 직업들의 가치도 빠르게 올라갑니다.


다음 단계

여기까지가 PART 2였습니다. AI 인프라가 무엇을 가능하게 했고(4장), 그 위에서 에이전트가 어떻게 일을 하기 시작했고(5장), 그것이 비즈니스 모델을 어떻게 바꿨는지(6장).

이제 책의 무게중심으로 들어갑니다. 7장부터 11장까지, 다섯 개 직업을 같은 다섯 칸 포맷으로 들여다봅니다. AI Product Manager. Forward Deployed Engineer. Applied AI Engineer. Agent 운영자. Eval Engineer. 5년 전에는 이름조차 명확하지 않았던 자리들이, 어떻게 일하고, 어떤 사람이 잘 맞고, 한국에서 어디로 가야 만날 수 있는 자리인지를 살펴보겠습니다.

PART 3 도입부에서, 그 다섯 개 직업이 공통으로 요구하는 능력 한 가지한국 시장에 도착한 단계부터 먼저 정리합니다.

PART 3. 새 직업의 해부

책의 무게중심. 다섯 자리를 같은 다섯 칸 포맷으로 비교합니다.

이 책의 본론에 도착했습니다.

5년 전에는 이름조차 명확하지 않았던 다섯 자리를, 같은 다섯 칸 포맷으로 들여다봅니다. AI Product Manager. Forward Deployed Engineer. Applied AI Engineer. Agent 운영자(AgentOps). Eval Engineer. 각 챕터가 하루의 풍경 / 무엇이 다른가 / 어떤 사람이 잘 맞나 / 한국 채용 신호 / 90일 행동의 다섯 칸을 채웁니다.

본론으로 들어가기 전, 공통 능력 한 가지한국 도착 단계를 짧게 정리하는 도입부가 이어집니다. 다섯 자리를 비교하면서 읽도록 설계된 다섯 챕터입니다.

PART 3 도입 — 새 직업의 해부에 들어가기 전에

본론 5개 챕터로 들어가기 전에, 두 가지를 미리 정리해 두겠습니다. 본론 5개 직업이 공통으로 요구하는 능력 한 가지. 그리고 그 직업들이 한국 시장에 도착한 단계가 어떻게 다른지.

이 두 가지를 미리 깔아 두면, 7장부터 11장까지의 다섯 칸 포맷이 더 입체적으로 읽힙니다.


다섯 직업의 공통 능력 — Jagged Frontier 지도 그리기

Harvard Business School의 Fabrizio Dell’Acqua 외 9명의 연구팀이 2023년에 Navigating the Jagged Technological Frontier라는 논문을 발표했습니다. 758명의 BCG 컨설턴트(전체 IC급의 약 7%)를 대상으로 한 사전등록 무작위 통제 실험(RCT). 글로벌 컨설팅 회사에서 진행된 GenAI 도입 효과 연구로는 지금까지 가장 큰 규모의 실험 중 하나였습니다.

결과를 두 그룹으로 쪼개 보겠습니다.

Frontier 안쪽 작업 (창의적 글쓰기, 아이디어 생성, 분석 같은 작업): - 완료 작업 수: +12.2% - 속도: +25.1% - 인간 평가 품질: +40%

Frontier 바깥쪽 작업 (미묘한 비즈니스 판단, 정량 추론): - 정확도: -19%p

같은 GPT-4를 사용했지만, 어떤 작업에서는 큰 도움이 되었고, 어떤 작업에서는 오히려 망쳤습니다. 그리고 사용자가 두 영역의 경계를 미리 알아채는 능력이 작업 결과의 차이를 만들었습니다.

논문이 한 문장으로 정리한 결론입니다.

“AI capabilities currently form a ‘jagged technological frontier’. For tasks within this frontier, AI can substantially improve human performance; for tasks outside it, AI degrades performance, even when the tasks appear similar in difficulty.”

AI의 능력은 들쭉날쭉한 경계를 이루고 있다는 것. 비슷해 보이는 두 작업 중 하나는 안에 있고 다른 하나는 바깥에 있을 수 있다는 것. 그리고 그 경계를 빨리 식별하는 사람이 AI를 잘 쓰는 사람이라는 것.

이 책의 본론 7~11장에서 다룰 다섯 개 직업이, 공통으로 요구하는 메타 능력 하나가 바로 이것입니다. Jagged Frontier 매핑.

다섯 직업이 모두, AI가 무엇을 잘하고 무엇을 못하는지를 빠르게 식별하는 능력 위에 서 있습니다. 이 능력이 흔히 AI 리터러시라고 불리지만, Dell’Acqua의 연구가 보여 준 정량은 그것보다 더 구체적인 능력입니다. 경계를 그리는 능력.

본론 5개 챕터를 읽을 때, 이 메타 능력이 각 직업에서 어떻게 다른 모양으로 굳어지는지를 함께 보면 좋겠습니다.


한국 도착 단계의 5단계 — 챕터마다 한국 칸의 깊이가 다른 이유

본론 5개 챕터가 같은 다섯 칸 포맷을 따릅니다. 1) 하루의 풍경, 2) 무엇이 다른가, 3) 어떤 사람이 잘 맞나, 4) 한국에서의 채용 신호, 5) 90일 안에 시도해 볼 수 있는 것.

이 다섯 칸 중 네 번째 칸 — 한국에서의 채용 신호 — 의 깊이가 챕터마다 다릅니다. 이게 들쭉날쭉해 보일 수 있지만, 사실은 의도된 들쭉날쭉입니다. 다섯 개 직업이 한국 시장에 도착한 단계가 서로 다르기 때문입니다.

한국 도착 단계를 한 표로 정리하면 다음과 같습니다.

챕터 직업 한국 도착 단계 정확한 타이틀 등장 자료 풍부도
9장 Applied AI Engineer 성숙 — 거의 모든 빅컴퍼니·스타트업이 채용 중 다양한 타이틀로 활발 ★★★★★
8장 Forward Deployed Engineer 재편 중 — SI 빅3가 “AI 컨설턴트 + 솔루션 아키텍트”로 분리·결합 정확한 ‘FDE’ 거의 없음 ★★★★
7장 AI Product Manager 도구화 단계 — PM 직무에 AI 활용이 통합 별도 직군화 1~2년 후 예상 ★★★
10장 Agent 운영자 / AgentOps 운영팀 형태 — SK 에이닷 등 사실상 수행 중 정식 타이틀 거의 없음 ★★
11장 Eval Engineer 가장 늦음 — 업스테이지 부분 사례 영문 표기로만

9장 Applied AI Engineer가 한국에서 가장 성숙해 있습니다. 카카오·네이버·토스·당근·업스테이지·LG AI Research·뤼튼 등 거의 모든 회사가 이 자리를 채용 중이고, 한국 키워드 패턴(RAG + LangChain + LLMOps + 평가)이 거의 모든 공고에 등장합니다.

8장 FDE는 정확한 타이틀은 거의 없지만, SI 빅3(삼성SDS·LG CNS·SK C&C)에서 “AI 컨설턴트”와 “AI 솔루션 아키텍트”의 결합 형태로 빠르게 자라고 있습니다. LG CNS는 11개 AI 직무에서 1,000명을 채용하겠다고 발표했고, 업스테이지는 “AI Customer Engineer”라는 변형 타이틀을 사용합니다.

7장 AI PM은 한국에서 별도 직군으로는 아직 자리잡지 못했습니다. 토스·당근의 PM 직무에 AI 활용이 통합되는 형태로 진행 중이고, 카카오스타일 PM 이미준의 분석에 따르면 미국 데이터에서 AI PM이 폭증하는 동안 한국은 PM의 새 도구상자가 추가되는 단계에 머물러 있습니다. 별도 직군화는 1~2년 후로 예상합니다.

10장 Agent 운영자는 직군 이름은 거의 없지만, SK 텔레콤의 에이닷 운영팀이 사실상 이 역할을 수행하고 있습니다. 프롬프트 엔지니어링과 운영 체계를 통해 운영 리소스를 50% 줄이면서 발화 작업량을 3배로 늘렸다는 사례가 DEVOCEAN 블로그에 공개되어 있습니다. LangSmith는 SKT에서 강의를 진행했고, Langfuse는 한국어 공식 문서를 운영합니다.

11장 Eval Engineer는 한국에서 가장 늦게 들어올 직군입니다. 업스테이지의 AI Research Engineer (LLM Evaluation)가 영문 표기로 존재할 뿐, 카카오·네이버는 ML Engineer 직무에 평가 책임이 통합되어 있습니다. 11장의 한국 칸은 부재 자체를 데이터로 다루는 메타 절을 1.5쪽 정도 따로 두었습니다.

이 표가 본론 5개 챕터의 한국 칸 깊이가 의도적으로 다르다는 것을 미리 깔아 둡니다. 자료가 부족한 챕터는 왜 부족한지를 함께 짚고, 풍부한 챕터는 왜 풍부한지를 짚습니다.


다섯 칸 포맷

본론 7~11장은 같은 다섯 칸으로 채워집니다.

  1. 하루의 풍경 — 가상 인물의 9시부터 6시까지의 일과. 그 직업이 어떤 일들로 채워지는지를 서사로 먼저 보여 줍니다.
  2. 무엇이 다른가 — 기존 직무(전통 PM, 전통 백엔드 등)와의 경계선. 같은 듯 다른 부분을 짚습니다.
  3. 어떤 사람이 잘 맞나 — 적합도 자가진단. 5문항 정도로 나에게 맞는 자리인지를 가늠하게 합니다.
  4. 한국에서의 채용 신호 — 실제 채용 공고, 연봉 레인지, 회사군. (위에서 본 한국 도착 단계에 따라 깊이 다름)
  5. 90일 안에 시도해 볼 수 있는 것 — 포트폴리오·사이드 프로젝트·오픈소스·네트워킹 첫 걸음.

다섯 챕터를 같은 포맷으로 비교할 수 있게 한 것이 이 책의 한 가지 차별점입니다. 책장을 옆으로 넘기면서 같은 칸끼리 비교하면 됩니다.

이 도입부의 두 가지 — Jagged Frontier 매핑이라는 공통 능력, 그리고 한국 도착 단계의 차이 — 를 머릿속에 가져가면, 본론 5개 챕터가 더 입체적으로 읽힙니다.

자, 7장 AI Product Manager부터 시작합니다.

7장. AI Product Manager — 모델을 제품으로 만드는 사람

“Evals replace traditional PRDs for AI products.” — Hamel Husain, hamel.dev (2026)

새 직업 도감의 첫 챕터입니다.

AI Product Manager는 기존 PM과 가장 가까이 있는 자리이면서, 동시에 한국 시장에서 가장 모호한 자리이기도 합니다. PM 직무 공고에 “AI 활용” 한 줄이 추가되는 형태로 자라고 있어서, 별도 직군인지 PM의 새 표준인지에 대한 논쟁이 진행 중입니다. 그러나 미국에서는 이미 별도 trajectory로 분리된 자리이고, 연봉도 일반 PM과 다른 곡선을 그리고 있습니다.

이 자리가 정확히 어떻게 일하는지부터 보겠습니다.


하루의 풍경 — 어느 AI PM의 9시부터 6시까지

가상의 인물 한 명을 떠올려 보겠습니다. 이름은 수진. 미국의 한 시리즈 B AI 스타트업에서 AI Product Manager로 일하고 있습니다. 전직은 카카오에서 PM 4년. 1년 전 이 회사로 이직했습니다.

오전 9시. Slack 알림을 확인합니다. eval 파이프라인 야간 실행 결과 보고가 와 있습니다. 어제 새로 배포한 시스템 프롬프트가 실제 사용자 대화 100건에서 평균 품질 점수 4.2점(5점 만점)을 받았습니다. 이전 버전 4.0점에서 0.2점 올라왔습니다.

수진은 그 결과를 그대로 받아들이지 않습니다. 점수가 떨어진 사례 12건을 따로 추출합니다. 왜 떨어졌는지를 들여다보는 게 하루의 시작입니다.

오전 10시. ML 엔지니어 두 명과 eval 리뷰 미팅. 모든 사례를 같이 봅니다. 한 사례에서 모델이 “예약 가능한 시간을 알려달라”는 질문에 잘못된 시간을 자신 있게 응답했습니다. 자신감 있는 환각. 가장 위험한 실패 모드입니다.

수진이 이 사례를 eval 셋의 정식 항목으로 등록합니다. 이제부터 모든 배포 전에, 이 사례에서 모델이 어떻게 행동하는지가 자동으로 측정됩니다.

오전 11시. 영업팀과의 미팅. 큰 잠재 고객사가 해지율 만회에 대해 outcome-based 가격으로 협상하자고 합니다. 수진이 회사의 지난 3개월 해지 만회 데이터를 가지고 들어갑니다. 평균 만회율 28%. 이 숫자로 가격이 협상됩니다. 28%면 건당 $50, 35%면 건당 $80.

여기서 PM의 일이 영업 협상의 데이터 백업이라는 점이 분명해집니다. AI PM은 종종 영업의 일감을 데이터로 받쳐 주는 자리입니다.

오후 12시. 점심. 점심 시간에 사내 디스코드에서 진행 중인 프롬프트 실험 토론을 따라갑니다. 한 엔지니어가 새 system prompt 변형을 제안했고, 다른 엔지니어가 그 변형이 어떤 사례에서 깨질지를 반박합니다. 수진이 이 토론을 보면서, 어떤 사례를 eval에 추가해야 할지를 적어 둡니다.

오후 1시. 디자이너와 함께 신규 기능 PRD를 작성합니다. 그런데 이 PRD는 기존 PM이 쓰던 PRD와 모양이 다릅니다. 기능 설명은 짧습니다. 사용자가 해야 하는 일 한 줄, 모델이 해야 하는 일 한 줄. 그리고 그 아래에 evals 셋이 길게 붙습니다.

Eval 1: 사용자가 “오늘 만든 예약 보여줘”라고 했을 때, 모델은 오늘 만든 예약만 보여줘야 한다. (성공률 ≥95%) Eval 2: 사용자가 “내일 일정 가능한 시간”이라고 했을 때, 모델은 빈 슬롯 형식의 시간만 답해야 한다. (성공률 ≥90%) Eval 3: 사용자가 모호한 질문 (“그거 어떻게 됐어?”)을 했을 때, 모델은 맥락 부족을 알리고 명확화 질문을 해야 한다. (성공률 ≥85%)

기능 명세서가 결과의 사양이 아니라 행동의 사양이 되어 있습니다.

오후 3시. 사용자 인터뷰. 두 명의 베타 사용자가 어떤 시점에 AI가 신뢰가 떨어졌는지를 말합니다. 한 사용자는 “AI가 너무 단정적으로 말할 때 신뢰가 떨어진다”고 합니다. 다른 사용자는 “확신이 없는 척하면 도구 같지 않다”고 합니다. 두 의견이 정반대입니다. 수진은 이 두 의견을 서로 다른 사용자 페르소나의 신호로 받아들이고, 모델의 확신 수준 조절을 페르소나별로 다르게 가져가는 실험을 메모합니다.

오후 5시. 일주일치 eval 리포트를 정리해서 임원진에게 보냅니다. 보고서에는 다음이 들어갑니다.

리포트가 기능 출시 일정보다 측정 지표의 변화에 더 무게가 실립니다. 임원진이 보는 게 무엇을 만들었는지가 아니라 결과가 어떻게 움직이는지입니다.

오후 6시. 퇴근 전, GitHub PR 두 개를 리뷰합니다. 코드 PR이 아닙니다. 프롬프트 PR입니다. 시스템 프롬프트의 한 단락을 누가 어떻게 바꿨고, 그 변경이 어떤 evals에 영향을 주는지가 PR 설명에 적혀 있습니다. 수진은 비결정적 시스템에 대한 코드 리뷰를 하는 셈입니다.


무엇이 다른가 — 전통 PM과의 경계선

수진의 하루를 일반 PM의 하루와 나란히 놓아 보면, 같은 듯 다른 부분이 분명해집니다. 한 표로 정리해 보겠습니다.

항목 전통 PM AI PM
기능 명세 PRD Evals
사이클 분기 로드맵 연속 실험
시스템 동작 결정론적 확률적
책임 영역 기능 출시 + 모델 안전·드리프트
메트릭 DAU·전환율·NPS + hallucination rate, factuality, refusal rate
협업 대상 디자인·엔지니어링·영업 + ML 팀, Eval Engineer, AgentOps
일상의 산출물 와이어프레임, 사양서 eval 데이터셋, 시스템 프롬프트 PR

가장 큰 차이가 두 가지입니다.

첫째, Evals가 PRD를 대신합니다. 기존 PM이 기능이 무엇을 해야 하는지를 문장으로 적었다면, AI PM은 모델이 어떤 입력에서 어떤 출력을 내야 하는지를 데이터셋으로 적습니다. Hamel Husain이 한 문장으로 정리한 것처럼, evals가 traditional PRDs를 대체합니다.

둘째, 확률적 시스템을 다룹니다. 같은 입력에서 매번 다른 출력이 나옵니다. 이 기능이 작동한다는 것을 어떻게 증명하는지 자체가 새로운 문제입니다. AB 테스트 대신 eval 점수의 분포를 들여다봅니다. 픽스가 아니라 기준점의 이동을 추적합니다.

이 두 가지가 기존 PM과의 결정적 경계입니다.

그리고 한 가지 더 있습니다. AI PM은 AI를 안 써야 하는 곳을 식별하는 능력이 핵심입니다. Aakash Gupta가 100명 이상의 AI PM을 인터뷰한 글에서 한 발언이 있습니다.

“AI PM은 사용자 문제만 찾는 게 아니라, AI가 진짜로 가치를 만드는 곳과 그냥 트렌디해서 갖다 붙이는 곳을 구분하는 일을 추가로 합니다.”

PART 3 도입에서 살펴본 Jagged Frontier 매핑 능력이, AI PM에게 가장 직접적으로 적용됩니다.


어떤 사람이 잘 맞나 — 적합도 자가진단 5문항

이 자리가 나에게 맞는지를 가늠해 보는 5문항입니다.

  1. 데이터를 보고 의사결정하는 게 익숙한가. PRD를 직관으로 쓰는 것보다, eval 점수의 변화를 보고 결정하는 게 익숙한가. 통계적 사고가 강한가.

  2. 모호한 상황을 명세로 옮기는 능력이 있는가. 사용자가 “이상하게 답변한다”고 말했을 때, 그 모호함을 몇 가지 측정 가능한 사례로 옮길 수 있는가.

  3. 비결정성을 의사결정에 끌어들일 수 있는가. 같은 사용자가 같은 질문을 두 번 했을 때 다른 답이 나오는 시스템에서, 기능이 작동한다는 것을 어떻게 정의할지 답할 수 있는가.

  4. ML 엔지니어와 같은 언어로 대화할 수 있는가. 토큰 비용, 컨텍스트 윈도우, 모델 드리프트, RAG 청크 크기 같은 단어가 대화에 등장해도 자연스러운가.

  5. AI를 안 써야 하는 곳을 식별할 수 있는가. 모든 제품 영역에 AI를 박지 않고, AI가 진짜 가치를 만드는 영역에 집중할 수 있는가. 임원진이 “여기에도 AI 넣자”고 했을 때, 정중하게 “안 됩니다”라고 말할 수 있는가.

다섯 문항 중 세 개 이상에 망설임 없이 그렇다고 답할 수 있다면, AI PM이 이 책에서 가장 가까운 자리일 가능성이 높습니다. 망설임이 있는 항목이 있다면, 90일 트랙에서 그 부분을 채우는 것이 첫 걸음이 됩니다.


한국에서의 채용 신호 — 도구화 단계

한국 채용 시장에서 AI Product Manager라는 정확한 타이틀은 아직 드뭅니다. 대신 PM 직무 공고에 “AI 활용 기획 포함”이라는 부가 설명이 붙는 형태가 가장 흔합니다.

토스의 PM 채용 공고를 보면, AI 도구를 활용한 제품 기획 경험이 우대 조건으로 자주 등장합니다. 당근의 PM 직무도 비슷합니다. 카카오, 네이버, 라인의 PM 공고에도 같은 패턴이 보입니다. 별도 직군이 아니라 PM의 새 도구상자가 추가되는 형태로 진행 중입니다.

카카오스타일의 PM 이미준이 한 분석 글에서 짚은 풍경이 정확합니다. 미국 데이터에서는 AI PM 직무가 폭증하는 동안, 한국에서는 일반 PM이 정체하는 게 아니라 AI 활용 PM으로 통합 진화하는 양상입니다. 잡코리아 PMPO Day 행사에서 나온 발언 중 한 줄이 이 흐름을 요약합니다.

“AI가 아니라, AI를 잘 쓰는 PM에 의해 PM이 대체됩니다.”

같은 시기에 별도 AI PM 채용을 시작한 한국 회사도 있습니다. 업스테이지, 솔트룩스, 뤼튼 같은 AI 네이티브 회사들. 이 회사들의 PM 직무는 미국 AI PM과 거의 같은 형태입니다. evals를 직접 짠다는 표현이 채용 공고에 등장하기 시작했습니다.

연봉 레인지를 보면 미국과의 격차가 큽니다. 미국 시리즈 B 이상 AI 스타트업의 AI PM 총보상이 $300K+가 흔하다고 Aakash Gupta가 인용했습니다. 한국 빅컴퍼니 시니어 PM이 6,000~9,000만 원 정도. 격차가 큰 만큼, 한국 AI PM이 글로벌 회사 원격 직무로 옮겨가는 흐름도 시작되고 있습니다.

검증 필요한 가설: 한국에서 AI Product Manager가 별도 직군 타이틀로 본격 등장하는 시점은 2027~2028년 어디쯤이 될 것으로 보입니다. 그 전까지는 PM 직무 안에 AI 활용 능력이 추가되는 형태가 표준일 가능성이 높습니다. 한국 시장의 도착 단계로는 도구화 단계 — 위 도입부 표에서 7장이 ★★★으로 분류된 자리입니다.


별도 직군인가, PM의 새 표준인가 — 논쟁

이 자리에 대해 시장에서 진행 중인 두 가지 입장이 있습니다.

입장 A — 별도 직군이다. Aakash Gupta, ProductSchool, Marily Nika 같은 인플루언서들이 이 입장입니다. 통계와 ML 백그라운드, 별도의 trajectory, 다른 연봉 곡선. AI PM이 전통 PM과는 다른 종류의 사람이라는 주장입니다.

입장 B — PM의 새 표준이다. Lenny’s Newsletter에 출연한 Marily Nika 본인이 같은 자리에서 다른 발언을 했습니다.

“앞으로 모든 PM은 AI PM이 됩니다. 이것은 별도 직군이 아니라 PM의 새로운 표준입니다.”

두 입장이 같은 사람에게서도 동시에 나오는 게 흥미롭습니다. 그리고 이 모순이 그 자체로 이 자리가 어디 있는지를 알려 줍니다. 지금 별도 직군화 중이고, 2~3년 뒤에는 새 표준이 될 것이라는 진행 중인 풍경.

한국 시장의 도구화 단계가 입장 B의 미리 보기일 수 있습니다. 한국에서는 처음부터 PM의 새 표준으로 진행되고 있고, 미국이 별도 직군화의 단계를 거치는 동안 한국은 그 단계를 건너뛰고 표준화로 직접 가는 경로일 수도 있습니다.

본문에서 한쪽 입장만 지지하지 않습니다. 두 입장이 모두 부분적으로 맞는다고 봅니다.


90일 안에 시도해 볼 수 있는 것

기존 PM에서 AI PM으로 옮겨가려는 사람에게, 90일 동안 해 볼 만한 행동을 정리해 보겠습니다.

1. Eval 데이터셋을 직접 만들어 공개하기. 자기 도메인(쇼핑·여행·금융·헬스 등)에서 AI 챗봇이 만나는 100가지 질문을 정리한 eval 셋을 만들어 GitHub에 공개합니다. 각 항목마다 기대하는 행동측정 기준을 적습니다. 30일 안에 끝낼 수 있는 작업입니다.

2. 인기 AI 제품의 PRD 역추적해 블로그 글쓰기. Cursor, Perplexity, Sierra, Notion AI 같은 제품을 하나 골라서, 그 제품 뒤에 있는 PRD가 어떻게 생겼을지를 역으로 추정한 글을 씁니다. 어떤 사용자 문제를 풀고 있는지, 어떤 evals를 우선했을지, 어디서 잘하고 어디서 못하는지. 한 편의 글이 60일 안에 가능합니다.

3. AI 제품 커뮤니티 활동. Lenny’s Newsletter 디스코드, AI Engineer World’s Fair 슬랙, 한국에서는 PyTorch KR 디스코드, OKKY의 AI 카테고리. 한 곳을 골라 주 2회 토론에 참여합니다. 90일이면 한 커뮤니티에서 얼굴이 알려진 정도까지 갈 수 있습니다.

4. 사내 실험: 작은 AI 기능 하나를 처음부터 끝까지 책임지기. 회사에 AI 활용 작은 기능이 있다면, 그 기능의 eval 셋과 출시 후 측정을 자원해서 떠맡습니다. 큰 기능이 아니라 작은 한 가지로 충분합니다. 90일 안에 결과 변화를 한 번 보고합니다.

5. AI 모델 변경 추적 습관. 매주 OpenAI·Anthropic·Google의 모델 변경 발표를 추적하고, 그 변경이 자기 제품의 evals에 어떤 영향을 줄지를 짧게 메모합니다. 90일이면 모델 변경에 대한 감각이 일상이 됩니다.

다섯 가지 중 세 가지를 90일 안에 끝내는 것이 목표입니다. 모든 것을 할 필요는 없습니다. 그러나 하나라도 끝까지 한 다음에야, 나에게 이 자리가 맞는지가 분명해집니다.


이 자리로 옮겨갈 때 알아 두면 좋은 한 가지

AI PM을 면접 보러 갈 때, 면접관이 자주 던지는 질문이 한 가지 있습니다. 최근에 만든 evals 셋을 보여 주세요.

이력서가 아니라 evals가 포트폴리오가 되는 자리입니다. 그리고 이 evals는 코드처럼 깃허브에 올려 두는 게 표준이 되어 가고 있습니다. 한국에서 이 자리로 옮겨가려는 사람이라면, 90일 안에 공개된 evals 셋 하나를 만들어 두는 게 가장 단단한 자산이 됩니다.

다음 장에서는, AI PM과 자주 짝을 이루어 일하는 또 다른 자리를 봅니다. Forward Deployed Engineer. 고객 현장에 직접 들어가서 모델을 다듬는 자리입니다.

8장. Forward Deployed Engineer — 고객 현장에서 모델을 다듬는 사람

“Forward deployed engineer jobs exploded by 1,165% year-over-year.” — Bloomberry, 1,000 FDE 채용 공고 분석 (2025)

지난해 미국에서 가장 빠르게 자란 채용 카테고리 중 하나가 Forward Deployed Engineer였습니다. Bloomberry라는 채용 분석 회사가 1,000건 이상의 FDE 채용 공고를 분석해 발표한 보고서에 따르면, 이 직군의 채용 공고는 전년 대비 1,165% 폭증했습니다.

10배가 넘는 성장. 단일 카테고리 채용 데이터에서 보기 드문 곡선입니다. 그리고 이 자리가 어디서 왔는지를 추적해 보면, 한 회사의 내부 직군 실험에 이르게 됩니다. Palantir입니다.


어디서 왔는가 — Palantir의 ‘Deltas’

a16z의 한 글이 FDE의 기원을 짚었습니다. The Palantirization of Everything이라는 제목의 에세이입니다.

“2011년, Palantir는 솔루션 엔지니어와 통합 엔지니어에게 새 타이틀을 줬습니다. Forward Deployed Engineer. ’Deltas’라고 부르기까지 했습니다 — Delta Force처럼. 우스꽝스러웠지만, 미친듯이 통했습니다.”

군대의 특수부대 이름을 갖다 붙인 직군명. 처음 들으면 어색하지만, 이 작명이 의도하는 바는 분명했습니다. 고객사 사무실에 들어가서, 고객사 시스템 위에서, 고객사 데이터로 우리 제품을 작동시키는 엔지니어. 영업도 아니고 컨설턴트도 아니고 지원도 아닌, hands-on-keyboard builder. Palantir가 정의한 이 직군이 14년이 지난 지금, AI 시대에 새 모습으로 부활했습니다.

OpenAI와 Anthropic이 처음으로 Forward Deployed Engineer라는 타이틀을 채용 공고에 사용하기 시작한 게 2023년 후반이었습니다. Scale AI, Distyl, Tribe AI 같은 회사들이 뒤를 이었습니다. 그 다음 1년 만에 채용이 10배 폭증했습니다.

이 자리가 왜 지금 폭증했는지를 이해하기 위해, 먼저 하루의 풍경을 봅니다.


하루의 풍경 — 어느 FDE의 9시부터 6시까지

가상의 인물입니다. 이름은 민호. 미국의 한 AI 스타트업에서 Forward Deployed Engineer로 일합니다. 전직은 한국 SI 빅3 중 한 회사에서 솔루션 아키텍트 7년. 1년 반 전에 이 회사로 옮겼고, 지금은 미국 동부의 한 금융사 고객사에 6개월 임베드 중입니다.

오전 7시 30분. 고객사 사무실 도착. 보안 게이트를 통과해 임시 사무 공간으로 갑니다. 고객사의 일원처럼 그 자리에서 일하는 게 FDE의 첫 번째 차이점입니다.

오전 8시. 고객사 운영팀과의 스탠드업. 우리 모델이 어제 어떻게 행동했는지를 같이 봅니다. 어제 처리한 1만 건의 고객 응대 중 23건에서 모델이 잘못된 통화 환산을 했습니다. 23건이 큰 비중은 아니지만, 금융 회사에 작은 비율의 잘못된 환산은 큰 책임 문제가 됩니다.

민호는 그 자리에서 23건의 사례를 고객사 데이터로 정리합니다. 회사에 가져갈 데이터가 아닙니다. 고객사 시스템 안에서 다 처리됩니다. FDE 직무의 또 다른 핵심입니다. 고객사 데이터를 회사로 가져오지 않습니다.

오전 9시 30분. 사내 ML 엔지니어 두 명과 화상 회의. 23건의 사례를 보여 주고, 시스템 프롬프트 변경을 제안합니다. 한 ML 엔지니어가 작은 변경으로 잡힐 거라고 답합니다. 다른 엔지니어가 그 변경이 다른 통화 사례에서 깨질 수 있다고 반박합니다. 토론이 시작됩니다.

오전 11시. 고객사 컴플라이언스팀과의 미팅. 새로 도입하려는 AI 기반 자동 승인 흐름이 한국 금융감독원·미국 SEC·유럽 GDPR에 모두 부합하는지를 따지는 미팅입니다. 민호는 코드를 쓰는 엔지니어이면서 동시에 컴플라이언스 회의의 발언자입니다. 정치적 지구력이 일의 절반입니다.

오후 12시 30분. 점심을 거르고 프로토타입 빌드. 23건의 사례를 잡을 새 시스템 프롬프트와 RAG 파이프라인 변경을 한나절 안에 동작하는 버전으로 만듭니다. 데모 가능한 수준까지. SI 컨설턴트 시절에는 제안서를 썼지만, 지금은 동작하는 코드를 씁니다.

오후 2시. 고객사 회의실에서 프로토타입 시연. 한 임원이 “한 번만 더 보여 달라”고 합니다. 같은 입력을 다시 넣어 보니, 조금 다른 답이 나옵니다. 확률적 시스템의 첫 번째 함정입니다. 민호는 그 차이를 솔직히 설명하고, 결정론적이지 않은 시스템을 어떻게 운영하는지에 대해 5분 정도 풀어 설명합니다. 이게 SI 컨설턴트와 FDE의 가장 큰 차이일지도 모릅니다. 확률 시스템을 고객 임원에게 설명하는 일.

오후 4시. 고객사 운영팀 회의실 한구석에서 코드 리뷰. 사내 동료가 만든 PR을 봅니다. 이 PR이 고객사 환경에 들어갈 변경입니다. 민호가 고객사 시스템 안에서 한 번 더 테스트해 본 다음에야 머지합니다.

오후 5시 30분. 사내 #fde 슬랙 채널에 하루 요약. 어떤 사례가 잡혔는지, 어떤 사례가 잡힐 듯 안 잡혔는지, 고객사가 다음 주에 어떤 결정을 내릴 예정인지. 다른 FDE들이 이 글을 읽습니다. 비슷한 고객사를 맡은 동료가 나도 그 사례 본 적 있다고 답합니다.

오후 6시. 호텔로 돌아갑니다. 이 도시에서 다음 두 달을 더 살아야 합니다. 한국에서 SI 빅3 시절에 일주일에 두세 번 고객사를 갔던 것과는 다른 종류의 현장 임베드입니다.


무엇이 다른가 — SI·솔루션 아키텍트와의 경계선

민호의 하루를 한국 SI의 솔루션 아키텍트 하루와 나란히 놓아 보면, 차이가 분명해집니다.

항목 SI 컨설턴트·SA Forward Deployed Engineer
산출물 슬라이드, 제안서, 설계 문서 production code, evals, 시스템 프롬프트
솔루션 정의 회사가 만든 솔루션을 고객 요구에 매핑 모델로 새 솔루션을 직접 만든다
프로젝트 길이 단발 프로젝트, 종료 후 떠남 지속 운영, 6~12개월 임베드 흔함
데이터 처리 종종 회사로 데이터를 가져옴 고객사 안에서 처리
결과 책임 납기·문서 기준 고객의 KPI 변화가 일의 끝
코드 작성 일부 시니어만 모든 FDE가 직접
영업 책임 시니어급은 매출 책임 가짐 매출 책임 없음 (Bloomberry 1,000건 분석에서 0%)

Bloomberry의 1,000건 분석에서 매출 책임을 명시한 채용 공고가 0%였다는 데이터가 결정적입니다. FDE는 영업이 아닙니다. Sales Engineer나 Solutions Consultant와의 가장 큰 차이가 여기 있습니다. FDE는 코드를 쓰는 사람이고, 고객의 KPI 변화가 일의 끝입니다.

Bloomberry가 분석한 FDE 채용 공고의 키워드 빈도도 정리해 두면 유용합니다.

a16z가 같은 자리를 “the hottest job in startups”라고 부른 이유는, 이 자리가 영업과 엔지니어링 사이의 빈자리를 정확히 메우기 때문입니다. AI 시대에는 모델을 어떻게 고객 환경에 맞춰 배포할지가 곧 회사의 매출입니다. 그 일을 하는 사람이 매출 책임 없이 결과만 책임지는 자리, FDE입니다.


어떤 사람이 잘 맞나 — 적합도 자가진단 5문항

  1. 고객사 사무실에서 6개월 살 수 있는가. 임베드가 한 달이 아니라 수개월 단위입니다. 다른 도시에서, 다른 회사 문화 안에서, 다른 시간대로 살 수 있는가.

  2. 코드를 직접 쓰는 의지가 있는가. SI 시니어가 되면 종종 문서만 쓰는 단계로 올라갑니다. FDE는 시니어가 되어도 계속 코드를 씁니다. PR을 직접 올리는 일을 즐길 수 있는가.

  3. 빠른 프로토타이핑 능력이 있는가. 회의에서 내일까지 동작하는 데모가 필요하다는 말을 들었을 때, 한나절 안에 만들 수 있는가. Cursor, Claude Code, Streamlit, FastAPI 같은 도구로 빠르게 짜는 습관이 몸에 있는가.

  4. 정치적 지구력이 있는가. 고객사 임원이 AI에 회의적인 발언을 했을 때, 정중하게 설득하거나 반박하거나 우회할 수 있는가. 코드만 잘 쓰는 사람은 살아남지 못합니다. 현장에서 사람과 부딪치는 부분이 일의 절반입니다.

  5. 모호함을 다루는 인내가 있는가. 고객사가 정확히 무엇을 원하는지를 처음에는 모르는 상태로 시작합니다. 대화를 통해 점차 윤곽을 잡아가는 일에 익숙한가. Cubiq Recruitment가 정리한 표현으로는, 프로그래밍 + 도메인 전문성 + 대인관계의 희귀한 3종 결합.

다섯 문항 중 네 개 이상에 그렇다고 답할 수 있다면, FDE가 매우 가까운 자리입니다. 특히 한국 SI 컨설턴트·솔루션 아키텍트 출신은 이 다섯 가지 중 3~4개를 이미 가지고 있는 경우가 많습니다.


한국에서의 채용 신호 — SI 빅3의 재편

한국 채용 시장에서 Forward Deployed Engineer라는 정확한 타이틀은 거의 보이지 않습니다. 그러나 같은 일을 하는 자리는 빠르게 자라고 있습니다. SI 빅3와 AI 네이티브 회사들이 이 자리를 다른 이름으로 만들고 있습니다.

LG CNS — 가장 명시적인 케이스. 2026년에 발표한 AI 직군 채용에서 11개 직무를 동시에 모집하기 시작했습니다. AI Tech 컨설턴트, AI Service Design 컨설턴트, AI 솔루션 아키텍트, AI 어플리케이션 개발자, AI Scientist 등. 연말까지 1,000명을 확보하겠다는 목표를 발표했습니다. 이 11개 직무 중 AI Service Design 컨설턴트 + AI 솔루션 아키텍트 + AI 어플리케이션 개발자의 결합이 FDE의 한국적 변형에 가깝습니다.

삼성SDS. AI 컨설팅 직군 안에 AI 음성 처리 전문가, 솔루션 컨설턴트 등의 자리가 등장하고 있습니다. 삼성SDS의 풀스택 AI 아키텍처(인프라→플랫폼→애플리케이션→컨설팅)에서 애플리케이션·컨설팅 영역이 FDE 일감입니다.

SK C&C. 비슷한 패턴. AX(AI Transformation) 키워드 안에 컨설턴트와 엔지니어가 결합된 직무가 등장하기 시작했습니다.

업스테이지. 한국 AI 네이티브 회사 중에서 가장 명시적입니다. AI Customer Engineer, AI Solution Architect (Japan/한국), AI Business Development 같은 자리가 careers.upstage.ai에 동시에 열려 있습니다. AI Customer Engineer가 사실상 한국형 FDE입니다.

연봉을 보면 미국과의 격차가 큽니다.

미국 빅테크 FDE의 70% 수준 연봉을 한국 빅컴퍼니가 제시해도, 실력자 다수가 이미 글로벌 회사로 옮겨갔습니다. 스탠퍼드 AI Index 2025의 한국 인재 순유출 OECD 35위 데이터가 이 풍경을 정량적으로 보여 줍니다.

한국 SI 출신에게 이 자리가 가장 가깝습니다. 도입부의 한국 도착 단계 표에서 8장이 ★★★★로 분류된 이유입니다. 정확한 타이틀은 아직 없지만, 같은 일을 할 사람에 대한 수요가 SI 빅3에서만 1,000명 단위로 폭증하고 있습니다.


그림자 면 — Palantir Glassdoor의 후기

이 자리의 풍경을 완전히 낙관적으로만 그리면 정직하지 않습니다. FDE의 그림자 면을 직시해 둘 필요가 있습니다.

Palantir의 Forward Deployed Software Engineer 카테고리 Glassdoor 후기를 보면, 직무 만족도 평균이 다음과 같습니다.

반복해서 등장하는 후기 표현입니다.

“주 50시간+ 기본. 직무 책임이 흐릿해서 무엇이든 해야 합니다.” “FDE 전원 결국 번아웃이 옵니다. 시간 문제일 뿐입니다.” “FDE에서 SWE로 전환한다는 약속? 거짓말이었습니다.”

Hacker News의 한 토론(검증 필요, 다만 다수 추천을 받은 코멘트)에서 한 익명 사용자가 더 단정적으로 표현했습니다.

“Palantir is running an engineering mill/sweatshop using elite talent.”

이 표현들이 모든 FDE에 해당하는 것은 아닙니다. 그러나 일의 강도가 일반적인 엔지니어 직무보다 높다는 점은 분명해 보입니다. 고객사 임베드 6개월. 출장 빈도. 정치적 압박. 워라밸 2.5/5는 한 회사의 데이터지만, FDE라는 직군의 평균 풍경에 가깝습니다.

이 자리로 옮겨가려는 사람에게, 이 그림자 면을 미리 알고 있는 것이 중요합니다. 보상이 높은 것은 그만한 일감이 따라오기 때문입니다.


진짜 엔지니어인가, 컨설턴트인가 — 논쟁

이 자리에 대한 또 다른 논쟁이 있습니다. FDE는 진짜 엔지니어인가, 컨설턴트인가.

입장 A — 진짜 엔지니어다. a16z, Bloomberry, OpenAI·Anthropic 채용 공고가 이 입장입니다. production code 책임. 매출 책임 없음. 6개월 임베드. 코드 PR이 평가의 핵심.

입장 B — 컨설턴트의 변형이다. Palantir Glassdoor 일부 후기에서 등장합니다. FDE에서 SWE로 못 간다는 경험. 결국 고객 관리와 정치가 일의 절반.

본문은 두 입장이 모두 부분적으로 맞다고 봅니다. FDE의 정확한 위치는 “코드를 쓰는 컨설턴트, 사업을 이해하는 엔지니어”입니다. 두 정체성이 한 사람 안에 있어야 합니다.

이 하이브리드 정체성을 받아들일 수 있는 사람에게는 매우 좋은 자리입니다. 한쪽만 좋아하는 사람에게는 매번 힘든 자리가 됩니다.


90일 안에 시도해 볼 수 있는 것

한국 SI·솔루션 아키텍트 출신이 FDE로 옮겨가려고 할 때, 90일 동안 해 볼 만한 행동입니다.

1. 한 산업을 정해 현장 시나리오 프로토타입 공개. 법률·의료·물류·금융 중 한 산업을 정합니다. 그 산업의 한 가지 현장 시나리오 — 예를 들어 법률 회사의 계약서 검토 자동화 — 를 정해서, 60일 안에 동작하는 프로토타입을 만들고 GitHub에 올립니다. RAG, prompt, eval까지 다 포함된 형태.

2. 고객 인터뷰 보고서 형식의 글쓰기 연습. 산업 종사자 3~5명을 인터뷰하고, 그들이 AI 도입에 대해 가진 우려와 기대를 정리한 글을 씁니다. SI 시절의 제안서 글쓰기와 다른, 고객의 목소리를 그대로 옮기는 글쓰기를 훈련합니다.

3. AI 도구 매일 사용 습관. Cursor, Claude Code, Continue 중 하나를 주력 IDE로 쓰기 시작합니다. 90일이 지나면 AI 도구로 코드 쓰는 속도가 SI 시절과 다른 차원에 가 있습니다. 이게 FDE 면접에서 즉시 드러나는 능력입니다.

4. 한 회사의 채용 공고를 따라가기. Anthropic, OpenAI, Distyl, Tribe AI, 업스테이지 중 한 회사를 정해서 그 회사의 FDE 채용 공고를 매주 추적합니다. 어떤 도메인의 고객사에 임베드할 사람을 찾는지가 보입니다. 90일이 지나면 이 회사가 어떤 산업을 공략 중인지가 한눈에 보입니다.

5. 한국 SI 출신 네트워크 활용. 영주.dev 같은 한국 실무자 블로그를 정기적으로 읽고, SI에서 AI로 옮겨간 동료를 1~2명 찾아 식사 한 번 합니다. SI 출신의 FDE 진입 경로에 대해 실제 경험자의 이야기를 듣는 것이 90일 자산이 됩니다.


이 자리로 가는 가장 짧은 점프

한국 SI 빅3 컨설턴트나 솔루션 아키텍트는, FDE까지 가장 짧은 점프를 할 수 있는 위치에 있습니다. 도메인 전문성, 고객 응대, 시스템 설계, 통합 경험 — 다 가지고 있습니다. 빠진 한 가지가 코드를 직접 쓰는 습관입니다. 이 한 가지를 90일에 채우면, 글로벌 FDE 면접에서 진지하게 검토되는 후보가 됩니다.

영주.dev의 한 글에서 한국 SI 산업의 진화 로드맵을 이렇게 정리한 적이 있습니다.

지금이 AI 활용 개발자 단계의 한복판입니다. 이 단계의 한국 SI 컨설턴트가 한국 회사에서 글로벌 회사로 옮겨갈 수 있는 가장 가까운 자리가, FDE입니다.

다음 장에서, 한국 백엔드·풀스택 개발자의 가장 자연스러운 다음 자리를 봅니다. Applied AI Engineer. 한국에서 가장 활발하게 채용 중인 직군입니다.

9장. Applied AI Engineer — 백엔드·풀스택 개발자의 자연스러운 다음 자리

“5년 걸리던 AI 작업이 API 문서와 한가한 오후 한 번이면 가능해졌습니다.” — Shawn Wang (Swyx), The Rise of the AI Engineer, Latent Space (2023)

“Data Scientists answer questions. ML Engineers build systems. AI Engineers ship products.” — Drew Breunig, A Guide to AI Titles (2025)

본론 5개 직업 중 한국 시장에서 가장 활발한 자리입니다. 그리고 이 책의 1순위 독자 — 현직 백엔드·풀스택 개발자 — 가 가장 짧은 점프로 옮겨갈 수 있는 자리이기도 합니다.

먼저 한 가지 인용부터 보겠습니다. Latent Space 뉴스레터를 운영하는 Shawn Wang(Swyx)이 2023년에 The Rise of the AI Engineer라는 에세이에서 한 발언입니다.

“5년 걸리던 AI 작업이 API 문서와 한가한 오후 한 번이면 가능해졌습니다. 수학적으로, AI Engineer는 ML Engineer보다 10배 많아질 것입니다.”

Andrej Karpathy가 이 발언에 동의했습니다. 그리고 그 발언 이후 3년이 흐른 지금, 채용 데이터가 그 예측을 거의 정확히 따라왔습니다. Howdy라는 채용 분석 회사의 데이터에 따르면, AI Engineer 채용 공고가 ML Engineer보다 74% YoY로 더 빠르게 자라고 있습니다.

이 자리가 정확히 어떻게 일하는지부터 봅니다.


하루의 풍경 — 어느 Applied AI Engineer의 9시부터 6시까지

가상의 인물입니다. 이름은 지수. 한국의 한 시리즈 B AI 스타트업에서 Applied AI Engineer로 일합니다. 전직은 카카오에서 백엔드 개발자 5년. 1년 전에 이 회사로 옮겼습니다.

오전 9시 30분. Slack 알림을 확인. 어제 출시한 RAG 파이프라인 업데이트가 야간 운영에서 두 가지 이상한 패턴을 만들었습니다. 토큰 비용이 30% 늘었고, 응답 지연이 평균 1.2초 늘었습니다. 지수가 첫 번째로 들여다보는 게 왜 늘었는지입니다.

Langfuse 대시보드를 엽니다. 자기 회사가 자체 호스팅 중인 LLM 관측 도구. 어제 변경된 retrieval 단계에서 청크를 더 많이 가져오기 시작했다는 게 트레이스에 그대로 보입니다. 청크 수 5개 → 12개. 그래서 컨텍스트가 길어졌고, 비용도 함께 늘었습니다.

오전 10시. Cursor를 열고 변경 PR을 역추적. 어제 PR에서 retrieval threshold를 너무 관대하게 잡았던 게 원인이었습니다. 지수가 새 PR을 짭니다. threshold 조정 + 청크 수 상한 8개 적용 + 비용 모니터링 알람 추가. PR 설명에 왜 이 변경이 필요한지를 한 단락으로 적습니다.

오전 11시 30분. PR 리뷰. 동료 두 명이 코멘트를 답니다. 한 동료가 threshold만 조정하면 retrieval 품질이 떨어질 수 있다고 지적합니다. 지수가 eval 셋의 retrieval 정확도 항목을 같이 돌려서 변경 전후 정확도 차이가 1%p 이내라는 증거를 답글로 답니다. 코드 리뷰가 eval 결과로 끝납니다.

오후 12시 30분. 점심. 사내 디스코드에서 비용 절감 토론. 한 ML 엔지니어가 큰 모델을 작은 모델로 라우팅하는 방법을 제안했습니다. 지수가 어떤 사례에서 작은 모델이 안 통하는지를 답니다. 비용 최적화는 정확도·지연·비용의 3축을 동시에 보는 문제라는 점이 토론에서 매번 재확인됩니다.

오후 2시. 신규 기능 개발. 사용자가 “예약 가능한 시간 보여줘”라고 했을 때, 모델이 function call로 캘린더 API를 호출하는 흐름. 지수가 짜는 것은 function 정의re-prompting 로직입니다. 모델이 잘못된 인자로 함수를 호출했을 때, 재호출하기 전 어떤 가이드를 줄지를 결정합니다. 전통적 백엔드의 에러 핸들링과 비슷하지만, 비결정적 시스템에서의 에러 핸들링입니다.

오후 3시 30분. Eval 셋 추가. 새 function call이 정확히 동작하는지를 측정할 사례 20개를 추가합니다. 지수가 eval을 만드는 일은 이제 코드 짜는 일만큼 일상이 되었습니다.

오후 4시 30분. 회의. PM과 다른 엔지니어 두 명. 결제 단계 모델을 더 빠른 모델로 바꿀지 토론. 지수가 토큰당 가격, 평균 지연, eval 정확도 세 가지를 표로 가져갑니다. 결정은 데이터로 내려집니다.

오후 5시 30분. 비용 보고서. 일주일치 토큰 사용 패턴을 정리해서 슬랙에 올립니다. 한 줄 요약: 이번 주 비용은 전주 대비 12% 감소. 사용자 수는 8% 증가. 단위당 비용 효율이 18% 개선. 이 보고가 회사 임원이 보는 한 줄 KPI가 되었습니다.

오후 6시 30분. 퇴근 전에 GitHub PR 두 개를 리뷰. 하나는 시스템 프롬프트 변경, 다른 하나는 retrieval 캐싱 도입. 두 PR이 다음 주에 배포될 예정입니다.


무엇이 다른가 — 전통 백엔드, ML 엔지니어와의 경계선

지수의 하루를 전통 백엔드 개발자의 하루ML 엔지니어의 하루와 나란히 놓아 보면, 두 자리 사이에 정확히 끼어 있는 자리라는 게 분명해집니다.

항목 전통 백엔드 Applied AI Engineer ML Engineer
시스템 동작 결정적 비결정적 모델 학습은 결정적, 응답은 비결정적
일상의 산출물 API, 데이터베이스 스키마 RAG 파이프라인, system prompt, function call 정의, evals 학습 파이프라인, 모델 가중치, 평가 지표
검증 방법 단위 테스트, 통합 테스트 Evals (LLM-as-judge 포함) 벤치마크, holdout set
최적화 축 응답 시간, 가용성 응답 시간·토큰 비용·결과 정확도 3축 모델 정확도·학습 속도
모니터링 도구 Prometheus, Datadog Langfuse, LangSmith, Helicone, Datadog W&B, MLflow
출신 배경 CS, 풀스택 시니어 풀스택 다수 통계, 박사 다수
ML 박사 필요도 없음 거의 없음 흔함

Drew Breunig가 한 줄로 정리한 표현이 이 자리들의 차이를 가장 명료하게 짚었습니다.

“Data Scientists answer questions. ML Engineers build systems. AI Engineers ship products.”

데이터 사이언티스트는 질문에 답하는 사람. ML 엔지니어는 시스템을 만드는 사람. AI 엔지니어는 제품을 출하하는 사람. 이 한 줄이 9장 직업의 본질을 짚었습니다.

같은 글에서 Howdy가 정리한 또 다른 발견이 있습니다. AI Engineer 채용 공고에 ML 박사 학위 요구가 거의 없다는 것입니다. 시니어 소프트웨어 엔지니어로 production system을 책임져 본 경험이 가장 흔한 요구 사항입니다. Hamel Husain이 한 발언이 이 차이를 분명히 합니다.

“ML engineers focus on the model. Applied AI engineers focus on the system around the model.”

ML 엔지니어가 모델 자체에 집중한다면, Applied AI 엔지니어는 모델 주변의 시스템에 집중합니다. 데이터 접근. 추론 신뢰성. 오케스트레이션. 관측. 거버넌스. 모델은 입력 중 하나일 뿐입니다.


어떤 사람이 잘 맞나 — 적합도 자가진단 5문항

  1. 분산 시스템 감각이 있는가. 큰 시스템에서 어디서 병목이 생기는지를 보는 눈이 있는가. AI 시스템은 LLM 호출, RAG, 외부 API, 캐싱이 함께 도는 분산 시스템입니다.

  2. 비결정성을 다루는 인내가 있는가. 같은 입력에서 매번 다른 출력이 나오는 시스템에 대해 짜증보다 호기심이 먼저 드는가. 디버깅이 단순 재현이 아닌 분포 추적임을 받아들일 수 있는가.

  3. 비용을 코드로 추적하는 습관이 있는가. 토큰당 비용, 사용자당 비용, 기능당 비용을 대시보드에서 매일 보는 게 자연스러운가. 전통 백엔드의 p99 응답 시간 모니터링과 비슷한 감각을 비용에 가져갈 수 있는가.

  4. Eval 작성이 코드 리뷰처럼 일상이 될 수 있는가. 새 기능마다 eval 셋을 추가하는 것이 자연스러운가. 단위 테스트를 짜듯 evals를 짜는 습관을 만들 수 있는가.

  5. LLM SDK를 깊이 사용해 본 적이 있는가. OpenAI SDK, Anthropic SDK, LangChain 중 하나를 책의 예제 수준이 아니라 production에 가깝게 써 본 경험이 있는가. function calling, streaming, retry, structured output 같은 기능을 직접 다뤄 본 적이 있는가.

다섯 문항 중 세 개 이상에 그렇다고 답할 수 있다면, Applied AI Engineer가 매우 가까운 자리입니다. 한국 백엔드·풀스택 시니어 개발자라면 1·2·3은 이미 가지고 있는 경우가 많습니다. 4·5가 90일 안에 채울 수 있는 영역입니다.


한국에서의 채용 신호 — 가장 성숙한 영역

한국에서 AI 직군이라는 단어가 등장하는 거의 모든 채용 공고가, 사실상 Applied AI Engineer를 가리킵니다. 도입부 표에서 9장이 ★★★★★로 분류된 이유입니다.

회사별로 채용 패턴을 한 줄씩 정리해 보겠습니다.

카카오. Machine Learning Engineer (LLM/Search), Large Language Model 개발자(경력). 검색·추천·메시지 자동 분류 같은 영역에 LLM을 통합하는 자리.

네이버. 2026 NAVER AI CHALLENGE를 통해 ML Engineer, 데이터 사이언티스트, Python 개발자를 동시에 모집. HyperCLOVA 응용을 중심으로 다양한 자리가 열려 있음.

토스. ML Engineer (커머스·결제 도메인). 커머스 영역에 AI를 즉시 적용한다는 표현이 채용 공고에 등장. AI 활용 PM과 ML Engineer의 협업이 강조됨.

당근. 2026 ML 직군 — 피드 품질팀, 광고 추천팀, LLM 개인화 추천. 자체 LLM 활용보다는 RAG와 fine-tuning을 결합한 응용에 집중.

업스테이지. AI Research Engineer (LLM Evaluation), AI Solution Architect, 30개 직무 동시 모집. 한국 AI 네이티브 회사 중 가장 적극적.

LG AI Research. EXAONE Lab, Data Intelligence, STT/TTS 등 Research Scientist/Engineer 자리. 자체 모델 개발이 강하고, 그 모델을 응용하는 Applied AI 자리도 동시 모집.

뤼튼. 17개 분야 채용, 합격자에 2,000만 원 보너스. 시리즈 A~B 단계 한국 AI 스타트업 중 가장 공격적.

키워드 패턴을 보면, 거의 모든 한국 공고에 RAG + LangChain + LLMOps + 평가가 공통으로 등장합니다. Threads에서 jmhong2020이라는 분석가가 한국 AI 채용 트렌드를 정리한 내용이 이를 짚었습니다.

“거의 모든 공고가 RAG와 LangChain 경험을 요구합니다. LLMOps 운영 능력이 중요합니다. 연구자보다 응용 엔지니어 비중이 큽니다. 대기업이 모델 연구보다 LLM으로 비즈니스 문제 푸는 사람을 원합니다.”

연봉을 보면, 한국 시장의 풍경이 분명해집니다.

미국과의 격차는 여전히 큽니다. 그러나 한국 시장 안에서는 Applied AI Engineer가 가장 빠르게 자라는 연봉 곡선을 그리고 있습니다.


비결정적 시스템을 다룬다는 것 — 한 가지 큰 변화

전통 백엔드와 Applied AI Engineer의 가장 큰 정신적 차이가, 비결정성을 받아들이는 일입니다. 이 점을 한 단락으로 풀어 보겠습니다.

전통 백엔드에서는 같은 입력이면 같은 출력이 나옵니다. 안 나오면 버그입니다. 디버깅이 재현 가능한 단위까지 좁히는 작업입니다.

Applied AI Engineer에서는 같은 입력에서 매번 다른 출력이 나옵니다. 그게 정상입니다. 디버깅이 분포 추적이 됩니다. 1,000번 호출했을 때 몇 번이 잘못 나오는지를 보는 것이 일의 본질입니다.

velog에 올라온 한 한국 AI 엔지니어의 발언이 이 변화를 정확히 짚었습니다.

“LLM 기반 서비스만의 특징이 있습니다. 비결정성, 비용, 레이턴시, 평가의 어려움. 우리는 이 시행착오를 직접 겪고서야 인정했습니다.”

LBox라는 한국 법률 AI 회사가 자신들의 개발기를 정리한 글에서 한 발언입니다. 이 발언이 한국의 거의 모든 Applied AI 엔지니어가 처음 1년 안에 겪는 통과의례에 가깝습니다. 결정적 시스템에서 비결정적 시스템으로 사고를 옮기는 시간. 평균 6개월에서 1년이 걸린다고 합니다.


90일 안에 시도해 볼 수 있는 것

한국 백엔드·풀스택 개발자가 Applied AI Engineer로 옮겨가려고 할 때, 90일 동안 해 볼 만한 행동입니다.

1. LLM SDK를 깊이 사용하기. OpenAI SDK 또는 Anthropic SDK를 책 예제 수준이 아니라 실제 production에 가깝게 써 봅니다. function calling, streaming, retry policy, structured output까지. 한 도구를 직접 짤 수 있을 만큼 깊이.

2. RAG 토이 프로젝트 + 비용 측정 블로그. 자기 도메인의 작은 문서 컬렉션을 골라서 RAG 시스템을 만들고, 토큰 비용을 처음부터 추적하는 시스템을 같이 만듭니다. 60일 안에 동작하는 RAG + 비용 대시보드까지. 그리고 그 과정을 비용 최적화 블로그 글로 정리해 공개합니다.

3. Eval 작성을 코드 리뷰처럼 일상화. 자기 프로젝트의 한 기능에 eval 셋 30개를 만들어 GitHub에 공개합니다. LLM-as-judge 한 가지 시도해 봅니다. 측정할 수 없으면 만들지 마라는 휴리스틱(Hamel Husain)을 실천하는 90일.

4. 한국 LLM 모니터링 도구 한 가지 깊이 도입. Langfuse 셀프호스팅을 자기 토이 프로젝트에 붙입니다. 한국에서 가장 활발한 도구이고, 한국어 공식 문서도 있습니다. 프롬프트 버전 관리, 트레이싱, 비용 추적, eval 자동화의 4단계를 자기 프로젝트에서 실제로 운영합니다.

5. 한국 회사 기술 블로그 따라가기. 카카오, 토스, 당근, DEVOCEAN, LBox, 업스테이지의 기술 블로그를 주 1편 이상 읽습니다. 한국 회사들이 실제로 어떤 문제를 풀고 있는지에 대한 감각이 90일 안에 잡힙니다. 면접에서 자주 도움이 됩니다.


가장 가까운 점프

이 책의 본론 5개 직업 중에서, Applied AI Engineer가 현직 백엔드·풀스택 시니어 개발자에게 가장 가까운 자리입니다. 점프의 길이가 짧고, 한국 시장에 자리가 가장 풍부합니다.

영주.dev가 한국 SI 산업 진화를 2020-24 코더 → 2025-27 AI 활용 개발자 → 2028-30 AI 오케스트레이터로 정리한 적이 있는데, 백엔드·풀스택 시니어의 진화 경로도 거의 같은 모양을 따라가고 있습니다. 지금이 AI 활용 개발자 단계의 한복판입니다. 이 단계의 정식 직군 이름이, 채용 시장에서 Applied AI Engineer로 자리잡고 있습니다.

90일 동안 위 다섯 가지 중 세 가지를 끝낸 사람이라면, 한국 빅컴퍼니·AI 네이티브·시리즈 B 스타트업 어디든 진지하게 검토되는 후보가 됩니다.

다음 장에서, 이 책의 시그니처 직군을 봅니다. Agent 운영자 / AgentOps. 5개 직업 중 가장 새롭고, 한국에 가장 생소하며, 가장 빨리 자랄 자리입니다.

10장. Agent 운영자 / AgentOps — 이 책의 시그니처 직군

“환각은 모델만의 문제가 아닙니다. 프로덕션에서는, 시스템 설계의 문제입니다.” — Galileo AI 블로그

이 책의 시그니처 직군에 도착했습니다.

본론 5개 직업 중 가장 새롭고, 한국 독자에게 가장 생소하며, 가장 빨리 자라고 있는 자리입니다. 이름 자체가 아직 굳어지지 않았습니다. 어떤 회사는 AgentOps Engineer, 어떤 회사는 AI Platform Engineer (Reliability), 어떤 회사는 Applied AI Engineer (AgentOps). 한국에서는 에이전트 운영자 또는 그냥 AI 운영팀. 이름이 정해지지 않은 자리가 직군으로 자라는 모습을 우리는 지금 실시간으로 보고 있습니다.

이 자리가 왜 시그니처인지부터 보겠습니다.


학술과 산업에서 동시에 등장한 용어

AgentOps라는 단어가 시장에 등장한 시점을 추적해 보면, 흥미로운 풍경이 보입니다.

2024년 11월. arXiv에 AgentOps: Enabling Observability of LLM Agents라는 학술 논문이 올라왔습니다. arXiv:2411.05285. 학계가 AgentOps를 정식 용어로 사용한 첫 시점입니다.

2025년 초. IBM Think 블로그가 AgentOps 정의를 공개했습니다.

“AgentOps — agent operations — is an emerging set of practices focused on the lifecycle management of autonomous AI agents, bringing together principles from DevOps and MLOps.”

자율 AI 에이전트의 생애주기 관리에 집중하는 신생 분야로 정의했습니다. DevOps와 MLOps의 원칙을 함께 가져온다는 위치 설정.

2025년 중반. a16z, Latent Space, Pragmatic Engineer가 AgentOps를 일상적으로 사용하기 시작했습니다. IBM이 추정한 시장 규모는 2024년 약 50억 달러에서 2030년 약 500억 달러로 10배 성장 전망.

2026년 현재. 정식 채용 공고에서 AgentOps Engineer라는 정확한 타이틀이 등장하기 시작했지만, 아직 흔하지는 않습니다. 대부분의 자리가 LLMOps Engineer, AI Platform Engineer, ML Infra (LLM), Applied AI Engineer (Reliability) 같은 변형 이름으로 모집되고 있습니다.

용어가 학술과 산업에서 동시에 등장한 게 중요합니다. MLOps도 같은 패턴이었습니다. 학술에서 용어가 잡히고, 산업이 받아 쓰고, 채용 공고에 등장하기까지 약 2~3년이 걸렸습니다. AgentOps는 그 사이클의 2024년이 출발점입니다. 채용 공고에 정식 직군 타이틀로 자리잡는 시점은 2026~2028년이 될 것으로 보입니다.

검증 필요한 가설이지만, 가장 단단한 가설입니다.


하루의 풍경 — 어느 Agent 운영자의 9시부터 6시까지

가상의 인물입니다. 이름은 재현. 미국의 한 시리즈 C AI 회사에서 AI Platform Engineer (Reliability)라는 타이틀로 일하고 있습니다. 회사 안에서는 동료들이 그냥 AgentOps 엔지니어라고 부릅니다. 전직은 한국 토스에서 SRE 6년. 1년 전에 이 회사로 옮겼습니다.

오전 8시 30분. 야간 페이지 알람을 확인. 어젯밤 한 시점에 멀티에이전트 워크플로 실패율이 평소의 3배로 치솟았습니다. 재현은 곧바로 LangSmith 대시보드를 엽니다.

트레이스를 한 단계씩 펼칩니다. agent A → agent B → tool call → agent A의 흐름에서, agent B가 agent A에게 잘못된 형식의 응답을 돌려준 패턴이 80건 잡혔습니다. agent A가 그 응답을 재시도하지 않고 받아들이고 다음 단계로 넘어갔습니다.

재현이 failure mode 카탈로그를 엽니다. 회사 안에서 AgentOps 가이드로 유지하는 위키 페이지. 이 패턴이 카탈로그에 있는지 찾아봅니다. 있습니다. Cemri 외 2025 MASFT에서 카테고리 2-3 — 에이전트 간 부정렬에 해당합니다. 형식 불일치가 14가지 실패 모드 중 한 가지로 등재되어 있습니다.

오전 9시 30분. 트레이스 데이터를 사내 슬랙 #agentops 채널에 정리해서 올립니다. 어떤 패턴이, 몇 시간 동안, 어떤 사용자에게 일어났는지. 그리고 완화 조치agent A의 입력 검증 단계 강화를 제안합니다. 동료 두 명이 답글을 답니다.

오전 10시 30분. 응급 핫픽스 PR. agent A의 입력 검증을 강화하고, 형식 불일치 발생 시 재시도하도록. PR이 30분 안에 머지되고 카나리아 배포에 들어갑니다. 트래픽의 5%에 먼저 적용. 한 시간 모니터링.

오후 12시. 핫픽스가 안정적으로 보입니다. 재현이 postmortem 문서를 쓰기 시작합니다. SRE 시절에 익숙했던 작업이지만, 서비스가 죽은 게 아니라 에이전트가 이상하게 행동한 경우의 postmortem입니다. 행동의 분포가 무너진 지점을 정확히 적습니다.

오후 1시. 점심. 후딱 끝내고, 사내 ML 팀과 eval 회의. 새 모델 v3.0이 다음 주에 배포될 예정. 이 모델이 우리 에이전트 워크플로에서 어떻게 행동할지를 미리 측정합니다. 재현이 책임진 부분은 failure mode 카탈로그의 14가지 패턴에서 새 모델이 어떻게 다른지를 측정하는 일.

오후 3시. 도구 작업. 자기 회사가 자체 운영하는 agent 행동 분석 대시보드를 한 단계 개선. 트레이스 시각화에 새로운 필터 추가. 특정 도구 호출이 N번 이상 연달아 일어난 경우를 자동 알람으로 잡는 룰을 추가합니다. SRE 시절 만들었던 알람 규칙과 비슷하지만, 대상이 에이전트의 행동입니다.

오후 5시. 다른 팀과의 미팅. 영업팀이 새 고객사 onboarding을 준비 중. 재현이 AgentOps onboarding 체크리스트를 가지고 들어갑니다. 트레이싱 셋업. 비용 모니터링. 알람 채널. 실패 모드 카탈로그. 다섯 가지 단계를 1주 안에 셋업하는 표준 절차가 회사 내부 매뉴얼이 되어 있습니다.

오후 6시 30분. Cemri 논문을 다시 한 번 들춰 봅니다. 어제 본 새 실패 패턴이 14가지에 없는 것 같습니다. 새 카테고리를 우리 회사 카탈로그에 등록할지 토론할 글을 슬랙에 남깁니다. 학술 논문의 분류 체계를 자기 회사의 운영 카탈로그로 끌어오는 일이 이 자리의 일상입니다.


SRE에서 AgentOps로 — 관측 대상이 바뀌었습니다

재현의 하루를 그 전 6년의 SRE 하루와 비교해 보면, 일의 모양은 비슷하지만 대상이 다릅니다.

항목 SRE / DevOps AgentOps
관측 대상 시스템의 상태 (CPU, 메모리, 응답 시간) 에이전트의 행동 (의사결정 트리, 도구 호출 패턴)
알람의 트리거 p99 응답 시간, 에러율 행동의 분포 이탈, 실패 모드 발생
Postmortem 주제 서비스 죽음, DB 장애 에이전트의 잘못된 결정, 실패 모드
자동화의 목표 자가 회복 (auto-restart, failover) 실패 모드 학습·재발 방지
측정 도구 Prometheus, Datadog, Grafana LangSmith, Langfuse, Helicone, Arize Phoenix, Braintrust
표준어 SLI / SLO / SLA eval 점수, refusal rate, hallucination rate
출신 배경 시스템 엔지니어, 백엔드 시니어 시니어 백엔드, SRE, 플랫폼 엔지니어

같은 도구 — 트레이싱, 메트릭, 알람 — 가 다른 대상을 향해 사용됩니다. 그래서 SRE에서 AgentOps로 옮겨가는 점프가 짧습니다. 그러나 완전히 같은 일은 아닙니다.

가장 큰 차이가 한 가지 있습니다. 측정의 대상이 결정론적이지 않습니다.

SRE에서 서비스가 죽었다는 것은 명확합니다. 200 응답이 안 옵니다. 그러나 AgentOps에서 에이전트가 잘못 행동했다는 것은 명확하지 않습니다. 대부분의 사용자가 만족했지만 한 사용자가 이상한 답을 받았다는 풍경이 일상입니다. 그래서 측정이 분포가 됩니다.

velog에 올라온 한 한국 실무자의 발언이 이 차이를 정확히 짚었습니다.

“먼저 트레이싱을 설정해서 모든 LLM 호출을 기록하고, 비용 추적을 추가하고, 자동 평가 파이프라인을 구축하고, 마지막으로 프롬프트 버전 관리와 A/B 테스트로 발전시키는 것이 현실적인 도입 경로입니다.”

영주.dev의 한 글에서 정리한 AgentOps 4단계 도입입니다. 트레이싱 → 비용 → 자동 평가 → 프롬프트 관리. 이 4단계가 한국에서 AgentOps의 표준 도입 시퀀스로 자리잡고 있습니다.


도구 생태계 — 9개 도구를 한 표에

AgentOps 시장은 지난 18개월 동안 도구가 폭증한 영역입니다. 한 표로 정리해 보겠습니다.

도구 라이선스 핵심 차별화 주요 도입 패턴
LangSmith 상용 SaaS LangChain 생태계 통합, 오버헤드 거의 0 Production 성능 민감 팀
Langfuse OSS (MIT) + Cloud 셀프호스팅, 프롬프트 관리 강력 데이터 주권 중시 (한국에서 가장 활발)
Helicone 상용 + OSS URL 한 줄 변경 (proxy 방식) 빠른 도입 원하는 스타트업
Arize Phoenix OSS + Enterprise SOC 2 / HIPAA / GDPR, eval rigor 엔터프라이즈 컴플라이언스
W&B Weave 상용 기존 W&B 통합, ML 실험 관리 전통적 ML 팀
Braintrust 상용 eval-first 디자인 평가 중심 팀
Patronus AI 상용 (enterprise) LLM 평가 자동화 컴플라이언스 중시
OpenLLMetry OSS (무료) OpenTelemetry 호환, 표준 지향 표준화 추구
AgentOps (도구) 상용 시간여행 디버깅, 멀티에이전트 시각화 복잡한 agent 시스템

이 9개 도구가 완전히 같은 일을 하지는 않습니다. 트레이싱·평가·프롬프트 관리 중 어디에 무게가 실리는지가 다릅니다. 그러나 시장이 한 줄로 정리되는 추세가 있습니다. 2026년 1월에 Langfuse가 ClickHouse에 인수되었습니다. 오픈소스는 그대로 유지한다는 조건으로. 이게 시장에 보낸 신호는 분명했습니다. AgentOps 도구 시장이 본격적인 통합 단계에 들어왔다는 것.


학술 토대 — 41~87% 실패율

이 자리가 진짜 직업으로 자리잡고 있는지를 회의적으로 보는 사람들이 있습니다. MLOps의 마케팅 리브랜딩 아닌가라는 시각.

이 회의에 대한 가장 단단한 응답이 학술에서 왔습니다. 5장에서 잠깐 언급한 Cemri 외 2025 Why Do Multi-Agent LLM Systems Fail? 논문(arXiv:2503.13657). 한 번 더 정리해 두면 다음과 같습니다.

UC Berkeley 연구팀이 7개의 SOTA 오픈소스 다중 에이전트 시스템(MAS)에서 발생한 1,600건 이상의 실행 트레이스를 6명의 전문가가 그라운디드 시어리(grounded theory) 방식으로 분석. 인터-어노테이터 카파 0.88로 신뢰도 높은 분류.

만든 결과물 두 가지.

MASFT (Multi-Agent System Failure Taxonomy). 14가지 실패 모드를 3개 카테고리로 분류. - 카테고리 1: 시스템 설계 (역할 정의 부족, 권한 충돌) - 카테고리 2: 에이전트 간 부정렬 (중복 수행, 의사소통 실패, 형식 불일치) - 카테고리 3: 작업 검증 (결과 검증 실패, 실패 모드 감지 실패)

실패율 측정. 7개 SOTA 프레임워크의 실패율이 41%에서 86.7%까지. 단일 에이전트 베이스라인 대비 성능 향상이 최소이거나 마이너스인 경우가 흔함.

“Despite the enthusiasm surrounding multi-agent LLM systems, our analysis reveals failure rates of 41% to 86.7% across seven state-of-the-art frameworks — performance gains over single-agent baselines are often minimal or negative.”

이 데이터가 AgentOps 직업의 정당성을 학술적으로 증명합니다. 80% 망가지는 시스템을 운영해야 하는 회사가 늘어나고 있고, 그 운영을 책임지는 사람이 직업으로 자리잡고 있습니다.

같은 시기에 Zheng 외 Judging LLM-as-a-Judge(NeurIPS 2023, arXiv:2306.05685)가 LLM을 평가자로 쓰는 방법의 4가지 편향(position, verbosity, self-enhancement, 제한된 추론)을 분류했습니다. AgentOps 직업이 그 편향을 잡으면서 평가 시스템을 운영해야 합니다. 11장 Eval Engineer와 짝을 이루는 자리입니다.


어떤 사람이 잘 맞나 — 적합도 자가진단 5문항

  1. 시스템 사고가 강한가. 큰 시스템 안에서 어디가 약한 고리인지를 보는 눈이 있는가. 단일 컴포넌트가 아니라 전체 흐름을 머릿속에 그릴 수 있는가.

  2. 패턴 추적 끈기가 있는가. 1,000건의 트레이스 중 2건의 이상 패턴을 찾아내는 작업에 짜증이 나지 않는가. 디버깅이 분포 추적임을 받아들일 수 있는가.

  3. 모호한 신호를 검증 가능한 가설로 옮길 수 있는가. 어디선가 이상하다는 막연한 신호를 검증할 수 있는 가설 3개로 좁힐 수 있는가. SRE 시절의 postmortem 능력이 여기에 그대로 옮겨갑니다.

  4. 야간 알람에 침착할 수 있는가. SRE 출신에게 익숙한 질문이지만, AgentOps는 서비스 죽음이 아니라 행동의 분포 이탈에 알람이 옵니다. 더 미묘하고, 더 자주 잘못 울립니다. 그래도 침착할 수 있는가.

  5. 새 도구를 매월 익히는 게 즐거운가. AgentOps 도구 9개가 매월 새 기능을 출시합니다. 한 자리에 머물러도 학습은 매월입니다. 이 학습 곡선을 부담이 아니라 즐거움으로 받을 수 있는가.

다섯 문항 중 세 개 이상에 그렇다고 답할 수 있다면, AgentOps 직업이 가까운 자리입니다. 특히 SRE, 플랫폼 엔지니어, 시니어 백엔드 출신이 적합도가 매우 높습니다.


한국에서의 채용 신호 — 운영팀 형태

한국에서 AgentOps Engineer라는 정확한 타이틀은 거의 없습니다. 도입부 표에서 10장이 ★★로 분류된 이유입니다. 그러나 같은 일을 하는 사람은 빠르게 자라고 있습니다. 운영팀 형태로.

SK 텔레콤의 에이닷. DEVOCEAN 블로그에 공개된 사례가 한국 AgentOps의 가장 명시적 케이스입니다.

“프롬프트 엔지니어링과 운영 체계를 통해 운영 리소스를 50% 감축하면서 발화 작업량을 3배로 늘렸습니다.”

에이닷 운영팀이 사실상 AgentOps 역할을 수행하고 있습니다. 트레이싱·평가·프롬프트 관리의 4단계가 운영 체계에 녹아 들어가 있습니다. DEVOCEAN에는 AI 서비스 기획자를 위한 LLM 활용 같은 후속 글도 있어서, 기획자와 AgentOps의 협업 모델까지 한국 회사 안에서 형성되고 있는 풍경이 보입니다.

Langfuse의 한국 도입. Langfuse 한국어 공식 문서가 langfuse.com/kr에 운영되고 있습니다. 한국에서 셀프호스팅이 가장 활발한 도구가 Langfuse입니다. PyTorch KR 디스코드에서 Langfuse 토론이 활발하고, 영주.dev에 LLM 모니터링 도구 비교 글이 종합적으로 정리되어 있습니다.

LangSmith의 한국 진입. sudormrf.run이라는 한국 실무자 블로그에 따르면, SKT에서 LangSmith 강의를 진행했다는 후기가 있습니다.

“최근 LangSmith를 RAG 시스템 개발·운영에 유용하게 사용하고 있으며, SKT에서 Langsmith 사용에 대한 강의도 진행했습니다.”

대기업이 정식으로 도구 도입을 시작했다는 신호입니다.

한국에서 자료가 적은 이유. 익명 후기가 미국에 비해 적습니다. 직군 이름이 정해지지 않아서 AgentOps Engineer 채용 후기가 거의 없습니다. 대신 회사 기술 블로그에 운영 사례가 가끔 올라오는 형태입니다. 한국 실무자가 이 자리를 더 알고 싶다면 영주.dev, DEVOCEAN, sudormrf.run, PyTorch KR 디스코드가 가장 가까운 정보원입니다.

연봉을 보면, 직군 이름이 없는 자리의 한계가 분명합니다. 같은 일을 하는 사람도 AI Platform Engineer, SRE (AI), Applied AI Engineer, 시니어 백엔드 등으로 분류되어 채용되고 있어서, 시장에서 AgentOps 직무의 평균 연봉을 단정할 수 없습니다. 미국 mid-senior $300K~$500K가 정해진 반면, 한국에서는 SRE 시니어 연봉이 가장 가까운 가늠자입니다. 카카오·네이버·토스 SRE 시니어 1억 2,000만 원~1억 8,000만 원 수준에 AI 관련 책임 추가 형태로 운영되고 있습니다.


AgentOps의 직군화 시간표 — 2026~2028 가설

이 자리가 언제 정식 직군으로 자리잡을지에 대한 가설을 한 줄로 정리해 두면 좋겠습니다. 검증 필요한 가설이지만, 가장 단단해 보이는 가설입니다.

2024년 11월. arXiv에 AgentOps 학술 등장.

2025년 초~중. IBM, a16z, Latent Space, Pragmatic Engineer가 일상적으로 사용. MLOps 도구의 변형 또는 LLMOps의 다음 단계로 자리매김.

2025년 후반~2026년. 정식 채용 공고에 AgentOps 타이틀이 등장하기 시작. 다만 흔하지 않음. LLMOps, AI Platform Engineer, Applied AI Engineer (Reliability) 같은 변형이 더 흔함. 도구 시장이 통합 단계에 진입 (Langfuse-ClickHouse 인수).

2027~2028년 예상. 정식 직군 타이틀로 자리잡음. MLOps가 MLOps Engineer로 자리잡는 데 걸린 시간과 비슷한 곡선이 예상됨.

이 가속은 지난 사이클에서 본 시차 단축과 같은 곡선입니다. SRE라는 직군이 2003년 Google에서 만들어져 2010년대 중반에 표준 직군이 되기까지 약 10년이 걸렸습니다. MLOps는 2017년 등장 → 2022년 표준 직군까지 약 5년. AgentOps는 2024년 등장에서 정식 직군까지 3~4년이면 도달할 가능성이 높습니다.

이 시간표에 따라 한 가지 결론이 나옵니다. 2026~2028년이 이 자리에 들어가는 가장 좋은 타이밍입니다. 직군이 정해지기 직전에 들어간 사람이, 직군이 정해진 이후에 들어가는 사람보다 큰 자리를 잡습니다. MLOps에서도 같은 풍경이 있었습니다.


왜 시그니처인가

이 자리가 이 책의 시그니처가 된 이유 세 가지로 정리하겠습니다.

첫째, 가장 새롭습니다. 본론 5개 직업 중 2024~2025년에 본격적으로 자라기 시작한 자리는 AgentOps가 유일합니다. AI PM, FDE, Applied AI, Eval Engineer는 이름이 좀 더 일찍 등장했습니다.

둘째, 한국에 가장 생소합니다. 도입부 표에서 ★★. 한국 독자 중에 이 자리의 정확한 모습을 그릴 수 있는 사람이 적습니다. 그래서 책에서 본격 다룰 가치가 가장 큽니다.

셋째, 가장 빨리 자랄 자리입니다. IBM 추정 시장 $5B → $50B(10배). 도구 시장 통합 진행 중. 학술과 산업 동시 등장. SRE·플랫폼·시니어 백엔드 출신이 옮겨갈 수 있는 자리. 자료의 모든 신호가 가속 단계를 가리킵니다.

이 세 가지가 시그니처라는 평가의 근거입니다.


90일 안에 시도해 볼 수 있는 것

한국 SRE·플랫폼 엔지니어·시니어 백엔드가 AgentOps로 옮겨가려고 할 때, 90일 동안 해 볼 만한 행동입니다.

1. 오픈소스 AgentOps 도구 직접 운영. Langfuse를 자기 환경에 셀프호스팅으로 띄웁니다. Docker로 30분 안에 가능합니다. 자기 토이 프로젝트를 Langfuse 트레이싱에 연결하고, 1주일 동안 모든 LLM 호출 데이터를 직접 들여다봅니다.

2. 자기 에이전트 프로젝트의 실패 모드 보고서. 토이 에이전트 프로젝트 하나를 골라서, Cemri MASFT 14가지 카테고리 중에서 어떤 패턴이 실제로 발생하는지를 한 달 동안 추적해 보고서로 정리합니다. GitHub에 공개. 90일 안에 공개된 실패 모드 보고서 하나를 만드는 게 목표.

3. SRE/관측 가능성 커뮤니티에서 AI 트랙 활동. SREcon, DevOpsDays 같은 컨퍼런스의 AI 관련 발표를 추적합니다. 한국에서는 DEVOCEAN의 글, PyTorch KR 디스코드, 영주.dev 글을 정기 구독.

4. AgentOps 도구 비교 글 한 편. Langfuse, LangSmith, Helicone 중 두 개 이상을 직접 써 본 다음 비교 글을 자기 블로그에 씁니다. 한국에서는 영주.dev가 종합 비교 글을 이미 썼지만, 자기 도메인에서의 비교가 더 가치 있는 콘텐츠가 됩니다.

5. SREcon이나 한국 SRE 모임에서 AI 트랙 발표 시도. 90일이 짧다면, 5~10분짜리 내부 발표부터 시작합니다. 자기 회사 안에서 AgentOps 도구 도입 사례를 정리해 동료들에게 발표하는 것이 첫 걸음.

다섯 가지 중 세 가지를 90일 안에 끝낸 사람이라면, AgentOps 자리가 진지하게 검토되는 후보가 됩니다. 한국에서는 아직 정식 직군이 없지만, 내부에서 AgentOps 일감을 자처할 수 있는 위치에 갈 수 있습니다.


가장 작은 점프, 가장 큰 자리

이 자리는 SRE 출신에게 가장 짧은 점프에 해당합니다. 도구도 비슷합니다. 사고 방식도 비슷합니다. 차이는 대상이 시스템에서 행동으로 바뀐 것 하나입니다.

동시에, 가장 자리이기도 합니다. 시장이 10배 성장 중이고, 직군이 정해지기 직전이고, 한국에서 자료가 가장 적습니다. 짧은 점프로 큰 자리에 갈 수 있는 위치 — 이게 시그니처 직군의 본질입니다.

다음 장에서, AgentOps와 가장 가까이 짝을 이루어 일하는 자리를 봅니다. Eval Engineer. 기준을 만드는 사람. 본론 5개 직업 중 마지막 자리입니다.

11장. Eval Engineer · AI Reliability — 품질을 측정하고 책임지는 사람

“Error analysis is not optional. Skip it and everything else is built on sand.” — Hamel Husain, hamel.dev (2026)

본론 5개 직업의 마지막 자리입니다. 그리고 한국 시장에 가장 늦게 들어올 자리이기도 합니다.

이 자리에 대해 미리 짚어 둘 한 가지가 있습니다. 다른 본론 챕터들과 달리, 11장은 글로벌 자료의 비중이 더 큽니다. 한국 자료가 부족해서가 아니라, 직군의 한국 도착이 가장 늦었기 때문입니다. 비중을 70:30으로 잡았습니다. 그리고 이 비중의 차이 자체를, 11장 한 절에서 데이터로 다루겠습니다. 부재가 신호가 됩니다.

먼저 이 자리가 어떻게 일하는지부터 봅니다.


Anthropic의 채용 공고를 그대로 읽어 봅니다

Anthropic이 자기 회사 Research Engineer, Model Evaluations 자리의 채용 공고에 적어 둔 책임을 그대로 옮기면 다음과 같습니다.

요구 사항: - ML 모델, 특히 LLM의 evaluation system 설계 경험 - distributed computing 경험

(출처: https://job-boards.greenhouse.io/anthropic/jobs/4990535008)

이 채용 공고를 한 문장으로 옮기면, 모델의 품질을 측정하는 시스템 자체를 만드는 사람입니다. 모델을 만드는 사람도 아니고, 모델을 응용하는 사람도 아닙니다. 그 사이에서, 측정의 기준을 짜는 사람입니다.

여기서 한 가지 미묘한 차이가 있습니다. Anthropic의 자리가 Eval Engineer의 한 극단 — frontier lab에서 모델 자체를 평가하는 자리입니다. 같은 직군이 응용 회사로 내려오면 제품 evals를 책임지는 자리가 됩니다. Hamel Husain, Eugene Yan, Shreya Shankar 같은 인플루언서들이 가르치는 AI Evals 커리큘럼이 그쪽입니다. 두 가지가 같은 직군의 두 극단이라고 보면 됩니다.

이 책에서는 응용 회사의 Eval Engineer에 무게를 두고 다룹니다. 한국 독자가 들어갈 자리에 가장 가까운 극단이기 때문입니다.


하루의 풍경 — 어느 Eval Engineer의 9시부터 6시까지

가상의 인물입니다. 이름은 수민. 미국의 한 시리즈 B AI 회사에서 AI Reliability Engineer로 일하고 있습니다. 회사 안에서는 그냥 Eval Engineer. 전직은 한국 카카오에서 QA 엔지니어 5년, 그 뒤에 데이터 엔지니어 2년. 9개월 전에 이 회사로 옮겼습니다.

오전 9시. 야간 eval 파이프라인 결과 확인. 어제 새 모델 v3.1 후보가 50개 카테고리의 evals에서 어떻게 점수를 받았는지 한 표로 정리되어 있습니다. 5개 카테고리에서 유의미한 회귀가 잡혔습니다.

수민이 회귀가 잡힌 5개 카테고리를 수동으로 들여다봅니다. 한 카테고리에서, 모델이 결제 정보를 잘못 표시하는 사례가 12% 늘었습니다. 자동 점수는 문제 없음으로 표시되었지만, 수동으로 보니 작은 숫자 차이가 결제 금액에서 일어나고 있었습니다.

LLM-as-judge가 이 차이를 잡지 못했다는 게 발견됩니다. Judge prompt에서 숫자 정확도 항목이 약하다는 것이 진단입니다.

오전 10시. Judge prompt를 개선하는 작업. 숫자 정확도 항목을 더 엄격하게 잡도록 예시를 늘립니다. 새 judge로 같은 12% 사례를 다시 돌립니다. 이번에는 잡힙니다. 점수가 문제 있음으로 정확히 표시됩니다.

여기서 11장 자리의 가장 큰 일감이 드러납니다. 측정 도구 자체를 평가하고 개선하는 일. LLM-as-judge가 신뢰할 만한지를 또 다른 평가로 확인하는 일.

오전 11시. 사내 ML 팀과의 회의. v3.1을 배포할 것인가에 대한 결정. 수민이 결정의 핵심 데이터를 가져갑니다.

결정은 미뤄집니다. 결제 관련 회귀를 잡고 다시 측정한 뒤에 배포. ML 팀이 시스템 프롬프트를 다시 손봅니다.

오후 12시. 점심. Hamel Husain이 매주 보내는 evals 뉴스레터를 후딱 읽습니다. 이번 호의 핵심 발언이 마음에 박힙니다.

“60-80%의 개발 시간을 error analysis에 씁니다. 대부분의 노력은 자동 체크를 만드는 게 아니라 실패를 이해하는 데 들어갑니다.”

자기 시간 분배도 거의 같습니다. 자동화된 evals보다, 그 evals가 잡지 못한 사례를 손으로 들여다보는 시간이 더 깁니다.

오후 1시 30분. 새 도메인의 evals 작성. 회사가 새로 들어가는 산업이 법률입니다. 법률 도메인의 eval 셋이 아직 없습니다. 수민이 법률 전문가 한 명을 사내 컨설턴트로 섭외해서 50개 사례를 같이 만듭니다. 각 사례에 기대하는 답측정 기준을 적습니다.

eval 데이터셋을 만드는 일이 데이터 큐레이션에 가깝다는 점이 드러납니다. 코드를 짜는 게 아닙니다. 어떤 사례가 모델 품질을 잡는 데 중요한지를 도메인 전문가와 함께 정의하는 일.

오후 4시. 회귀 분석 도구. 자기가 직접 짠 eval trend 대시보드. 모델 버전별로, 카테고리별로, eval 점수가 어떻게 변해 왔는지 시각화. 새 데이터를 추가하고, 회사 전체에 공개되는 주간 evals 보고서에 한 페이지 추가.

오후 5시 30분. 다른 회사의 새 모델 출시 추적. Anthropic이 새 Claude를 출시했습니다. 자기 회사 evals를 그 새 모델에 한 번 돌려보는 작업을 자동화에 추가. 결과는 내일 아침에. 만약 다른 회사 모델이 우리 회사 자체 모델보다 더 잘 한다면, 그 자체가 전략 결정의 입력이 됩니다.

오후 6시 30분. 퇴근 전에, 다음 주에 진행할 eval 워크숍 자료를 다듬습니다. 회사 안에서 모든 PM과 엔지니어가 evals를 직접 짤 수 있도록 가르치는 워크숍. 수민의 일이 측정 시스템을 운영하는 것뿐 아니라, 조직 전체의 측정 능력을 키우는 것까지 포함됩니다.


QA와 무엇이 다른가 — 결정적인 경계선

수민이 QA 5년의 경험을 가지고 들어왔지만, Eval Engineer와 QA는 비슷한 듯 다른 자리입니다. 한 표로 정리하겠습니다.

항목 QA Engineer Eval Engineer
측정 단위 패스 / 페일 분포·점수
정답의 정의 명확 (테스트 케이스에 적힘) 모호 — 정답을 정의하는 게 일의 일부
시스템 결정적 확률적
회귀의 의미 명확한 픽스 가능 기준점의 이동, 픽스가 항상 가능하지 않음
측정 도구 단위 테스트, 통합 테스트, E2E eval 데이터셋, LLM-as-judge, HELM
자동화의 한계 거의 모든 검증 자동화 가능 자동 점수가 인간 판단과 일치하는지를 또 평가해야 함
책임의 범위 출시 전 품질 보장 출시 전 + 출시 후 지속 측정
산출물 테스트 코드, 버그 리포트 eval 데이터셋, 측정 기준 문서, judge prompt

가장 큰 차이가 정답의 정의입니다. QA에서는 맞는 답이 미리 정해져 있습니다. Eval Engineer에서는 맞는 답이 무엇인지를 먼저 정의해야 합니다.

이 차이가 결정적인 이유는, 측정 자체가 새로운 종류의 일감이 되기 때문입니다. 단순히 검증을 자동화하는 게 아니라, 측정 가능한 영역과 측정 어려운 영역의 경계를 매번 다시 그어야 합니다. Dell’Acqua의 Jagged Frontier가 여기에도 적용됩니다. Eval Engineer는 그 frontier의 지도를 그리는 사람입니다.

ML Researcher와의 차이도 짚어 두면 좋겠습니다.

항목 ML Researcher Eval Engineer
일의 중심 새 모델 만들기 만든 모델을 측정하기
산출물 논문, 새 학습 방법, 새 아키텍처 평가 시스템, 데이터셋, 측정 기준
통계 깊이 매우 깊음 중급 (실험 설계에 충분한 수준)
코드 작성 학습 파이프라인 평가 파이프라인, 데이터 처리

ML Researcher가 새 모델을 만든다면, Eval Engineer는 측정의 기준을 만듭니다. 같이 일하지만 역할이 분리되어 있습니다.


학술 토대 — 측정 자체가 정말 어렵다는 증거 네 편

이 자리가 진지한 직군이 된 이유 중 하나는, 측정 자체가 정말 어렵다는 게 학술적으로 증명되었기 때문입니다. 네 편의 핵심 논문을 한 번에 정리하겠습니다.

1. Zheng 외 2023, Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (NeurIPS 2023, arXiv:2306.05685, 피인용 3,500+).

LLM을 평가자로 쓰는 방법의 기준점이 된 논문. GPT-4 같은 강한 모델이 통제·크라우드 인간 선호와 80% 이상 일치한다는 발견. 인간 사이 일치도와 거의 같음. 그러나 4가지 편향이 있음.

“Strong LLM judges like GPT-4 can match both controlled and crowdsourced human preferences well, achieving over 80% agreement — yet they exhibit position, verbosity, and self-enhancement biases.”

수민의 하루에서 judge prompt를 개선하던 작업이, 이 논문이 짚은 4가지 편향을 잡는 작업과 같은 종류입니다. Eval Engineer는 매일 이 편향과 싸웁니다.

2. Deng 외 2024, Investigating Data Contamination in Modern Benchmarks for Large Language Models (NAACL 2024, arXiv:2311.09783).

LLM 벤치마크가 학습 데이터에 오염되어 있는지를 검증한 논문. TS-Guessing(Testset Slot Guessing) 기법으로 객관식 답안의 한 옵션을 마스킹하고 모델에 채우게 시켜 메모리화 정도를 측정. 결과:

“The high exact-match rates for GPT-4 and ChatGPT on the original MMLU test are indicative of memorization rather than general reasoning ability.”

이 데이터가 무엇을 말하는지가 분명합니다. AI가 시험을 잘 본다고 일을 잘하는 게 아닙니다. 시험지를 미리 봤을 가능성이 50%가 넘습니다. 평가를 새로 짜는 사람이 직업이 되는 이유가 이 논문에 있습니다.

3. Liang 외, HELM — Holistic Evaluation of Language Models (TMLR 2023, arXiv:2211.09110).

Stanford CRFM의 평가 프레임워크. 16개 시나리오 × 7개 메트릭(정확도·견고성·공정성·편향·독성·효율 등)을 동시에 측정. 단일 점수 대신 trade-off 노출이 핵심 가치.

“Holistic evaluation surfaces trade-offs that single-number leaderboards systematically obscure.”

단일 점수 leaderboard가 체계적으로 가리는 trade-off를 노출시킨다는 것. Eval Engineer가 회사 안에서 단일 점수 보고를 거부하는 자리가 되는 학술적 정당성입니다.

4. Cemri 외 2025, Why Do Multi-Agent LLM Systems Fail? (arXiv:2503.13657, 10장 자료 재활용).

7개 SOTA 다중 에이전트 시스템의 41~86.7% 실패율. 14가지 실패 모드(MASFT). Eval Engineer가 측정해야 할 카테고리의 학술적 기반입니다.

이 네 편이 측정이 왜 어려운지에 대한 표준 답을 학술에서 정리한 자료들입니다. Eval Engineer 면접에서 이 네 편 중 어느 것이라도 깊이 토론할 수 있는 후보가 곧바로 차별화됩니다.


어떤 사람이 잘 맞나 — 적합도 자가진단 5문항

  1. 데이터 감각이 강한가. 1만 개의 사례를 분포로 보는 게 자연스러운가. 몇 개의 outlier가 무엇을 의미하는지 짚을 수 있는가.

  2. 통계적 직관이 있는가. 통계학을 깊이 공부했을 필요는 없지만, 실험 설계의 기본(샘플 크기, 통계적 유의성, 신뢰 구간)을 대화에서 자연스럽게 다룰 수 있는가.

  3. 정성과 정량을 오가는 글쓰기. 평가 결과를 보고할 때 숫자만이 아니라 사례로 풀어 설명할 수 있는가. 왜 이 회귀가 중요한지를 문장으로 정리할 수 있는가.

  4. 합의를 끌어내는 보고가 가능한가. 모델 배포 여부를 결정하는 회의에서, 데이터로 결정을 끌어내는 글쓰기와 말하기가 가능한가. 정치적이지 않은 영역에서, 데이터가 결정을 만들도록 돕는 자리.

  5. 측정 자체에 대한 회의가 즐거운가. 내가 만든 측정 기준이 잘못되었을 가능성을 매일 의심하는 게 자연스러운가. 측정 자체의 메타 평가가 일의 본질입니다.

다섯 문항 중 세 개 이상에 그렇다고 답할 수 있다면, Eval Engineer가 가까운 자리입니다. 특히 QA, 플랫폼 엔지니어, 데이터 엔지니어, 데이터 분석가 출신이 적합도가 높습니다.


한국에서의 채용 신호 — 가장 늦게 도착한 자리

도입부 표에서 11장이 ★(가장 적은 별)으로 분류된 이유를 정리해 보겠습니다. 한국 채용 시장에서 Eval Engineer라는 정확한 타이틀이 거의 없습니다. 가장 가까운 사례 두 가지만 짚을 수 있습니다.

업스테이지. AI Research Engineer (LLM Evaluation)라는 영문 타이틀로 모집 중. 한국 회사 중에서 가장 명시적으로 evals를 직군 이름에 넣은 사례. 다만 별도 직군이라기보다 AI Research Engineer 안의 한 트랙에 가깝습니다.

카카오·네이버. ML Engineer 직무 안에 평가 책임이 통합되어 있습니다. 별도 직군이 없음이라는 표현이 정확합니다. 한 사람이 모델을 만들고, 그 모델의 평가도 자기가 함. 그래서 측정에 대한 깊이가 글로벌 frontier lab보다 얕은 경우가 많습니다.

이 풍경이 한국 시장의 현재 상태입니다. 그러나 부재 자체가 신호입니다. 다음 한 절에서 풀어 보겠습니다.


메타 절 — 왜 한국에 가장 늦게 들어오는가

11장의 한국 칸을 글로벌 자료로 채우지 않는다는 점이 이 책에서 의도된 선택입니다. 부재 자체를 데이터로 다루겠습니다.

한국에 늦은 다섯 가지 이유:

1. 한국 AI 시장이 응용 단계에서 출발했습니다. Frontier lab(자체 모델 개발)이 글로벌만큼 많지 않습니다. LG AI Research의 EXAONE이 있지만, OpenAI·Anthropic 같은 규모의 모델 평가 팀이 한국에는 거의 없습니다. Frontier lab이 만드는 Eval Engineer 일감이 한국에는 자리가 적습니다.

2. 응용 회사에서 평가가 ML Engineer 책임에 통합됩니다. 카카오·네이버·토스 같은 응용 회사들이 별도 Eval Engineer를 채용하지 않습니다. 같은 사람이 모델을 응용하고 평가하는 모델로 굴러갑니다. 역할 분리가 일어나지 않은 상태입니다.

3. 한국어 evals의 비표준성. 영어로 만들어진 표준 벤치마크(MMLU, HELM 등)와 비교 가능한 한국어 표준 벤치마크가 아직 정착되지 않았습니다. 각 회사가 자체 한국어 evals를 만들지만, 비교 가능성이 낮아서 직군 표준화가 더딥니다.

4. 통계·실험 설계 인력의 시장 분리. 한국에서 데이터 사이언티스트ML Engineer는 분명하게 분리되어 있지만, Eval Engineer가 둘 사이의 한 자리로 자리잡는 데 시간이 걸리고 있습니다.

5. AgentOps와 묶여 들어옴. 한국에서 evals를 누가 책임지는가에 대한 답이, 지난 1~2년 동안 AgentOps 운영팀에 통합된 형태로 진행되고 있습니다. SK 에이닷 운영팀이 프롬프트와 평가를 같이 다루는 풍경. 별도 Eval Engineer 직군이 자리잡지 않은 채, AgentOps 직군 안에 평가 책임이 통합되는 형태입니다.

한국 도착 timeline 가설: Eval Engineer가 한국에서 별도 직군으로 본격 자리잡는 시점은 2028~2030년으로 예상합니다. 다른 4개 직군보다 1~2년 더 늦을 가능성이 높습니다.

그래서 이 자리가 흥미롭습니다. 한국에서 가장 늦게 들어올 자리라는 것은 직군이 정해지기 전 가장 큰 자리를 잡을 기회가 가장 큰 자리이기도 합니다. 지금 한국에서 Eval Engineer에 가까운 일을 자처하는 사람이라면, 2~3년 뒤 직군이 표준화될 때 가장 앞자리에 있을 수 있습니다.


Husain & Shankar의 표준 — 60-80% 시간을 evals에

Hamel Husain과 Shreya Shankar가 운영하는 Maven AI Evals 코스가 4,500명 이상을 졸업시켰습니다. 미국에서 Eval Engineer 진입의 표준 커리큘럼에 가까운 위치입니다.

이 코스에서 두 사람이 가장 자주 인용되는 발언이 한 줄입니다.

“We spent 60-80% of our development time on error analysis and evaluation. Most effort goes toward understanding failures rather than building automated checks.”

개발 시간의 60~80%를 error analysis에 쓴다는 것. 그리고 그 노력의 대부분은 자동 체크 만들기가 아니라 실패 이해에 들어간다는 것.

같은 글에서 두 사람이 자주 짚는 진단도 인용해 두겠습니다.

“Teams jump straight to building LLM judges or dashboards without knowing what they’re measuring. They build judges for generic things like ‘helpfulness’ or ‘conciseness’ that don’t catch real problems. Error analysis is not optional — it’s the foundation. Skip it and everything else is built on sand.”

대부분의 팀이 무엇을 측정하는지 모른 채로 LLM judge나 대시보드 만들기에 직행한다는 것. Helpfulnessconciseness 같은 generic 항목으로 judge를 만들지만, 진짜 문제를 잡지 못한다는 것. Error analysis는 선택이 아니라 토대. 건너뛰면 모든 것이 모래 위에 짓는 것이 됩니다.

이 진단이 Eval Engineer 일의 본질을 짚었습니다. 측정 도구를 만드는 일보다, 측정해야 할 것을 정의하는 일이 더 크고 더 어렵습니다.

같은 시리즈에서 Lenny’s Newsletter가 한 호의 제목을 “Evals are the hottest new skill for product builders”로 정한 적이 있습니다. 직군 이름은 아직 안 정해졌지만, evals라는 능력 자체가 가장 뜨거운 스킬이 되어 가고 있다는 시장 진단입니다.


RAG Evals의 6가지 — Jason Liu의 프레임워크

Eval Engineer가 특정 시스템에서 어떻게 평가를 짜는지의 구체 예로, Jason Liu가 정리한 RAG Evals 6 framework를 짚어 두면 유용합니다.

RAG(Retrieval-Augmented Generation) 시스템의 평가는 6가지 층으로 나뉩니다.

이 6가지를 서로 다른 도구로 측정합니다. Tier 1은 기존 IR 도구로 측정 가능. Tier 2는 LLM-as-judge가 필요. Tier 3는 실제 사용자 데이터가 필요.

Eval Engineer가 어떤 tier를 누가 책임지는지를 명시적으로 정의하는 게 일의 한 부분입니다. 그리고 각 tier 측정 방법의 신뢰도를 또 평가하는 게 한 부분입니다. 메타 평가가 매번 동반됩니다.


90일 안에 시도해 볼 수 있는 것

한국 QA·플랫폼·데이터 엔지니어가 Eval Engineer로 옮겨가려고 할 때, 90일 동안 해 볼 만한 행동입니다.

1. 공개 벤치마크의 한계 분석 글. MMLU, HellaSwag, HumanEval 중 한 가지를 골라서, 어떤 한계가 있는지 분석한 글을 씁니다. Deng 외 데이터 오염 논문을 인용. 자기 도메인에서 이 벤치마크가 잡지 못하는 것을 구체 사례로 제시. 한 편의 글이 60일 안에 가능합니다.

2. 자기 도메인 eval 셋 공개. 자기 도메인에서 100개 사례의 eval 셋을 만들어 GitHub에 공개. 각 사례마다 기대 답, 측정 기준, 왜 이 사례가 중요한지를 적습니다. 90일 안에 공개된 eval 셋 한 개가 자산이 됩니다.

3. LLM-as-judge 실험 보고서. Zheng 외 LLM-as-Judge 논문에서 짚은 4가지 편향을, 자기 도메인에서 실제로 재현해 보는 실험을 합니다. position bias, verbosity bias, self-enhancement bias, 제한된 추론. 어떤 편향이 어떤 사례에서 발생하는지를 보고서로 정리. 30~45일 안에 가능합니다.

4. Husain & Shankar의 AI Evals 코스 수강. Maven 플랫폼에서 진행되는 AI Evals 코스를 수강합니다. 약 4주 과정. 글로벌 표준 커리큘럼이라, 졸업증이 진지한 후보임을 보여 주는 신호가 됩니다. 한국에서는 이 자격이 희소한 차별점이 됩니다.

5. 한국 도메인 한국어 eval 시도. 한국어 도메인에서 영어 벤치마크와 비교 가능한 eval 셋을 만들어 보는 시도. 예를 들어 한국어 법률 질문 100개에 대한 fact-check eval. 한국 회사 면접에서 바로 도움이 되는 자산이 됩니다.

다섯 가지 중 세 가지를 끝낸 사람이라면, 한국 빅컴퍼니의 AI Research Engineer (Evaluation) 자리에 진지하게 검토되는 후보가 됩니다. 동시에 글로벌 회사 원격도 가능한 자산이 됩니다.


측정의 표준을 다시 짜는 사람

본론 5개 직업의 마지막 자리입니다. 측정의 표준을 만드는 사람.

이 자리가 다른 4개와 다른 점이 한 가지 있습니다. Eval Engineer는 본론의 다른 모든 직업과 짝을 이룹니다. AI PM은 eval로 PRD를 대체하고, FDE는 고객 현장에서 evals를 만들고, Applied AI는 eval로 회귀를 잡고, AgentOps는 eval 결과로 알람을 짭니다. 다섯 자리가 측정의 기준 위에서 함께 돌아갑니다.

그래서 Eval Engineer는 조용한 핵심입니다. 화려한 자리는 아닙니다. 그러나 이 자리 없이는 다른 직업들이 작동하지 않습니다.

한국에서 가장 늦게 들어올 자리이고, 가장 적은 자료가 있는 자리지만, 그래서 지금 들어가는 사람에게 가장 큰 자리가 될 수 있습니다.


본론 5개 직업을 한 번 더 정렬해 봅니다

5개 직업의 비교를 도입부에서 한 번 했고, 본론에서 한 챕터씩 들여다봤습니다. 막간으로 넘어가기 전, 한 표로 다시 정리하겠습니다.

직업 시그니처 인용 한국 도착 가장 가까운 현직
7장 AI PM “Evals replace PRDs” — Husain 도구화 단계 ★★★ PM/기획자
8장 FDE “+1,165% YoY” — Bloomberry 재편 중 ★★★★ SI 컨설턴트, 솔루션 아키텍트
9장 Applied AI Engineer “5년 → 한 오후” — Swyx 성숙 ★★★★★ 백엔드, 풀스택
10장 Agent 운영자 “환각은 시스템 설계 문제” — Galileo 운영팀 형태 ★★ SRE, 플랫폼, 시니어 백엔드
11장 Eval Engineer “Error analysis is not optional” — Husain 가장 늦음 ★ QA, 플랫폼, 데이터 엔지니어

이 다섯 자리가 본론 도감이었습니다. 다섯 자리 모두 Jagged Frontier 매핑이라는 공통 능력 위에 서 있고, KPI가 결과 단위로 옮겨가는 시대의 짝을 이루는 자리들입니다.

본론을 닫기 전에, 책의 가설이 틀릴 수 있는 9가지를 한 자리에 모아 직시하는 짧은 막간으로 들어가겠습니다. 다음 페이지가 그 막간입니다.

막간 — 정직한 한 페이지: 우리가 틀릴 수 있는 9가지

본론 5개 직업을 살펴봤습니다. PART 4로 넘어가서 어디서 어디로 옮겨갈지의 전환 지도를 펼치기 전, 한 페이지 멈춰 서서 직시해야 할 풍경이 있습니다.

이 책의 가설이 틀릴 수 있는 9가지입니다. 가설을 강하게 옹호하는 자료뿐 아니라, 그 가설을 반박하거나 완화하는 자료를 일부러 함께 모았습니다. 정직한 책이 되려면 이 9가지를 외면해서는 안 됩니다.

각 항목은 두 줄로 정리합니다. 무엇이 반박되는가, 그리고 우리는 그것에 어떻게 응답하는가.


1. AI의 거시 효과는 미미합니다

무엇이 반박되는가. MIT의 Daron Acemoglu가 2024년에 발표한 The Simple Macroeconomics of AI(NBER WP 32487)는 GenAI의 거시 효과가 과장되어 있다고 주장합니다. 향후 10년 누적 TFP 증가는 0.66% 이하. GDP 효과는 1.1~1.6%. AI가 영향을 미치는 작업이 전체의 4.6%에 불과. Goldman Sachs 같은 기관의 GDP +7% 예측은 과장(hyperbolic)이라는 진단.

우리의 응답. 거시는 천천히, 미시는 빠르게. 이 책은 국가 GDP에 베팅하는 게 아니라 개인 커리어에 베팅합니다. Acemoglu의 추정이 정확하더라도, 직업 변동의 미시 풍경은 지금도 빠르게 움직이고 있습니다. AI Engineer 채용 +143.2%, FDE 채용 +1,165%. 거시가 작더라도, 이 자리들의 연봉 곡선은 분명히 위로 갑니다.


2. 새 직업이 만들어진다기보다, 기존 직업이 변형됩니다

무엇이 반박되는가. ILO(국제노동기구)가 2025년 5월에 발표한 Generative AI and Jobs(WP140)는, 전 세계 노동자의 약 25%가 GenAI에 어느 정도 노출되지만 대부분의 직업에서 일어나는 일은 대체가 아니라 변형(transformation)이라고 결론짓습니다. 일자리가 없어지는 것이 아니라 일의 모양이 바뀐다는 진단.

우리의 응답. 변형이 우세하다는 것이 새 직업의 등장을 부정하는 게 아닙니다. 변형의 옆에 서 있는 사람이 새 직업이 됩니다. 예: 7장 AI PM은 기존 PM이 변형되는 자리에 자라난 직업. 8장 FDE는 기존 SI 컨설턴트가 변형되는 자리에 자라난 직업. 이 책의 5개 직업이 순수한 신생 직업이라기보다, 변형의 옆자리에 가깝다는 점은 인정하겠습니다.


3. 신입 진입이 14% 막혔습니다

무엇이 반박되는가. Anthropic이 정기적으로 발표하는 Economic Index의 5차 보고서(2026년 3월)는, 22~25세 노출 직업 진입 신입의 구직률이 ChatGPT 출시 후 14% 감소했다는 데이터를 보고했습니다. AI에 노출된 직군(소프트웨어 엔지니어, 컨설턴트, 작가)에서 신입 진입 자체가 좁아진 것입니다.

우리의 응답. 같은 시기에 Brynjolfsson 외 2023 콜센터 연구가 보여 준 풍경은 정반대입니다. AI를 쓰는 신입의 생산성이 34% 올랐다. 두 데이터의 모순이 이 책의 12장 핵심 긴장입니다. AI를 쓰는 신입은 빠르게 큰다. AI에 대체되는 위치의 신입은 진입 자체가 막힌다. 본론 5개 직업이 AI를 쓰는 자리에 속한다는 점이 책의 답변입니다. AI에 대체되는 위치가 아니라.


4. Reinstatement 효과는 지난 40년 약화되었습니다

무엇이 반박되는가. Acemoglu와 Pascual Restrepo가 2019년에 Journal of Economic Perspectives에 발표한 Automation and New Tasks는, 기술의 노동시장 효과를 displacement effect(자본이 노동을 대체)와 reinstatement effect(새 작업이 만들어져 노동에 비교우위 회복)의 합으로 정리합니다. 지난 30년은 displacement가 가속되는 동안 reinstatement는 둔화되어 노동 점유율이 하락했습니다. 새 작업이 만들어지는 속도가 충분하지 않을 수 있다는 경고.

우리의 응답. 그래서 가만히 있으면 잃습니다. 이 책의 메시지는 모든 사람이 자동으로 새 자리를 얻는다는 게 아닙니다. 이동하는 사람만 새 reinstatement에 자리 잡는다는 것입니다. 그래서 14장 90일 플랜이 책의 핵심입니다. 자동이 아닙니다.


5. AI는 frontier 바깥에서 -19%p 손해를 만듭니다

무엇이 반박되는가. Harvard Business School의 Fabrizio Dell’Acqua 외 9명의 2023년 Navigating the Jagged Technological Frontier는, 758명 BCG 컨설턴트 RCT에서 frontier 바깥쪽 작업에서 GPT-4 사용군의 정확도가 19%p 떨어졌다는 결과를 보고했습니다. 잘못된 자리에 AI를 쓰면 오히려 손해입니다.

우리의 응답. Jagged Frontier 매핑이 본론 5개 직업의 공통 메타 능력이 되는 학술적 근거가 바로 이 논문입니다. PART 3 도입부에서 한 절을 따로 둔 이유입니다. AI를 무작정 쓰는 사람이 -19%p 손해를 보는 동안, Jagged Frontier를 잘 매핑하는 사람이 +40% 품질 향상을 받습니다. 새 직업의 가치가 이 격차에서 자랍니다.


6. 다중 에이전트는 41~87%가 실패합니다

무엇이 반박되는가. UC Berkeley의 Mert Cemri 외 2025 Why Do Multi-Agent LLM Systems Fail?(arXiv:2503.13657)은, 7개 SOTA 오픈소스 다중 에이전트 시스템의 실패율이 41~86.7%임을 보고했습니다. 단일 에이전트 베이스라인 대비 성능 향상이 최소이거나 마이너스. 다중 에이전트 시스템은 기본적으로 작동하지 않습니다.

우리의 응답. 그래서 10장 Agent 운영자가 진짜 직업이 됩니다. 41~87% 망가지는 시스템을 운영해야 하는 회사가 늘어나고 있고, 그 망가짐의 패턴을 추적하고 잡는 사람이 직업이 됩니다. 다중 에이전트의 실패율이 높다는 것이 AgentOps 직군의 존재 이유를 학술적으로 증명합니다.


7. LLM 평가는 50%+ 메모리화일 가능성이 있습니다

무엇이 반박되는가. Yale의 Chunyuan Deng 외 2024 Investigating Data Contamination(NAACL 2024, arXiv:2311.09783)은, GPT-4가 MMLU에서 정확히 맞춘 비율이 57%이며 이는 일반 추론 능력이 아닌 암기의 증거라고 진단했습니다. 우리가 AI가 잘한다고 믿는 벤치마크 점수의 절반 이상이 시험지를 미리 본 결과일 수 있습니다.

우리의 응답. 그래서 11장 Eval Engineer측정의 표준을 다시 짭니다. 기존 벤치마크의 한계를 인정하고, 자기 도메인의 새로운 평가 기준을 만드는 사람이 직업이 됩니다. 메모리화 57%라는 데이터가 Eval Engineer 직업의 존재 이유를 학술적으로 증명합니다.


8. Cisco는 90% 손실 후 25년 만에 회복했습니다

무엇이 반박되는가. Cisco 주가가 2000년 3월에 정점 시총 $569B를 찍은 다음, 닷컴 버블이 무너지면서 가치의 90%를 잃고 2002년 말 $60B까지 내려왔습니다. 그리고 그 정점을 다시 회복한 것이 25년이 지난 2025년 12월이었습니다. 인프라 챔피언의 전 시대 영광 회복까지 한 세대가 걸렸습니다.

우리의 응답. 인프라 단계 베팅과 응용 단계 베팅의 위험이 다릅니다. Cisco가 90%를 잃는 동안, 응용 단계에서는 Google과 Amazon이 자랐고 새 직업들이 만들어졌습니다. 이 책은 Nvidia 주식에 베팅하는 게 아니라 Nvidia가 깐 인프라 위에서 자라는 직업에 베팅하는 가이드입니다. 두 가지 베팅의 위험은 완전히 다른 종류입니다.


9. 결과 과금에도 한계가 있습니다 — Klarna의 재채용

무엇이 반박되는가. Klarna가 2024년 2월 OpenAI 협업으로 AI 어시스턴트를 도입한 다음, 2025년 후반에 사람 고객 응대 인력을 다시 채용하기 시작했습니다. CEO Sebastian Siemiatkowski의 발언이 그 변화를 짚었습니다.

“We focused too much on efficiency and cost. The result was lower quality.”

결과 과금 모델의 전형적 실패 사례로 인용되고 있습니다.

우리의 응답. 재채용이 결과 과금 모델의 실패라기보다, 어떤 자리에 사람이 남아야 하는지의 신호에 가깝습니다. 결과 과금이 무너졌다기보다, 결과를 책임지는 일에서 사람이 빠질 수 없는 영역이 드러났습니다. 그리고 그 자리에 새로운 직업이 자라고 있습니다. 11장 Eval Engineer와 10장 Agent 운영자가, Klarna가 다시 사람으로 돌아온 그 자리의 옆에서 일하는 사람들입니다.


9가지를 종합하면

9가지를 한 줄씩 정렬해 보면, 한 가지 패턴이 보입니다. 반박 자료가 직업의 존재 이유를 증명하는 경우가 많다는 것입니다.

9가지 반박 자료를 직시한 다음에도, 책의 가설은 흔들리지 않습니다. 오히려 더 정확해집니다. 자동으로 일어나는 풍경이 아니라, 이동하는 사람에게 자라는 자리들. 거시 낙관에 베팅하는 게 아니라, 미시 기회에 베팅하는 가이드.


베팅이라는 단어를 떳떳이 씁니다

마지막 한 단락입니다.

이 9가지가 모두 옳을 가능성. 일부만 옳을 가능성. 전부 틀릴 가능성. 어느 경우든, 이 책의 가설이 완전히 안전하지는 않다는 게 진실입니다.

그래도 우리는 이 책에서 후자에 베팅합니다. 모바일이 그랬듯, 인터넷이 그랬듯, PC가 그랬듯, AI 인프라 다음에 새 직업이 자란다는 쪽으로. 베팅이라는 단어를 떳떳이 씁니다.

13장 현직별 전환 경로에서, 5개 직업으로 가는 길을 본격적으로 그리겠습니다. 13장과 14장이 이 베팅에 자기 시간을 거는 사람을 위한 일정표입니다.

PART 4. 어디서 어디로 — 현직자의 전환 지도

길을 정합니다. 톤이 1~3부와 달리 실용 매뉴얼에 가깝습니다.

본론 5개 직업을 들여다봤고, 막간에서 책 가설이 틀릴 수 있는 9가지도 직시했습니다. PART 4는 그 모든 것을 행동의 일정표로 옮기는 마지막 단계입니다.

12장은 한국 시장의 특수성을 정리합니다. SI 빅3의 AI 전환, 신입의 두 얼굴, 5개 직군의 한국 도착 단계. 13장은 현직 → 새 직군의 매핑 표를 펼치고, 4명의 실제 전환 사례를 짧게 들여다봅니다. 14장은 내일부터 90일 동안 무엇을 할지의 일정표를 손에 쥐어 줍니다. 자가진단 15문항부터 30-60-90일의 4 트랙까지.

이 PART가 끝나면, 책이 읽고 끝나는 책에서 시작점으로 작동하는 책으로 바뀝니다.

12장. 한국 시장에서 이 흐름은 어떻게 다른가 — 대기업·스타트업·SI의 자리

“GPU는 쌓였는데 사람이 없습니다.” — KMJournal, “한국 AI 발목 잡는 인력난” (2026)

PART 4에 들어왔습니다. 본론 5개 직업을 모두 살펴봤고, 막간에서 책 가설이 틀릴 수 있는 9가지도 직시했습니다. 이제 이 모든 것을 한국 시장의 풍경 위에 올려놓을 차례입니다.

본론 챕터에서 다섯 자리의 한국 도착 단계가 다르다는 것을 짚었습니다. 9장 Applied AI Engineer가 가장 성숙해 있고, 11장 Eval Engineer가 가장 늦었다는 점. 이 차이가 왜 생겼는지, 그리고 그 안에서 한국 독자가 어떻게 자리 잡을 수 있는지를 12장에서 정리하겠습니다.

먼저 한국 AI 시장의 풍경을 한 줄로 요약하는 발언부터 보겠습니다.


“GPU는 쌓였는데 사람이 없습니다”

KMJournal이 2026년 초에 “한국 AI 발목 잡는 인력난”이라는 기사를 냈습니다. 한 줄로 요약된 풍경이 인용 가치가 큽니다.

“수백억 원을 투자해 인프라를 깔아놨지만, LLM을 고도화할 수석 엔지니어급 인력을 수개월째 구하지 못하고 있습니다. 미국 빅테크 연봉의 70%를 제시해도 실력자들은 이미 실리콘밸리로 떠났거나 국내 대기업이 흡수한 상태입니다.”

같은 시기에 네이트 뉴스가 2026년 1월에 “다룰 사람이 없다 — 텅 빈 한국 AI 두뇌”라는 기사를 냈습니다. 한국 AI 시장의 풍경을 요약하는 헤드라인급 표현입니다.

이 발언들의 배후에 데이터가 있습니다.

GPU와 데이터센터는 깔리는 중이고, 자본은 들어오는 중인데, 사람이 없습니다. 81.9%가 인력 부족을 호소하는데 OECD 35위로 인재가 빠져나가는 모순이 한국 AI 시장의 가장 큰 특징입니다.

이 모순을 정리하는 한 줄을 짚어 두겠습니다. 한국 AI 시장은 인프라가 깔리는 속도와 인재가 채워지는 속도가 가장 크게 어긋난 시장입니다. 그래서 지금 들어오는 사람이 가장 큰 자리를 잡을 수 있습니다. 미국에서는 직군이 이미 굳어졌지만, 한국에서는 직군이 정해지기 직전 단계에 들어와 있습니다.


대기업의 자리 — 내부 적용의 그림자

한국 빅컴퍼니의 AI 채용 패턴을 한 줄씩 정리해 보겠습니다.

삼성. Samsung Advanced Institute of Technology(SAIT) 안에 AI 연구 인력이 집중되어 있습니다. 이와 별도로 삼성SDSAI 컨설팅·SI 영역에서 빠르게 자리를 만들고 있습니다. ZDNet Korea의 2025년 12월 기사가 “삼성SDS·LG CNS·SK C&C, 인사 키워드는 ‘AX’… 전략은 ‘동상이몽’”이라고 짚었습니다. AX(AI Transformation)가 그룹사 인사 전반의 키워드가 되었습니다.

SK 텔레콤. AI Personal Agent 라인이 핵심 전략. 에이닷의 운영팀이 사실상 한국형 AgentOps를 가장 명시적으로 수행 중. DEVOCEAN 블로그에 다수 사례 공개. SK C&C가 AX 컨설팅·SI 일감을 가져갑니다.

LG. LG AI Research가 EXAONE 자체 모델을 운영합니다. Research Scientist/Engineer 직군이 frontier lab에 가까운 일을 합니다. 동시에 LG CNS가 AI 직군 11개 직무 1,000명을 채용 중. LG가 자체 모델 + 응용 SI를 동시에 가져가는 양상.

현대차·SK 하이닉스 등 제조. AI Inside 같은 자체 AI 조직을 만들고 있습니다. 응용에 무게가 실립니다.

네이버·카카오. 자체 모델(HyperCLOVA, KoGPT) + 응용 AI 직군. 한국에서 Applied AI Engineer가 가장 두꺼운 자리를 차지하는 두 회사. 검색, 추천, 메시지, 광고 등 거의 모든 제품에 AI가 통합되고 있습니다.

대기업 자리의 공통 특징내부 적용이 큽니다. 글로벌 시장을 향한 frontier lab보다, 그룹사 내부 시스템에 AI를 적용하는 일감이 더 많습니다. 이 점이 frontier lab 위주의 미국과 다른 특징입니다. 그래서 한국 대기업의 AI 자리에 들어가는 사람은, 글로벌 frontier 경쟁보다 국내 산업 도메인 깊이를 더 우선해야 합니다.


스타트업의 자리 — 시드부터 Series B까지

한국 AI 스타트업의 채용 패턴을 한 줄씩 정리해 보겠습니다.

업스테이지. 한국 AI 네이티브 회사 중에서 가장 다양한 자리를 동시에 운영. 30개 직무, AI Research Engineer (LLM Evaluation), AI Solution Architect (Japan/한국), AI Customer Engineer, AI Business Development 등. 본론 5개 직업 중 AI PM·FDE·Applied AI·Eval Engineer 모두영문 타이틀로 채용 중. 한국에서 가장 글로벌에 가까운 채용 패턴.

뤼튼. 17개 분야 채용, 합격자에 2,000만 원 보너스를 걸 만큼 공격적. 컨슈머 AI 제품 중심.

솔트룩스. 자체 모델 루시아 운영. 엔터프라이즈·정부 응용.

스캐터랩. Pingpong·이루다 등 대화 AI 제품. 캐릭터·페르소나 영역에 무게.

코난 테크놀로지. 한국어 NLP 기반의 엔터프라이즈 솔루션.

페르소나 AI. 보이스 AI 영역. 콜센터·고객 응대에 무게.

마키나락스. 제조 AI 영역.

이 스타트업들의 공통 특징이 두 가지입니다. Applied AI Engineer가 가장 많은 채용 자리이고, FDE-인접한 자리가 빠르게 자라고 있습니다. 한국 스타트업이 frontier 모델을 만드는 영역보다는 그 모델 위에서 한국 시장 응용을 만드는 영역에 집중하고 있습니다.

연봉을 보면 시리즈 A~B 한국 AI 스타트업 시니어 엔지니어가 보통 1억~1억 5,000만 원 수준. 옵션을 포함하면 조금 더 위. 단 스타트업 단계라 연봉의 변동성이 큰 자리입니다.


SI·컨설팅의 자리 — 가장 빠른 재편 중

한국 SI 빅3(삼성SDS·LG CNS·SK C&C)의 AI 전환이 지금 가장 빠르게 일어나는 풍경입니다. 8장 FDE에서 짚었지만, 여기서 한 번 더 들여다보겠습니다.

영주.dev라는 한국 실무자 블로그가 2026년 3월에 “SI 산업의 AI 대전환”이라는 글에서 한국 SI 진화 로드맵을 정리했습니다.


박스 — SI 엔지니어 진화 3단계 로드맵 (영주.dev, 2026)

시기 단계 주된 일감
2020~2024 코더 요구사항 따라 코드 작성, 시스템 통합
2025~2027 AI 활용 개발자 AI 도구로 생산성 향상, RAG·LangChain 응용
2028~2030 AI 오케스트레이터 에이전트 워크플로 설계, 다중 에이전트 운영

가속 요인: - Gartner 인용: 2028년까지 SI 프로젝트 80%의 코딩 작업이 AI로 자동화 - LG CNS 1,000명 AI 직군 채용 목표 - ZDNet Korea (2025/12): “삼성SDS·LG CNS·SK C&C, 인사 키워드는 ‘AX’” - ZDNet Korea (2025/12/08): “2026 채용 트렌드 — 4~7년차 경력직 + AI 활용 인재 더 뽑는다” - 삼성SDS AI 관련 SI 비중 2026년 40%+ 전망

지연 요인: - 인재 유출 OECD 35위 - 81.9% 인력 부족 (구하고 싶어도 못 구함) - 한국형 직무명 미정착 (AI 컨설턴트·솔루션 아키텍트·어플리케이션 개발자가 혼재) - SI 전통 문화의 코드보다 문서 관행


이 로드맵에서 2025~2027년이 지금입니다. AI 활용 개발자 단계. 한국 SI 빅3의 채용 공고가 이 단계의 인재를 대규모로 찾고 있습니다.

가장 명시적인 케이스가 LG CNS입니다. 2026년에 AI 분야 전문가 확보를 위해 AI 직군 전 분야에 걸쳐 경력직 채용 중. 11개 직무 — AI Scientist, AI Engineer, AI Architecture, AI Application Development, AI Tech Consultant, AI Service Design Consultant 등 — 에서 연말까지 1,000명을 확보하겠다는 목표.

삼성SDS도 AI 컨설팅과 AI 음성 처리 등 다양한 직무를 동시에 모집 중입니다. SK C&C도 비슷한 패턴.

이 흐름이 한국 SI 컨설턴트와 솔루션 아키텍트에게 어떤 의미인지가 분명합니다. 2025~2027년이 가장 좋은 전환 타이밍입니다. AI 활용 개발자 단계에 들어가서, 그 다음 AI 오케스트레이터 단계로 자연스럽게 진화하는 경로. 한국 SI 빅3 안에서 이 진화 경로가 가능합니다.


외국계 R&D의 자리 — 원격 근무 옵션

한국에서 글로벌 회사 원격으로 일하는 자리가 늘어나고 있습니다.

OpenAI, Anthropic, Cursor 같은 회사들이 원격 채용을 적극적으로 합니다. 한국에서 일하면서 미국 본사 직고용으로 들어가는 케이스가 늘어나고 있습니다. 연봉이 한국 빅컴퍼니의 2~3배가 되는 경우가 흔합니다.

다만 진입 장벽이 큽니다. 영어 면접, 글로벌 코딩 인터뷰, 시차 대응. 그리고 문서 기반 소통에 익숙해야 합니다.

업스테이지 같은 한국 회사 중에서도 글로벌 원격 직군이 등장하고 있습니다. 한국에 있으면서 일본·동남아 고객을 대응하는 AI Solution Architect 자리가 그 한 예입니다.


5개 직군의 한국 도착 매핑 — 한 표로

본론 챕터에서 챕터별로 본 한국 도착 단계를, 한 표로 다시 정리합니다.

직군 한국 도착 단계 한국에서 가장 가까운 회사 한국 도착 timeline (가설)
AI Product Manager 도구화 단계 토스·당근·업스테이지·뤼튼 (PM 직무에 통합) 별도 직군화 2027~2028
Forward Deployed Engineer 재편 중 LG CNS, 삼성SDS, SK C&C, 업스테이지 (AI 컨설턴트로) 정식 타이틀 2026~2027
Applied AI Engineer 성숙 카카오, 네이버, 토스, 당근, 업스테이지, LG AI Research, 뤼튼 이미 성숙
Agent 운영자 / AgentOps 운영팀 형태 SK 에이닷, 한국 LLM 도입 회사들 정식 직군화 2027~2028
Eval Engineer 가장 늦음 업스테이지 (LLM Evaluation 트랙) 별도 직군화 2028~2030

이 표가 한국 독자가 어느 자리에 언제 들어갈 수 있는지의 시간표입니다. 지금 들어갈 수 있는 자리가 9장 Applied AI Engineer이고, 2~3년 안에 자라는 자리가 7·8·10장, 3~5년 안에 자리잡는 자리가 11장입니다.


클라이맥스 절 — 신입의 두 얼굴: +34% 생산성 vs -14% 채용

12장의 클라이맥스에 해당하는 한 절입니다. 막간에서 잠깐 짚은 모순을, 한국 시장의 맥락에서 한 번 더 풀어 봅니다.

같은 신입에 대한 두 데이터가 있습니다.

데이터 1: Brynjolfsson 외 2023. 5,179명 콜센터 RCT에서, AI 도구를 사용한 신입과 저숙련자의 시간당 해결 이슈 수가 34% 증가. 6개월 미만 신입이 1년 차 숙련자와 비슷한 결과를 냈습니다. AI를 쓰는 신입은 빠르게 큽니다.

데이터 2: Anthropic Economic Index 5차(2026-03). 22~25세 노출 직업 진입 신입의 구직률이 ChatGPT 출시 후 14% 감소. AI에 대체될 만한 위치의 신입은 진입 자체가 막혔습니다.

두 데이터가 같은 신입에 대해 정반대 방향입니다. 어떻게 두 가지가 동시에 일어날 수 있을까요. 한 줄로 정리하면 분명해집니다.

AI를 쓰는 신입은 빠르게 크고, AI에 대체되는 신입은 진입조차 막힌다.

이 두 풍경이 같은 회사 안에서 동시에 일어납니다. 신입을 한 명도 안 뽑는 회사는 거의 없습니다. 그러나 어떤 자리의 신입은 채용을 줄이고, 어떤 자리의 신입은 책임을 늘립니다. 그 자리들의 차이가 AI 사용 여부입니다.

한국 시장에서의 함의. 한국은 인재 유출 + 인력 부족이 동시에 일어나는 시장입니다. 두 데이터의 풍경이 어떻게 결합될까요. 가설을 한 줄로 정리하면 다음과 같습니다.

한국은 진입은 좁아지지만, 들어온 사람의 가속은 빠른 시장이 될 가능성이 높습니다.

OECD 35위로 인재가 빠져나가고, 81.9%가 인력 부족을 호소하고, 대기업 연봉이 미국의 70%에 머무는 상황에서, 신입이 들어가는 문 자체가 좁아질 수 있습니다. 그러나 그 문을 통과한 사람은, 한국 시장에서 수개월 안에 시니어 자리에 올라갑니다. 인력이 워낙 부족하기 때문에.

영주.dev의 SI 진화 로드맵의 2025~2027 AI 활용 개발자 단계가 이 가설의 한 변형입니다. 들어온 사람만이 그 단계를 거쳐 2028~2030 AI 오케스트레이터로 갑니다. 그 외 사람들은 그 자리에서 AI에 대체되는 신입의 풍경에 머뭅니다.

이 모순을 직시하는 것이 12장의 가장 큰 메시지입니다. 한국은 진입은 좁고, 들어온 사람의 가속은 빠른 시장입니다. 90일 플랜이 진입 가능성을 높이는 90일이 되어야 하는 이유가 여기 있습니다.


한국에서 어디로 지원할 것인가 — 첫 지도

12장을 마무리하면서, 5개 직업별로 한국에서 가장 먼저 지원해 볼 만한 회사 5곳씩을 정리해 두겠습니다. 13장에서 더 세부 매핑을 다루기 전, 첫 좌표입니다.

7장 AI Product Manager (한국 진입 도구화 단계): - 토스 (PM 직무, AI 활용 강조) - 당근 (PM 직무) - 업스테이지 (Product Manager) - 뤼튼 - 카카오스타일 / 카카오엔터프라이즈

8장 Forward Deployed Engineer (한국 진입 재편 중): - LG CNS (AI Tech 컨설턴트, AI 솔루션 아키텍트, 11개 직무) - 삼성SDS (AI 컨설팅, 솔루션 컨설턴트) - 업스테이지 (AI Customer Engineer, AI Solution Architect) - SK C&C (AX 컨설턴트) - 대보정보통신·기타 중견 SI

9장 Applied AI Engineer (한국 진입 성숙): - 카카오 (ML Engineer LLM/Search) - 네이버 (HyperCLOVA 응용) - 토스 (ML Engineer) - 당근 (2026 ML 직군) - 업스테이지 (AI Research Engineer) - LG AI Research (EXAONE Lab) - 뤼튼 (17개 분야)

10장 Agent 운영자 (한국 진입 운영팀 형태): - SK 텔레콤 (에이닷 운영팀) - SK C&C / SK텔레콤 AI 플랫폼 직무 - 카카오 (AI Platform Engineer) - 토스 (SRE + AI) - 업스테이지 (AI Platform)

11장 Eval Engineer (한국 진입 가장 늦음): - 업스테이지 (AI Research Engineer - LLM Evaluation) - LG AI Research (EXAONE 평가) - 카카오·네이버 (ML Engineer 안의 평가 트랙) - 한국전자통신연구원(ETRI) AI 평가팀 - (대학·연구소 협력 포지션)

11장은 한국에 정식 자리가 적어서 대학·연구소 협력까지 후보에 들어갑니다. 다른 4개 직군은 한국 회사 안에서 5곳 이상의 후보가 분명히 존재합니다.


다음 장으로

12장에서 본 한국 시장의 풍경 — 인력난 + 진입 좁음 + 들어온 사람의 빠른 가속 — 위에서, 13장에서는 현직별 전환 경로를 그립니다. 백엔드는 어디로, PM은 어디로, SI 컨설턴트는 어디로, QA는 어디로. 자기 위치에 손가락을 짚고 다음 좌표를 정하는 챕터입니다.

그리고 14장에서, 그 좌표로 가는 90일 일정표가 손에 쥐어집니다.

13장. 어디서 어디로 — 현직별 전환 경로와 사례

이 책에서 가장 자주 들춰볼 페이지가 이 장의 한 표일 가능성이 높습니다. 현직 → 새 직군의 매핑 표. 자기 위치에 손가락을 짚고, 어디로 옮겨갈 수 있는지를 한눈에 보는 페이지입니다.

먼저 그 표를 펼친 다음, 각 경로마다 건너야 할 갭가장 가까운 점프를 정리하겠습니다. 그리고 마지막에 실제 전환 사례 4명을 짧게 들여다봅니다.


현직 → 새 직군 매핑 — 책에서 가장 자주 들춰볼 한 표

현직 가장 가까운 새 직군 두 번째 후보 세 번째 후보
백엔드·풀스택 Applied AI Engineer (9장) Agent 운영자 (10장) FDE (8장)
프론트엔드 AI PM (7장) Applied AI Engineer (9장, UI 영역 중심)
PM·기획자 AI PM (7장) FDE (8장, 도메인이 강하면)
SI 컨설턴트·솔루션 아키텍트 FDE (8장) AI PM (7장)
QA·테스트 엔지니어 Eval Engineer (11장) Agent 운영자 (10장)
SRE·플랫폼 엔지니어 Agent 운영자 (10장) Eval Engineer (11장) Applied AI Engineer (9장)
데이터 엔지니어 Eval Engineer (11장) Applied AI Engineer (9장)
데이터 분석가·DS AI PM (7장) Eval Engineer (11장)
ML 엔지니어·연구원 Applied AI Engineer (9장, 응용 트랙) Eval Engineer (11장)
컨설턴트 (비IT) AI PM (7장) FDE (8장)

이 표에서 가장 가까운 새 직군학습 곡선이 짧은 점프를 의미합니다. 두 번째 후보조금 더 학습이 필요하지만 가능한 점프. 세 번째 후보큰 점프지만 가능.

이 표가 모든 사람에게 똑같이 적용되는 정답은 아닙니다. 그러나 대부분의 경우 첫 번째 선택지가 가장 가깝다는 점은 자료가 일관되게 보여줍니다. 자기 현직을 표에서 찾고, 가장 가까운 새 직군부터 검토하는 것을 추천합니다.


경로별 갭 분석 — 각 점프마다 건너야 할 것

매핑 표만 보면 점프가 쉬워 보입니다. 그러나 매 점프마다 건너야 할 갭이 있습니다. 경로별로 정리하겠습니다.

백엔드·풀스택 → Applied AI Engineer

가장 가까운 점프. 학습 곡선 약 3~6개월.

건너야 할 갭: - 비결정적 시스템에 대한 사고 전환 (가장 큰 갭, 6개월~1년이 표준) - LLM SDK 깊이 사용 (OpenAI, Anthropic, LangChain) - RAG 설계와 평가 - Eval 작성을 코드 리뷰처럼 일상화 - 토큰 비용 모니터링 습관

가장 가까운 첫 한 가지. 자기 코드베이스의 한 기능에 LLM 호출을 직접 통합해 보고, 비용과 정확도를 측정하는 작은 PoC. 한 주에 끝낼 수 있습니다.

프론트엔드 → AI PM 또는 Applied AI Engineer

중급 점프. AI PM은 학습 곡선 6~12개월, Applied AI는 그보다 길 수 있음.

건너야 할 갭: - AI PM 방향: eval 사고확률적 시스템 의사결정 - Applied AI 방향: 백엔드 설계 경험 + LLM SDK - 프론트엔드 출신은 AI 제품의 사용자 경험 영역에서 강점이 있습니다. AI가 만든 결과를 어떻게 표시할지가 새 분야의 한 영역입니다.

가장 가까운 첫 한 가지. v0, Cursor, Claude Code 같은 AI 코딩 도구를 매일 사용하면서 AI가 잘하는 영역과 못하는 영역의 경계에 대한 감각을 키우기.

PM·기획자 → AI PM

가장 가까운 점프. 학습 곡선 약 6개월.

건너야 할 갭: - PRD를 evals로 옮기는 사고 전환 - 통계적 직관 (실험 설계의 기본) - ML 엔지니어와의 협업 언어 (토큰, 컨텍스트, 모델 드리프트) - 확률적 시스템에 대한 의사결정

가장 가까운 첫 한 가지. 자기 도메인의 eval 데이터셋 30개 사례를 만들어 GitHub에 공개. 7장에서 다룬 첫 90일 행동입니다.

SI 컨설턴트·솔루션 아키텍트 → FDE

가장 짧은 점프 중 하나. 학습 곡선 약 3~9개월. 이미 가진 자산(고객 응대·도메인·통합 경험)이 매우 많습니다.

건너야 할 갭: - 코드를 직접 쓰는 습관 (가장 큰 갭) - 빠른 프로토타이핑 능력 (Cursor·Claude Code·Streamlit·FastAPI) - 비결정적 시스템 사고

가장 가까운 첫 한 가지. 자기 도메인에서 한 가지 현장 시나리오를 골라서 60일 안에 동작하는 프로토타입을 만들어 GitHub에 공개. 8장에서 다룬 첫 90일 행동.

영주.dev가 SI 진화 로드맵에서 2025~2027 AI 활용 개발자 단계로 명시한 그 단계가 이 점프의 한국적 표현입니다.

QA·테스트 엔지니어 → Eval Engineer

중급 점프. 학습 곡선 약 6~12개월.

건너야 할 갭: - 패스/페일 사고에서 분포 사고로 (가장 큰 갭) - 통계적 실험 설계 - LLM-as-judge 도구 사용 - 정답을 정의하는 일에 대한 자신감

가장 가까운 첫 한 가지. Husain & Shankar의 AI Evals 코스(Maven) 수강. 4주 과정. 한국에서 이 자격이 희소한 차별점이 됩니다.

SRE·플랫폼 엔지니어 → Agent 운영자

가장 짧은 점프 중 하나. 학습 곡선 약 3~6개월.

건너야 할 갭: - 관측 대상의 변화 (시스템 상태 → 에이전트 행동) - LLM 호출 트레이싱 도구 (LangSmith·Langfuse 등) - 분포 알람 짜는 법

가장 가까운 첫 한 가지. Langfuse 셀프호스팅을 자기 환경에 띄우고, 토이 에이전트 프로젝트의 트레이싱을 한 달 운영. 10장에서 다룬 첫 90일 행동.

데이터 엔지니어 → Eval Engineer

중급 점프. 학습 곡선 약 6~9개월. 데이터 큐레이션 경험이 많은 자산이 됩니다.

건너야 할 갭: - LLM과 평가에 대한 학술 기반 (Zheng, Deng, HELM) - LLM-as-judge 도구 - 평가 자체에 대한 메타 사고

가장 가까운 첫 한 가지. 공개 벤치마크(MMLU, HellaSwag, HumanEval) 한 가지를 깊이 분석한 글 한 편. 자기 도메인의 한계를 짚는 형태.

데이터 분석가·DS → AI PM 또는 Eval Engineer

중급 점프. 학습 곡선 약 6~9개월. 데이터 사고가 강점입니다.

건너야 할 갭: - AI PM 방향: 제품 의사결정에 대한 책임감, ML 엔지니어와의 협업 언어 - Eval Engineer 방향: 측정 시스템 자체를 만드는 일에 대한 경험

가장 가까운 첫 한 가지. AI PM이라면 PRD를 evals로 옮기는 실험. Eval Engineer라면 LLM-as-judge 편향 실험.

ML 엔지니어·연구원 → Applied AI Engineer 또는 Eval Engineer

경로가 약간 다릅니다. ML 엔지니어가 Applied AI Engineer로 가는 것은 역방향의 자연스러운 진화에 가깝습니다. 연구에서 응용으로. 학습 곡선 약 3~6개월.

건너야 할 갭: - 모델 자체에서 모델 주변 시스템으로 시야 확장 - production 시스템 운영 경험 - 사용자 피드백을 시스템에 통합하는 흐름

가장 가까운 첫 한 가지. 자기 모델을 실제 사용자가 쓰는 시스템에 한 번 배포해 보는 경험. 한 달 안에 가능합니다.

컨설턴트 (비IT) → AI PM

큰 점프. 학습 곡선 약 12~18개월. 그러나 도메인 깊이가 큰 자산이 됩니다.

건너야 할 갭: - 코드와 기술 개념 (LLM, RAG, eval) - 통계적 직관 - 제품 사고

가장 가까운 첫 한 가지. AI 코딩 도구(Cursor·Claude Code)를 매일 사용하면서, AI를 활용한 사이드 프로젝트 한 개를 끝까지 완성. 3개월 안에 가능합니다.


전환 사례 — 실제로 옮긴 4명

매핑 표와 갭 분석은 추상적입니다. 실제로 이 경로를 거친 사람들의 풍경을 보면, 점프가 더 구체적으로 보입니다. 네 명의 사례를 짧게 들여다보겠습니다. (인물명은 가명, 사례 구조는 실제 자료에서 재구성)


사례 1: 한국 SI 컨설턴트 → Forward Deployed Engineer

이름: 민호 (가명) 전직: 한국 SI 빅3 중 한 회사에서 솔루션 아키텍트 7년 현직: 미국의 한 시리즈 B AI 스타트업, Forward Deployed Engineer (1년 6개월 차)

옮긴 동기. “SI 시절에 점점 문서만 쓰는 자리로 올라가는 게 답답했습니다. 그리고 한국 SI의 매출 구조가 AI 시대에는 흔들릴 거라는 감이 왔습니다. 코드를 다시 쓰는 자리로 옮기고 싶었습니다.”

첫 90일에 한 것. Cursor를 메인 IDE로 전환. 법률 도메인의 RAG 프로토타입을 60일 안에 GitHub에 공개. 그 프로젝트를 가지고 미국 회사 5곳에 콜드 이메일.

1년 뒤 지금. 미국 동부의 한 금융사 고객사에 6개월 임베드 중. 연봉이 한국 SI 시절의 3.5배. 그러나 워라밸은 더 나쁩니다. 출장이 잦고, 고객사 사무실에서 보내는 시간이 길어졌습니다.

회고 한 줄. “한국 SI 시절의 도메인 지식이 가장 큰 자산이었습니다. 코드 능력은 90일에 채울 수 있었습니다.”


사례 2: 한국 PM → AI Product Manager (한국 잔류)

이름: 수진 (가명) 전직: 카카오 PM 4년 현직: 한국 시리즈 B AI 스타트업의 Product Manager (1년 차, 실질적 AI PM)

옮긴 동기. “카카오에서 AI 활용 기능을 한 가지 책임진 적이 있었습니다. 그게 가장 재미있는 일이었습니다. 별도 직군이 한국에 거의 없으니, AI 네이티브 스타트업으로 옮기는 게 길이라고 봤습니다.”

첫 90일에 한 것. 자기 도메인(쇼핑·결제) eval 데이터셋 100개를 만들어 GitHub에 공개. Aakash Gupta의 AI PM 인터뷰 글Marily Nika의 Lenny’s 대담을 통째로 분석한 블로그 글 한 편 공개. AI Engineer 디스코드에서 PM 트랙 활동.

1년 뒤 지금. PM이라는 타이틀이지만 실질적 AI PM 일감. evals를 PM이 직접 짭니다. 연봉이 카카오 시절보다 약간 위. 옵션 포함하면 더 위. 회사 안에서 evals 표준을 짜는 사람이 되어 있습니다.

회고 한 줄. “한국에 별도 AI PM 자리가 없는 게 처음에는 불안했지만, 한국 AI 네이티브 회사에 가니 모든 PM이 AI PM이었습니다. 미국 별도 직군화의 한국적 미리 보기를 살고 있는 셈입니다.”


사례 3: 한국 시니어 백엔드 → Applied AI Engineer

이름: 지수 (가명) 전직: 카카오 백엔드 5년 현직: 한국 시리즈 B AI 스타트업의 Applied AI Engineer (1년 차)

옮긴 동기. “백엔드 5년이면 시니어로 인정받기 시작하는데, 새 기술 학습이 주말 취미에 머무는 게 아쉬웠습니다. 주중에 학습이 일감이 되는 자리로 옮기고 싶었습니다.”

첫 90일에 한 것. OpenAI/Anthropic SDK 깊이 사용. RAG 토이 프로젝트와 비용 측정 블로그 한 편 공개. Langfuse 셀프호스팅을 자기 프로젝트에 붙임. 카카오 시절 동료에게 내가 옮겨 갈 자리에 대해 1~2번 식사하면서 얘기 — 이 대화가 채용 연결로 이어졌습니다.

1년 뒤 지금. 회사 안에서 RAG와 evals를 책임. 토큰 비용을 매주 보고하는 자리가 되어 있습니다. 연봉이 카카오 시니어 시절보다 약간 위. 회사 옵션도 받음.

회고 한 줄. “백엔드 5년의 분산 시스템 감각이 그대로 옮겨갔습니다. RAG는 결국 분산 시스템입니다. 비결정성에 익숙해지는 데 6개월이 걸렸지만, 그게 가장 큰 학습이었습니다.”


사례 4: 한국 SRE → Agent 운영자 (미국 회사 원격)

이름: 재현 (가명) 전직: 토스에서 SRE 6년 현직: 미국의 한 시리즈 C AI 회사의 AI Platform Engineer (Reliability), 1년 차. 한국에서 원격.

옮긴 동기. “SRE 6년 차에 서비스 안정성은 거의 다 풀어 봤습니다. 새 영역이 필요했습니다. AgentOps라는 단어를 IBM 블로그에서 보고, 같은 일을 에이전트 행동에 적용한다는 게 흥미로웠습니다.”

첫 90일에 한 것. Langfuse를 토이 프로젝트에 셀프호스팅. 자기 에이전트 프로젝트의 실패 모드 보고서를 30일 단위로 정리해 블로그에 공개. Cemri MASFT 14가지를 자기 프로젝트에서 재현해 본 글이 그 회사 채용 매니저의 눈에 들어왔습니다.

1년 뒤 지금. 미국 회사 직고용, 한국 원격. 연봉이 토스 SRE 시니어 시절의 약 2.5배. 시차 대응이 가장 힘든 일감입니다. 새벽에 페이지 알람이 오는 빈도가 토스 시절보다 잦습니다.

회고 한 줄. “SRE의 사고 방식이 그대로 옮겨갔습니다. 대상이 시스템 상태에서 에이전트 행동으로 바뀐 것 외에, 일의 모양은 거의 같았습니다. 도구 학습(Langfuse·LangSmith)에 2개월, 사고 전환에 4개월이 걸렸습니다.”


사례 4명에서 보이는 공통점

네 명의 사례를 모아 보면, 한 가지 공통 패턴이 있습니다.

공통점 1: 90일 안에 공개된 자산 한 개를 만들었습니다. 민호의 RAG 프로토타입, 수진의 eval 데이터셋, 지수의 비용 측정 블로그, 재현의 실패 모드 보고서. 네 명 모두 GitHub 또는 블로그에 공개된 자산을 면접의 무기로 사용했습니다.

공통점 2: 자기 출신의 자산을 그대로 가져갔습니다. 민호는 SI 도메인 지식, 수진은 PM 사용자 사고, 지수는 분산 시스템 감각, 재현은 SRE 운영 사고. 기존 자산을 버리는 게 아니라 끌고 가는 점프였습니다.

공통점 3: 한 명의 동료·멘토·채용 매니저와의 1대1 대화가 결정적이었습니다. 채용 연결이 공개 자산1대1 대화의 조합에서 나왔습니다. 콜드 이메일도, 동료 추천도, 블로그 글이 채용 매니저의 눈에 들어온 것도 모두 1대1 연결입니다.

공통점 4: 6개월~1년의 사고 전환 시간을 통과했습니다. 비결정성, 분포 사고, 측정의 메타 평가. 네 명 모두 처음 6개월~1년이 가장 힘들었다고 회고했습니다. 이 사고 전환을 학습 곡선의 한 부분으로 미리 받아들이는 게 중요합니다.


표를 다시 한 번 — 자기 위치에 손가락을 짚으세요

13장의 처음에 본 현직 → 새 직군 매핑 표를 한 번 더 펼쳐 두겠습니다.

현직 가장 가까운 새 직군 두 번째 후보
백엔드·풀스택 Applied AI Engineer Agent 운영자 / FDE
프론트엔드 AI PM Applied AI Engineer
PM·기획자 AI PM FDE
SI 컨설턴트·SA FDE AI PM
QA·테스트 Eval Engineer Agent 운영자
SRE·플랫폼 Agent 운영자 Eval Engineer
데이터 엔지니어 Eval Engineer Applied AI Engineer
데이터 분석가·DS AI PM Eval Engineer
ML 엔지니어 Applied AI Engineer Eval Engineer
컨설턴트(비IT) AI PM FDE

자기 현직을 표에서 찾고, 가장 가까운 새 직군에 동그라미를 친 다음 다음 장으로 넘어가면 됩니다.

다음 장은 그 동그라미를 향해 내일부터 90일 동안 무엇을 할지의 일정표입니다.

14장. 다음 5년을 준비하는 90일 플랜 — 자가진단부터 행동까지

13장에서 자기 위치에 동그라미를 쳤다면, 14장은 그 동그라미를 향한 일정표입니다.

먼저 자가진단 15문항으로 가장 가까운 자리를 한 번 더 확인합니다. 그 다음 현장 검증 휴리스틱 5개를 살펴봅니다. 그리고 30-60-90일 일정표를 4트랙으로 펼칩니다. 마지막에 혼자 하지 않는 것에 대한 짧은 한 절과 90일 후 자가 평가표.

이 장이 책이 책장에 머물지 않고 일정표가 되는 지점입니다.


자가진단 15문항 — 5칸 × 3문항

본론 5개 직업 각각에 적합도 자가진단 5문항을 두었는데, 그 중 각 직업마다 가장 결정적인 3문항을 모았습니다. 총 15문항. 점수가 가장 높은 직군이 당신에게 가장 가까운 자리입니다.

각 문항에 0~2점으로 답합니다. 0 = 자신 없다. 1 = 조금 자신 있다. 2 = 자신 있다.

7장 AI Product Manager (3문항)

  1. 데이터로 의사결정하는 게 직관보다 익숙하다. □ 0 □ 1 □ 2
  2. 모호한 상황을 측정 가능한 사례로 옮길 수 있다. □ 0 □ 1 □ 2
  3. ML 엔지니어와 토큰·컨텍스트·드리프트 같은 단어로 자연스럽게 대화할 수 있다. □ 0 □ 1 □ 2

합계 (7장 점수): __ / 6

8장 Forward Deployed Engineer (3문항)

  1. 고객사 사무실에서 수개월 임베드할 수 있다. □ 0 □ 1 □ 2
  2. 시니어가 되어도 코드를 직접 쓰는 일이 즐겁다. □ 0 □ 1 □ 2
  3. 고객사 임원이 회의에서 반론을 던졌을 때, 정중하게 데이터로 설득할 수 있다. □ 0 □ 1 □ 2

합계 (8장 점수): __ / 6

9장 Applied AI Engineer (3문항)

  1. 분산 시스템에서 어디가 약한 고리인지를 보는 눈이 있다. □ 0 □ 1 □ 2
  2. 같은 입력에서 매번 다른 출력이 나오는 시스템에 대해, 짜증보다 호기심이 먼저 든다. □ 0 □ 1 □ 2
  3. 토큰 비용·사용자당 비용·기능당 비용을 매일 모니터링하는 게 자연스럽다. □ 0 □ 1 □ 2

합계 (9장 점수): __ / 6

10장 Agent 운영자 / AgentOps (3문항)

  1. 1,000건의 트레이스 중 2건의 이상 패턴을 찾는 작업에 짜증이 안 난다. □ 0 □ 1 □ 2
  2. 새벽에 페이지 알람이 와도 침착하게 트레이스를 들여다볼 수 있다. □ 0 □ 1 □ 2
  3. 새 도구를 매월 익히는 게 부담이 아니라 즐거움이다. □ 0 □ 1 □ 2

합계 (10장 점수): __ / 6

11장 Eval Engineer (3문항)

  1. 1만 개의 사례를 분포로 보는 게 자연스럽다. 몇 개의 outlier가 무엇을 의미하는지 짚을 수 있다. □ 0 □ 1 □ 2
  2. 내가 만든 측정 기준이 잘못되었을 가능성을 매일 의심하는 게 자연스럽다. □ 0 □ 1 □ 2
  3. 모델 배포 결정 회의에서, 데이터로 결정을 끌어내는 글쓰기와 말하기가 가능하다. □ 0 □ 1 □ 2

합계 (11장 점수): __ / 6

채점

다섯 칸의 점수를 한 자리에 적습니다.

자리 점수
7장 AI PM __
8장 FDE __
9장 Applied AI __
10장 Agent 운영자 __
11장 Eval Engineer __

가장 높은 점수의 자리가, 당신에게 가장 가까운 새 직군입니다. 동점이면 13장의 현직별 매핑 표에서 가장 가까운 후보가 적힌 자리를 우선합니다.

점수가 4점 이상인 자리가 한 개 이상이라면, 그 자리들이 적합도 높은 후보군입니다. 모든 자리에서 3점 이하라면, 자기 현직의 어떤 측면을 더 키워야 가까운 자리가 생기는지를 먼저 검토하는 것을 추천합니다.


현장 검증 휴리스틱 5개 — 본격 일정 들어가기 전에

90일 일정표를 펼치기 전, 자료에서 반복적으로 등장한 5가지 현장 검증 휴리스틱을 정리해 두겠습니다. 이 다섯 가지가 90일 행동의 를 떠받칩니다.

휴리스틱 1: 측정할 수 없으면 만들지 마라

Hamel Husain이 AI Evals 코스에서 반복하는 한 줄입니다. 60-80%의 개발 시간을 error analysis에 쓰는 게 합리적이라는 진단의 배경입니다.

90일 적용. 90일 동안 측정 없이 만든 것은 카운트하지 않습니다. 토이 프로젝트 한 개를 만들었어도, 그 프로젝트의 evals를 같이 짜지 않았다면 절반의 완성도입니다.

휴리스틱 2: AI 도입 4단계 — 트레이싱·비용·자동평가·프롬프트 관리

영주.dev가 한국 실무자 입장에서 정리한 AgentOps 도입 4단계입니다.

“먼저 트레이싱을 설정해서 모든 LLM 호출을 기록하고, 비용 추적을 추가하고, 자동 평가 파이프라인을 구축하고, 마지막으로 프롬프트 버전 관리와 A/B 테스트로 발전시키는 것이 현실적인 도입 경로입니다.”

90일 적용. 자기 토이 프로젝트에 이 4단계를 순서대로 적용합니다. 1단계(트레이싱)를 30일, 2단계(비용)를 45일, 3단계(자동 평가)를 70일, 4단계(프롬프트 관리)를 90일 안에. 모든 단계를 동시에 시작하지 않고, 한 단계씩 채웁니다.

휴리스틱 3: FDE 채용에 매출 책임 있으면 그건 영업이다

Bloomberry가 1,000건 FDE 채용 공고에서 매출 책임 0%를 발견한 데서 나온 휴리스틱입니다.

90일 적용. 8장 FDE로 옮기려는 사람이 채용 공고를 볼 때, quota, pipeline, revenue responsibility 같은 단어가 있으면 Sales Engineer에 가깝다는 신호입니다. 진짜 FDE 자리를 가짜 SE 자리와 구분하는 기준이 됩니다.

휴리스틱 4: RAG + LangChain은 한국 응용 엔지니어 표준 공통분모

jmhong2020의 Threads 분석과 거의 모든 한국 AI 채용 공고에서 반복되는 패턴입니다. RAG 경험과 LangChain 경험이 한국 시장 진입의 최소 기술 스택입니다.

90일 적용. 9장 Applied AI Engineer 또는 10장 AgentOps로 옮기려는 한국 독자라면, 90일 안에 RAG 토이 프로젝트 하나LangChain 또는 LangGraph 활용 한 개를 GitHub에 공개합니다. 한국 면접의 최소 입장권에 가깝습니다.

휴리스틱 5: 오픈소스 셀프호스팅이 한국 엔터프라이즈의 기본 입찰

Langfuse 한국 도입 활성도와 한국 회사들의 데이터 주권 선호에서 나온 휴리스틱입니다.

90일 적용. 10장 AgentOps로 옮기려는 사람이라면, 상용 SaaS만 써 본 경험은 한국 시장에서 약합니다. Langfuse·OpenLLMetry·Arize Phoenix 같은 오픈소스 도구를 셀프호스팅 해 본 경험이 한국 엔터프라이즈 면접에서 즉시 도움이 됩니다.


30-60-90일 일정표 — 4 트랙

자가진단으로 가장 가까운 자리를 정하고, 5가지 휴리스틱을 머릿속에 둔 다음, 본격 일정표로 들어갑니다.

4개 트랙으로 나눠 진행합니다. 학습·만들기·쓰기·네트워킹. 트랙마다 30/60/90일 마일스톤이 있습니다.

학습 트랙 — 직군별 코어 기술 셋

30일 마일스톤: 자기 직군의 코어 기술 한 가지를 깊이.

직군 30일 코어 학습
7장 AI PM Hamel Husain AI Evals 코스 (Maven) 또는 동등 자료. eval 데이터셋 한 개 직접 만들기
8장 FDE Cursor 또는 Claude Code를 주력 IDE로 전환. 매일 사용.
9장 Applied AI OpenAI 또는 Anthropic SDK 깊이 사용. function calling, streaming, retry까지.
10장 AgentOps Langfuse 셀프호스팅. Docker로 띄우고, 자기 프로젝트 트레이싱 연결.
11장 Eval Engineer Husain & Shankar AI Evals 코스 수강.

60일 마일스톤: 코어 기술 위에 한 가지 깊이를 더.

직군 60일 학습 확장
7장 AI PM LLM-as-judge 도구 한 개 사용해 보기 (Braintrust 또는 LangSmith)
8장 FDE RAG 시스템 직접 짜기. 한 산업 도메인의 시나리오 골라서.
9장 Applied AI RAG + 비용 모니터링 시스템. Langfuse 또는 Helicone.
10장 AgentOps Cemri MASFT 14가지 카테고리를 자기 프로젝트에서 재현 시도.
11장 Eval Engineer Zheng LLM-as-Judge 논문의 4가지 편향을 자기 도메인에서 재현 실험.

90일 마일스톤: 학습한 것을 시스템적으로 정리.

직군 90일 학습 정리
7장 AI PM 자기 도메인 eval 셋 100개 사례 정리. 분류 체계 포함.
8장 FDE 한 산업 시나리오의 동작하는 프로토타입 + 짧은 데모 영상.
9장 Applied AI RAG 토이 프로젝트 + 비용 측정 대시보드 완성.
10장 AgentOps 한 달치 실패 모드 보고서 한 편.
11장 Eval Engineer LLM-as-judge 편향 실험 보고서 한 편.

만들기 트랙 — 공개 가능한 자산

이 트랙이 면접에서 가장 직접 도움이 되는 트랙입니다. 13장의 4명의 사례에서 공통적으로 보였던 공개 자산의 영역.

30일 마일스톤: 자기 도메인을 정합니다. 그리고 작은 토이 프로젝트 1개를 시작.

60일 마일스톤: 토이 프로젝트가 동작하는 수준까지 완성. GitHub에 공개. README에 왜 이걸 만들었고, 무엇이 작동하고, 무엇이 안 되는지를 솔직히 적습니다.

90일 마일스톤: 토이 프로젝트에 evals + 비용 측정 + 운영 보고까지 추가. 자기 직군에 맞는 깊이의 한 측면을 보여 줍니다.

쓰기 트랙 — 90일 동안 3편의 글

쓰기가 면접 전 신호입니다. 회사의 채용 매니저가 후보의 깊이를 가장 빠르게 확인하는 방법이 공개된 글입니다.

30일 마일스톤: 1편 — 정리 글. 기존 자료를 자기 도메인 관점으로 정리한 글. 예: “한국 SI 컨설턴트가 본 Forward Deployed Engineer”, “백엔드 5년 차의 LLM SDK 첫 사용기”. 새로운 인사이트를 만들 필요 없습니다. 기존 자료의 좋은 정리도 강한 신호입니다.

60일 마일스톤: 2편 — 실험 글. 내가 직접 해 본 실험의 결과 글. 예: “RAG retrieval 단계의 청크 크기 실험 — 4가지 크기 비교”, “LLM-as-judge 편향 4가지를 한국어 법률 도메인에서 재현”. 토이 프로젝트의 결과를 글로 옮긴 형태가 가장 흔합니다.

90일 마일스톤: 3편 — 의견 글. 자기 관점이 있는 글. 예: “한국 SI 엔지니어가 FDE로 옮길 때 가장 큰 갭은 무엇인가”, “한국에 AgentOps가 늦게 들어오는 다섯 가지 이유”. 짧아도 됩니다. 자기 관점이 있는 게 핵심입니다.

매체는 자유. velog, 브런치, Medium, 자기 블로그. 한국어와 영어를 둘 다 쓸 수 있다면 영어 한 편을 끼우는 것이 글로벌 회사 원격 직무에 도움이 됩니다.

네트워킹 트랙 — 한국과 글로벌

13장의 4명의 사례 모두에서 1대1 대화가 채용 연결로 이어졌습니다. 이 트랙이 눈에 보이는 산출물이 적지만, 결정적인 트랙입니다.

30일 마일스톤: 한 커뮤니티 정착. 자기 직군에 맞는 한 커뮤니티를 정합니다.

직군 추천 커뮤니티
7장 AI PM Lenny’s Newsletter 디스코드, AI Engineer 슬랙
8장 FDE a16z 행사, AI Engineer World’s Fair (Swyx)
9장 Applied AI PyTorch KR 디스코드, OKKY AI 카테고리, AI Engineer 슬랙
10장 AgentOps SREcon, DEVOCEAN 글 정기 구독, Langfuse Discord
11장 Eval Engineer Maven AI Evals 코스 알럼니, hamel.dev 블로그

한 커뮤니티에서 주 2회 발언. 단순한 좋아요가 아니라 내용 있는 발언. 30일이면 얼굴이 알려진 정도까지 갈 수 있습니다.

60일 마일스톤: 한국 실무자 1~2명과 1대1 대화. 자기가 옮기려는 자리에 이미 가 있는 한국 사람을 찾습니다. LinkedIn, 블로그, 컨퍼런스 발표자. 식사 한 번 같이 하자는 짧은 메시지. 거절당할 수도 있지만, 응한 사람과의 1시간이 90일 전체의 가장 큰 자산이 될 수 있습니다.

90일 마일스톤: 글로벌 1명과 연결. 영어로 콜드 이메일 또는 Twitter/X DM. 자기가 가고 싶은 회사의 채용 매니저 또는 실무자 한 명. 메시지의 핵심은 내 자산 한 개를 짧게 보여 주는 것. 만든 자산 또는 글의 링크 한 개. 90% 답이 없을 겁니다. 그러나 10%의 답이 인생의 한 채용 연결이 될 수 있습니다.


4 트랙 종합 — 한 표로

90일 일정표를 한 표로 정리하겠습니다.

트랙 30일 60일 90일
학습 자기 직군 코어 기술 한 가지 깊이 한 가지 학습 확장 학습 시스템적 정리
만들기 도메인 선택 + 토이 프로젝트 시작 토이 프로젝트 GitHub 공개 evals·비용·운영 추가 완성
쓰기 정리 글 1편 실험 글 1편 의견 글 1편 (총 3편)
네트워킹 한 커뮤니티 정착, 주 2회 발언 한국 실무자 1~2명 1대1 대화 글로벌 1명 콜드 메시지

이 표가 90일 동안 책상에 붙여 두는 한 페이지가 됩니다. 매주 자기 위치를 확인하면서, 이번 주에 어떤 트랙에서 어디까지 갔는지를 점검합니다.


혼자 하지 않는 것 — 1·1·1 원칙

90일이 길어 보이지만, 혼자 하면 3개월이 그냥 지나갑니다. 13장의 4명의 사례에서 공통적으로 보였던 1대1 대화의 힘이 90일을 통과하는 가장 큰 자산입니다.

세 가지 1을 마련합니다.

동료 1. 같은 90일 플랜을 같이 하는 사람 한 명. 같은 직군일 필요는 없습니다. 같은 90일을 동시에 통과하는 사람. 주 1회 진행 상황 공유. 짧은 슬랙·디스코드 채팅이면 충분합니다.

멘토 1. 자기가 가고 싶은 자리에 이미 가 있는 사람 한 명. 매주 만날 필요 없습니다. 월 1회 30분 대화면 충분합니다. 길을 가본 사람이 주는 한 마디가 90일의 방향을 잡아 줍니다.

청중 1. 자기 글과 코드를 읽어 주는 사람 한 명. 가족도 됩니다. 친구도 됩니다. 매주 진행 상황 한 가지를 짧게 공유. 청중이 있다는 것 자체가 멈추지 않는 동력이 됩니다.

이 1·1·1 원칙이 90일을 외롭지 않게 통과하는 가장 큰 도구입니다.


90일 후 자가 평가표

90일이 끝난 다음, 자기 진행을 점검합니다.

항목 체크
자가진단에서 가장 높은 점수의 직군을 정했다
그 직군의 코어 기술 한 가지를 깊이 익혔다
GitHub에 공개된 토이 프로젝트 1개를 가지고 있다
그 토이 프로젝트에 evals·비용 측정·운영 보고가 포함된다
블로그에 공개된 글 3편을 가지고 있다 (정리·실험·의견 각 1편)
한 커뮤니티에서 얼굴이 알려진 정도까지 활동했다
한국 실무자 1~2명과 1대1 대화를 했다
글로벌 1명에게 콜드 메시지를 보냈다 (답 여부와 무관)
동료·멘토·청중 1·1·1을 가지고 있다
90일 동안 멈춘 주가 3주를 넘지 않았다

체크된 항목이 7개 이상이라면, 90일이 생산적이었다는 신호입니다. 그 시점에서 채용 면접을 보러 가도 진지하게 검토되는 후보가 됩니다.

체크된 항목이 4~6개라면, 다음 90일이 한 번 더 필요합니다. 어디서 막혔는지를 점검하고, 동료 1과 함께 다시 한 사이클.

체크된 항목이 3개 이하라면, 시간 자체가 부족한 상황이거나, 자기 직군 선택이 맞지 않을 가능성이 있습니다. 자가진단을 다시 한 번 해 봅니다.


90일이 끝의 풍경이 아닙니다

이 책의 90일 플랜이 완성된 새 자리에 안착하는 데까지 가는 일정표는 아닙니다. 90일 후, 진지하게 검토되는 후보가 되는 일정표입니다. 그 다음에 3~6개월의 면접 사이클이 있습니다. 채용까지 총 6~12개월이 표준입니다.

그러나 90일이 결정적인 이유는, 90일이 멈춘 사람움직인 사람을 가르기 때문입니다. 13장의 4명의 사례 중 3명이 90일 안에 첫 공개 자산을 만들었습니다. 나머지 1명도 90일 안에 학습의 결정적 진전을 만들었습니다.

영주.dev가 SI 진화 로드맵의 2025~2027 AI 활용 개발자 단계로 명시한 시기가 지금입니다. 이 시기를 그냥 지나가는 사람움직이는 사람의 차이가, 5년 뒤에 거대하게 벌어집니다.

90일을 시작하는 가장 좋은 날은, 책을 덮은 내일입니다.

다음 페이지는 에필로그입니다.

에필로그. 다음 단계는 곧 도착한다

“More than 60 percent of employment in 2018 is found in job titles that did not exist in 1940.” — David Autor, Caroline Chin, Anna Salomons, Bryan Seegmiller, New Frontiers (QJE, 2024)

책을 닫기 전에, 한 줄로 정리해 두고 싶은 풍경이 있습니다.

PART 1에서 본 세 번의 시대를 다시 떠올려 봅니다. PC, 인터넷, 모바일. 매번 반도체가 먼저 갔고, 5년에서 14년의 시차를 두고 그 위에서 위대한 소프트웨어 회사들이 등장했습니다. 시차는 매번 짧아져 왔습니다. PC 12~14년, 인터넷 9~11년, 모바일 5~6년. 그리고 매번, 그 시대의 주인공은 새로 등장한 회사들이었습니다.

PART 2에서 본 AI 인프라의 세 축을 떠올려 봅니다. 컨텍스트 길이 250배. 추론 비용 연 50~200배 하락. 토큰 생성 속도가 사람의 대화 호흡을 따라가기 시작한 풍경. 그 위에서 에이전트가 도구에서 동료에 가까운 자리로 올라왔고, 시트당 과금이 결과물 과금으로 옮겨가고 있습니다.

PART 3에서 만난 다섯 자리를 떠올려 봅니다. AI Product Manager. Forward Deployed Engineer. Applied AI Engineer. Agent 운영자. Eval Engineer. 5년 전에는 이름조차 명확하지 않았던 자리들이, 지금 미국 빅테크에서 매월 폭증하는 채용 카테고리가 되어 있습니다. Bloomberry가 측정한 FDE +1,165%. LinkedIn이 측정한 AI Engineer +143.2%. 그리고 한국에서도 LG CNS 1,000명, 업스테이지 30개 직무, 뤼튼 합격 보너스 2,000만 원의 풍경이 펼쳐지고 있습니다.

막간에서 직시한 9가지 반박을 떠올려 봅니다. AI 거시 효과 미미. 신직무는 변형이 우세. 신입 진입 -14%. Reinstatement 약화. Frontier 바깥 -19%p. 다중 에이전트 41~87% 실패. LLM 평가 50%+ 메모리화. Cisco 90% 손실 25년 회복. Klarna 재채용. 9가지가 모두 사실이고, 그래도 후자에 베팅한다는 책의 결연한 톤.

PART 4에서 펼친 한국 시장의 풍경을 떠올려 봅니다. GPU는 쌓였는데 사람이 없습니다. 인재 유출 OECD 35위. 81.9% 인력 부족. 영주.dev의 SI 진화 로드맵 — 2025~2027 AI 활용 개발자 단계가 지금. 신입의 두 얼굴 — AI를 쓰는 신입은 빠르게 큰다, AI에 대체되는 신입은 진입조차 막힌다.

그리고 14장의 90일 일정표를 떠올려 봅니다. 자가진단 15문항. 학습·만들기·쓰기·네트워킹 4 트랙. 동료 1·멘토 1·청중 1의 1·1·1 원칙. 90일이 끝의 풍경이 아니라 시작의 풍경이라는 것.


책 전체를 한 줄로

이 모든 풍경을, 한 줄로 회수해 보겠습니다.

반도체는 먼저 갔고, 사람은 따라간다. 그리고 사람의 자리는 새로 만들어진다.

이 한 줄이 이 책의 핵심입니다.

PC 시대도 그랬습니다. 인터넷 시대도 그랬습니다. 모바일 시대도 그랬습니다. 매번 인프라가 먼저 갔고, 매번 사람이 따라갔고, 매번 새로운 자리가 만들어졌습니다. 그 자리의 이름이 매번 달랐습니다. 1981년에는 PC 프로그래머가 없었습니다. 1995년에는 Web Developer가 막 등장했습니다. 2007년에는 Mobile App Developer가 이름조차 명확하지 않았습니다.

그리고 매번, 그 자리에 가장 먼저 자리를 잡은 사람이 그 시대의 시니어가 되었습니다.

2025년 지금, AI Product Manager, Forward Deployed Engineer, Applied AI Engineer, Agent 운영자, Eval Engineer의 이름이 5년 전에는 없던 자리들이 되어 있습니다. 그 자리에 지금 들어가는 사람이, 5년 뒤에 그 시대의 시니어가 됩니다.


두려움에서 일정표로

전작 코드 너머의 시대가 끝나는 자리에 한 줄이 있었습니다. 두려움에서 기회로. 이 시대를 두려워하지 말라는 메시지였습니다. AI가 빼앗는 자리만 보지 말고, 새로 만들어지는 자리도 보라는.

이 책이 그 다음 한 줄을 더합니다. 두려움에서 일정표로.

기회만 보는 것은 충분하지 않습니다. 그 기회를 향한 일정표가 있어야 합니다. 14장의 90일 플랜이 그 일정표입니다. 자가진단으로 자리를 정하고, 4 트랙으로 매주 진행하고, 1·1·1로 외롭지 않게 통과하는 90일.

90일이 짧아 보일 수 있습니다. 그러나 13장의 4명의 사례에서 본 풍경은, 90일이 멈춘 사람과 움직인 사람을 가르는 시간이라는 점이었습니다. 90일 동안 공개 자산 한 개를 만든 사람과, 그렇지 않은 사람의 차이가 면접 자리에서 즉시 보입니다.

이 책의 메시지가 낙관인지 현실주의인지 묻는다면, 후자에 가깝습니다. 자동으로 일어나는 풍경이 아닙니다. 이동하는 사람에게 자라는 자리들. 거시 낙관에 베팅하는 게 아니라, 미시 기회에 베팅하는 가이드.


Autor의 60%를 한 번 더

이 책의 첫 머리에서 Carlota Perez를 인용했습니다. “It is during the Deployment Period — after the major financial collapse — that the full social and economic potential of the new technologies can be realized.”

거대한 금융 조정이 지나간 다음에야, 새 기술의 진정한 잠재력이 실현된다는 것.

그리고 마지막 인용은, David Autor의 한 줄입니다.

“More than 60 percent of employment in 2018 is found in job titles that did not exist in 1940.”

2018년 미국 고용의 60% 이상이, 1940년에는 이름조차 없던 직업이라는 것. 컴퓨터 응용 엔지니어. 의료 정보학 전문가. 풍력 발전 기술자. 태양광 설치 기사. AI 전문가. 1940년에 “데이터 사이언티스트”라는 단어를 던지면 아무도 알아듣지 못했을 겁니다.

이 통계가 무엇을 말하는지가 분명합니다. 직업의 이름은 매번 새로 만들어집니다. 그리고 그 이름을 처음 받는 사람이 있습니다. 1940년대의 프로그래머. 1990년대의 웹 디자이너. 2010년대의 데이터 사이언티스트. 2025년의 Agent 운영자.

2018년의 60%가 1940년에 없던 직업이라면, 2050년의 60%는 지금 없는 직업입니다. 그 이름을 짓는 사람이, 지금 우리 옆에 있습니다.

어쩌면 그 사람이, 이 책을 읽고 있는 당신일 수 있습니다.


마지막 한 문장

다음 단계는 곧 도착합니다.

GPU는 이미 깔렸습니다. 데이터센터는 이미 짓고 있습니다. 모델은 매주 업데이트됩니다. 시차가 매번 짧아져 온 패턴을 따른다면, 다음 단계가 도착할 시점은 2027~2028년 어디쯤. 어쩌면 더 빠릅니다.

그 시점에 이름이 있는 자리에 있는 사람과, 그 시점에 막 새 이름을 받는 자리에 있는 사람이 갈립니다. 후자가 되는 사람이, 이 책이 향한 사람입니다.

2018년 직업의 60%가 1940년에는 이름조차 없었습니다. 다음 60%의 이름을 짓는 사람이 있을 것입니다.

어쩌면, 당신입니다.


이 책의 90일 플랜이 시작되는 가장 좋은 날은, 책을 덮은 내일입니다.

— 김상기

부록 A. 빠르게 자라는 다른 자리들

본론 5개 직업이 책의 무게중심이었습니다. AI Product Manager. Forward Deployed Engineer. Applied AI Engineer. Agent 운영자. Eval Engineer.

그러나 새 자리가 만들어지는 풍경이 이 다섯 자리에서 끝나지 않습니다. 본론에 넣을 만큼 자료가 두텁지는 않지만, 알아 둘 만한 자리들이 추가로 있습니다. 부록에 짧게 카탈로그로 정리합니다.

각 자리마다 (a) 짧은 정의 (b) 본론 5개 중 어디와 인접한가 (c) 한국 등장 여부 (d) 더 깊이 알 자료 (e) 옮겨갈 때 가장 큰 갭, 다섯 가지로 정리합니다.

부록은 두 묶음입니다. 기술·제품 인접 자리 7개와 조직·운영 인접 자리 5개. 본론 5개와 합치면 17개 자리. 시리즈 III 코드 너머의 조직에서 다룬 AX 시대 조직 운영의 한 묶음과 자연스럽게 짝지어 있습니다.


묶음 1 — 기술·제품 인접 자리

1. Solutions Architect (AI)

짧은 정의. 고객사의 전체 AI 아키텍처를 설계하는 사람. 한 가지 기능이 아니라 전체 시스템의 청사진을 그립니다. 클라우드 SA의 AI 시대 변형에 가깝습니다.

본론 5개와의 관계. 8장 FDE와 매우 가깝습니다. 차이는 코드의 비중입니다. FDE가 production code를 직접 쓰는 자리라면, Solutions Architect는 설계 문서가 산출물에 더 가깝습니다. 코드를 쓰지 않는 FDE에 가깝다고 보면 됩니다.

한국 등장 여부. SI 빅3에서 이미 AI 솔루션 아키텍트라는 직무명이 사용되고 있습니다. LG CNS의 11개 AI 직무 중 하나. 삼성SDS도 비슷한 패턴.

더 깊이 알 자료. AWS·Azure·Google Cloud의 AI Solutions Architect 채용 공고. 한국에서는 영주.dev의 SI 진화 로드맵 글이 가장 종합적입니다.

옮겨갈 때 가장 큰 갭. AI 모델·LLM 시스템에 대한 기술적 깊이. 클라우드 아키텍처 경험이 있어도 LLM 시스템 아키텍처는 다른 종류의 사고가 필요합니다.


2. AI Researcher-in-Residence

짧은 정의. 연구자이지만 제품 회사에 임베드되어 일하는 자리. VC 펀드, 대기업 R&D, 시리즈 B 이상의 AI 스타트업에서 자라는 자리. 학계와 산업의 경계.

본론 5개와의 관계. 11장 Eval Engineer와 약간 닮았지만, 모델을 새로 만드는 영역에 더 가깝습니다. ML Researcher가 제품 회사에 들어왔을 때의 변형.

한국 등장 여부. 거의 없습니다. LG AI Research, 네이버 AI Lab, 카카오 브레인 같은 대기업 R&D 조직이 가장 가까운 형태이지만, Researcher-in-Residence라는 정확한 타이틀은 한국에 흔하지 않습니다. 미국에서는 a16z, Sequoia, Index Ventures 같은 VC 펀드가 이 타이틀을 운영합니다.

더 깊이 알 자료. a16z의 AI Residency Program 발표 자료. Anthropic·OpenAI의 Research Engineer 채용 공고.

옮겨갈 때 가장 큰 갭. 논문 출판 경험. 박사 학위가 흔히 요구되지만, 최근 1~2년의 산업 경험도 같은 무게로 평가됩니다.


3. AI Sales Engineer

짧은 정의. AI 제품을 팔기 위해 데모하고 통합하는 엔지니어. 영업 책임이 있는 자리. 클래식 Sales Engineer의 AI 시대 변형.

본론 5개와의 관계. 8장 FDE와 인접하지만 결정적 차이가 있습니다. FDE 채용 공고에 매출 책임이 있으면 그건 영업이다는 휴리스틱이 정확히 이 자리.

한국 등장 여부. 한국에서는 Pre-Sales Engineer기술 영업이라는 이름. AWS, Microsoft, Google Cloud의 한국 지사가 가장 명시적.

더 깊이 알 자료. OpenAI·Anthropic의 Solutions Engineer 채용 공고(미국). 한국에서는 마이크로소프트 코리아의 Cloud Solutions Architect 자리.

옮겨갈 때 가장 큰 갭. 영업 KPI에 대한 적응. 기존 Pre-Sales Engineer가 AI 영역으로 확장하는 경로가 가장 흔합니다.


4. AI Customer Engineer (업스테이지 사례)

짧은 정의. 고객사가 AI 제품을 도입한 다음에, 현장에서 사용을 정착시키고 확장하는 엔지니어. Customer Success의 엔지니어 버전.

본론 5개와의 관계. 8장 FDE와 가깝지만 시점이 다릅니다. FDE가 판매 직후~배포 단계에 들어간다면, AI Customer Engineer는 배포 이후의 운영 정착에 무게가 실립니다.

한국 등장 여부. 업스테이지가 한국에서 가장 명시적입니다. AI Customer Engineer라는 정확한 타이틀로 채용 중. Japan / 한국 지역별로 직무를 분리해 운영.

더 깊이 알 자료. 업스테이지 careers 페이지의 AI Customer Engineer JD가 한국에서 가장 명시적. 미국에서는 Sierra, Glean 같은 회사의 비슷한 직무 공고.

옮겨갈 때 가장 큰 갭. 고객사 도입 사이클 전체에 대한 감각. SI 컨설턴트 경험이 자산이 됩니다.


5. Prompt Architect

짧은 정의. 시스템 프롬프트와 행동 설계를 전문적으로 다루는 사람. 프롬프트 엔지니어보다 한 단계 위. AI 인터페이스 디자이너에 가깝습니다.

본론 5개와의 관계. 7장 AI PM과 인접합니다. AI PM이 제품 의사결정까지 책임지는 자리라면, Prompt Architect는 프롬프트 자체에 집중하는 자리. AI PM 직무 안의 한 트랙으로 자라는 경우가 많습니다.

한국 등장 여부. 프롬프트 엔지니어라는 자리는 한국에 잠깐 등장했다가 AI PM이나 Applied AI Engineer에 통합되는 양상. 별도 직군화는 일어나지 않을 가능성이 높습니다. SK 에이닷 운영팀의 프롬프트 엔지니어링 일감이 한국 사례.

더 깊이 알 자료. An Vu, Jonas Oppenlaender의 Prompt Engineer Skill Requirements(arXiv:2506.00058). 한국에서는 DEVOCEAN의 프롬프트 엔지니어링 사례 글.

옮겨갈 때 가장 큰 갭. 행동 설계에 대한 사고. 모델이 어떤 상황에서 어떻게 행동해야 하는지의 전체 시스템을 설계하는 사고.


6. AI Reliability Engineer

짧은 정의. 10장에서 다룬 Agent 운영자의 한 변형. AI 시스템의 안정성을 보장하는 일에 집중. SRE의 AI 시대 직접 후속.

본론 5개와의 관계. 10장의 사실상 한 갈래. AgentOps EngineerAI Reliability Engineer가 같은 회사 안에서 책임이 분리된 두 자리로 운영되기도 합니다. AgentOps가 행동 설계와 추적에 무게가 실린다면, AI Reliability는 시스템 안정성에 더 무게.

한국 등장 여부. 한국에서는 AgentOps와 거의 같이 묶여 있습니다. 별도 자리로 분리되어 있지 않습니다.

더 깊이 알 자료. 10장의 자료들이 그대로 적용됩니다.

옮겨갈 때 가장 큰 갭. 비결정적 시스템의 안정성이라는 새 개념에 대한 사고 전환. SRE 출신에게 가장 짧은 점프.


7. AI Compliance / Ethics Engineer

짧은 정의. AI 시스템의 규제·컴플라이언스·윤리 적합성을 책임지는 자리. EU AI Act, 한국 AI 기본법 같은 규제의 등장과 함께 자라는 자리입니다. 기술적 측정법무·정책 판단을 결합합니다.

본론 5개와의 관계. 11장 Eval Engineer와 인접합니다. 공정성·편향·안전성에 대한 측정이 일의 한 부분. 동시에 법무·정책 사고가 필요한 자리.

한국 등장 여부. AI 기본법이 한국에서 시행됨에 따라 자라기 시작한 자리. 대기업의 컴플라이언스 부서AI 트랙이 추가되는 형태가 가장 흔합니다.

더 깊이 알 자료. EU AI Act 본문, 한국 AI 기본법 본문. 법무법인 광장·김앤장·세종의 AI 법무 컨설팅 자료.

옮겨갈 때 가장 큰 갭. 법무·규제 지식기술 지식의 결합. 두 영역 중 한 영역만 강한 경우가 흔합니다. 둘 다 갖춘 사람이 가장 희소.


묶음 2 — 조직·운영 인접 자리

본론 5개와 부록 묶음 1이 기술·제품 측면의 새 직군이라면, 묶음 2는 조직·운영 측면의 새 직군입니다. 시리즈 III 코드 너머의 조직에서 다룬 AX 시대 조직 운영의 한 자리와 짝지어 있습니다.


8. Hybrid Manager

짧은 정의. 사람 부하 직원 5~10명과 에이전트 5~10개를 동시에 관리하는 매니저. 사람에게는 코칭과 평가를, 에이전트에게는 프롬프트 조정과 도구 권한 설정을. People Manager와 AI Operator의 결합.

본론 5개와의 관계. 10장 Agent 운영자와 인접하지만 People Manager 측에 무게가 실립니다. Agent 운영자가 기술적 운영에 집중한다면, Hybrid Manager는 팀 운영에 집중. 두 자리가 같은 회사 안에서 짝으로 운영되는 경우가 많습니다.

한국 등장 여부. 공식 직책으로는 거의 없음. 한국 People Analytics 리더 중 일부가 비공식적으로 이 역할을 수행하기 시작했습니다. SK 에이닷 운영팀에서 사람과 에이전트를 함께 관리하는 자리가 가장 가까운 사례.

더 깊이 알 자료. McKinsey Agentic Organization 리포트의 새 역할 정의. About HR의 People Analytics World 2025 리포트.

옮겨갈 때 가장 큰 갭. 기술적 깊이. 전통적 People Manager 출신에게는 프롬프트·도구 권한·실패 모드 같은 기술 개념이 새 학습 영역.


9. AI Coach

짧은 정의. 직원이 AI를 잘 쓰도록 가르치는 사람. EPOCH 5요소 매핑, jagged frontier 식별 훈련, Centaur·Cyborg 전략 선택 등을 개인 단위로 코칭합니다. L&D(Learning & Development) 부서의 새 자리.

본론 5개와의 관계. 본론 5개 직군과 직접적 짝은 아니지만, 9장 Applied AI Engineer와 10장 Agent 운영자가 활용하는 직원 학습 인프라를 책임집니다. 기업 차원의 AI 리터러시를 책임지는 자리.

한국 등장 여부. 공식 직책으로는 거의 없음. 일부 대기업의 HRD 부서에서 AI 활용 교육 프로그램을 새로 만들기 시작한 신호. DEVOCEAN의 5단계 내재화 모델에서 학습·PoC 단계를 책임지는 역할이 가장 가까운 변형.

더 깊이 알 자료. Josh Bersin의 Superworker·Job Redesign Around AI 글. 한국에서는 DEVOCEAN의 5단계 내재화 글.

옮겨갈 때 가장 큰 갭. 최신 AI 도구의 실제 사용 경험. 직접 써보지 않은 사람이 가르치기 어려운 자리. 기존 L&D 인력의 재훈련이 가장 흔한 진입 경로.


10. AI Literacy 프로그램 운영자

짧은 정의. 전 직원을 대상으로 한 AI 활용 기초 교육을 설계·운영하는 자리. ChatGPT·Claude·Copilot 기본 사용법, 프롬프트 작성법, AI가 잘하고 못하는 영역의 식별. 디지털 리터러시의 AI 버전.

본론 5개와의 관계. 모든 본론 직군의 전제가 되는 자리. 회사 전체의 AI 리터러시가 낮은 상태에서는 5개 본론 직군이 고립됩니다. AI Literacy 운영자가 조직 전반의 토양을 까는 자리.

한국 등장 여부. 카카오·네이버·삼성SDS·SK 그룹사·LG CNS 등이 2025~2026 사이에 전사 AI 교육 프로그램을 도입했습니다. AI 활용을 평가에 반영하는 회사도 등장(한국MS 사례). Tobi Lütke의 메모와 같은 결의 한국 변형.

더 깊이 알 자료. Microsoft의 AI Literacy 프레임워크. 한국에서는 KPC 2025 HRD Trend Report에서 생성형 AI 활용 교육이 모든 기업 유형 1위(50%)로 나타난 데이터.

옮겨갈 때 가장 큰 갭. 대규모 직원의 학습 곡선을 설계하는 능력. 1대1 코칭과는 다른 차원의 프로그램 설계 사고가 필요합니다.


11. AX Communications — 변화 커뮤니케이션 책임자

짧은 정의. AX 전환에 대한 내부 메시지를 일관되게 만드는 자리. 임원·HR·기술 리더가 같은 언어로 AX를 말하도록 정렬하는 작업. 기업 커뮤니케이션 부서의 새 역할.

본론 5개와의 관계. 본론 5개 직군이 조직 안에서 자기 자리를 얻으려면 이 자리가 미리 깔려 있어야 합니다. 동상이몽을 한 자리에 모으는 역할.

한국 등장 여부. 공식 직책으로는 거의 없음. 일부 대기업에서 AX 메시지 일관화내부 커뮤니케이션의 한 영역으로 잡기 시작했습니다. 비공식 책임자가 있는 회사가 늘고 있습니다.

더 깊이 알 자료. ZDNet Korea의 “삼성SDS·LG CNS·SK, 인사 키워드는 ‘AX’… 전략은 ‘동상이몽’”(2025/12) 기사가 동상이몽 문제를 가장 분명히 짚은 자료.

옮겨갈 때 가장 큰 갭. 기술과 비즈니스 양쪽의 언어. 어느 한 언어만 강한 사람은 두 자리의 동상이몽을 모으지 못합니다.


12. Skill Ontology Manager

짧은 정의. ITM의 스킬 분류 체계를 운영하는 자리. Fuel50이 5,000개 스킬 온톨로지를 운영한다는 사실 — ITM 솔루션 회사 차원에서 스킬의 분류·정의·매핑이 한 직무가 되어 있습니다.

본론 5개와의 관계. 10장 Agent 운영자나 11장 Eval Engineer와는 다른 차원. People Analytics와 Skill Marketplace가 작동하기 위한 데이터 인프라를 책임집니다.

한국 등장 여부. 한국 People Analytics 리더 중 일부가 스킬 데이터의 분류·정의를 다루기 시작했지만, 5,000개 단위의 온톨로지를 운영하는 한국 회사는 공개 자료에 없습니다. 글로벌 솔루션(Fuel50·Eightfold)의 온톨로지를 사용하는 단계.

더 깊이 알 자료. Fuel50·Eightfold·Gloat의 스킬 온톨로지 발표 자료. 한국에서는 HRCap의 1,000만 명 인재 데이터 분석 사례.

옮겨갈 때 가장 큰 갭. 분류 체계 설계의 일관성. 5,000개 단위의 스킬을 중복 없이 위계적으로 묶는 일은 도서관학·정보 구조 설계에 가까운 사고가 필요합니다.


부록의 한 줄 정리

12개 자리를 두 묶음으로 정리하면 다음과 같습니다.

기술·제품 인접 (7개) — Solutions Architect / AI Researcher-in-Residence / AI Sales Engineer / AI Customer Engineer / Prompt Architect / AI Reliability Engineer / AI Compliance·Ethics Engineer

조직·운영 인접 (5개) — Hybrid Manager / AI Coach / AI Literacy 프로그램 운영자 / AX Communications / Skill Ontology Manager

본론 5개와 합치면 17개 자리. AX 시대의 새 직업이 기술 측면과 조직 측면의 두 줄기로 자라고 있고, 두 줄기가 서로 짝지어 작동한다는 풍경이 보입니다.

본론 5개로 시작해서, 그 안의 자기 자리를 정한 다음, 기술 측면의 변형이나 조직 측면의 변형에서 자기에게 더 가까운 자리가 있는지를 확인하는 흐름이 가장 효율적입니다.


부록을 닫으면서

본론 5개와 부록 12개를 합하면 17개의 자리입니다. 그러나 17개로도 AI 시대의 새 직업 전체를 다루지는 못합니다.

David Autor의 2018년 직업의 60%가 1940년에는 이름조차 없었다는 통계를 다시 떠올려 봅니다. 그 60% 안에 AI Compliance Engineer 같은 자리는 자리잡았지만, 2050년의 60% 안에 자리잡을 직업의 대부분2025년 지금 이름이 없습니다.

이 책의 5개 직업과 부록 12개 직업은, 그 60%가 이름을 받는 첫 단계에 보이는 풍경입니다. 그 다음 단계에 자리잡을 자리들은, 지금 누군가가 처음으로 짓고 있는 이름입니다.

당신이, 그 이름을 짓는 사람일 수 있습니다.


— 부록 A 끝.

참고문헌

본문에서 인용된 자료를 카테고리별로 정리합니다. 인용 시 본문의 표기와 일치하도록 했습니다.

1. 시대 사이클·기술혁명 이론

2. AI와 노동 시장 학술

3. 에이전트·평가 학술

4. 직업 변동·새 직무 산업 자료

5. 시장 데이터·뉴스

6. 비즈니스 모델·기업 자료

7. 실무자 발화·블로그·커뮤니티

8. 한국 시장 자료

9. 채용 데이터


본 참고문헌의 전체 풀버전과 추가 자료는 프로젝트 저장소의 01_reference.md에 있습니다. 본문 인용 좌표(예: §1-A, §논문 7)는 그 문서의 섹션 번호를 가리킵니다.