[슈퍼브 인사이트] 면접에서는 알려주지 않는 ML 시스템 운영의 핵심

면접에서는 배울 수 없는 프로덕션 머신러닝(ML) 시스템 운영의 진짜 핵심을 알아봅니다. 화려한 모델링보다 데이터 파이프라인 검증, 지표 정렬, 소유권 명확화가 중요한 이유를 확인하세요.

[슈퍼브 인사이트] 면접에서는 알려주지 않는 ML 시스템 운영의 핵심
💡
26년 3월 24일에 발행된 슈퍼브 인사이트 뉴스레터 내용입니다.
>> 뉴스레터 구독하기

🌟 SUPERB Spotlight

면접이 알려주지 않는 것 — 프로덕션 ML에서 진짜 중요한 것들

본 글은 Medium의 'What Actually Matters in Production ML Systems (Not What Interviews Tell You)'를 편집한 것으로 전체 내용은 원글을 참고해 주세요.

복잡함이 항상 정답은 아니다.

당연한 얘기지만 면접에서 잘하는 것과 실제 프로덕션에서 임팩트를 내는 것은 다릅니다. 

실력 있는 엔지니어 팀이 피드 추천 시스템 개선에 몇 주를 투자합니다. 새로운 아키텍처를 설계하고, 구현하고, 튜닝하는데요. 오프라인 지표도 의미 있게 개선되고, 기술적으로는 흠잡을 데 없는 작업이죠.

그런데, 거의 사이드 프로젝트처럼 진행된 훨씬 단순한 작업이 더 큰 성과를 냅니다. 사용자의 주간 행동 패턴을 포착한 피처 하나, 그리고 로깅 불일치로 인한 피처 지연을 고친 파이프라인 패치. 이 두 가지가 몇 주간의 모델 반복 작업보다 눈에 띄게 큰 지표 개선을 가져옵니다. 이러한 패턴은 일회성이 아니라 프로덕션 ML 환경에서 반복적으로 나타나는 현상이고, 그때마다 같은 질문을 하게 됩니다. 우리는 정말 중요한 것에 집중하고 있는 걸까요?

면접이 측정하는 것 vs. 프로덕션이 요구하는 것

기술 면접에서 좋은 지원자는 피드 랭킹 시스템 설계 질문에 이렇게 답합니다. 데이터 수집부터 서빙까지 깔끔한 파이프라인을 그리고, 모델 선택 ·  확장성 ·  레이턴시 ·  오프라인-온라인 지표 연결 방식을 자연스럽게 짚어냅니다. 구조적이고 명확하며 설득력 있는 내용인데요 .
문제는 이 평가 방식이 측정하는 것이 "시스템을 얼마나 잘 설명하는가"이지, "시스템을 얼마나 잘 발전시키는가"가 아니라는 점입니다.
면접에서 설계하는 시스템은 이상적인 환경을 전제합니다.

  • 데이터는 신뢰할 수 있다고 가정
  • 지표는 의미 있다고 간주
  • 한 번 설계하면 안정적으로 유지된다고 보는 파이프라인

하지만, 실제 프로덕션에서 이 가정들은 금방 무너집니다. 면접 기준으로는 완벽한 작업을 했는데, 그 분기에 가장 큰 임팩트를 낸 건 로깅 수정 하나와 피처 하나였다는 게 현실이죠.

좋은 모델이 배포되지 않는 이유

프로덕션에서 ML 프로젝트가 막히는 원인은 대개 모델 문제처럼 보이지 않습니다. 오프라인 결과도 괜찮고 기술적으로 준비된 실험이 배포 직전에서 계속 미뤄지는 경우가 있는데요. 이유는 버그도, 확장성 문제도 아닙니다. 발목을 잡는 질문들은 아래와 같습니다 .

  • 우리가 진짜 최적화하려는 지표가 무엇인가?
  • 이 변화가 현재 진행 중인 다른 작업과 어떻게 상호작용하는가?
  • 배포 후 장기적인 운영 책임은 누가 지는가?

각각은 어렵지 않은 질문입니다. 하지만 이해관계자마다 답이 다르고 합의 없이 쌓이면, 아무리 좋은 모델도 착지할 곳을 잃게 됩니다. 모델은 그 자체로 임팩트를 만들지 않습니다. 성공의 정의에 대한 공통된 이해가 바탕이 되어야 임팩트를 만들 수 있는데요.

반면 빠르게 배포에 성공하는 프로젝트에는 패턴이 있습니다. 기술적 정교함보다 두 가지가 명확한데요.

  • 지표 정렬: 모두가 중요하다고 동의하는 지표와 직결되어 있어 "잘 됐다"의 기준이 명확합니다
  • 소유권: 데이터부터 모델, 평가까지 한 팀이 전 과정을 책임져 조율 비용이 없습니다

기술적 차이보다 이 구조적 차이가 배포 속도와 실제 임팩트를 결정합니다.

실제로 레버리지가 높은 작업들

1. 데이터 파이프라인을 먼저 검증하세요

피처 최신성 지연, 로깅 예외, 학습-서빙 간 데이터 불일치. 이런 문제들은 존재를 알면서도 미루기 쉬운데요. 막상 수정하면 몇 주간의 모델 반복보다 더 큰 효과가 납니다. 무엇이 중요한지 모를 때는 다른 모든 것이 의존하는 부분, 대부분의 경우 데이터부터 시작하는 것이 좋습니다.

2. '어떻게 만들까' 전에 '누가 쓸까'를 물어보세요

새 프로젝트를 시작할 때 가장 먼저 답해야 할 질문이 있습니다. "이게 의도대로 동작한다면, 누가 관심을 가질 것이고 누가 소유할 것인가?" 이 답이 불분명하다면 잠시 멈춰야 한다는 신호입니다. 몇 주간 기술적으로 훌륭한 작업을 해도, 임팩트로 가는 경로가 처음부터 불명확했다면 분기 말에 아무것도 남지 않을 수 있습니다.

3. 모델 개선의 순서를 지키세요

모델 작업을 피하라는 말이 아닙니다. 기반이 탄탄해진 후에야 모델 개선이 효과를 발휘합니다. 파이프라인 문제, 지표 불일치, 소유권 혼선이 있는 상태에서는 모델을 아무리 개선해도 그 효과가 다른 문제들과 싸우는 데 소비됩니다.

가장 중요한 일이 가장 눈에 띄지 않는다

실제로 가장 큰 임팩트를 내는 작업들, 데이터 파이프라인 수정, 지표 정의 명확화, 이해관계자 조율은 성과로 표현하기 가장 어려운 작업들이기도 합니다. 깔끔한 스토리로 만들기 어렵고, 새 모델을 만드는 것보다 지적으로 덜 만족스럽죠.  면접도, 성과 평가도, 엔지니어 교육도 정교하고 눈에 띄는 작업 쪽을 가리킵니다.

그래서 자연스럽게 모델 개선 쪽으로 끌리게 되는데요. 프로덕션 환경에서 오랫동안 꾸준한 임팩트를 내는 엔지니어들의 공통점은 이것입니다. 데이터 파이프라인, 지표 정의, 소유권 경계 같은 눈에 띄지 않는 부분들이 진짜 업무를 방해하는 요소가 아니라, 바로 그것 자체가 핵심 업무라는 것을 압니다.

이 글이 공감을 얻는 이유는 새로운 기술을 소개해서가 아닙니다. ML 실무자라면 누구나 느끼지만 말로 표현하기 어려웠던 것, 기술적 정교함과 실제 임팩트 사이의 간극을 명확하게 언어화해주기 때문입니다. 아키텍처 논의가 넘쳐나는 지금, "파이프라인부터 고쳐라", "소유권을 명확히 하라", "성공의 정의를 먼저 합의하라"는 조언이 오히려 더 실용적으로 들리는 이유가 있는 것이죠. 

이처럼 좋은 아이디어가 프로덕션에서 실제 임팩트로 이어지려면, 모델을 지속적으로 개선할 수 있는 구조가 뒷받침되어야 합니다. 슈퍼브 에이아이 함께라면, MLOps 환경을 구축하고 AI 모델을 내재화하여 반복적으로 개선해 나가는 과정을 훨씬 수월하게 만들어갈 수 있습니다.🙂


✏️ SUPERB Curation

슈퍼브 이정권 3D Vision 엔지니어의 추천:
Seoul World Model, 도시 단위 월드 모델로 현실 공간을 생성하는 새로운 시도

Seoul World Model은 서울 도시 환경을 기반으로, 실제 공간을 학습해 텍스트나 조건에 따라 새로운 장면을 생성하는 월드 모델 프로젝트입니다. 단순 이미지 생성이 아니라, 시간 흐름과 시점 변화까지 반영해 현실과 유사한 도시 시뮬레이션을 구성하는 것이 특징입니다. 자율주행, 시뮬레이션, 디지털 트윈 등 다양한 활용 가능성을 보여주며 월드 모델 연구의 확장 방향을 제시합니다.

다만, 이러한 접근 방식에는 한계도 존재하는데요. 현재 구조에서는 동적 객체에 대한 정밀한 제어가 어렵고, 특정 위치에 객체를 배치하거나 물리적으로 일관된 상호작용(그림자, 충돌, 반사 등)을 완벽하게 보장하기 어렵다는 것입니다. 예를 들어 “고질라 등장”과 같은 추상적 생성은 가능하지만, “빨간 버스 3대가 좌회전”과 같은 구체적인 제어는 제한적인 것이죠.

이 프로젝트는 생성형 AI가 정적인 콘텐츠를 넘어 ‘현실 세계를 시뮬레이션하는 단계’로 확장되고 있음을 보여주는 사례이지만, 동시에 정밀 제어와 물리적 일관성이라는 과제가 여전히 남아 있음을 시사합니다.

김재현 Back-end 엔지니어의 추천:
GLM-OCR, 실제 환경 중심 평가로 주목받는 차세대 OCR 모델

Zhipu AI가 공개한 GLM-OCR은 문서 인식 성능을 실제 활용 환경 기준으로 평가한 점이 특징인 최신 OCR 모델입니다. 기존 OCR 모델들이 벤치마크 중심 성능 비교에 집중했다면, GLM-OCR은 문서, 표, 인쇄물뿐 아니라 손글씨(handwriting)와 같은 실제 데이터 상황을 별도로 분리해 평가하며 실사용 관점에서의 성능을 강조하는데요. 특히, 손글씨 인식 영역에서 높은 성능을 보이며, 다양한 형태의 문서에서도 안정적인 텍스트 추출이 가능한 점이 눈에 띕니다. 이는 단순한 텍스트 인식 모델을 넘어, 현실 데이터의 다양성과 복잡성을 반영한 OCR 모델 설계 방향을 보여주는 사례입니다.

GLM-OCR은 벤치마크 점수가 아닌 실제 환경에서 얼마나 잘 동작하는가를 중심으로 평가 기준이 이동하고 있음을 시사합니다. 문서 자동화, 데이터 추출, OCR 기반 서비스 구축을 고민하는 팀이라면 주목해볼 만한 업데이트입니다.