비즈니스 문제를 수학으로 풀어나가는 Data Scientist
Data Scientist 임원균님

Q. 안녕하세요. 간단한 자기소개 부탁드릴게요.
A. 안녕하세요, AB180에서 Airflux라는 게임 수익 최적화 제품을 만들고 있는 임원균입니다. 저는 '게이머들의 재미를 해치지 않는 선에서 어떻게 하면 게임사의 수익을 더 벌 수 있을까?' 같은 비즈니스 질문을 수학적인 문제로 다시 정의하고, 그걸 코드로 풀어보는 일을 하고 있습니다.
AB180에 합류한지는 이제 5년이 되었습니다. AB180은 정부지원 SW인재육성 사업인 소프트웨어 마에스트로에서 같은 기수로 활동했던 분들이 창업한 기업으로 알고 있었는데요. 저는 대학 동기였던 친구의 추천으로 합류하게 되었습니다. 합류할 때는 백엔드 엔지니어였고, 리서치 엔지니어를 거쳐서 지금은 데이터 사이언스팀 리드를 맡고 있습니다. 엔지니어링 베이스를 가지고 있다보니, 모델을 연구하는 것에 그치지 않고 서비스에 안정적으로 배포하고 운영하는 데도 관심이 많습니다.
Q. 데이터 사이언티스트는 AB180에서 어떤 역할을 하고 있나요?
A. 단순한 분석가 역할보다는 제품을 만드는 Maker입니다. 주요하게 만드는 것은 모바일 게임 내에서 광고를 유저의 개인 환경에 맞춰서 최적으로 보여주는 알고리즘을 개발합니다. 풀어서 설명하자면 어떤 유저의 특성(국가, 스테이지, 구매이력)을 보고, 여러 지표(LTV, 리텐션, 세션 수 등)를 기준으로, 어떻게 광고를 보여주면 좋을지를 설계합니다. 그런 다음에는 데이터 설계 → 모델 학습 → 서비스 배포 → 결과 회고 → 다음 실험 설계를 하나의 사이클로 책임지고 있습니다.
Q. 대용량 트래픽 데이터나 복잡한 마케팅 데이터를 분석하여 실제 제품 개선이나 비즈니스 의사결정에 영향을 미친 사례를 공유해 주실 수 있나요?
A. 기존 광고 수익화를 위해서 베이지안 최적화(Basyesian Optimization : 확률 기반 최적화) 기법을 강화학습(Reinforcement Learning : 보상을 최대화하도록 학습하는 기계 학습)으로 바꾼 사례가 기억에 남습니다. Airflux는 궁극적으로 LTV(Life Time Value)를 최적화하려는 솔루션입니다. 여기서 LTV는 유저가 게임에 들어와서 이탈할때까지 만들어내는 모든 광고 매출과 인앱 매출을 합친 값인데요. 이 LTV는 현재 시장에서 집행되고 있는 광고 캠페인들과, 게이머들의 특징, 그리고 현재 광고 정책에 따라서 민감하게 변하는 지표입니다.
저희는 초기에 베이지안 최적화 기법을 통해서 수익을 최적화 하고 있었습니다. 그런데 워낙 민감한 LTV 특성 때문에 모델 결과를 실제 게임에 반영했을때, LTV 분포가 변하면서 모델의 성능이 최적의 값으로 나오지 않는 한계에 직면했습니다.
그래서 저희는 게임 내 광고 환경을 하나의 MDP(Markov Decision Process : 마르코프 결정 과정)로 정의하고, 강화학습 모델을 도입했습니다. 에이전트가 유저의 상태를 보고 최적의 행동(광고 노출 여부)을 결정하고, 그 결과가 다시 학습되어 더 나은 정책을 만들어내는 구조를 만든 것이죠. 이러한 구조가 마케팅이나 유저의 특징에 대한 변화에 더 강건할(robust) 것이라고 생각했기 때문이죠. 이 모델을 실제 배포해서 적용했을 때, 기존 방식 대비 고객사의 광고 수익이 유의미하게 상승하는 것을 확인했습니다. 이론적인 가설이 실제로 비즈니스 성과로 증명되는 순간이었죠.
Q. 데이터의 정확성과 모델의 성능을 유지 및 개선하기 위해 어떤 기술적 도전과제를 극복하고 계신가요?
A. Outlier(이상치) 처리가 대표적일 것 같습니다. 현실의 모바일 게임 데이터는 예쁘지 않습니다. 게임사의 광고 매출은 특이한 특성을 가지고 있는데요. 같은 횟수의 광고를 시청해도, 광고 단가에 따라서 벌어들이는 매출이 달라지기 때문입니다. 또한 소수의 '고래 유저'가 대부분을 차지하는 Power Law(멱법칙) 패턴이 관측될 때가 잦습니다. 이 때문에 인앱 매출은 정규 분포를 따르지 않는 경우가 많고 Heavy-Tailed Distribution(꼬리가 두꺼운 분포) 형태의 분포를 띄는 경우가 많습니다.
이러한 상황을 고려하지 않고 관행적으로 Quantile(분위수) 기반으로 Outlier를 제거하면 정보 손실이 생기고 분포를 왜곡하게 될 가능성이 큽니다. 때문에 데이터의 맥락과 분포를 이해하는데 시간을 많이 들이곤 합니다. 그리고 적절한 방법을 찾기 위해 노력하고 있죠. 최근에는 금융공학에서 사용하는 변동성 모델링 개념을 차용해서 우리 데이터에 맞는 Outlier 처리 방식을 연구하고 있습니다. 정해진 답을 사용하기 보다는, 우리 데이터에 맞는 답을 찾아가고 있는 상황입니다.
Q. 데이터 사이언티스트로서 현재 업무적으로 가장 흥미를 느끼는 연구 분야나 도전적인 과제는 무엇인가요?
A. 추상적인 비즈니스 문제를 명확한 수학적 문제로 변환하고, 이를 End-to-end로 해결해내는 것이 정말 재밌습니다. 보통 데이터 분석 일이라고 하면 의사결정을 돕는 리포트나 BI(Business Intelligence) 대시보드를 만드는 것만 떠올리기가 쉬운데요. 저희는 제품의 뼈대가 되는 핵심 로직을 직접 개발합니다. 내가 짠 알고리즘이 서버에 배포되어 실시간으로 돌아가고, 그 결과가 지표로 바로 나타납니다. 그 피드백을 다시 모델에 고도화하는 빠른 사이클 자체가 저에게는 가장 큰 재미이자 도전입니다.

Q. AB180에서 일하는 것을 추천하는 이유와 자랑거리를 말씀해 주세요.
A. 세가지 측면에서 자랑하고 싶습니다.
첫 번째는 연구와 엔지니어링의 조화입니다. 연구가 문서에서 끝나지 않고 실제 서비스에 바로 적용된다는 점이 큰 매력입니다. 모델 하나, 실험 하나가 실제 게임 유저가 플레이하는 게임 경험과 매출에 영향을 주기 때문에 '내가 작업하는 것이 비즈니스랑 얼마나 가깝게 있는지'를 매번 체감하게 됩니다. 자연스럽게 배포를 안정적이고, 효율적으로 하기 위해서 MLOps도 다같이 고민하고 있고요. 백엔드 엔지니어 출신인 저뿐만 아니라, 팀 전체가 '연구용 코드'가 아닌 매끄럽게 실행 가능한 프로덕션 코드를 만드는데 진심입니다.
두 번째는 B2B라는 특성 덕분에 다양한 데이터와 문제를 다룬다는 것입니다. 저희는 하나의 앱만 잘 되는 모델을 만드는 것이 아니라, 여러 게임에서 동시에 성과를 내야합니다. 그래서 특정 장르나, 타이틀에만 통하는 모델이 아니라 다양한 국가, 장르, 규모의 앱에서 동작하는 범용적인 모델을 고민하게 됩니다. 보통 서비스를 만드는 회사의 경우 데이터 사이언티스트가 접근할 수 있는 데이터는 자사 데이터에 한정되는 경우가 많은데요, AB180에서는 여러 게임사의 데이터를 다루면서 도메인은 같지만 결이 다른 여러 문제를 동시에 경험할 수 있는 환경이라고 생각합니다.
마지막으로는 함께 성장하는 문화입니다. 어려운 문제가 있을 때 혼자 끙끙대기 보다는 같이 머리를 맞대고 고민할 동료들이 있습니다. 각자가 관심을 가지고 있는 주제를 돌아가면서 발표하는 ‘Knowledge Transfer' 세션을 꾸준히 운영하고 있고, 업무에 필요한 지식을 더 잘 배우기 위해서 소규모 스터디도 하면서 지식을 계속 흐르게 만들고 있습니다. 서로의 성장에 진심인 동료들과 함께 일한다는 점이 개인적으로 좋습니다.
Q. AB180에서 마테크 데이터 기반으로 달성하고 싶은 최종적인 목표나 비전은 무엇인가요?
A. 저는 특정 방법론에 갇히지 않는 유연한 문제 해결사가 되고 싶습니다. 예를 들어, 제가 강화학습을 잘 안다고 해서 모든 문제를 강화학습으로 풀려고 해서는 안됩니다. 비즈니스 상황에 따라서 Rule-based가 더 나은 선택일 수 있으니까요. 문제의 본질에 따라서 다양한 도구를 자유자재로 꺼내 쓸 수 있는 전문가가 되는게 목표입니다. AB180은 다양한 형태의 데이터와 문제가 공존하는 곳이라 이런 역량을 기르기에 최적의 환경이라고 생각하고 있습니다.