/Data Break 2018, 캐글 뽀개기 행사에 다녀오다

Data Break 2018, 캐글 뽀개기 행사에 다녀오다

if kakao에 이어 캐글 뽀개기의 행사인 Data Break 2018에도 다녀 왔다. 캐글 뽀개기는 캐글 관련된 활동을 하는 단체다. 캐글 스터디 그룹으로 시작해서 규모가 꽤 커졌다. 당일 행사에도 굉장히 많은 사람들이 참석해서 자리가 부족할 정도였다. 혹시 참석하지 못한 분들은 Data Break 2018 홈페이지에서 일부 자료를 다운 받을 수 있다.

마이크로소프트 본사
경치가 정말 좋았던 마이크로소프트 본사

Data Break 2018에서 들은 발표들

Data Break에서 총 6개의 발표를 들었고 그 중 인상 깊었던 아래의 3개 발표에 대해 이야기하고자 한다.

  • 기업 현장에서의 데이터 과학 (조동환, SKT DT 추진단장)
  • Mastering Machine Learning with Competitions (이정윤, 마이크로소프트)
  • 캐글을 위한 캐글 (정권우, 네이버 파파고팀)

1. 기업 현장에서의 데이터 과학

이 발표는 키노트 발표여서 세션을 나누지 않고 모든 참석자들이 같이 들었다. SKT에서 데이터 센터를 초기 구축 단계부터 해온 분의 발표라서 생생한 경험담을 들을 수 있었다.

1.1 데이터 분석팀의 현실적인 어려움들

공부를 위해 데이터 분석을 할 땐 캐글 같은 곳에서 어렵지 않게 ‘깨끗한’ 데이터를 다운 받을 수 있다. 하지만, 조동환 님은 초기에 데이터를 처음 받기까지 4개월이 걸렸다고 한다. 데이터 분석팀에서 데이터를 가공 및 분석하여 성과를 내는 것이 데이터 엔지니어들에게는 부정적으로 받아들여졌기 때문이다. 데이터를 받은 후에도 결측치가 무엇을 의미하는지 알려주지 않아서 어려움이 있었다고 한다.

1.2 데이터는 어느 누구의 소유도 아니다!

이러한 일련의 사건들 이후 지금 SKT는 ‘데이터는 어느 누구의 소유도 아니고 회사 전체의 소유’임을 선언했다고 한다. 따라서 회사 내에서 누군가 데이터를 요청했을 때 거부할 수 없다고 한다. 여기까지 총 6년이 걸렸다. 데이터를 받는 데 4개월, 데이터 분석 프로세스를 구축하는 데 6년이 걸린 것이다.

1.3 데이터 분석이 비즈니스에 어떻게 적용될 수 있을까?

데이터 분석을 통해 비즈니스에 적용하고 있는 사례도 들을 수 있었다. 고객들이 SKT 114에 전화했을 때, 각 고객이 어떤 문의를 할지 예측해서 안내 순서를 바꿔주는 실험을 몇년째 하고 있다고 한다. 고객 데이터를 통해 기기 변경할 때가 된 고객에게는 기기 변경 메뉴를 먼저 안내하는 방식이다. 안내 순서를 바꿈으로써 더 적은 상담사로 더 많은 고객들을 응대할 수 있고 결국은 비용 절감으로 이어지는 것이다. 이러한 성과를 내고 나서야 경영진들에게 ‘데이터 분석이 실제로 성과를 내기도 하는구나’라는 인식이 생겼다고 한다.

2. Mastering Machine Learning with Competitions

캐글 상위 랭커이자 마이크로소프트에서 일하고 있는 이정윤 님의 발표였다. 캐글과 다른 데이터 관련 컴피티션에 대한 소개와 이러한 컴피티션을 통해 어떻게 이직할 수 있었는지 소개했다.

캐글을 통해 만난 사람들
캐글을 통해 만난 사람들

2.1 다양한 머신러닝/딥러닝 관련 컴피티션

캐글이 전 세계적으로 가장 유명한 머신러닝/딥러닝 관련 컴피티션이지만, 캐글 외에도 다양한 컴피티션이 있다. KDD, drivendata, crowdanalytix, dacon beta, crowdAI와 같은 컴피티션도 있다. 이 중 KDD는 컴퓨터 사이언스 쪽에서 역사가 깊은 곳이고 수준도 높다고 한다. 1997년부터 매년 KDD Cup을 열고 있고 대회에서 우승하면 학회 컨퍼런스에서 발표할 기회가 주어진다.

2.2 왜 컴피티션을 해야 할까?

이정윤 님이 가장 먼저 든 이유는 ‘재미’다. 이정윤 님은 다른 사람들이 페이스북 피드를 보듯이 캐글 피드를 수시로 확인한다고 한다. 보다 보면 생각지도 못한 방법을 사용하는 사람들을 발견하고 창의적인 방법으로 시각화를 하는 등 재밌는 요소가 많다고 한다.

두 번째 이유는 네트워킹이다. 컴피티션을 하다 보면 일면식도 없는 사람과 팀을 이뤄 협업하게 된다. 나와 전혀 다른 배경을 가진 사람과 협업하다 보면 배우는 게 많다고 한다. 또, 지금 일하는 마이크로소프트의 팀장 님도 캐글을 통해 만났다고 한다. 이미 같이 일해본 경험이 있었기 때문에 면접장에 처음 들어갔을 때 팀장 님의 첫 마디가 “어, 정윤 왔어? 앉아!”였다고 한다.

2.3 컴피티션에서 중요한 것들

컴피티션에 참여하는 사람들이 놓치는 것 두 가지에 대해 이야기 했다. EDA와 다양한 모델링 기법의 적용이다. “Garbage in, Garbage out”이라는 말이 있다. 아무리 좋은 모델링 기법도 쓰레기 데이터를 넣으면, 쓰레기 결과가 나온다. 따라서 데이터를 잘 들여다 보는 것이 중요하다. 또한, 어떤 결과가 나올지 모르니 다양한 모델링 기법을 적용해 보는 것이 좋다. 예를 들어 Logistic regression을 조금 변형한 FTRL-Proximal 알고리즘은 광고 클릭률 예측 분야에서 굉장히 좋은 성과를 내고 있다.

3. 캐글을 위한 캐글

네이버 파파고 팀의 정권우 님의 발표였다. 정권우 님은 최근 ‘머신러닝 탐구생활’ 책을 쓰기도 했다. 내용도 좋고 발표도 깔끔해서 좋았다. 발표 후 남아서 많은 질문을 드렸는데 모두 친절하게 답해주셔서 더 기억에 남는다.

피쳐 엔지니어링에서 기록의 중요성
피쳐 엔지니어링에서 기록의 중요성

3.1 캐글로 취업하다

정권우 님은 석박사가 많은 네이버 파파고 팀의 유일한 학사 출신이다. 학사 출신임에도 불구하고 입사할 수 있었던 이유는 바로 캐글이라고 밝혔다(사실 해외대 응용수학과 출신에 중소기업 경력이 5년 정도 있었다). 그만큼 이 분야에서 캐글이 신뢰할 수 있는 레퍼런스가 되고 있다. 실제로 해외 데이터 사이언티스트 중에서는 링크드인 이력서에 캐글의 어떤 컴피티션에서 몇등을 했는지 기재해 두는 사람들도 있다고 한다.

3.2 Top-Down vs. Bottom-Up

우리가 처음 무언가를 배울 때 보통은 Bottom-up 방식으로 배우게 된다. 기초적인 지식부터 하나씩 차근차근 배우는 것이다. 이 방법은 분명 좋은 방식이지만, 시간이 오래 걸리고 지루하다는 단점이 있다. 이 방법이 딱 맞거나 해당 분야에 흥미가 있는 경우가 아니라면 쉽게 재미를 잃을 수 있다.

따라서 정권우 님이 제시하는 방법은 Top-Down 방식이다. 머신러닝 입문 강의를 듣고 파이썬 기초에 대해 배운 뒤에는 바로 캐글을 시작하는 것을 추천했다. ‘머신러닝 탐구생활’도 이러한 관점에서 본인이 캐글 컴피티션에 참여할 때 어떤 방식으로 했는지 노하우를 공유한 책이다.