직무소개
신한카드 데이터엔지니어 현직자의 직무소개
데이터엔지니어
신한카드
저는 현재 대형 카드사에서 머신러닝 엔지니어로 일하고 있습니다. 제가 속해있는 데이터 사이언스 직군은 크게 데이터 애널리스트, 데이터 엔지니어, 머신러닝 엔지니어로 나눌 수 있습니다.

데이터 애널리스트는 데이터로부터 비즈니스에 도움이 되는 인사이트를 얻기 위한 인사이트 분석을 주로 합니다. 주요 지표 정의와 추출, 대시보드 관리, 서비스 퍼널 분석, A/B 테스트, 마케팅 효과 분석 등이 일반적으로 데이터 애널리스트가 주로 하는 업무들이고, 이는 각 기업이나 산업군마다 차이가 있을 수 있습니다. 기본적으로 다양한 데이터를 다양한 목적에 맞게 다루기 때문에 다양한 분석 방법, 알고리즘을 두루 알고 있어야 하고, 문제에 맞게 적절한 방법을 사용할 수 있어야 하며, 데이터 사이언스 지식 뿐 아니라 비즈니스에 대한 이해와 경험도 중요합니다.

데이터 엔지니어는 데이터 파이프라인을 관리합니다. 데이터 파이프라인이란 목적에 맞게 데이터를 저장하고, 가공하는 일련의 과정을 말합니다. 과거에는 주로 정형화된 RDB에 데이터를 쌓았다면 최근에는 방대한 빅데이터를 잘 활용하기 위해 여러 기술을 활용한 데이터 파이프라인을 구축하는 것이 일반적입니다. RDB가 주류이던 시절의 DBA가 빅데이터 시대에 와서 데이터 엔지니어로 그 이름과 역할이 변했다고 볼 수 있습니다. 이렇게 다양한 시스템과 툴을 다룰 수 있어야 하기 때문에 기본적으로 기술적 전문성이 높고 개발자에 가까운 역할이기도 합니다. 데이터 애널리스트나 머신러닝 엔지니어와 협업하며 원하는 형태로 데이터를 가공하고, 분석한 결과를 다시 실제 운영에 반영하는 역할도 담당합니다. 이렇게 데이터 애널리스트나 머신러닝 엔지니어가 데이터 분석과 모델 개발에만 집중할 수 있도록 지원하는 역할을 하기 때문에 데이터 엔지니어의 역할이 전체 데이터 사이언스 팀의 성과에도 큰 영향을 미칩니다.

머신러닝 엔지니어는 주로 모델링을 합니다. 모델링이란 어떤 문제를 풀기 위해 데이터로 부터 패턴을 찾아내고 그 패턴으로 부터 원하는 답을 얻는 로직을 만드는 일입니다. 예를 들어 월매출을 예측하는 모델을 만든다고 한다면 과거 매출 추이는 어땠는지, 매출에 영향을 주는 다른 변수들은 무엇이 있고 이들의 관계는 어떻게 되는지 등을 파악하고, 그 변수를 조합해 예측 로직을 만들게 됩니다. 이런 과정을 기계를 통해 하기 때문에 기계학습, 머신러닝이라고 부르며, 딥러닝, 부스팅 등 다양한 머신러닝 알고리즘들이 있습니다. 데이터 애널리스트도 모델링을 하지만 주로 데이터를 분석하고 인사이트를 뽑아내는 데에 초점을 맞춘다면, 머신러닝 엔지니어는 주로 모델링 자체에 집중하는 경우가 많습니다. 그래서 모델링 자체에 좀더 전문성을 가지고 좀더 최신의 머신러닝, AI 기술을 주로 다룹니다.

이외에도 많이 사용되는 데이터 사이언티스트라는 용어는 넓은 범위로는 위에서 언급한 데이터 사이언스 분야의 다양한 직무를 아우르는 말로 쓰이기도 하고 , 좁은 범위로는 데이터 애널리스트에 가까운 의미로 쓰이는 경우가 많습니다.

저는 운이 좋게도 이런 데이터 사이언스 분야의 다양한 직무를 두루 경험해 본 편입니다. 현재는 머신러닝 엔지니어로서 주로 타겟팅 모형, 분류 예측 모형 등을 개발하고 있고, 이전 회사에서는 시기에 따라서 데이터 애널리스트와 데이터 엔지니어에 가까운 업무를 모두 했습니다. 또 대학원에서 데이터 사이언스를 공부하고 석사 학위를 받기도 했습니다. 그래서 커리어 전체를 놓고보면 현업과 학문 분야, 그리고 데이터 사이언스 안에서도 다양한 직무를 두루 경험해 본 편입니다.
| 필요한 역량
데이터 사이언티스트가 되기 위해서는, 통계학과 데이터 사이언스에 대한 지식, 프로그래밍 능력이 필요합니다.

우선 통계 지식은 데이터 사이언스를 공부하는데 기초가 되어줍니다. 통계와 데이터 사이언스 방법론은 조금 다른 점도 있지만 데이터 사이언스는 통계로부터 시작했기 때문에 본격적인 데이터 사이언스를 공부하기 전에 통계로 기본기를 쌓을 필요가 있습니다. 두 번째로 데이터 사이언스에 대한 지식이 필요합니다.

데이터 사이언스는 한 마디로 데이터에 기반해 문제를 해결하는 방법론입니다. 통계와의 큰 차이점은, 통계는 모집단의 특성을 알아내기 위해 모집단의 일부인 샘플을 분석의 대상으로 삼는다면, 데이터 사이언스는 일반적으로 특별히 샘플링을 하지 않습니다. 방대한 데이터를 저장하고, 처리할 수 있는 이른바 빅데이터 기술이 발전하면서 이런 데이터 사이언스 방법이 전통적인 통계 방법론에 비해 더 주목받게 되었습니다. 풀고자 하는 문제의 종류에 따라, 가지고 있는 데이터의 종류에 따라 적용가능한 다양한 데이터 사이언스 방법론이 있고, 각각을 모두 잘 이해하고 필요한 상황에 적절히 활용할 수 있는 능력이 필요합니다.

마지막으로 프로그래밍 능력이 필요합니다. 데이터 사이언스의 도구는 컴퓨터 입니다. 따라서 데이터를 자유자재로 가공하고, 모델을 만들고, 분석 결과를 얻고, 적절히 시각화하고, 필요하다면 이 과정을 자동화 할 수 있는 프로그래밍 능력이 중요합니다. 현재 데이터 사이언스 분야에서 가장 널리 활용되는 프로그래밍 언어는 파이썬입니다. 파이썬만 가지고도 위에서 언급한 거의 모든 일을 할 수 있을 정도로 파이썬은 활용성이 높으며 배우기도 쉬운 편입니다. 따라서 데이터 사이언티스트가 되고 싶다면 꼭 파이썬을 공부하시기를 추천합니다. 여기에 데이터베이스를 다루고 원하는 데이터를 얻기 위한 SQL, 빅데이터 분산처리를 위한 하둡, 스파크, 직접 서버나 고가의 컴퓨터를 구입하지 않아도 필요한 때에 필요한 만큼만 리소스를 쓸 수 있도록 해주는 클라우드 등 데이터 사이언스와 연관이 깊고, 알아두면 좋은 프로그래밍 언어나 기술들도 많이 있습니다.

데이터 사이언스 분야는 비교적 최근들어 빠르게 발전하고 있고, 따라서 새로운 기술들이 말 그대로 쏟아져 나오고 있습니다. 따라서 항상 최신 기술에 관심을 갖고 끊임없이 새롭게 공부해야만 하기 때문에 늘 새로운 것에 관심이 많고 도전하는 것을 즐기는 사람에게 어울리는 직군입니다.
| 장점
아무래도 최근 가장 주목받는 분야이지 않을까 합니다. 이 분야가 이렇게 크게 주목받기 시작한지 오래되지 않았기 때문에 채용 시장에서도 데이터 사이언티스트에 대한 수요가 큰 데 반해 실제 역량을 갖춘 사람들은 부족합니다. 그래서 실력있는 데이터 사이언티스트라면 다양한 회사에 좋은 조건으로 취업하기에 상당히 유리합니다.

또 앞으로도 데이터는 계속 쌓여가고, 데이터 사이언스, 머신러닝, 인공지능 기술은 나날이 발전할 것입니다. 따라서 사회를 혁신하는 가장 첨단의 분야에서 이 변화를 주도하는 데이터 사이언티스트에 대한 수요는 당분간 계속 높아질 것입니다.
| 단점
데이터 사이언스의 필요성과 가치에 대한 검증은 현재 진행형 입니다. 이 분야가 많은 사람들로부터 주목을 받다보니 성과에 대해 조금은 과장되는 측면이 생겨나고 그로 인해 데이터 사이언스에 대한 막연한 기대나 환상을 갖는 사람이나 기업들도 생기고 있습니다. 그런 기대나 환상이 의심으로 이어지고 실망으로 이어지면 이 분야 자체에 대한 관심이나 투자가 급격히 줄어들고 그러면 채용 시장에서도 어려워질 수 있다고 생각합니다.

또 현재는 분명 채용 시장에서 데이터 사이언티스트에 대한 수요에 비해 공급이 부족하지만, 최근들어 이 분야 공부를 새로 시작하거나 심지어 다른 일을 하다가도 커리어를 바꿔 데이터 사이언티스트가 되려는 사람들도 생기고 있습니다. 따라서 앞으로는 경쟁이 심화될 수 있습니다.

데이터 사이언스는 결코 만능은 아니지만, 많은 경우에 문제를 해결하기 위한 좋은 수단이 되어줍니다. 따라서 데이터 사이언스에 대한 관심이나 필요성은 당분간 높아질 것으로 보이며, 역량을 갖춘 데이터 사이언티스트가 가진 가치 역시 함께 높아질 것입니다.
현직자가 쓴 생생한
직무소개가 궁금하다면?
2020.07.07
이 직무소개를 첫번째로 평가해보세요!
함께 보고 있는 직무소개
 
 
 
더 많은 신한카드 데이터엔지니어
현직자 콘텐츠를 확인해보세요.