데이터 관련 직군에 대한 정보
데이터 직군에 대한 간단한 정의
데이터 사이언티스트 | 데이터 엔지니어 | 데이터 분석가 |
---|---|---|
빅 데이터 저장, 모델 구성, 결과 제시 | 코딩에 집중, 데이터 전처리, 데이터 사이언티스트의 요청 구현 | 차트를 통한 이해를 바탕으로 기업의 선택에 도움을 줌 |
데이터 분야에 직군들이 들어선지는 오래되지 않아 각 직군에 대한 정의가 기업마다 다를 수 있다. 해당 내용은 매우 일반적인 내용이니 참고를 하는 것이 좋으며, 가장 좋은 것은 각 기업의 Job Describtion을 면밀히 읽어보는 것이 좋다.
Data Scientist
Data Scientist는 주로 머신러닝/AI 알고리즘 모델을 개발하여 모델을 통한 ‘예측’을 제공하는 직군이다. 통계적인 지식을 갖추고 데이터를 정리 및 분석할 수 있어야 하며, 정리된 데이터를 머신러닝 모델에 훈련하고 최적화 할 수 있어야 한다. 데이터 사이언티스트는 현재의 관점보다는 미래를 예측하는데 초점을 맞추는 편이다. 데이터 사이언티스트는아래와 같은 작업을 주로 수행한다.
- 분석의 유효성을 결정하기 위한 통계 모델 평가
- 예측 알고리즘 구축
- 모델의 지속적 학습 및 최적화
Data Engineer
Data Engineer는 데이터 플랫폼과 데이터 파이프라인(수집된 데이터를 적절한 형태로 전처리하여 전송) 아키책쳐를 개발하고 운영한다. Data Engineering직군은 소프트웨어 개발 기술에 의존을 하는 편이며, 대규모 데이터를 처리하기 위한 분산처리 기술에 대한 이해도도 필요한 경우가 많다. 데이터 엔지니어는 아래와 같은 작업을 주로 수행한다.
- 데이터 소비를 위한 API 구축
- 데이터 플랫폼 아키텍처 구성
- 데이터 파이프라인 개발 및 운영
- 머신러닝 모델 feature store 제공
Data Analyst
데이터 분석가는 일반적으로 데이터 전처리, 데이터 분석, 데이터 시각화의 작업을 주로 수행한다. 직군에 따라 불리우는 이름이 다를 수 있지만 기본적으로 데이터를 기반으로 의사결정을 내리는데 도움을 제공한다. 즉, 데이터 분석 보고서 및 시각화 자료를 통해 비즈니스 결정에 확실한 근거를 제공해줄 수 있는 역할이다. 또한 조직의 성장에 대한 정확한 지표를 제공할 수 있다. 데이터 분석가는 일반적으로 다음과 같은 작업을 주로 수행한다.
- Raw 데이터 정리 및 구성
- 기술 통계를 활용한 데이터 분석
- 데이터 시각화 및 대시보드 구성
- 데이터 분석 결과를 필요한 곳에 맞게 구성하여 발표
위에서 말한 것처럼, 데이터 분석가는 주로 (비즈니스가 어떻게 돌아가는지 이해하기 힘든) 기술 직군과 비즈니스 직군 사이의 ‘데이터를 통한’ 중재자로서, 데이터기반 의사결정을 내릴 수 있는데 핵심적인 역할을 담당한다.
직군별 필요 역량
Data Scientist
주요 필요 지식과 스킬
- 머신러닝, AI에 대한 지식
- 머신러닝 모델을 구축하기 위한 코딩 스킬
- 통계적 지식
- SQL
데이터 분석 역량에 대한 것은 모두 기본으로 갖춰야 하고, 그에 더해 수학/통계 역량과 머신러닝 모델링 역량을 필요하며, 어느 정도의 프로그래밍 역량을 요구한다. 대규모 IT 조직의 경우 ML Engineer를 따로 분류를 해놓는데 석/박사급 인력들이 AI 모델을 연구 및 개발하는 역할을 맡난다. 모든 역량을 두루두루 커버해야 하기 때문에 진입장벽이 가장 높은 직군이라고 볼 수 있다.
AWS의 Data Scientist JD
- Data Scientist - AWS Infrastructure
- Advanced degree (M.S. or Ph.D.) in Engineering, Math, Statistics, Finance, Computer Science, or related industry experience.
- 3+ Years of experience in data science/analysis/engineering
- 2+ Years of experience applying Statistics/Data Science/Machine Learning
- 2+ Years of Scripting experience in Python/R or other scripting languages
Data Engineer
주요 필요 지식과 스킬
- Python, Java, Scala 등 주요 언어 코딩 역량
- 빅데이터 분산 처리 시스템 아키텍처에 대한 이해
데이터 엔지니어는 소프트웨어 엔지니어링과 빅데이터 기술, 데이터베이스 기술을 요구한다. 상대적으로 분석, 비즈니스에 대한 역량은 다른 직군에 비해 적은 편이다.
데이터 엔지니어의 경우에도 직군이 세분화되는 경우가 있다. 주로 분석업무 지원을 위해 ETL 잡을 개발/운영하는 Analytics Data Engineer가 있고, 데이터 플랫폼 백앤드 아키텍처 및 API를 구성하고 개발하는 Data Platform Data Engineer가 있다. 전자는 전통적으로 빅데이터 이전부터 BI엔지니어 등으로 원래 있던 직군이 빅데이터 기술쪽으로 진화한 면이 있으며, 후자는 빅데이터 분산시스템이 생기면서 이 시스템을 개발, 운영하기 위해 새로 생긴 직군이다. 전자는 주로 SQL + 중간 수준의 Software Engineering 작업을 주로 하고, 후자는 Software Engineering과 Devops의 역량을 모두 가져야 하므로 Engineering 역량이나 복잡도 면에서는 후자가 조금 더 높은 편이라고 볼 수 있다.
Visa의 Data Engineer JD
- Visa Senior Data Engineer, VCA Data Engineering
- Strong experience in Hadoop/Big Data Environment creating large scale data engineering pipelines, data-based decision-making, and quantitative analysis
- Strong Experience with Visualization Tools like Tableau, Power BI, D3 and exposure to code version control systems (git)
- Strong Expertise with Cloudera/ Hortonworks platform with sophisticated experience in writing and optimizing efficient SQL queries with Python, Hive, Scala handling Large Data Sets in Big-Data Environments
- Visa Staff Data Engineer/Consultant, Big Data - Data Platform
- 7+ years of industry experience with a Bachelor’s or 5+ years of experience with Masters in Computer Science or equivalent relevant degree
- 5+ years working with Big Data technologies such as Hive, YARN, Spark, Map-Reduce or HBase
- Excellent Java and Python programming skills.
Data Analyst
주요 필요 지식과 스킬
- 비즈니스/도메인 지식
- 데이터 시각화 역량(BI - Tableau, MSTR 등)
- 데이터 분석을 위한 통계적 지식
- SQL
데이터 분석가는 Business와 Data Visualization, 그리고 통계적 분석 역량이 가장 크게 요구되는 사항이다. 그렇기 때문에 도메인 지식을 필수로 한다. 각 산업별 특징에 대한 이해 없이 데이터만으로 ‘상관관계’는 일정 수준 읽을 수 있을지라도 ‘인과관계’를 분석해내기는 불가능하기 때문이다. 데이터 분석가는 일반적으로 기술 직군이라기보다 경영/비즈니스 직군에 가깝다. 의외로 기술적 요구는 크지 않은 반면, 경쟁률이 무척 높은 직군이다. 또한, 데이터를 분석하고 분석자료를 통해 회사의 의사결정을 주도하는 역할 자체에 대한 매력도가 높은 직군이다.
Meta의 Data Analyst JD
- Meta Data Analyst
- BS/MS Degree in Business, Economics, Statistics, Mathematics, Applied Mathematics, Finance and other quantitative areas.
- 3+ years’ experience in reporting/analytics.
- Proficiency in querying and manipulating complex raw datasets for analysis. SQL skills, experience with Hive, ETL.
- Proficiency in visualizations and dashboards.
참조
https://www.edureka.co/blog/data-analyst-vs-data-engineer-vs-data-scientist/
https://data-flair.training/blogs/data-scientist-vs-data-engineer-vs-data-analyst/
https://www.dataquest.io/blog/data-analyst-data-scientist-data-engineer/
데이터분석가 vs 데이터엔지니어 vs 데이터과학자 차이가 뭘까? (1) 역할과 정의 (tistory.com)
데이터분석가 vs 데이터엔지니어 vs 데이터과학자 차이가 뭘까? (2) 필요 역량, 기술 (tistory.com)