카테고리 없음
2주차(1) - [데이터 리터러시]데이터 전문가는 어떤 종류가 있을까?
Leetora
2023. 9. 13. 18:08
1. 어떤 역량을 필요로 할까
왜 프로그래밍을 배워야 할까?
- 문제 해결 능력 강화
- 창의성과 혁신
- 코드 품질과 유지 보수성
- 협업과 커뮤니케이션
데이터 사이언티스트의 업무
자료 분석/ 자료 준비/커뮤니케이션
- 어떤 비즈니스가 필요한 것인가
- 어떤데이터가 있는가?
- 어떻게 취득할 수 있는가?
- 어떻게 가공할 수 있는가?
DA / DS의 역량
- 개발 / 분석 / 모델링은 ‘내’가 주도적으로 해야한다
- 커뮤니케이션 능력이 중요
- 자신의 생각을 얘기하자
- 10~20분은 고민해보자
- 코드만 치는 개발자는 대체되기 쉽다
- DA / DS 의 성격이 명확하지 않음
- DA가 비즈니스적 성향이 더 강하고, DE는 개발 성향이 더 강하다
DS: 수학과 통계 / 컴퓨터 지식 / 비즈니스 지식의 총체
Data Analyst: 기획자 성향
Data Engineer: 개발자
ML/AI Engineer: 개발자 / 연구자
Growth Hacker: 기획자 성향
대시보드를 만드는 게 DA의 역할
- 모델 배포는 DE의 역량이 될 수도 있다
- 모델 학습을 갖고 업데이트를 진행
- 새로운 논문과 새로운 기술 적용
Data Analyst 직무와 요구사항
- 직무
- 데이터 가설 설정 / 대시보드를 생성해 공유 시각화
- 성과 지표 설정: 사내에 정한 KPI 모니터링, 원인 분석- 요구능력
- 도메인 지식
- 데이터 분석 능력(pandas / R, SQL) & 시각화 능력(python(matplotlib, seaborn), R💡 DA가 목표라면, tableau, Data studio를 스스로 배워서 채워넣으면 좋다 - 대시보드를 만들고, 어필할 수 있다면
- 요구능력
ML / AI Engineer
- 직무
- 보통 R&D 조직에 속하며 논문 연구
- ML / DL 모델 개발, 모델 성능 개선- 요구 능력
- 논문 이해 영어지식 & 수학지식
- 구현을 위한 코딩 능력(Python & Pytorch)
- 머신러닝, 딥러닝 이론, Back-End,클라우드 지식
- 데이터 분석가 + 데이터 엔지니어의 지식 필요
- 요구 능력
Data Engineer
- 직무
- 앱 또는 웹에서 나오는 데이터를 수집&가공하여 데이터 분석가가 사용하기 쉽게 저장
- 데이터 파이프라인 생성- 요구 능력
- 데이터 파이프라인에 필요한 기술(Spark, Hadoop)
- 데이터 수집에 필요한 기술(RPA,크롤링)
- SQL - 데이터 분석가가 사용하기 쉽게 저장하고 머신러닝 엔지니어가 만든 모델을 배포
- 요구 능력
2. 현업에서는 어떤 신입을 요구하는가?
데이터 분석가 필수역량
1. Excel
- A. 데이터를 전처리하는 능력
-B. 즉, python능력이라고 봐도 무방함
2. 데이터 시각화
3. SQL
포트폴리오에서 가장 중요한 요소는?
- 기술 적합 여부
- 논리적으로 내용이 구성된건지
- 논리적인 결과 / 인사이트
- 비즈니스적인 문제 해결 여부
논리적 구성이 비즈니스 구성이 문제해결에 도움이 되었는가가 중요함
- 논리적 내용 구성
- 논리적 결론 및 인사이트
- 모델 성능만 나타내는 건 누구나 할 수 있음
- 즉, 모델을 만든 이유와 목적을 잘 설명할 수 있어야 함
채용 시 가장 중요한 경험?
- 문제정의 후 인사이트 도출까지 데이터 분석/ 모델링의 과정을 ‘전부’ 수행한 경험
- 팀으로 문제 해결
- 데이터 관련 프로젝트 결과를 공유하고 전달해본 경험
- 도메인 관련 업무 및 학습 경험
- 하나만 할 수 없으니 +a
채용 시 중요하게 생각하는 역량과 태도
역량
- 논리적 / 분석적 사고역량
- 커뮤니케이션 능력
- 문제해결 능력
- 도메인에 대한 관심과 이해
- 문서 작성 능력
태도
- 끈기있는 태도
- 새로운 지식과 기술 습득
- 동료와 함께 협업
- 도전적
- 유연적 / 창의적 태도
면접에서 중요한 것?
- 포폴 설명
- 직무 관련 기초 기술 설명
- 포트폴리오 기술 이해
- 도메인 이해
즉, 자신의 포폴을 잘 설명할 수 있어야 함
앞으로 무엇을 할까요?
- 직군을 망라하고 SQL이 매우 중요하다
- SQLd → 기초적 내용
- SQLp → 직군 경험 있어야 함
- 데이터 분석 - 준전문가 자격증
- 논리적이고 분석적인 사고가 중요하다
- 가장 먼저 무엇을 해야하는지 목적을 정하자
- 중간 중간 WHY를 설명할 수 있어야 함
- 왜 그 데이터를
- 왜 그 모델을
- 왜 그 분석방법을
- 왜 그 개발 방식을
- 그래서 어떤 가치(어떤 비즈니스)를 낼 수 있는가에 대해 답을 제공해야 함
3. 경로와 CLI
절대경로 vs 상대경로
경로에 대한 이해가 없으면 파일을 불러올 수 없기에 알아둬야 할 필요가 있음
- 절대경로
- 루트 디렉토리부터 시작
- 서울특별시 강남구 역삼동 123번지
- 상대경로
- 현재 디렉토리 기준으로 한 경로
- 현업에서 주로 쓰임
- 현재 경로가 강남구 역삼동 → 123번지 만으로도 찾을 수 있음
현재 경로보다 위에 있는 걸 쓰려면?
.. → 상위경로
- ex) “../살인률.csv”
GUI vs CLI
- 모든 프로그램은 GUI 기반
- 유저가 쓰기 좋게 만들어준 것
- 별도 개발 프로그램 필요
- 세부적 설정 변경 불가
- CLI(=terminal)
- 빠른 작업 수행
- 텍스트 기반 → 시각적 정보 부족
- 정교한 작업 가능
- 스크립트 작성이 쉬움
- 명령어를 외워야 함