본문 바로가기
AI데이터 엔지니어, 새싹

1주차(2) - [Data] 파워쿼리 데이터 전처리

by Leetora 2023. 9. 13.

오늘 목표: 반복되는 엑셀을 자동화시켜서 정리하자 - 파일편

*엑셀로 데이터를 불러와 데이터를 정리하자.

  • null 값 / Date 값을 체크 해제하면 불필요한 데이터를 없앨 수 있음

Q. 상반기 하반기 데이터 두 가지를 가져오려면?

데이터 가져오기 - 폴더에서 - 상/하반기 데이터 가져오기

전체 다 불러오기 진행

*경로가 바뀌면 데이터가 불러와지지 않는다는 것을 명심해야 함

  • Date 값만 필요한 것: Date 헤더 - 다른 열 제거
  • 필요하지 않은 데이터는 제외하기 위해 null 같은 값을 제외
  • Date / Amount 형식 변환

이게 정형 데이터일까? 비정형 데이터일까?

(위)이건 Semi - data structure

(아래)정형화된 data structure로 바꾸기 위해 어떻게 해야할까?

데이터 - 기타원본에서 - 테이블/범위에서(대부분 자동으로 잡아줌) - 머리글 포함 체크 해제

‘김기덕’과 ‘봉준호’를 빼야함.

김기덕과 봉준호는 어떤 공통점을 지니는가?

- 좌측열에 ‘이름’이 적혀있음

열 추가 탭 - 조건 열(IF문과 같음) - 조건을 만족하면 다음과 같은 결과물을 출력하라

사용자 지정 헤더 우클릭 - 채우기 - 아래로

‘첫 행을 머리글로’ 클릭

위와 같이 정리가 된 것을 볼 수 있다

그렇다면 원래 시트를 바꾼다면 어떻게 될까?

이렇게 정리가 된 상태로 피봇테이블에 저장된다.

카카오톡 데이터 정제

수많은 구매 목록 중 어떤 것을 구매했는지 알아보자!

csv에서 추출

파일 원본 - 유니코드(UTF-8) - 데이터 변환

키워드만 뽑아내고 싶은 것이기 때문에 column1만 살리고

날짜 데이터를 추출해내서 날짜별로 분류하고자 한다.

때문에 ‘조건 열 추가’를 통해 데이터가 어떻게 추가되었는지 봐야한다

날짜는 - - 이 있기 때문에 Column1에서 바(- -)가 있는 애들만 출력하라는 목적이다.

변환 - 추출 - 구분기호 사이 텍스트를 통해 조건열 추가 하면 아래와 같은 결과물이 나온다.

그렇다면 주문 상품을 새로운 조건열로 만든다면 어떻게 해야할까?

조건열을 추가해 주문상품만 추출해내기 위해 다음과 같이 실행한다

주문상품을 추출해내면 다음과 같은 리스트를 확보할 수 있다.

이를 통해 어떤 것을 알 수 있을까?

어머니? 캠핑? 등등의 선호를 알 수 있다.


2. 소셜데이터

소셜데이터 분석 예시

예시1

“마음이 잘 맞는 친구들과의 훠궈는 진짜 행복한 거구나”

  • 언제: 20.01.13
  • 제품: 훠궈
  • 어떤 감성: 친구 / 행복
  • 채널: 트위터

중국 SNS 상에서 소셜 데이터를 분석

  • 일상 / 실시간 데이터 분석
  • 원하는 제품을 찾아내 매출

소셜데이터 분석

개인의 기록이 중요한 정보 수단으로 자리잡아 유의미한 인사이트를 도출해낸다

개인의 기록 → 사회 현상으로 이해할 수 있음

사회 속 소셜 분석 역할

  • 대중의 솔직한 생각과 반응
  • 특정 분야의 흐름과 트렌드
  • 사회 동향 및 트렌드

비즈니스 속 소셜 분석 역할

  • 소셜 모니터링: 특정 제품과 서비스에 대한 반응 확인
  • 소셜 트렌드: 특정 주제에 대한 사람들의 생각
  • 타깃 마이닝: 특정 집단의 생각과 의견 파악

활용 - 구글 트렌드

  • 인기가 있다고 들릴 뿐, 실제 데이터는 실황과 다른 경우를 주의해야 한다
  • 기간별로 돌아오는 검색어 트렌드를 숙지할 필요가 있음

활용 - 네이버 데이터랩

  • 주제에 맞는 하위어만 검색하는 것이 좋음
  • 하위어가 많다고 항상 좋은 것은 아님
  • 2016년부터 데이터를 갖고 있음

활용 - 썸트렌드

  • 검색량이 아닌 ‘언급량’
  • 글 속에 담긴 키워드의 언급량을 비교 분석해줌