데이터 및 엑셀 파워쿼리 (1/2) - Sesac

데이터 리터러시

: 문해력, 글을 읽고 쓸줄 아는 능력 + 통계 분석 + 주장의 근거로 활용


데이터 활용 - DIKW 

  • 'D'ata 'I'nformation 'K'nowledge 'W'isdom
  • 데이터 -> 정보(올바른 데이터, 분류) -> 지식(정보에 더할 것) -> 지혜(정보+지식)
  • 읽기 - 이론 및 분석 (날짜와시간, 지리, 명칭, 결측치, 이상)
  • 작업 - 수집 및 관리
  • 소통 - 시각화


적합한 데이터를 수집

  • 효과
    : 전 / 후 데이터를 비교

  • 경쟁력 비교
    : 범위(도메인)를 가지고 비교

  • 행동예측
    : 여론, 트렌드 조사

데이터 리터러시 하위 역량

  • 북극성

    • '핵심목표'
      회사 입장이 아닌, Users 입장에서 구체적이어야 한다.
      ex) 트위터: 30명 이상을 팔로워하는 이용자를 늘리겠다.

    • 북극성 지표는 '선행 지표'가 되어야 한다.
      ex) 전화 상담원의 성과를 예측할 수 있는 선행지표는?
      1) 크롬/파이어폭스 (본인이 설치)  2) IE/사파리 (기존 설치)

  • 데이터 구분

    • 보유하고 있는 데이터 - 기존에 사업하고 있는 데이터
    • 모을 수 있는 데이터 - 외부데이터, 공공데이터
    • 절대 모을 수 없는 데이터

  • 어떤 데이터: 5W1H

    • 누가 - 개인정보
    • 언제 - 날짜와 시간
    • 어디서 - 매장, 주소, 상권, 위경도
    • 무엇을
    • 어떻게
    • 왜 - 조사 및 분석 자료

문제해결 적용




목적에 따른 분석방법

  • 현상파악
    : 기술통계, 시각화
    ex) 고객 segmentation(세분화)

  • 인과관계
    : 회귀분석, 경로분석, 구조방정식
    ex) 페이스북과 유투브 중 광고효과가 더 좋은 쪽은?

  • 유사도분석
    : 상관분석, 군집분석
    ex) 쇼핑몰에서 상품추천

  • 예측/분류
    : 회귀분석, 결정트리, 서포트벡터머신(SVM)
    ex) 스팸메일 걸러내기 (분류)
         게임 해킹 유저 잡아내기 (분류)
         1년 후 s전자 주가 때려 맞추기 (예측)
         사람의 손글씨 인식하기 OCR (분류)



Excel BI (Business Intelligence)

  • Power Query
    : 데이터를 원하는 표 모양으로 가져온다. 전처리에 수월하다.
    엑셀은 수식편집기이기 때문에 모든 값에 대한 갱신작업이 계속 들어간다.
    파워 쿼리는 데이터를 그대로 두고 모양만 바꿔준다. 


  • CSV 파워쿼리
    : 전처리과정 후 로드한다.

  • 삽입-피벗테이블
    : 데이터 ROW가 너무 많으므로 요약하여 시각화 하려면 피벗테이블을 사용한다.

  • 데이터-쿼리및연결
    : 원데이터로 다시 연결

웹 데이터 가져오기

  • 웹 크롤러
    : 자동화된 방법으로 탐색하고 정보를 자동 및 주기적으로 수집하는 프로그램

  • 웹 크롤링
    : 실시간으로 데이터를 가져옴

  • 웹 스크래핑
    : 1회성으로 데이터를 가져옴. 파싱작업(필요없는 부분 제거)이 필요함

  • 리스틀리
    : 웹상의 table을 인식하여, 엑셀이나 구글시트로 변환하여 가져온다.

  • Power Query
    : 데이터 가져오기 - 기타원본에 - URL
    표로 가져오기



포털 데이터

  • 키워드
    • 네이버 데이터랩
    • 구글 트렌드
    • 빅카인즈

  • 선호도
    • 음원판매량, 좋아요 등으로 가정하여 수집
      EX) 멜론 차트 좋아요.
다음 이전