Orange (1/2) - Sesac

1. 아는 만큼 보인다

  • 평균의 함정
    • 평균이 항상 대표할 수 없다.
    • 중앙값을 활용할 수 있다.     (평균과 중앙값의 차이 확인)
    • 분포/상자도 함께 봐야 한다. (최저, 최대, 편차)

  • 데이터
    • 사실이나 자료
    • 수치, 문서, 사진, 동영상

  • 리터리시
    • Literacy - 문해력, 글을 읽고 쓸 줄 아는 능력
    • Data Literacy - 데이터를 읽고 쓸 줄 아는 능력


2. 데이터 분석 과정

  • 자료
    : 알맞은 자료를 모으는 능력

  • 사실
    : 쓸모 있는 사실을 이끌어내는 능력

  • 판단
    : 올바른 판단을 내리는 능력

  • 주장
    : 자신의 생각을 할 수 있는 능력

  • 두 개의 포스터 광고 시안
    • A시안은 구매전환이 155건, B시안은 구매전환이 170건
    • 구매전환건수를 봤을 때, B시안이 더 좋다.
    • A시안의 접속자수는 6500명, B시안은 8000명 이므로 전환율은 2.38%, 2.18%
    • 전환율은 A시안이 더 좋다.

  • 데이터 분석하기
    • 문제제기하기
    • 광진구 인기 관광지
      • 여러 관광요소 중에서 체류시간이 가장 적은 장소
      • 왜 체류시간이 적을까?
      • SNS 언급량 확인 -> SNS와 관련성 없음 
      • 계절별 방문자수 확인 -> 여름에 많다.
      • 성/연령별 방문자 수 -> 남성 방문객이 많고, 20대가 많이 찾는 편
      • 답: 동서종합터미널
    • 광진구 맛집 1위
      • 답: 스타벅스
      • 광진구 특화 맛집이 적다
    • 광진구 방문자를 늘리려면 어떻게 해야 할까?
      • 위 데이터를 활용한다.


3. 상관관계

  • 상관분석

    • 명백한 원인과 결과는 아니다. (선-후 관계는 아니다) 다만, 영향을 줄 수 있다.
    • 양의 상관관계, 음의 상관관계
    • 상관계수 값에 따라 강도를 알 수 있다. (-1~1)
    • 실무에서는 상관계수 0.4를 주로 보게 된다.
    • 두 지표의 상관계수가 높다고 해서 상관이 있다고 단정해서는 안된다.
      ( 엉뚱한 지표를 놓고 높은 상관계수가 나올 수 있다. )

  • 상관관계 서비스

    • 썸트렌드 - 분석센터
    • '축제' 검색 - 연관어 검색, 긍/부정 분석


4. AI

  • 인공지능

    • 지능적인 기계. 사람처럼 생각하고 판단.
      ex: 영화 속 '자비스'와 '베이맥스'
      ex: 쇼핑 아이템 추천 시스템

  • AI

    • 지능적인 기계를 만들기 위한 과학기술
      ( AI > 머신러닝 > 딥러닝 )

  • 머신러닝

    • 사람같은 학습능력
    • 사람이 데이터를 정제(전처리)해서 학습시킴
    • 대규모 데이터셋에서 상관관계를 찾는다.
    • 다양한 데이터 -> 패턴 학습 -> 판단

  • 딥러닝

    • 인공 신경망을 사용
    • 사람이 정제된 데이터를 주지 않는다.
    • 비정제 데이터(영상)를 전달하면 스스로 학습

5. 머신러닝

  • 머신러닝 학습 방법

    • 지도 학습
      : 답을 알려주고 스스로 공식을 깨우친다.
        ex) 분류, 회귀

    • 비지도 학습
      : 데이터를 알려주고 답을 찾는다.
      ex) 군집화(추천), 이상탐지

    • 강화 학습
      : 피드백 만으로 반복 학습
      ex) 알파고


  • 분류와 회귀

    • 분류
      • 어떤 그룹인지 구분. 이진분류, 다중분류

      • K-최근접 이웃 알고리즘
        : 특정 위치에서 N개를 포함하는 영역을 확정

      • 로지스틱 회귀
        : 종속 변수가 이진 결과로 도출됨

      • 의사결정 나무
        : 적절한 노드를 찾아 계속해서 나아감. 결과 도출.

      • 랜덤 포레스트
        : 의사결정 나무의 모음


    • 회귀
      : 수치를 예측

6. Orange3 - 고객행동예측

  • 상관관계를 먼저 파악한다
    • 데이터매핑: Data - File
    • 산점도확인: Visuallize - Scatter Plot
    • 상관계수확인: 빈화면(우클릭) - Unsupervised -  Correlation


  • 6-1. 데이터 확인

    • 데이터 표 보기: Data - DataTable


  • 6-2. 데이터 전처리

    • 데이터를 러닝머신에 적합한 형태로 만듦

    • 결측치 제거: Transform - Preprocess
      팝업_Impute Missing Values
             - 평균/최빈값 처리
             - 임의의 값
             - 결측치 제거

    • 중복값 제거: Transform - Unique

    • 데이터 표를 연결하여, 전처리 전의 표와 후의 표를 비교

    • 기술통계량 확인: Data - Feature Statistics
      데이터 표에 연결



  • 6-3. 데이터 분석

    • 훈련/검증 데이터 준비하기

      • 샘플링: Transform - Data Sampler

      • 팝업_Fixed promotion of data (=훈련데이터비중)
        • 훈련데이터비중 > 검증데이터비중
        • 분류 결과가 골고루 섞여 있어야 한다.
        • 테스트 및 학습용으로는 70~80%가 좋다.
        • 데이터 수가 많으면, 학습용 데이터를 60%만 잡아도 된다.
          ( 가장 이상적인 비중은 50%다. )

      • 데이터 표 만들기, Sampler와 연결한 뒤, 연결 선에서 설정

      • 각각의 데이터 표 에서 제대로 나뉘어졌는지 점검

  • 6-4. 모델 학습

    • 훈련용 데이터 표에 분류 모델 연결
      • Logistic Regression (로지스틱 회귀)
      • KNN (K-최근접)
      • Tree (의사결정 나무)
      • Random Forest (랜덤 포레스트)



  • 6-5.테스트 및 평가

    • 모델성능평가: Evaluate - Test and Score
      • 4개 모델 연결
      • Test 데이터 표를 연결하여 평가 
      • 위젯 클릭 (정확도: CA)

    • 예측: Evaluate - Predictions
      • 4개 모델 연결
      • Test 데이터 표를 연결
      • 새로운 값을 추가하고 싶은 경우, Test 표 연결선에 인스턴스 추가
        : Transform - Create Instance

댓글 쓰기

다음 이전