Orange (2/2) - Sesac

1. 데이터와 통계

1-1. 데이터를 보는 법

  • 사례: 인기 주요관광지점 Top5
    : 언제 많이 갈까? (5월, 10월), 시각화(막대차트)

1-2. 통계란?

  • 이해를 기반으로 다음을 예측하는 자연스러운 일

  • 집단을 이해하고 예측한다.

  • 관찰 -> 이해 -> 예측 -> 결정


1-3. 기술통계와 추론통계

  • 기술통계
    : 수집된 데이터의 요약과 설명
    (ex: 평균, 표준편차, 중앙값, 사분위수, 최빈값

  • 추론 통계
    : 기술 통계 결과를 기반으로 일반화, 예측, 추정
    (ex: 가설검증)



2. 기술통계 요소

2-1. 평균

  • 집단을 잘 표현하는 대푯값(숫자).
  • 대푯값으로 집단을 비교할 수 있다.
  • 최초의 예측 모델


2-2. 표준편차

  • 집단의 개별 값이 궁금하다.
  • 집단의 분포 정도를 볼 수 있다.
  • 분포를 통해, 개별 값이 나타날 확률을 알 수 있다.


2-3. 분산

  • 두 집단의 분포 정도를 비교


2-4. 왜도와 첨도

  • 왜도
    : 중앙값이 평균(정규분포 중심)보다 왼쪽(양수) or 오른쪽(음수)에 있다.

  • 첨도
    : 몰려있는 정도
    • 양의 첨도: 평균에 몰려있다.
    • 음의 첨도: 평균으로 부터 퍼져있다.


2-5. 중앙값

  • 이상치 때문에 평균의 대표성이 무너질 때, 중앙값을 사용한다.

  • 이상치는 거의 활용하지 않는다.
    (ex: 예외적으로 이상치가 위험요소가 되어, 감시하는 경우)


2-6. 사분위수

  • 이상치를 보완한다.

  • 분포를 조금 더 알고 싶은 경우

  • Box plot
    : 가장 작은 수, 1/4, 중앙값, 3/4, 가장 높은 수


a) 채식주의자와 비 채식주의자 키 분포를 비교
상대적으로 채식주의자는 분산이 더 적다.  채식주의자는 양의 첨도. 비채식주의자는 음의 첨도. 채식주의자는 왜도가 오른쪽에 비채식주의자는 왜도가 왼쪽에 있다. (최소값, 최대값, 평균)

b) 두 집단을 비교할 때, 절대빈도보다 상대빈도를 사용하는 것이 더 나은 이유
채식주의자의 숫자가 비채식주의자에 비해 압도적으로 적다. 차트를 비교할 때, 비교하기 편한 y축 선정하기 어렵기 때문에, 절대값(인원) 대신 상대값(%)이 비교하기 편하다. 

c) 채식주의자가 되면 학생들의 평균 키가 작아진다고 결론을 내리는 것이 합리적일까요?
키에 영향을 주는 요인이 너무 많기 때문에, 식단만 가지고 합리화 하기 어렵다. 두 분포 모양이 달라서, 평균 키로 결론 내기 애매한 것 같습니다.





(a) 전체적으로 어망에 걸린 숫자의 총량은 늘었다. 분산은 줄었다. 귀신 및 혹등고래가 어망에 걸린 숫자는 늘었고, 밍크 및 다른 고래의 숫자는 더 줄었다.

(b) 두 고래의 어망에 걸린 숫자의 증가는 큰 차이 없지만 비율로 따졌을 때, 귀신고래는 100%, 혹등고래는 30%로 증가했기 때문이다.



3. RFM (사용자 그룹 또는 등급 분류)

: CRM 기법 중 하나, 사용자 별로 얼마나 '최근에', '자주', '금액' 지출했는지 사용자들의 분포를 확인

3-1. 분류 기준

  • R-최근에:
    • 마지막 구매일 3개월 이하=3
    • 3초과~6개월=2
    • 6개월 초과=1

  • F-자주:
    • 구매횟수 100초과=3
    • 50초과~100=2
    • 50개이하 = 1

  • M-구매금액: 
    • 200,000$ 초과=3
    • 100,000초과~200,000이하=2
    • 100,000이하=1


3-2. Fomula (함수)

  • File - Data Table
  • File - Fomula - Data Table

    조건문을 사용하여, 값 입력. (값 if 조건문)
    이때 조건문은 숫자만 인식하므로 산술 조건만 가능


  • Data Table - Select Rows - Formula - Concatenate
    ( 숫자 데이터가 아닌 경우, 이 방법을 사용)


범위 값의 row를 선택
선택한 값을 모두 특정 값으로 지정

합치기

Data Table (합친 뒤에 Data Table로 데이터 확인)


  • Data Table - Select Rows - Data Table - Concatenate
    ( 조건에 따라 row를 나누고, 나눈 조건으로 데이터 정렬을 한다. )



    Select rows 조건 입력


    합치기 (고객 등급별 나열)


4. 클러스터링 (군집화)

  • 데이터를 주면 알아서 군집

  • 마케팅 전략 활용
    : 고객의 통계학적 정보(성별, 나이, 지역, 수입)에 맞게 고객군 설정



  • k - Means
    군집을 입력한다.(Fixed)  군집 수를 추천 받을 수 있다. 



5. 장바구니 연관분석 - Association

  • 고객 연관 규칙 분석

  • 고객 패턴을 분석해서 매출 상승
    ( ex: 매대 제품 진열 및 IT서비스 컨텐츠 배치 등에 활용 )




  • Frequent Itemsets
    ( Minimal support는 1%로 조정. 출현 빈도 조정. )
    - 특정 item을 선택한 뒤, 그 다음 item을 선정할 확률을 나타낸다.


  • Association Rules
    - 어떤 item 집단을 선택했을 때, 반드시 선택하는 item이 무엇인지 나타낸다.


댓글 쓰기

다음 이전