Orange (1/2) - Sesac

bySD •5월 23, 2024 • 2 min read

0

1. 아는 만큼 보인다

평균의 함정

평균이 항상 대표할 수 없다.
중앙값을 활용할 수 있다. (평균과 중앙값의 차이 확인)
분포/상자도 함께 봐야 한다. (최저, 최대, 편차)

데이터

사실이나 자료
수치, 문서, 사진, 동영상

리터리시

Literacy - 문해력, 글을 읽고 쓸 줄 아는 능력
Data Literacy - 데이터를 읽고 쓸 줄 아는 능력

2. 데이터 분석 과정

자료
: 알맞은 자료를 모으는 능력
사실
: 쓸모 있는 사실을 이끌어내는 능력
판단
: 올바른 판단을 내리는 능력
주장
: 자신의 생각을 할 수 있는 능력
두 개의 포스터 광고 시안

A시안은 구매전환이 155건, B시안은 구매전환이 170건
구매전환건수를 봤을 때, B시안이 더 좋다.
A시안의 접속자수는 6500명, B시안은 8000명 이므로 전환율은 2.38%, 2.18%
전환율은 A시안이 더 좋다.

데이터 분석하기

문제제기하기
광진구 인기 관광지

여러 관광요소 중에서 체류시간이 가장 적은 장소
왜 체류시간이 적을까?
SNS 언급량 확인 -> SNS와 관련성 없음
계절별 방문자수 확인 -> 여름에 많다.
성/연령별 방문자 수 -> 남성 방문객이 많고, 20대가 많이 찾는 편
답: 동서종합터미널

광진구 맛집 1위

답: 스타벅스
광진구 특화 맛집이 적다

광진구 방문자를 늘리려면 어떻게 해야 할까?

위 데이터를 활용한다.

3. 상관관계

상관분석

명백한 원인과 결과는 아니다. (선-후 관계는 아니다) 다만, 영향을 줄 수 있다.
양의 상관관계, 음의 상관관계
상관계수 값에 따라 강도를 알 수 있다. (-1~1)
실무에서는 상관계수 0.4를 주로 보게 된다.
두 지표의 상관계수가 높다고 해서 상관이 있다고 단정해서는 안된다.
( 엉뚱한 지표를 놓고 높은 상관계수가 나올 수 있다. )

상관관계 서비스

썸트렌드 - 분석센터
'축제' 검색 - 연관어 검색, 긍/부정 분석

4. AI

인공지능

지능적인 기계. 사람처럼 생각하고 판단.
ex: 영화 속 '자비스'와 '베이맥스'
ex: 쇼핑 아이템 추천 시스템

AI

지능적인 기계를 만들기 위한 과학기술
( AI > 머신러닝 > 딥러닝 )

머신러닝

사람같은 학습능력
사람이 데이터를 정제(전처리)해서 학습시킴
대규모 데이터셋에서 상관관계를 찾는다.
다양한 데이터 -> 패턴 학습 -> 판단

딥러닝

인공 신경망을 사용
사람이 정제된 데이터를 주지 않는다.
비정제 데이터(영상)를 전달하면 스스로 학습

5. 머신러닝

머신러닝 학습 방법

지도 학습
: 답을 알려주고 스스로 공식을 깨우친다.
ex) 분류, 회귀
비지도 학습
: 데이터를 알려주고 답을 찾는다.
ex) 군집화(추천), 이상탐지
강화 학습
: 피드백 만으로 반복 학습
ex) 알파고

분류와 회귀

분류

어떤 그룹인지 구분. 이진분류, 다중분류
K-최근접 이웃 알고리즘
: 특정 위치에서 N개를 포함하는 영역을 확정
로지스틱 회귀
: 종속 변수가 이진 결과로 도출됨
의사결정 나무
: 적절한 노드를 찾아 계속해서 나아감. 결과 도출.
랜덤 포레스트
: 의사결정 나무의 모음

회귀
: 수치를 예측

6. Orange3 - 고객행동예측

상관관계를 먼저 파악한다

데이터매핑: Data - File
산점도확인: Visuallize - Scatter Plot
상관계수확인: 빈화면(우클릭) - Unsupervised - Correlation

6-1. 데이터 확인

데이터 표 보기: Data - DataTable

6-2. 데이터 전처리

데이터를 러닝머신에 적합한 형태로 만듦
결측치 제거: Transform - Preprocess
팝업_Impute Missing Values
- 평균/최빈값 처리
- 임의의 값
- 결측치 제거
중복값 제거: Transform - Unique
데이터 표를 연결하여, 전처리 전의 표와 후의 표를 비교
기술통계량 확인: Data - Feature Statistics
데이터 표에 연결

6-3. 데이터 분석

훈련/검증 데이터 준비하기

샘플링: Transform - Data Sampler
팝업_Fixed promotion of data (=훈련데이터비중)

훈련데이터비중 > 검증데이터비중
분류 결과가 골고루 섞여 있어야 한다.
테스트 및 학습용으로는 70~80%가 좋다.
데이터 수가 많으면, 학습용 데이터를 60%만 잡아도 된다.
( 가장 이상적인 비중은 50%다. )

데이터 표 만들기, Sampler와 연결한 뒤, 연결 선에서 설정
각각의 데이터 표 에서 제대로 나뉘어졌는지 점검

6-4. 모델 학습

훈련용 데이터 표에 분류 모델 연결

Logistic Regression (로지스틱 회귀)
KNN (K-최근접)
Tree (의사결정 나무)
Random Forest (랜덤 포레스트)

6-5.테스트 및 평가

모델성능평가: Evaluate - Test and Score

4개 모델 연결
Test 데이터 표를 연결하여 평가
위젯 클릭 (정확도: CA)

예측: Evaluate - Predictions

4개 모델 연결
Test 데이터 표를 연결
새로운 값을 추가하고 싶은 경우, Test 표 연결선에 인스턴스 추가
: Transform - Create Instance

Tags: 서비스기획_Tool

4.94 / 169 rates

댓글 쓰기