1. 아는 만큼 보인다
- 평균의 함정
- 평균이 항상 대표할 수 없다.
- 중앙값을 활용할 수 있다. (평균과 중앙값의 차이 확인)
- 분포/상자도 함께 봐야 한다. (최저, 최대, 편차)
- 데이터
- 사실이나 자료
- 수치, 문서, 사진, 동영상
- 리터리시
- Literacy - 문해력, 글을 읽고 쓸 줄 아는 능력
- Data Literacy - 데이터를 읽고 쓸 줄 아는 능력
2. 데이터 분석 과정
- 자료
: 알맞은 자료를 모으는 능력 - 사실
: 쓸모 있는 사실을 이끌어내는 능력 - 판단
: 올바른 판단을 내리는 능력 - 주장
: 자신의 생각을 할 수 있는 능력 - 두 개의 포스터 광고 시안
- A시안은 구매전환이 155건, B시안은 구매전환이 170건
- 구매전환건수를 봤을 때, B시안이 더 좋다.
- A시안의 접속자수는 6500명, B시안은 8000명 이므로 전환율은 2.38%, 2.18%
- 전환율은 A시안이 더 좋다.
- 데이터 분석하기
- 문제제기하기
- 광진구 인기 관광지
- 여러 관광요소 중에서 체류시간이 가장 적은 장소
- 왜 체류시간이 적을까?
- SNS 언급량 확인 -> SNS와 관련성 없음
- 계절별 방문자수 확인 -> 여름에 많다.
- 성/연령별 방문자 수 -> 남성 방문객이 많고, 20대가 많이 찾는 편
- 답: 동서종합터미널
- 광진구 맛집 1위
- 답: 스타벅스
- 광진구 특화 맛집이 적다
- 광진구 방문자를 늘리려면 어떻게 해야 할까?
- 위 데이터를 활용한다.
3. 상관관계
- 상관분석
- 명백한 원인과 결과는 아니다. (선-후 관계는 아니다) 다만, 영향을 줄 수 있다.
- 양의 상관관계, 음의 상관관계
- 상관계수 값에 따라 강도를 알 수 있다. (-1~1)
- 실무에서는 상관계수 0.4를 주로 보게 된다.
- 두 지표의 상관계수가 높다고 해서 상관이 있다고 단정해서는 안된다.
( 엉뚱한 지표를 놓고 높은 상관계수가 나올 수 있다. )
- 상관관계 서비스
- 썸트렌드 - 분석센터
- '축제' 검색 - 연관어 검색, 긍/부정 분석
4. AI
- 인공지능
- 지능적인 기계. 사람처럼 생각하고 판단.
ex: 영화 속 '자비스'와 '베이맥스'
ex: 쇼핑 아이템 추천 시스템
- AI
- 지능적인 기계를 만들기 위한 과학기술
( AI > 머신러닝 > 딥러닝 )
- 머신러닝
- 사람같은 학습능력
- 사람이 데이터를 정제(전처리)해서 학습시킴
- 대규모 데이터셋에서 상관관계를 찾는다.
- 다양한 데이터 -> 패턴 학습 -> 판단
- 딥러닝
- 인공 신경망을 사용
- 사람이 정제된 데이터를 주지 않는다.
- 비정제 데이터(영상)를 전달하면 스스로 학습
5. 머신러닝
- 머신러닝 학습 방법
- 지도 학습
: 답을 알려주고 스스로 공식을 깨우친다.
ex) 분류, 회귀 - 비지도 학습
: 데이터를 알려주고 답을 찾는다.
ex) 군집화(추천), 이상탐지 - 강화 학습
: 피드백 만으로 반복 학습
ex) 알파고
- 분류와 회귀
- 분류
- 어떤 그룹인지 구분. 이진분류, 다중분류
- K-최근접 이웃 알고리즘
: 특정 위치에서 N개를 포함하는 영역을 확정 - 로지스틱 회귀
: 종속 변수가 이진 결과로 도출됨 - 의사결정 나무
: 적절한 노드를 찾아 계속해서 나아감. 결과 도출. - 랜덤 포레스트
: 의사결정 나무의 모음 - 회귀
: 수치를 예측
6. Orange3 - 고객행동예측
- 상관관계를 먼저 파악한다
- 데이터매핑: Data - File
- 산점도확인: Visuallize - Scatter Plot
- 상관계수확인: 빈화면(우클릭) - Unsupervised - Correlation
- 6-1. 데이터 확인
- 데이터 표 보기: Data - DataTable
- 6-2. 데이터 전처리
- 데이터를 러닝머신에 적합한 형태로 만듦
- 결측치 제거: Transform - Preprocess
팝업_Impute Missing Values
- 평균/최빈값 처리
- 임의의 값
- 결측치 제거 - 중복값 제거: Transform - Unique
- 데이터 표를 연결하여, 전처리 전의 표와 후의 표를 비교
- 기술통계량 확인: Data - Feature Statistics
데이터 표에 연결
- 6-3. 데이터 분석
- 훈련/검증 데이터 준비하기
- 샘플링: Transform - Data Sampler
- 팝업_Fixed promotion of data (=훈련데이터비중)
- 훈련데이터비중 > 검증데이터비중
- 분류 결과가 골고루 섞여 있어야 한다.
- 테스트 및 학습용으로는 70~80%가 좋다.
- 데이터 수가 많으면, 학습용 데이터를 60%만 잡아도 된다.
( 가장 이상적인 비중은 50%다. ) - 데이터 표 만들기, Sampler와 연결한 뒤, 연결 선에서 설정
- 각각의 데이터 표 에서 제대로 나뉘어졌는지 점검
- 6-4. 모델 학습
- 훈련용 데이터 표에 분류 모델 연결
- Logistic Regression (로지스틱 회귀)
- KNN (K-최근접)
- Tree (의사결정 나무)
- Random Forest (랜덤 포레스트)
- 6-5.테스트 및 평가
- 모델성능평가: Evaluate - Test and Score
- 4개 모델 연결
- Test 데이터 표를 연결하여 평가
- 위젯 클릭 (정확도: CA)
- 예측: Evaluate - Predictions
- 4개 모델 연결
- Test 데이터 표를 연결
- 새로운 값을 추가하고 싶은 경우, Test 표 연결선에 인스턴스 추가
: Transform - Create Instance
Tags:
서비스기획_Tool