데이터 분석: Pattern, rule을 찾은 다음 적용하기.
예측 모델
기존에 사건이 일어난 데이터를 분석한 다음에 현재 새로운 데이터에 다시 적용하는 방법.
첫번째 모델의 목표 : 가장 쉬운 모델
케글은 대소문자 구분에 민감하니 주의할 것
같은 내용으로 전체 채워넣기 -> + 커서 올리고 더블 클릭.
------
[1-7] 데이터 분석 루트 3가지
1. 가설을 세우기
2. 가설이 맞는지 검증
3. 검증된 것을 바탕으로 예측하기.
스프레드 전체 클릭- 데이터-피봇테이블
열과 필터는 버린다. 우리는 행과 값만 알고있자.
가설 1. 여성이면 살고 남성이면 죽는다 (데이터 분석: Pattern, rule을 찾은 다음 적용하기.
예측 모델
기존에 사건이 일어난 데이터를 분석한 다음에 현재 새로운 데이터에 다시 적용하는 방법.
첫번째 모델의 목표 : 가장 쉬운 모델
케글은 대소문자 구분에 민감하니 주의할 것
같은 내용으로 전체 채워넣기 -> + 커서 올리고 더블 클릭.
------
[1-7] 데이터 분석 루트 3가지
1. 가설을 세우기
2. 가설이 맞는지 검증
3. 검증된 것을 바탕으로 예측하기.
스프레드 전체 클릭- 데이터-피봇테이블
열과 필터는 버린다. 우리는 행과 값만 알고있자.
가설검증예측
가설 1. 여성이면 살고 남성이면 죽는다 (피봇 테이블 데이터 바탕)
-----
[1-8]
새로운 칼럼 추가시 이전 피봇테이블로 자동 싱크가 안 된다.
----
[1-9]
어떤 가설이 맞아떨어지면 그것과 관련된 가설들을 연쇄적으로 실험한다.
[1-10]
어린 아이일수록 탈출 확률 증가
너무 잘게 쪼개지니까 구역 나눠서 분석.
Age column 오른쪽에 넣으면 귀찮은 일 발생. (왼쪽 칼럼이 비어있을 경우 끝까지 자동으로 채워지지 X)
피봇 테이블 써보니 이 가설 아님.
도출결과
나이 컬럼은 생존사망에 중요하지 않다
18살이란 기준이 잘못 됐을 수도.
나이컬럼, 다른 정보 조합했을 경우 중요한 정보가 나올 수도 있다.
여성이라도 3등급이면 죽고 남성이라도 1등급이면 산다.
쪼개기 - 성별 먼저.
=IF(?,?,?) 이거 먼저 넣고 바꾸는 식으로 해야 실수 안 함.
예시
=IF(E2="female",1,0)
주의
<!--br {mso-data-placement:same-cell;}-->
Sex | Pclass | Survived의 SUM |
Survived의 COUNT |
|
0 | 0 | |||
총계 | 0 | 0 | ||
female | 1 | 91 | 94 | 96.81% |
2 | 70 | 76 | 92.11% | |
3 | 72 | 144 | 50.00% | |
female 총계 | 233 | 314 | 74.20% | |
male | 1 | 45 | 122 | 36.89% |
2 | 17 | 108 | 15.74% | |
3 | 47 | 347 | 13.54% | |
male 총계 | 109 | 577 | ||
총계 | 342 | 891 |
이런 상황에서 여성이 50%인게 90%보다는 낮지만 50% 자체 절대적인 수치로 봤을 때는 X.
상대적인 값에만 연연하는것이 아니라 절대적인 값도 항상 체크 해야한다.
0.77이 목표. 0.78은 최고점.
Tip
1. 절대 어렵게 생각하지 말기.
(어려운 스킬을 쓰면 많이 오를거다? 댓츠 노노)
2. 적재적소에 기술 쓰기
잘 모르겠으면 쉬운거 먼저 해보고.
3. 조건 더 많이 넣고 칼럼더 많이 넣으면 오히려 역효과. 점수 확 떨어짐.
성별 칼럼은 항상 중요하다.
성별 컬럼 포함 3개부터 스타트하기.
0.77 성공하고 0.78하고 싶다고 하면 그때부터 5-6개
4. 이 상황일때 여성을 더 살리려고, 남성을 더 죽이려고 하는 것은 무의미하다.
왜? 이 데이터는 이미 정해졌고 다른거에 영향을 받을 수 없거든.
5. 1컬럼만 파겠다는 전략은 위험하다. 다양한 가설을 써볼것.
기술적으로 다루는 것 어려운 칼럼은 미루는거 추천 (name, ticket, cabin)
age, fare도 미뤄두기. 카테고리 나눠줘야하니까.
Sibling Parch 관계도 중요.
4시간 시간 비우고 실습. 스코어 캡쳐해서 슬랙 채널에 올리기.