[강의 목표]
- 파이썬을 활용한 데이터 분석 및 인공지능&머신러닝 알고리즘 활용 시연을 본다
- 파이썬을 사용한 데이터 분석법 이해
- 파이썬(Python)을 배우자
[환경]
주피터 노트북(jupyter notebook)
장점: 코드를 그대로 실행할 수 있다 / 글 작성 가능
[타이타닉 엑셀에서 풀이하는 법 리뷰]
1. pclass 생존률의 격차가 있지만 50%를 넘기가 힘들다. 비슷한 성향을 가진 다른걸 쓰면 결과가 좋아지기 시작. (e.g. embark)
2. SibSp와 Parch
가설: 해상사고가 터졌을때 가족을 챙기느라 생존률 급감
SibSp + Parch 피봇테이블
3. Age 비어있는 경우
사망률 증가 -> 죽었으니까 나이를 물어볼 수가 없다.
단점: 빈칸은 사후정보로 현실세계에서는 쓸 수 없다. 케글에서 점수 올리는 용도로만 쓸 수 있다.
4. 호칭
Master란 호칭이 많다.
Master는 결혼하지 않은 남성을 칭하는 것.
Master와 Miss일때 생존률 달라져.
5. Andersson이란 남성이 사망했다. 이때 가족들도 다 죽는다. (가설)
가족끼리는 기본적으로다 뭉쳐다녀
Andersson 같은 성 아닌지 구분 방법
Andersson 뽑아내고 SibSp와 Parch를 더한 값을 붙인다 (familySize) 그러면 Andersson6가 나옴.
[2-2]
파이썬의 장점: 범용성
웹개발, 게임개발, 데이터 분석, ...
다 되는 이유 - 파이썬 패키지.
특정 일 하고 싶을 때 쓰는 언어.
e.g. 웹개발: 장고, 플라스크 / 데이터 분석: sql Alchemy, pandas, seaborn(데이터 시각화 패키지)
pandas와 엑셀 둘 다 쓸 예정.
pandas의 장점
문법
import pandas as pd
train = pd.read_csv("train.csv")
train.head()