본문 바로가기

카테고리 없음

DS school Level2 노트

[강의 목표]

- 파이썬을 활용한 데이터 분석 및 인공지능&머신러닝 알고리즘 활용 시연을 본다

- 파이썬을 사용한 데이터 분석법 이해

- 파이썬(Python)을 배우자

 

[환경]

주피터 노트북(jupyter notebook)

장점: 코드를 그대로 실행할 수 있다 / 글 작성 가능

 

[타이타닉 엑셀에서 풀이하는 법 리뷰]

1. pclass 생존률의 격차가 있지만 50%를 넘기가 힘들다. 비슷한 성향을 가진 다른걸 쓰면 결과가 좋아지기 시작. (e.g. embark)

 

2. SibSp와 Parch

가설: 해상사고가 터졌을때 가족을 챙기느라 생존률 급감

SibSp + Parch 피봇테이블

3. Age 비어있는 경우 

사망률 증가 -> 죽었으니까 나이를 물어볼 수가 없다. 

단점: 빈칸은 사후정보로 현실세계에서는 쓸 수 없다. 케글에서 점수 올리는 용도로만 쓸 수 있다.

 

4. 호칭

Master란 호칭이 많다.

Master는 결혼하지 않은 남성을 칭하는 것.

Master와 Miss일때 생존률 달라져.

 

5. Andersson이란 남성이 사망했다. 이때 가족들도 다 죽는다. (가설)

가족끼리는 기본적으로다 뭉쳐다녀

 Andersson 같은 성 아닌지 구분 방법

Andersson 뽑아내고  SibSp와 Parch를 더한 값을 붙인다 (familySize) 그러면 Andersson6가 나옴.

 

[2-2]

파이썬의 장점: 범용성

웹개발, 게임개발, 데이터 분석, ...

다 되는 이유 - 파이썬 패키지. 

특정 일 하고 싶을 때 쓰는 언어.

e.g. 웹개발: 장고, 플라스크 / 데이터 분석: sql Alchemy, pandas, seaborn(데이터 시각화 패키지)

 

pandas와 엑셀 둘 다 쓸 예정.

pandas의 장점

 

문법

import pandas as pd

train = pd.read_csv("train.csv")

train.head()