김조은 선생님의 Inflearn 강의를 참고하였다.
이 강의에서 다루는 내용
공공데이터를 활용해 전혀 다른 두개의 데이터를 가져와서 전처리 하고 병합하기
수치형 데이터와 범주형 데이터를 바라보는 시각을 기르기
데이터 형식에 따른 다양한 시각화 방법 이해하기
이 강의는 주피터 노트북을 이용하여 실습한다.
데이터 분석을 위해서 데이터셋을 먼저 다운로드 해야한다.
먼저 open-data-analysis-basic-master 파일을 다운로드 받고, 주피터가 설치된 경로에 이동시켜준다.
나는 C\User(사용자)\jaeju 에 주피터가 설치되었기 때문에, 해당 경로에 open-data-analysis-basic-master 파일을
이동시켜주었다.
이렇게 이동시켜주면
open-data-analysis-basic-master 파일 안으로 들어가서 data 폴더를 생성한후,
강의에서 제공하는 .csv 파일들을 이동시킨다.
다시 Jupyter 로 돌아가서,
%ls data 라고 입력하면, data 폴더 안에 있는 파일들을 보여준다.
%ls 명령어는 뒤에 있는 폴더의 구성? 을 보여주는 역할을 하나보다.
import pandas as pd 는 pandas 라이브러리를 pd 파일로 불러오는 것을 의미한다.
여기서 pd 는 내가 개인적으로 정한 이름이기에, 변경가능하다.
Pandas란 무엇인가?
Pandas는 쉽고 직관적인 관계형 또는 분류된 데이터로 작업 할 수 있도록 설계된
빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하는 Python 패키지이다.
-> 쉽게 말해서, Python 에서 제공하는 excel 같은거라고 생각하면 될듯하다.
pd.read_csv 는 pandas 라이브러리를 통해 불러온 pd에 .csv 파일을 읽어오는 것이다.
매번 이렇게 불러올 수 는 없으니, df_last로 변수를 생성해준다.
이제 df_last는 data 폴더 안에 있는 엑셀파일을 pandas 를 활용하여 우리에게 데이터들을 보여준다.
df_last.shape 는 (행,열)을 출력해준다고 한다.
(4335, 5)가 나왔는데, 4335개의 행, 5개의 열이라는 의미이다.
즉, 0~4334 개의 데이터,
지역명/규모구분/연도/월/분양가격 순으로 5개의 열을 갖고 있다는 의미이다.
head()는 앞에 5개, tail은 뒤에 5개이다.
2019년 이후 분양가격표도 똑같은 방식으로 진행하면 데이터 로드에 성공한 것이다.
2013년 ~ 2015년 분양가격 표와 2019년 이후 분양가격표 두개를 데이터 로드 했으므로,
이 두개의 데이터를 병합하여 데이터 분석을 해야한다.
[출처]: 인프런, "공공데이터로 파이썬 데이터 분석 시작하기" 박조은 선생님 강의
파일 출처: 공공데이터포털, 주택도시보증공사_전국 신규 민간 아파트 분양가격 동향
'Python 을 활용한 데이터분석' 카테고리의 다른 글
데이터 시각화(2)_상자그림 (0) | 2022.01.14 |
---|---|
데이터 시각화 (plot(), sort_values()) (0) | 2022.01.14 |
데이터 그룹화 (groupby, pivot_table) (0) | 2022.01.14 |
데이터 요약, 가벼운 분석, 컬럼 변경 및 제거 (데이터 최적화) (0) | 2022.01.11 |
데이터 타입 변경, 단위 맞추기(평당분양가격) (0) | 2022.01.11 |