데이터 시각화 하기
데이터 그룹화까지 배웠고, 이제는 그룹화 한것을 한눈에 보기 쉽게 그래프를 활용하여 시각해보자
시각화를 위해서는 그룹화에서 사용했던 groupby 나 pivot_table 을 변수로 설정하고, plot()을 활용하여 시각화 해보자.
plot()은 pandas 라이브러리에서 활용되는 시각화인가보다.
우선, 데이터시각화를 위해 폰트를 설정해주어야 한다.
import matplolib.pyplot as plt
plt.rc("font", family = "Malgum Gothic") # 윈도우라서 맑은 고딕이다.
폰트를 설정해줬다면, 시각화를 위한 코드를 작성해도 오류가 나지 않는다.
폰트 설정 안해주면, 오류난다!
강의에서는 groupby 를 사용하였지만, 나는 pivot_table이 더 사용하기 편해서 pivot_table을 사용하였다.
visual 변수에 지역명을 index로 갖고, 평당분양가격의 평균을 그룹화한 pivot_table을 지정해주고,
visual.plot() 으로 시각화 해주었다.
visual.plot.bar() 는 막대그래프로 활용 가능하다.
막대그래프를 좀 더 한눈에 보기 쉽게 하기 위하여, 내림차순으로 막대그래프 크기도 좀 크게 설정 해 주었다.
pivot_table(index =~ , values = ~).sort_values(by = '정렬할 컬럼명') 을 하면 기본적으로 정렬할 컬럼을 기준으로 오름차순 정렬을 한다.
우리는 평당분양가격을 기준으로 정렬할 것이고, 내림차순으로 정렬하기 위해서
sort_values(by = "평당분양가격" , ascending = False) 로 정렬해주었고,
막대그래프를 한눈에 알아보기 쉽게 g.plot.bar (rot = 0, figsize = (10,3)) 으로 설정 해주었다.
rot = 0 : 지역명을 가로 , figsize = (10, 3) 은 그래프를 좀 더 크게 설정 할 수 있다.
이렇게 지역명으로 평당분양가격의 평균을 그래프로 시각화 한것을 그려보았다.
만약, 연도별 분양가격의 평균을 그려보면 어떻게 될까?
index = "연도" , values = "평당분양가격" 으로 설정해주고 plot()을 해주면 된다.
이렇게, 그래프의 선이나 막대에 해당하는 것은 values, 비교될 요인? 은 index 로 pivot_table로 설정해주면 된다.
드디어, 내가 원하는 정보를 추출해 시각화를 해 볼 수 있어서 흥미롭다.
아직 멀었지만, 꾸준히 차근차근 해보려고 노력할 것이다.
[출처]: 인프런, "공공데이터로 파이썬 데이터 분석 시작하기" 박조은 선생님 강의
파일 출처: 공공데이터포털, 주택도시보증공사_전국 신규 민간 아파트 분양가격 동향
'Python 을 활용한 데이터분석' 카테고리의 다른 글
seaborn 으로 시각화 하기 (0) | 2022.01.18 |
---|---|
데이터 시각화(2)_상자그림 (0) | 2022.01.14 |
데이터 그룹화 (groupby, pivot_table) (0) | 2022.01.14 |
데이터 요약, 가벼운 분석, 컬럼 변경 및 제거 (데이터 최적화) (0) | 2022.01.11 |
데이터 타입 변경, 단위 맞추기(평당분양가격) (0) | 2022.01.11 |