Python 을 활용한 데이터분석

데이터 시각화 (plot(), sort_values())

jwns 2022. 1. 14. 15:29

 

데이터 시각화 하기

데이터 그룹화까지 배웠고, 이제는 그룹화 한것을 한눈에 보기 쉽게 그래프를 활용하여 시각해보자

 

시각화를 위해서는 그룹화에서 사용했던 groupby 나 pivot_table 을 변수로 설정하고, plot()을 활용하여 시각화 해보자.

plot()은 pandas 라이브러리에서 활용되는 시각화인가보다.

 

우선, 데이터시각화를 위해 폰트를 설정해주어야 한다.

import matplolib.pyplot as plt

plt.rc("font", family = "Malgum Gothic")    # 윈도우라서 맑은 고딕이다.

 

폰트를 설정해줬다면, 시각화를 위한 코드를 작성해도 오류가 나지 않는다.

폰트 설정 안해주면, 오류난다!

강의에서는 groupby 를 사용하였지만, 나는 pivot_table이 더 사용하기 편해서 pivot_table을 사용하였다.

visual 변수에 지역명을 index로 갖고, 평당분양가격의 평균을 그룹화한 pivot_table을 지정해주고,

visual.plot() 으로 시각화 해주었다.

visual.plot.bar() 는 막대그래프로 활용 가능하다.

 

 

 

sort_values(by = "컬럼명")

막대그래프를 좀 더 한눈에 보기 쉽게 하기 위하여, 내림차순으로 막대그래프 크기도 좀 크게 설정 해 주었다.

pivot_table(index =~ , values = ~).sort_values(by = '정렬할 컬럼명') 을 하면 기본적으로 정렬할 컬럼을 기준으로 오름차순 정렬을 한다.

우리는 평당분양가격을 기준으로 정렬할 것이고, 내림차순으로 정렬하기 위해서

sort_values(by = "평당분양가격" , ascending = False) 로 정렬해주었고,

막대그래프를 한눈에 알아보기 쉽게 g.plot.bar (rot = 0, figsize = (10,3)) 으로 설정 해주었다.

rot = 0 : 지역명을 가로 , figsize = (10, 3) 은 그래프를 좀 더 크게 설정 할 수 있다.

 

 

이렇게 지역명으로 평당분양가격의 평균을 그래프로 시각화 한것을 그려보았다.

 

만약, 연도별 분양가격의 평균을 그려보면 어떻게 될까?

index = "연도" , values = "평당분양가격" 으로 설정해주고 plot()을 해주면 된다.

 

이렇게, 그래프의 선이나 막대에 해당하는 것은 values, 비교될 요인? 은 index 로 pivot_table로 설정해주면 된다.

 

드디어, 내가 원하는 정보를 추출해 시각화를 해 볼 수 있어서 흥미롭다.

아직 멀었지만, 꾸준히 차근차근 해보려고 노력할 것이다.

 

[출처]: 인프런, "공공데이터로 파이썬 데이터 분석 시작하기" 박조은 선생님 강의

https://www.inflearn.com/course/%EA%B3%B5%EA%B3%B5%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%A1%9C-%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0/dashboard

 

 

파일 출처: 공공데이터포털, 주택도시보증공사_전국 신규 민간 아파트 분양가격 동향

https://www.data.go.kr/dataset/3035522/fileData.do