데이터 분석 기초의 마지막 시간이다.
2013년 부터 최근 데이터까지 데이터프레임을 합쳐주어서 heatmap 으로 시각화 해보았으니,
오늘은 이제까지 배운 라이브러리 함수를 활용하여 시각화 해보자!
연도별 평당분양가격 시각화하기
seaborn 이 가장 사용하기 편하니 seaborn 을 사용해서 시각화 해보겠다.
sns.barplot(data = df, x = "연도", y = "평당분양가격")
-> df 는 2013~ 최근 데이터를 합친 데이터 프레임이다.
해석: 시간이 지날수록 평당분양가격은 상승 하고 있다.
2. pointplot
plt.figure(figsize = (12,4)) # 그래프 크게
sns.pointplot(data = df, x = "연도", y = "평당분양가격", hue = "지역명")
# 지역별로 따로 보기 위하여 hue = "지역명" 으로 설정해주었다.
해석: 서울의 평당분양가격 평균이 가장 높고 경기, 대구, 인천, 부산 , 제주 가 그다음으로 높다.
서울이 다른지역에 비해 월등히 높아서, 서울이 전체 지역 평균을 높이는데 이받이 한 것으로 예측된다.
# 서울만 barplot 으로 그리기
df_seoul = df[df["지역명"] == "서울"].copy() # df 에서 서울만 뽑아서 copy 를 활용하여 df로 다시 넣는다.
botplot, boxenplot, violinplot 도 seaborn 을 활용해 앞서 배운것처럼 똑같이 하면 된다.
violinplot + swarmplot 을 하면 데이터의 분포가 어느지역인지 더 구체적으로 시각화가 가능하다.
plt.figure(figsize = (12,4))
sns.violinplot(data = df, x = "연도", y = "평당분양가격")
sns.swarmplot(data = df, x = "연도", y = "평당분양가격", hue = "지역명")
plt.legend(bbox_to_anchor=(1.02, 1), loc=2, borderaxespad=0.)
violinplot 으로 연도별 평당분양가격이 어디가 분포가 많은지 대략적으로 시각화 할 수 있고,
swarmplot 으로 hue = 지역명으로 설정하여, 데이터의 분포가 어느지역이 많은지 시각화 할 수 있다.
해석: 평당분양가격은 시간이 흐를수록 오르고있고, 5000~ 10000 범위에 데이터들이 많이 분포되어있다.
그 데이터들의 분포도 경기, 인천, 부산, 대구, 제주 순으로 분포되어 있으며, 이상치 값들은 모두 서울이라는 점을 알 수 있다.
데이터들의 자세한 분석을 얻고 싶다면 violinplot + swarmplot 을 활용하는 것도 괜찮을 것 같다.
이렇게, 합친 데이터프레임으로 seaborn 을 활용하여 시각화 해보았다.
가장 기억에 남는 것은 melt 를 통해 컬럼들을 변경 할 수 있고, 두 데이터 프레임을 한 데이터 프레임으로 맞추기 위해서 컬럼을 통일 시켜야 하며 pivot_table, seaborn 을 활용하여 데이터들을 정렬하고 시각화 해 볼 수 있었다.
아직 갈길이 멀었지만, 앞으로도 블로그를 통해서 많은 내용을 정리해서 업로드 할 예정이다!
[출처]: 인프런, "공공데이터로 파이썬 데이터 분석 시작하기" 박조은 선생님 강의
파일 출처: 공공데이터포털, 주택도시보증공사_전국 신규 민간 아파트 분양가격 동향
https://www.data.go.kr/dataset/3035522/fileData.do
'Python 을 활용한 데이터분석' 카테고리의 다른 글
결측치 시각화, 필요없는 컬럼 제거하기(Missingno, drop) (0) | 2022.02.10 |
---|---|
상가 정보 데이터 불러오기 및 데이터 정보 확인 하기 (0) | 2022.02.09 |
두가지의 다른 데이터 프레임을 하나로 합치고 시각화하기(concat, heatmap) (0) | 2022.01.26 |
데이터 전처리 기초 - melt, apply 함수 사용하기 (0) | 2022.01.26 |
lmplot (산점도 + 회귀선), swarmplot (0) | 2022.01.20 |