2013년 부터 최근 데이터까지 시각화 하기 (seaborn)

Python 을 활용한 데이터분석

2013년 부터 최근 데이터까지 시각화 하기 (seaborn)

jwns 2022. 2. 9. 16:17

데이터 분석 기초의 마지막 시간이다.

2013년 부터 최근 데이터까지 데이터프레임을 합쳐주어서 heatmap 으로 시각화 해보았으니,

오늘은 이제까지 배운 라이브러리 함수를 활용하여 시각화 해보자!

연도별 평당분양가격 시각화하기

seaborn 이 가장 사용하기 편하니 seaborn 을 사용해서 시각화 해보겠다.

sns.barplot(data = df, x = "연도", y = "평당분양가격")

-> df 는 2013~ 최근 데이터를 합친 데이터 프레임이다.

해석: 시간이 지날수록 평당분양가격은 상승 하고 있다.

2. pointplot

plt.figure(figsize = (12,4)) # 그래프 크게

sns.pointplot(data = df, x = "연도", y = "평당분양가격", hue = "지역명")

# 지역별로 따로 보기 위하여 hue = "지역명" 으로 설정해주었다.

해석: 서울의 평당분양가격 평균이 가장 높고 경기, 대구, 인천, 부산 , 제주 가 그다음으로 높다.

서울이 다른지역에 비해 월등히 높아서, 서울이 전체 지역 평균을 높이는데 이받이 한 것으로 예측된다.

# 서울만 barplot 으로 그리기

df_seoul = df[df["지역명"] == "서울"].copy() # df 에서 서울만 뽑아서 copy 를 활용하여 df로 다시 넣는다.

botplot, boxenplot, violinplot 도 seaborn 을 활용해 앞서 배운것처럼 똑같이 하면 된다.

violinplot + swarmplot 을 하면 데이터의 분포가 어느지역인지 더 구체적으로 시각화가 가능하다.

plt.figure(figsize = (12,4))

sns.violinplot(data = df, x = "연도", y = "평당분양가격")

sns.swarmplot(data = df, x = "연도", y = "평당분양가격", hue = "지역명")

plt.legend(bbox_to_anchor=(1.02, 1), loc=2, borderaxespad=0.)

violinplot 으로 연도별 평당분양가격이 어디가 분포가 많은지 대략적으로 시각화 할 수 있고,

swarmplot 으로 hue = 지역명으로 설정하여, 데이터의 분포가 어느지역이 많은지 시각화 할 수 있다.

해석: 평당분양가격은 시간이 흐를수록 오르고있고, 5000~ 10000 범위에 데이터들이 많이 분포되어있다.

그 데이터들의 분포도 경기, 인천, 부산, 대구, 제주 순으로 분포되어 있으며, 이상치 값들은 모두 서울이라는 점을 알 수 있다.

데이터들의 자세한 분석을 얻고 싶다면 violinplot + swarmplot 을 활용하는 것도 괜찮을 것 같다.

이렇게, 합친 데이터프레임으로 seaborn 을 활용하여 시각화 해보았다.

가장 기억에 남는 것은 melt 를 통해 컬럼들을 변경 할 수 있고, 두 데이터 프레임을 한 데이터 프레임으로 맞추기 위해서 컬럼을 통일 시켜야 하며 pivot_table, seaborn 을 활용하여 데이터들을 정렬하고 시각화 해 볼 수 있었다.

아직 갈길이 멀었지만, 앞으로도 블로그를 통해서 많은 내용을 정리해서 업로드 할 예정이다!

[출처]: 인프런, "공공데이터로 파이썬 데이터 분석 시작하기" 박조은 선생님 강의

https://www.inflearn.com/course/%EA%B3%B5%EA%B3%B5%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%A1%9C-%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0/dashboard

파일 출처: 공공데이터포털, 주택도시보증공사_전국 신규 민간 아파트 분양가격 동향

https://www.data.go.kr/dataset/3035522/fileData.do

'Python 을 활용한 데이터분석' 카테고리의 다른 글

결측치 시각화, 필요없는 컬럼 제거하기(Missingno, drop) (0)	2022.02.10
상가 정보 데이터 불러오기 및 데이터 정보 확인 하기 (0)	2022.02.09
두가지의 다른 데이터 프레임을 하나로 합치고 시각화하기(concat, heatmap) (0)	2022.01.26
데이터 전처리 기초 - melt, apply 함수 사용하기 (0)	2022.01.26
lmplot (산점도 + 회귀선), swarmplot (0)	2022.01.20

현재글2013년 부터 최근 데이터까지 시각화 하기 (seaborn)

seaborn, 상권정보 시각화, 데이터 시각화, regplot, 이상값찾기, 결측치 시각화, 파이썬, swarmplot, 회귀선, 단변량 수치 시각화, lmplot, axvline, 인프런, 데이터분석, 판다스, 데이터 파일 로드 방법, Bootstrap program, 기술통계값, OSS 라이선스, pairplot,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

JLOG