데이터의 많은 변수중에 우리가 보고싶은 변수 하나만 골라서 시각화 하고 싶을 때가 있을 것이다.
예를들어서,
올리브영 구매목록의 모든 데이터들을 바탕으로, 어느 연령대의 소비자가 가장 많은지를 통계적으로 분석을 한다고 했을때 '나이' 라는 변인 하나로 데이터의 통계를 보고 싶을 때가 있을 것이다.
그렇다면, 단변량 수치 변수 시각화를 할 줄 알아야 한다.
굉장히 간단하다.
seaborn을 활용하여 시각화 하고 데이터셋은 우리가 원하는 데이터의 변량을 넣어주면 된다.
-> sns.distplot("데이터셋")
단변량이기 때문에 Histogram 을 사용하여 시각화 하는것이 편하다고 판단했다.
우리는 위도의 변량의 수치를 시각화 했다.
위도의 수치를 시각화 하였을때, 두가지의 분포로 나뉘어서 그려졌다.
지역이 서울과 부산 두 지역만 데이터에 있기 때문에, 서울 따로 부산 따로 히스토그램이 그려졌다.
히스토그램의 밀도를 보면 한눈에 서울이 부산 보다 더 많다는 것을 알 수 있지만,
모든 데이터셋이 저렇게 눈에 띄게 차이가 없을 수 있다.
어느지역의 분포가 더 많은지 알기 위해서는 평균과 중앙값을 알아야 한다.
평균값보다 중앙값이 크다면 상대적으로 적은 낮은 위도의 지역의 개체수가 더 많다는 것이다. (위 데이터에서는 서울이 훨씬 많다.)
그러기 위해서는 matplotlib 라이브러리의 axvline 을 이용하여 나타낼 수 있다.
axvline은 해당통계값을 수직선으로 나타낸다.
linestyle 은 선의 모양, color 는 선의 색이다.
위도의 평균은 36.8정도, 중앙값은 37.5정도 이다.
서울의 사업체가 부산의 사업체보다 더 많다는 것을 의미한다.
matplotlib 라이브러리의 옵션을 사용하는 방법은
plt. + tab 키를 누르면 여러가지 옵션이 나온다.
또, 괄호안에 옵션을 사용하는 방법은 괄호안에서 shift+tab 키를 눌러서 사용할 옵션을 형식에 맞게 작성해주면 된다.
라이브러리의 옵션을 다 외우기 보다는 tab (도움말)의 기능을 잘 활용하는 것을 습관하하자.
[출처]: 인프런, "공공데이터로 파이썬 데이터 분석 시작하기" 박조은 선생님 강의
파일 출처: 공공데이터포털, 소상공인시장진흥공단_상가정보_API
'Python 을 활용한 데이터분석' 카테고리의 다른 글
상관계수, 산점도, 회귀분석 (0) | 2022.02.14 |
---|---|
기술통계값 (평균, 사분위수, 분산, 표준편차 ) (0) | 2022.02.14 |
행, 열을 기준으로 값을 가져오기 (0) | 2022.02.10 |
결측치 시각화, 필요없는 컬럼 제거하기(Missingno, drop) (0) | 2022.02.10 |
상가 정보 데이터 불러오기 및 데이터 정보 확인 하기 (0) | 2022.02.09 |