Python 을 활용한 데이터분석

기술통계값 (평균, 사분위수, 분산, 표준편차 )

jwns 2022. 2. 14. 10:27

우리에게 데이터가 주어졌을때 기술통계값으로 데이터를 관찰하는 것은 필수적이다.

대략적인 데이터의 분포를 볼 수 있고, 이상값은 얼마나 있는지, 평균은 어느정도 되는지, 중앙값과 평균의 차이는 얼마나 되는지 등 기술통계값으로 대략적인 데이터의 분포 파악이 가능하다.

 

우선, 데이터의 기술통계값을 describe()를 사용하여 요약하여 보자.

* df 는 데이터 셋을 담은 변수이다. *

-> describe 를 사용하면, 데이터의 수, 평균, 표준편차, 최소값, 1,2,3사분위수, 최대값을 볼 수 있다.

* 2사분위수와 중앙값은 같은 값이다.

 

개별 기술통계값 구하기

개별 기술통계값은 이러하다.

체크 한 것들이 많이 사용된다고 보면된다.

개별 기술통계값을 알고 싶으면, 위에 나온 명령어를 사용하면 된다.

 

* 나는 '위도' 데이터의 값이 궁금해서 '위도'의 기술통계값을 구하였다.

 

df["위도"].count()   # 결측치를 제외한 값의 갯수 

df["위도"].mean()   # 위도의 평균

df["위도"].max()    # 위도의 최댓값

df["위도"].min       # 위도의 최솟값

 

* 표준편차를 구하는 방법

1. numpy 를 활용하여  var()의 제곱근을 구한다.

2. std 명령어 사용

표준편차?

-> 표준편차는 자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근이다. 

표준편차 값이 작을수록 평균값에서 변량들의 거리가 가깝다는 말이다.

쉽게 말해서, 표준편차가 작다면 데이터들이 다닥다닥 붙어있어서 평균값과 차이들이 많이 없다는 소리고,

표준편차가 크다면 데이터들이 평균값과 차이가 나는 데이터들이 많다는 것이다.

 

[출처]: 인프런, "공공데이터로 파이썬 데이터 분석 시작하기" 박조은 선생님 강의

https://www.inflearn.com/course/%EA%B3%B5%EA%B3%B5%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%A1%9C-%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0/dashboard

 

 

파일 출처: 공공데이터포털, 소상공인시장진흥공단_상가정보_API

https://www.data.go.kr/dataset/15012005/fileData.do