Python 을 활용한 데이터분석

데이터 요약, 가벼운 분석, 컬럼 변경 및 제거 (데이터 최적화)

jwns 2022. 1. 11. 17:48

분양가격 요약하기

요약하기 -> .describe()

 

수치데이터로 변경하기 전 컬럼인 분양가격(m^2)을 요약 

 

수치데이터로 변경된 분양가격 컬럼 요약 

count: 전체 데이터 갯수

unique: 중복되지 않은 값이 몇개가 있는지?

top: 가장 빈번하게 등장하는 문자

freq: 가장 빈번하게 등장한 문자가 몇번 등장 했는지?

mean: 평균값

std: 표준편차

min: 최소값

25%, 50%, 75% : 1,2,3 사분위수

max: 최대값

 

알 수 있는점 ?

  • 전체 데이터 갯수(count)가 두 가지 표가 다르다는 것을 알 수 있는데, 데이터 수치로 표현한 표에서는 공백을 빼고 계산 했기 때문에 수치로 표현한 데이터의 count가 작다는 것을 알 수있다.
  • 2221이 가장 많이 나왔고, 17번 나왔다.
  • 50%인 중앙값이 평균값인 mean 보다 작은 것을 알 수 있다.
  • max 가 12728 인데, 최대값이 평균값을 올린것을 유추 가능하다.

 

-> 분양가격은 평당 2221 일때 가장 많고, 평균은 3238 이며, 이 평균 값은 최대값을 가진 값 때문에 평균이 높아진 것으로 분석 가능하다.

 

규모구분-> 전용면적 컬럼으로 바꿔주고, 내용에 있는 값들을 최적화 시켜서 메모리 최적화 시키기

 

df_last 를 보면, 규모구분 컬럼에 전용면적이 계속 들어가는 것을 알 수 있다.

이는 쓸데없는 메모리 낭비이다.

때문에, 규모구분 컬럼을 전용면적으로 바꾸려고 한다.

먼저, 전용면적 컬럼을 생성해준다. (규모구분 컬럼을 제거하기 위함)

 

.str.replace("바꾸려고 싶은 문자열","")  -> 바꾸고 싶은 문자를 공백으로 바꿔준다.

이후에, 전용면적 컬럼을 규모구분 컬럼을 최적화 하게 만든다. 

df_last["원하는 컬럼"] = df_last["원하는 컬럼"].str.replace("원하는 문자","") 

df_last["원하는 컬럼"] = df_last["원하는 컬럼"].str.replace("원하는 문자","").str.strip()  : 필요없는 공백까지 제거

규모구분 내용을 전용면적 내용으로 최적화 시켰다.

 

 

이제는 규모구분 컬럼을 제거 하면 된다. 추가로 분양가격(m)도 중복되어서 같이 제거 해 주었다.

df_last.drop(["컬럼","컬럼"], axis=1)  : 열에서 해당 컬럼 삭제

df_last.drop(["컬럼","컬럼"], axis=0)  : 행에서 해당 컬럼 삭제

여기서는 규모구분, 분양가격(m)이 열에 있으므로 axis = 1 을 사용한다.

 

df_last.head(1) 을 통해 맨 윗칸을 보아, 제거하려는 컬럼이 잘 제거 되었는지 확인하였다.

 

마지막으로,  df_last.info() 를 하면 memory usage 를 알 수 있는데, 271 -> 203 으로 메모리를 낮춘것을 알 수 있었다.

 

 

[출처]: 인프런, "공공데이터로 파이썬 데이터 분석 시작하기" 박조은 선생님 강의

https://www.inflearn.com/course/%EA%B3%B5%EA%B3%B5%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%A1%9C-%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0/dashboard

 

 

파일 출처: 공공데이터포털, 주택도시보증공사_전국 신규 민간 아파트 분양가격 동향

https://www.data.go.kr/dataset/3035522/fileData.do