데이터 요약, 가벼운 분석, 컬럼 변경 및 제거 (데이터 최적화)

Python 을 활용한 데이터분석

데이터 요약, 가벼운 분석, 컬럼 변경 및 제거 (데이터 최적화)

jwns 2022. 1. 11. 17:48

분양가격 요약하기

요약하기 -> .describe()

수치데이터로 변경하기 전 컬럼인 분양가격(m^2)을 요약

수치데이터로 변경된 분양가격 컬럼 요약

count: 전체 데이터 갯수

unique: 중복되지 않은 값이 몇개가 있는지?

top: 가장 빈번하게 등장하는 문자

freq: 가장 빈번하게 등장한 문자가 몇번 등장 했는지?

mean: 평균값

std: 표준편차

min: 최소값

25%, 50%, 75% : 1,2,3 사분위수

max: 최대값

알 수 있는점 ?

전체 데이터 갯수(count)가 두 가지 표가 다르다는 것을 알 수 있는데, 데이터 수치로 표현한 표에서는 공백을 빼고 계산 했기 때문에 수치로 표현한 데이터의 count가 작다는 것을 알 수있다.
2221이 가장 많이 나왔고, 17번 나왔다.
50%인 중앙값이 평균값인 mean 보다 작은 것을 알 수 있다.
max 가 12728 인데, 최대값이 평균값을 올린것을 유추 가능하다.

-> 분양가격은 평당 2221 일때 가장 많고, 평균은 3238 이며, 이 평균 값은 최대값을 가진 값 때문에 평균이 높아진 것으로 분석 가능하다.

규모구분-> 전용면적 컬럼으로 바꿔주고, 내용에 있는 값들을 최적화 시켜서 메모리 최적화 시키기

df_last 를 보면, 규모구분 컬럼에 전용면적이 계속 들어가는 것을 알 수 있다.

이는 쓸데없는 메모리 낭비이다.

때문에, 규모구분 컬럼을 전용면적으로 바꾸려고 한다.

먼저, 전용면적 컬럼을 생성해준다. (규모구분 컬럼을 제거하기 위함)

.str.replace("바꾸려고 싶은 문자열","") -> 바꾸고 싶은 문자를 공백으로 바꿔준다.

이후에, 전용면적 컬럼을 규모구분 컬럼을 최적화 하게 만든다.

df_last["원하는 컬럼"] = df_last["원하는 컬럼"].str.replace("원하는 문자","")

df_last["원하는 컬럼"] = df_last["원하는 컬럼"].str.replace("원하는 문자","").str.strip() : 필요없는 공백까지 제거

이제는 규모구분 컬럼을 제거 하면 된다. 추가로 분양가격(m)도 중복되어서 같이 제거 해 주었다.

df_last.drop(["컬럼","컬럼"], axis=1) : 열에서 해당 컬럼 삭제

df_last.drop(["컬럼","컬럼"], axis=0) : 행에서 해당 컬럼 삭제

여기서는 규모구분, 분양가격(m)이 열에 있으므로 axis = 1 을 사용한다.

df_last.head(1) 을 통해 맨 윗칸을 보아, 제거하려는 컬럼이 잘 제거 되었는지 확인하였다.

마지막으로, df_last.info() 를 하면 memory usage 를 알 수 있는데, 271 -> 203 으로 메모리를 낮춘것을 알 수 있었다.

[출처]: 인프런, "공공데이터로 파이썬 데이터 분석 시작하기" 박조은 선생님 강의

https://www.inflearn.com/course/%EA%B3%B5%EA%B3%B5%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%A1%9C-%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0/dashboard

파일 출처: 공공데이터포털, 주택도시보증공사_전국 신규 민간 아파트 분양가격 동향

https://www.data.go.kr/dataset/3035522/fileData.do

'Python 을 활용한 데이터분석' 카테고리의 다른 글

데이터 시각화(2)_상자그림 (0)	2022.01.14
데이터 시각화 (plot(), sort_values()) (0)	2022.01.14
데이터 그룹화 (groupby, pivot_table) (0)	2022.01.14
데이터 타입 변경, 단위 맞추기(평당분양가격) (0)	2022.01.11
Python 을 활용하여 공공데이터를 이용해 데이터 분석 시작하기 (2)	2022.01.10

현재글데이터 요약, 가벼운 분석, 컬럼 변경 및 제거 (데이터 최적화)

seaborn, 회귀선, 판다스, Bootstrap program, 상권정보 시각화, 이상값찾기, swarmplot, 데이터 시각화, 데이터 파일 로드 방법, OSS 라이선스, lmplot, 단변량 수치 시각화, regplot, pairplot, 데이터분석, 기술통계값, axvline, 파이썬, 결측치 시각화, 인프런,

Today :
Yesterday :

JLOG