분양가격 요약하기
요약하기 -> .describe()
수치데이터로 변경하기 전 컬럼인 분양가격(m^2)을 요약
수치데이터로 변경된 분양가격 컬럼 요약
count: 전체 데이터 갯수
unique: 중복되지 않은 값이 몇개가 있는지?
top: 가장 빈번하게 등장하는 문자
freq: 가장 빈번하게 등장한 문자가 몇번 등장 했는지?
mean: 평균값
std: 표준편차
min: 최소값
25%, 50%, 75% : 1,2,3 사분위수
max: 최대값
알 수 있는점 ?
- 전체 데이터 갯수(count)가 두 가지 표가 다르다는 것을 알 수 있는데, 데이터 수치로 표현한 표에서는 공백을 빼고 계산 했기 때문에 수치로 표현한 데이터의 count가 작다는 것을 알 수있다.
- 2221이 가장 많이 나왔고, 17번 나왔다.
- 50%인 중앙값이 평균값인 mean 보다 작은 것을 알 수 있다.
- max 가 12728 인데, 최대값이 평균값을 올린것을 유추 가능하다.
-> 분양가격은 평당 2221 일때 가장 많고, 평균은 3238 이며, 이 평균 값은 최대값을 가진 값 때문에 평균이 높아진 것으로 분석 가능하다.
규모구분-> 전용면적 컬럼으로 바꿔주고, 내용에 있는 값들을 최적화 시켜서 메모리 최적화 시키기
df_last 를 보면, 규모구분 컬럼에 전용면적이 계속 들어가는 것을 알 수 있다.
이는 쓸데없는 메모리 낭비이다.
때문에, 규모구분 컬럼을 전용면적으로 바꾸려고 한다.
먼저, 전용면적 컬럼을 생성해준다. (규모구분 컬럼을 제거하기 위함)
.str.replace("바꾸려고 싶은 문자열","") -> 바꾸고 싶은 문자를 공백으로 바꿔준다.
이후에, 전용면적 컬럼을 규모구분 컬럼을 최적화 하게 만든다.
df_last["원하는 컬럼"] = df_last["원하는 컬럼"].str.replace("원하는 문자","")
df_last["원하는 컬럼"] = df_last["원하는 컬럼"].str.replace("원하는 문자","").str.strip() : 필요없는 공백까지 제거
이제는 규모구분 컬럼을 제거 하면 된다. 추가로 분양가격(m)도 중복되어서 같이 제거 해 주었다.
df_last.drop(["컬럼","컬럼"], axis=1) : 열에서 해당 컬럼 삭제
df_last.drop(["컬럼","컬럼"], axis=0) : 행에서 해당 컬럼 삭제
여기서는 규모구분, 분양가격(m)이 열에 있으므로 axis = 1 을 사용한다.
df_last.head(1) 을 통해 맨 윗칸을 보아, 제거하려는 컬럼이 잘 제거 되었는지 확인하였다.
마지막으로, df_last.info() 를 하면 memory usage 를 알 수 있는데, 271 -> 203 으로 메모리를 낮춘것을 알 수 있었다.
[출처]: 인프런, "공공데이터로 파이썬 데이터 분석 시작하기" 박조은 선생님 강의
파일 출처: 공공데이터포털, 주택도시보증공사_전국 신규 민간 아파트 분양가격 동향
'Python 을 활용한 데이터분석' 카테고리의 다른 글
데이터 시각화(2)_상자그림 (0) | 2022.01.14 |
---|---|
데이터 시각화 (plot(), sort_values()) (0) | 2022.01.14 |
데이터 그룹화 (groupby, pivot_table) (0) | 2022.01.14 |
데이터 타입 변경, 단위 맞추기(평당분양가격) (0) | 2022.01.11 |
Python 을 활용하여 공공데이터를 이용해 데이터 분석 시작하기 (2) | 2022.01.10 |