반응형
회귀 모델링에 앞서 탐사적 데이터 분석을 시행하였다.
이 파트는 팀원 별로 파트를 분담해서 진행하였던 관계로, 이 포스트에서는 내가 맡았던 부분 위주로 서술하기로 한다.
거래 데이터
거래량
- 거래량이 매우 적은 시기가 존재한다.
- 장기간 거래가 발생하지 않은 아파트를 어떻게 처리할 지 고민할 필요가 있다.
단위면적 당 거래금액
- 전용면적을 구간화하긴 했으나, 같은 구간 내에 면적 간 차이가 있는 만큼, 가격을 그대로 사용하기 보다는 단위면적 당 거래금액을 사용하는 것이 조금 더 타당하다고 생각했다.
- 17년도 3분기 부터 계속 가격이 증가하다가 거래량이 급감한 21년 4분기 부터 상승세가 멈춘 걸 확인할 수 있었다.
- 서울 및 서울 근교의 아파트 가격이 다른 지역에 비해 눈에 띄게 높다
결측치, 연속 결측치
- 데이터 전처리 단계에서 결측치가 존재할 시, 거래 금액은 해당 시점에서 가장 최근에 일어난 거래를 기준으로 하기로 했었다.
- 문제는 지나치게 오랫동안 거래가 존재하지 않는 아파트의 경우 시장 흐름을 전혀 반영하지 못 한다는 문제점이 있고, 너무 오랜 기간동안 거래가 없는 아파트는 분석대상에서 제외하기로 했다.
- 거래 빙하기(2021 4Q ~ 2023 1Q)였던 기간에도 적어도 1건의 거래는 있어야 한다고 생각했고, 해당 기간은 약 6분기 정도이다. 그래서 6분기 이상 결측치가 존재하는 데이터는 삭제하기로 했다.
- 그 결과, 전체 데이터의 약 45% 정도가 삭제되었다.
건축년도
- 일반적으로 건축년도가 오래 될 수록 가격이 떨어지나, 지어진 지 일정 연도 이상 지난 아파트들은 가격이 다시 상승하는 경향이 있다. 이는 재건축과 연관이 있을 것 이다.
- 재건축 기대로 인한 가격 상승은 지역별로 차이가 있는데, 서울이 상대적으로 구축 아파트들의 가격 상승폭이 큰 편이다.
철도교통
지하철
- 지하철역은 특정 지역에 편중되어 있다.
- 전국 아파트 단지들의 간접역세권 노선수와 단위면적 당 거래금액의 상관계수는 약 0.53 으로 둘 사이에는 높은 상관관계가 있다.
- 하지만 지하철이 존재하는 도시 내에서 역세권 여부와 아파트 가격는 반드시 높은 상관관계를 갖지는 않는다. 인천, 광주 등의 도시들의 간접역세권 노선수와 단위면적 당 거래금액의 상관계수는 0.05 미만으로 낮은 편이다.
- 전국 단위로 분석했을 때 역세권 여부가 아파트 가격과 연관이 있는 이유는 지하철이 존재하는 도시들이 아파트 가격이 높은 수도권 및 광역시이기 때문이라고 할 수 있다.
학교 및원가
초등학교와의 거리
- 법적으로 일정 규모 이상의 주거 지역은 반드시 초등학교가 있어야 하기 때문에, 대부분의 아파트들은 초등학교와의 거리가 멀지 않다.
- 서울 및 광역시에 비해 도 단위에서 이상치가 상대적으로 많이 관측된다.
- 서울을 제외한 지역에서 초등학교와의 거리가 1km를 초과할 경우 아파트 가격이 큰 폭으로 떨어지는 경향이 있다.
인근 중학교의 평균 학업성취도, 학원가와의 거리
- 학생 수가 적은 학교들이 통계를 왜곡시키는 경향이 있어 학생 수가 50명 이상인 학교들만 분석 대상으로 삼았다.대체로 학업성취도의 분포는 아파트 가격 분포와 유사한 점이 있다.
- 학원가 인근 학교들의 학업성취도가 주변보다 높은 경향이 있다.
정책
- 규제지역으로 선정된 이후 변화를 살펴보았을 때, 대체로 상승장에서는 다른 지역보다 더 많이 상승하며, 하락장에서도 덜 하락한다.
- 정부의 규제지역 선정이 해당 지역의 가격 안정화에 실패했다고 봐도 무방할 것 같다.
반응형
'Projects > Property' 카테고리의 다른 글
프로젝트 회고 - 2. 데이터 수집 및 전처리 (2) (0) | 2024.02.04 |
---|---|
프로젝트 회고 - 1. 데이터 수집 및 전처리 (1) (0) | 2024.02.02 |
프로젝트 회고 - 0. 주제 선정 및 문제 정의 (0) | 2024.01.17 |