본문 바로가기

Projects/Property

프로젝트 회고 - 2. 데이터 수집 및 전처리 (2)

반응형

앞서 말했듯이, 아파트 거래 데이터 및 네이버 아파트 단지 정보 만으로 아파트 가격을 설명하기에는 부족하다고 생각하였다. 같은 건설사, 같은 전용면적, 같은 방 및 욕실 개수, 비슷한 세대수 및 주차대수 등을 가지고도 지역에 따라 아파트 가격이 천차만별이기 때문이다. 아파트 가격을 설명하기 위해서는 지역 이라는 변수를 절대 무시할 수가 없다. 그렇다고 지역 자체를 변수로 쓰는 건 고려하지 않았다. 그 이유는 어느 지역의 아파트가 비싼지는 굳이 분석을 하지 않아도 이미 잘 알려져 있으며, 프로젝트의 목적은 어느 특정 지역의 아파트 가격이 비싸고 싼 지가 아니라, 어떤 특성을 가지고 있는 지역의 아파트 가격이 비싸거나 싼 지를 밝히는 것에 가깝기 때문이다. 따라서, 지역 자체를 변수로 활용하는 것이 아닌, 지역이 가지고 있는 특성을 변수로 활용하는 것이 타당하다.

 

그렇다면, 지역이 가지고 있는 변수 중, 아파트 가격에 영향을 미치면서 수치화해서 표현할 수 있는 것이 무엇이 있는지 생각해보았고, 아래 정보들을 최종적으로 활용하였다.

  • 학군 (학교와의 거리, 학업성취도, 학원가)
  • 철도교통 (지하철, 고속철도)
  • 상권 (백화점/대형쇼핑몰, 대형마트, 스타벅스)
  • 직주근접 (중심업무지구, 산업단지)
  • 정책 (규제지역)

 

학군

  • 초등학교와의 거리
    • 초품아(초등학교를 품은 아파트 단지) 라는 신조어가 있을 정도로 단지와 초등학교와의 거리는 수요자들이 중요시하는 점이라 생각했다. 
    • 전국 초등학교의 좌표를 이용하여 단지에서 가장 가까운 초등학교와의 거리를 값으로 활용하였다.
  • 인근 중학교의 평균 학업성취도
    • 소위 말하는 좋은 학군이 어디인가를 나타내는 지표로 활용하기 위해 선정하였다.
    • 고등학교가 아닌 중학교를 선정한 이유는 크게 2가지로, 첫째는 고등학교는 중학교에 비해 평균적으로 통학거리가 멀기 때문에 지역 대표성이 떨어진다는 점, 둘째는 특목고, 자사고 등 다양한 유형의 학교들이 있으며 해당 학교들은 반드시 학교 인근에 거주하는 학생만 진학하는 것이 아니라는 점 때문이다.
    • 중학교의 학업 성적을 나타낼 수 있는 지표로 평균 학업성취도와 특목고 진학비율이 있다. 성적이 좋은 학생이라고 반드시 특목고에 진학하지 않을 수 있으며, 실제로 분포를 살펴봤을 때 평균 학업성취도가 특목고 진학비율 보다 사람들이 생각하는 학군의 평가기준에 부합한다고 생각하여 이를 선정하였다.
  • 대형 학원가 근접 여부
    • 행정동별 학원 개수를 파악하여, 상위 지역을 대형 학원가로 정의하고, 좌표를 활용하여 아파트 단지와의 거리를 산출하였다. 학원가의 좌표는 지도상에서 해당 지역의 학원이 밀집되어 있는 곳의 좌표를 직접 입력하는 식으로 만들었다. 상위 지역을 정의할 때, 인접한 지역 끼리는 같은 학원가로 간주하였다

 

철도교통

  • 지하철 직접/간접 역세권 내 노선 갯수
    • 사전적인 역세권의 정의에는 구체적인 범위가 포함되어 있지 않아 직접/간접 역세권을 정의할 필요가 있었다. 법령마다 역세권의 정의가 조금씩 달랐는데, 이 중 실제 대중들이 생각하는 역세권과 가장 부합하다고 생각되는 기준을 선정하였다. 직접 역세권은 역 반경 500m 이내, 간접 역세권은 역 반경 1km 이내로 정의하였다. 역의 좌표 데이터를 수집하여 역세권 범위 내 지하철 노선의 갯수를 값으로 활용하였다.
    • 노선의 갯수인 이유는, 같은 노선의 역이 아파트 근처에 여러 개 위치하는 것은 큰 의미가 없다고 생각하였고, 실제로 더블역세권, 트리플역세권 등 아파트 광고에 사용되는 용어들 또한 노선의 갯수를 기준으로 하기 때문이다.
  • 고속철도 직접/간접 역세권 내 노선 갯수
    • 비교적 역 간격이 짧은 지하철과는 다른 기준을 적용해야 한다고 생각하여 추가적으로 조사를 하였고, 1km/5km를 각각 직접/간접 역세권 범위 기준으로 설정하였다.

 

상권

아파트가 위치한 지역의 상권이 어느정도로 발달했는지를 나타내기 위해 상권을 나타낼 수 있는 지표가 무엇이 있는지 생각해보았다. 크리스탈러의 중심지 이론 등을 참조하여, 상업 시설을 크게 백화점/대형쇼핑몰, 대형마트, 스타벅스 총 3단계로 나누었다. 상위 시설일 수록 넓은 범위에 영향을 줄 것이고, 하위 시설일 수록 좁은 범위에 영향을 줄 것 이다.

 

거리 기준은 각종 관련 이론, 대형마트의 배송 가능 범위 및 도보 소요 시간 등을 고려하여 선정하였다.

  • 5km 이내에 백화점/대형쇼핑몰 존재 여부
  • 500m / 3km 이내 대형마트 존재 여부
  • 500m 이내 스타벅스 매장 수

 

직주근접

직장이 다수 위치한 곳에 근접한 아파트 단지는 수요가 많을 것이라 생각하여 직장이 많이 위치한 곳이 어디일지 조사해보았다. SK텔레콤에서 제공하는 데이터(https://news.sktelecom.com/184017)를 이용하여 중심업무지구 11곳을 선정, 해당 업무지구들의 중심 좌표를 활용하였다. 대부분의 중심업무지구가 수도권에 위치한 만큼, 지방의 직주근접도를 나타내기 위해서는 규모가 큰 산업단지들의 좌표를 수집하여 아파트와의 거리를 측정하였다.

 

거리 기준은 출퇴근 평균 시간, 출퇴근 시간 대 평균 주행 속도 등을 고려하여 선정하였다.

  • 2km / 6km 이내 중심업무지구 혹은 산업단지 존재 여부

 

정책

아파트 가격은 정부 정책의 영향을 상당히 많이 받는다. 하지만 정부 정책을 수치화하여 데이터로 표현하는 것이 상당히 어려웠다. 처음에는 조정대상지역, 투기지역, 투기과열지구에 해당하였는지 여부를 특성으로 사용하기로 했는데, 추후 회귀모델 해석에서 문제의 소지가 있을 것이라 판단하였다. 해당 지역의 가격이 비싸서 정부가 해당 지역을 규제지역으로 선정한 것 이지, 해당 지역이 규제지역이라 가격이 상승한 것은 아닐 것이기 때문이다. (다만, 규제지역으로 선정되는 것이 일종의 프리미엄 효과로 작용하는 것도 사실이라는 주장도 존재한다.) 따라서, 해당 특성들은 EDA단계에서만 활용하고, 회귀모형에서는 배제하였다.

  • 조정대상지역, 투기지역, 투기과열지구 여부

 

반응형