약 2달여 간의 프로젝트가 저번 주를 마지막으로 끝났다.
짧지 않은 기간이었기도 했고, 주어진 발표 시간이 짧다 보니 못다한 이야기들도 많은 만큼, 추가적으로 정리할 만한 사항이 많았던것 같아 그 동안의 진행사항을 남겨보면 좋을 것 같다는 생각이 들었다.
주제
- 주제: LLM과 회귀모형을 이용한 부동산 전문 챗봇 제작
- 설명: 아파트 단지 정보 및 거래 정보를 독립변수, 가격을 종속변수로 한 회귀모형을 제작하여, 어떤 요소들이 아파트 가격에 영향을 미치는지 파악, 이 정보를 LLM에 입력하여 부동산 시장을 설명할 수 있는 챗봇을 제작
- 기간: 23.11.2 ~ 24.1.11 (10주)
- 인원: 3명
목표
챗봇이 어떤 걸 설명하게 하는 것이 목표인지 설정할 필요가 있었다.
사실, 사람들이 가장 부동산에 관심있어 하는 것은 가격 예측일 것 이고, 여기에 반론을 제기하기는 힘들 것 이다. 한국에는 이미 수많은 프롭테크 기업들이 존재하지만 그 어느 사이트도 직접적으로 가격동향을 예측하는 정보를 제공하지 않는다. 그래서 이런 것들이 가능해진다면 많은 사람들이 유용하게 사용할 수 있지 않을까 하는 생각을 가졌었다.
결론부터 말하면, 가격 예측은 프로젝트 목표에서 제외했다. 가격 예측 자체는 회귀모델을 통해 충분히 가능하지만, 가격 정보를 제공할 시의 사회적 파장을 고려했을 때 적절하지 못하다고 판단했기 때문이다. 대한민국의 아파트 가격은 생애소득 대비 비싼 편으로, 부동산이 자산의 대부분을 차지한다. 따라서, 사람들은 자신이 보유하고 있는 부동산 가격에 민감할 수 밖에 없다. 만약 자신이 보유하고 있는 아파트의 가격이 떨어질 것 이라는 정보를 제공 받거나, 혹은 가격이 오를 것이라 판단되서 구매했는데 기대만큼 상승하지 않았다면, 분노의 화살이 서비스 제공자에게 향할 것이 뻔하다.
방향을 약간 틀어서, 아파트 마다 가격이 다른 이유가 무엇인지, 혹은 어떤 요소가 아파트 가격 형성에 영향을 끼치는지 등을 데이터 분석을 통해 밝혀내고, 이를 LLM에 학습시켜 관련 질문을 답변하는 챗봇을 제작하는 걸 목표로 정하였다. 여기에 추가로, 청약 및 대출 등 아파트 매매에 필요한 정보들에 대한 질문에 대한 답변도 현재 ChatGPT가 할 수 있는 답변에서 더 강화해보기로 했다.
분석 대상
분석 대상은 다음과 같이 정했다.
- 대상: 아파트 (네이버 부동산 및 국토부 실거래 데이터에 존재하는 아파트)
- 거래 유형: 매매 거래
조금 더 상세한 대상은 다음과 같다
- 기간: 17년 3분기 ~ 22년 3분기
- 제한: 세대수 100 세대 이상, 전용면적 40㎡ 이상
- 지역: 전국
기간을 위와 같이 정한 이유는, 가격이 안정적인 시기 보다는 변화가 많은 시기에 아파트 간 차이가 뚜렷하게 나타날 것이라 생각했다. 여기에 추가적으로, 부동산 가격은 정부 정책과도 연관이 많은데, 정권 교체기를 기점으로 살펴보면 좋을 것이라는 판단도 있었다.
아파트에 추가적인 제한을 건 이유는, 먼저 전국에 존재하는 아파트 단지가 너무 많았던 것도 있었고, 사람들이 통념적으로 생각하는 아파트와 거리가 먼 곳들도 많았기 때문이다.
지역을 수도권 정도로 제한할까 하는 의견도 했었다. 여기에 내가 반대하여 최종적으로는 전국을 대상으로 하게 되었다. 반대했던 이유는 한국 아파트의 가장 큰 특징이 지역 간의 가격 차가 극심하다는 점이고, 이 점을 분석 대상에서 배제해버리면 주제의 핵심을 비껴가는 것이라 생각했기 때문이다.
'Projects > Property' 카테고리의 다른 글
프로젝트 회고 - 3. EDA (1) | 2024.02.09 |
---|---|
프로젝트 회고 - 2. 데이터 수집 및 전처리 (2) (0) | 2024.02.04 |
프로젝트 회고 - 1. 데이터 수집 및 전처리 (1) (0) | 2024.02.02 |