Projects/Property (4) 썸네일형 리스트형 프로젝트 회고 - 3. EDA 회귀 모델링에 앞서 탐사적 데이터 분석을 시행하였다. 이 파트는 팀원 별로 파트를 분담해서 진행하였던 관계로, 이 포스트에서는 내가 맡았던 부분 위주로 서술하기로 한다. 거래 데이터 거래량 거래량이 매우 적은 시기가 존재한다. 장기간 거래가 발생하지 않은 아파트를 어떻게 처리할 지 고민할 필요가 있다. 단위면적 당 거래금액 전용면적을 구간화하긴 했으나, 같은 구간 내에 면적 간 차이가 있는 만큼, 가격을 그대로 사용하기 보다는 단위면적 당 거래금액을 사용하는 것이 조금 더 타당하다고 생각했다. 17년도 3분기 부터 계속 가격이 증가하다가 거래량이 급감한 21년 4분기 부터 상승세가 멈춘 걸 확인할 수 있었다. 서울 및 서울 근교의 아파트 가격이 다른 지역에 비해 눈에 띄게 높다 결측치, 연속 결측치 데이.. 프로젝트 회고 - 2. 데이터 수집 및 전처리 (2) 앞서 말했듯이, 아파트 거래 데이터 및 네이버 아파트 단지 정보 만으로 아파트 가격을 설명하기에는 부족하다고 생각하였다. 같은 건설사, 같은 전용면적, 같은 방 및 욕실 개수, 비슷한 세대수 및 주차대수 등을 가지고도 지역에 따라 아파트 가격이 천차만별이기 때문이다. 아파트 가격을 설명하기 위해서는 지역 이라는 변수를 절대 무시할 수가 없다. 그렇다고 지역 자체를 변수로 쓰는 건 고려하지 않았다. 그 이유는 어느 지역의 아파트가 비싼지는 굳이 분석을 하지 않아도 이미 잘 알려져 있으며, 프로젝트의 목적은 어느 특정 지역의 아파트 가격이 비싸고 싼 지가 아니라, 어떤 특성을 가지고 있는 지역의 아파트 가격이 비싸거나 싼 지를 밝히는 것에 가깝기 때문이다. 따라서, 지역 자체를 변수로 활용하는 것이 아닌, .. 프로젝트 회고 - 1. 데이터 수집 및 전처리 (1) 분석을 위한 데이터 수집을 하기 위해 어떤 정보가 있어야 하는지 고민해보니, 크게 2가지 데이터가 필요했다. 1. 거래 정보: 어떤 아파트가 언제, 얼마에 거래되었는지 2. 아파트 정보 : 아파트가 어떤 특성을 가지고 있는지 거래 정보 데이터 수집 거래 정보는 공공데이터포털 (https://www.data.go.kr/data/15057511/openapi.do) 에서 구할 수 있었다. 기간(월 단위) 및 지역 코드 별로 조회가 가능하며, 하루 API 요청 횟수는 1,000건이다. 대한민국에 존재하는 지역 코드는 총 458개이며, 분석 대상 기간은 총 75개월이므로, 약 34,000 이상의 API 요청이 필요했다. 팀원 별로 아이디를 5개 이상 생성해서 진행하여 시간을 줄일 수 있었다. 데이터 구성 데이터.. 프로젝트 회고 - 0. 주제 선정 및 문제 정의 약 2달여 간의 프로젝트가 저번 주를 마지막으로 끝났다. 짧지 않은 기간이었기도 했고, 주어진 발표 시간이 짧다 보니 못다한 이야기들도 많은 만큼, 추가적으로 정리할 만한 사항이 많았던것 같아 그 동안의 진행사항을 남겨보면 좋을 것 같다는 생각이 들었다. 주제 주제: LLM과 회귀모형을 이용한 부동산 전문 챗봇 제작 설명: 아파트 단지 정보 및 거래 정보를 독립변수, 가격을 종속변수로 한 회귀모형을 제작하여, 어떤 요소들이 아파트 가격에 영향을 미치는지 파악, 이 정보를 LLM에 입력하여 부동산 시장을 설명할 수 있는 챗봇을 제작 기간: 23.11.2 ~ 24.1.11 (10주) 인원: 3명 목표 챗봇이 어떤 걸 설명하게 하는 것이 목표인지 설정할 필요가 있었다. 사실, 사람들이 가장 부동산에 관심있어 .. 이전 1 다음