Projects (6) 썸네일형 리스트형 프로젝트 회고 - 3. EDA 회귀 모델링에 앞서 탐사적 데이터 분석을 시행하였다. 이 파트는 팀원 별로 파트를 분담해서 진행하였던 관계로, 이 포스트에서는 내가 맡았던 부분 위주로 서술하기로 한다. 거래 데이터 거래량 거래량이 매우 적은 시기가 존재한다. 장기간 거래가 발생하지 않은 아파트를 어떻게 처리할 지 고민할 필요가 있다. 단위면적 당 거래금액 전용면적을 구간화하긴 했으나, 같은 구간 내에 면적 간 차이가 있는 만큼, 가격을 그대로 사용하기 보다는 단위면적 당 거래금액을 사용하는 것이 조금 더 타당하다고 생각했다. 17년도 3분기 부터 계속 가격이 증가하다가 거래량이 급감한 21년 4분기 부터 상승세가 멈춘 걸 확인할 수 있었다. 서울 및 서울 근교의 아파트 가격이 다른 지역에 비해 눈에 띄게 높다 결측치, 연속 결측치 데이.. 프로젝트 회고 - 2. 데이터 수집 및 전처리 (2) 앞서 말했듯이, 아파트 거래 데이터 및 네이버 아파트 단지 정보 만으로 아파트 가격을 설명하기에는 부족하다고 생각하였다. 같은 건설사, 같은 전용면적, 같은 방 및 욕실 개수, 비슷한 세대수 및 주차대수 등을 가지고도 지역에 따라 아파트 가격이 천차만별이기 때문이다. 아파트 가격을 설명하기 위해서는 지역 이라는 변수를 절대 무시할 수가 없다. 그렇다고 지역 자체를 변수로 쓰는 건 고려하지 않았다. 그 이유는 어느 지역의 아파트가 비싼지는 굳이 분석을 하지 않아도 이미 잘 알려져 있으며, 프로젝트의 목적은 어느 특정 지역의 아파트 가격이 비싸고 싼 지가 아니라, 어떤 특성을 가지고 있는 지역의 아파트 가격이 비싸거나 싼 지를 밝히는 것에 가깝기 때문이다. 따라서, 지역 자체를 변수로 활용하는 것이 아닌, .. 프로젝트 회고 - 1. 데이터 수집 및 전처리 (1) 분석을 위한 데이터 수집을 하기 위해 어떤 정보가 있어야 하는지 고민해보니, 크게 2가지 데이터가 필요했다. 1. 거래 정보: 어떤 아파트가 언제, 얼마에 거래되었는지 2. 아파트 정보 : 아파트가 어떤 특성을 가지고 있는지 거래 정보 데이터 수집 거래 정보는 공공데이터포털 (https://www.data.go.kr/data/15057511/openapi.do) 에서 구할 수 있었다. 기간(월 단위) 및 지역 코드 별로 조회가 가능하며, 하루 API 요청 횟수는 1,000건이다. 대한민국에 존재하는 지역 코드는 총 458개이며, 분석 대상 기간은 총 75개월이므로, 약 34,000 이상의 API 요청이 필요했다. 팀원 별로 아이디를 5개 이상 생성해서 진행하여 시간을 줄일 수 있었다. 데이터 구성 데이터.. 프로젝트 회고 - 0. 주제 선정 및 문제 정의 약 2달여 간의 프로젝트가 저번 주를 마지막으로 끝났다. 짧지 않은 기간이었기도 했고, 주어진 발표 시간이 짧다 보니 못다한 이야기들도 많은 만큼, 추가적으로 정리할 만한 사항이 많았던것 같아 그 동안의 진행사항을 남겨보면 좋을 것 같다는 생각이 들었다. 주제 주제: LLM과 회귀모형을 이용한 부동산 전문 챗봇 제작 설명: 아파트 단지 정보 및 거래 정보를 독립변수, 가격을 종속변수로 한 회귀모형을 제작하여, 어떤 요소들이 아파트 가격에 영향을 미치는지 파악, 이 정보를 LLM에 입력하여 부동산 시장을 설명할 수 있는 챗봇을 제작 기간: 23.11.2 ~ 24.1.11 (10주) 인원: 3명 목표 챗봇이 어떤 걸 설명하게 하는 것이 목표인지 설정할 필요가 있었다. 사실, 사람들이 가장 부동산에 관심있어 .. 너의 MBTI는. - 1. 데이터 수집 데이터 수집 수집 대상: 네이버 카페 - MBTI 심리 카페 의 글 및 댓글 수집 방법: 게시글 번호 기준으로 전체 게시글을 4등분 한 다음 병렬적으로 데이터 수집 시행 (Selenium 사용) 수집 결과 24,286명의 유저가 작성한 글 및 댓글 총 555,145개를 수집하였다. 전처리 시 고려 사항 1. 작성자 닉네임 간혹 불분명한 MBTI를 닉네임에 작성한 경우가 있는데 (ex: INxP, INTPJ 등) 이와 같은 MBTI는 포함하지 않음 영문이 아닌 한글 (인프피, 엔팁 등)로 표기한 경우는 포함해야 함 2. 작성자가 작성하지 않은 글 가입 인사 글 등은 기본양식이 존재하고, 여기에 작성자 본인이 작성한 텍스트는 일부분에 불과함 뉴스 기사 등 인터넷에서 퍼온 내용이 글에 포함되는 경우도 마찬가지.. 너의 MBTI는. - 0. 프로젝트 소개, 회고 및 향후 계획 해당 프로젝트는 23년 9월 중 진행되었던 프로젝트의 진행사항을 요약한 글로, 프로젝트 회고 및 문제점 개선을 목적으로 작성하게 되었다. 주제 선정 계기 인공지능을 통한 텍스트의 감정 분석은 비교적 흔하게 접할 수 있는 주제이다. 그렇다면 단순히 텍스트의 감정 뿐만 아니라 텍스트 작성자의 성향도 파악할 수 있지 않을까? 라는 점에 착안하게 되어 시작하였다. 만약 제작된 모델의 성능이 충분하다면 커머스 혹은 미디어의 리뷰나 댓글 등을 통해 이용자의 성향을 파악하여 알맞는 마케팅 전략을 수립하는 데 활용될 수 있을 것이라 생각했다. 그렇다면 왜 MBTI인가? 사실 MBTI는 대중적으로 많이 활용되기는 하지만 이와 동시에 상당히 많은 비판점을 가지고 있는 심리검사이기도 하다. 그럼에도 불구하고 MBTI를 타겟.. 이전 1 다음