해당 프로젝트는 23년 9월 중 진행되었던 프로젝트의 진행사항을 요약한 글로, 프로젝트 회고 및 문제점 개선을 목적으로 작성하게 되었다.
주제 선정 계기
인공지능을 통한 텍스트의 감정 분석은 비교적 흔하게 접할 수 있는 주제이다. 그렇다면 단순히 텍스트의 감정 뿐만 아니라 텍스트 작성자의 성향도 파악할 수 있지 않을까? 라는 점에 착안하게 되어 시작하였다. 만약 제작된 모델의 성능이 충분하다면 커머스 혹은 미디어의 리뷰나 댓글 등을 통해 이용자의 성향을 파악하여 알맞는 마케팅 전략을 수립하는 데 활용될 수 있을 것이라 생각했다.
그렇다면 왜 MBTI인가? 사실 MBTI는 대중적으로 많이 활용되기는 하지만 이와 동시에 상당히 많은 비판점을 가지고 있는 심리검사이기도 하다. 그럼에도 불구하고 MBTI를 타겟으로 정한 이유는 현실적인 이유가 컸다. 지도학습을 위해서는 정답 데이터가 필요한데, 이런 측면에서 MBTI 외의 검사들은 대중적이지 못하여 데이터 확보가 너무 어렵다. 아예 정답 데이터가 필요하지 않은 비지도학습, 그 중에서 군집 을 시도해볼 수도 있었지만 프로젝트 기간은 한정되어 있는데 반해 난이도가 너무 높아질 것 같아 해당 방법은 고려하지 않았다.
관련 연구
텍스트로 작성자의 MBTI를 예측하려는 시도가 있었는지 찾아보았다.
생각보다 많은 시도가 이루어지지 않았고, 분류 난이도가 높은지 정확도 또한 대체로 낮은 편 이었다.
문제 정의
입력값: 텍스트
예측값: 16개 class의 MBTI 유형 중 1개
위 문제를 풀 수 있는 방법은 크게 2가지 이다.
1. 다중 분류
- 16개의 유형 중 1개를 예측
2. 4번의 이진 분류 후 예측값들을 결합
- I/E, N/S, T/F, P/J 총 4개의 서브 태스크로 나눈 후, 각각의 예측값을 합치는 방식으로도 해결할 수 있다.
시도 해본 결과 다중 분류를 통한 예측이 결과가 더 좋았었다.
데이터 수집
가장 큰 난관은 작성자의 mbti 를 알 수 있는 텍스트를 확보하는 일 이었다.
위에서 소개한 한국어 논문이 네이버 mbti 카페의 글을 데이터로 사용한 점에 착안하여 해당 네이버 카페의 글을 Selenium을 통해 수집하였다.
수집된 데이터 중 닉네임에 mbti가 포함된 작성자의 게시글 및 댓글만 데이터로 활용하였다.
결과
최종 앙상블 모델로 테스트셋을 예측했을 때 정확도는 36%, F1-score는 0.3085 정도를 기록했다.
향후 계획
프로젝트가 끝나고 나서 생각해보니 당시 잘못 생각했었던 점들이 꽤 많았던 것 같았다. 일부 문제점은 프로젝트 진행 도중에도 인지하고 있었으나 시간 상의 문제로 해결하지 못했었다. 그런 문제점들을 해결할 수 있다면 훨씬 나은 성능을 보일 수 있을 것이라 생각한다.
추가로, 해당 프로젝트를 진행할 당시에는 인공신경망 기반 모델을 사용할 수 없다는 제약이 있었는데, 당시 사용할 수 없었던 모델들도 사용해보고자 한다.
.
기존 데이터셋을 그대로 사용할 예정이라 데이터 수집을 하지 않아도 되서 많은 시간이 필요할 것 같지는 않다. 그래도 현재 다른 프로젝트가 진행 중인 만큼, 너무 많은 시간을 쓸 수는 없는 관계로 2주일 정도를 기한으로 잡으면 충분하지 싶다.
'Projects > MBTI' 카테고리의 다른 글
너의 MBTI는. - 1. 데이터 수집 (1) | 2023.12.11 |
---|