Posts 네이버 마이플레이스 평점을 이용한 감성 분석
Post
Cancel

네이버 마이플레이스 평점을 이용한 감성 분석

Naver_myplace review Emotion analysis (toy project)

00. Naver_myplace

  • 실제 방문한 음식점을 영수증 기반으로 인증하여 리뷰를 작성하는 플랫폼

01. Dataset 개요

  • 리뷰 의 수 : 약 8000건
  • 음식점의 수 : 약 350곳

02. Toy project의 진행 이유

  • FastCampus의 Machin Learning project를 진행하기에 앞서 자연어 분석에 대해 공부하고자 연휴기간중 (2020년 4월 30일 ~ 5월 5일)에 진행하였음

03. Projec 내용

  • Naver_myplace의 리뷰를 셀레니움을 이용하여 크롤링하였으며, 별점 3점 이하는 negative, 이상은 positive로 기준치를 잡음
  • 이후 한국어 형태소 분석기인 konlpy를 사용하여 형태소 분석을 하였음
  • LGBM, Randomforest, DecisionTree를 이용하여 분류를 진행하였고 Valdation Accuracy는 LGMB이 약 0.9 정도로 높은 수치를 보였음
  • 테스트에서는 0.82정도로 높지 않은 Accuracy 수치를 보였으며, test data의 문장을 넣고 확인해본 결과 negative를 positive로 예측하는 등의 좋지 않은 성능을 보였다.
  • 다만, 다른 문장 Ex (‘싫어요’, ‘별로에요’, ‘맛 없어요’, ‘친절해요’)은 그런대로 negative와 positive를 구별해 내었다 (LGBM 기준)

04. 프로젝트 회고

  • FastCampas에서 데이터 사이언티스트 스쿨 과정 중 Machine Learning Project를 진행하기에 앞서 자연어 처리에 익숙해 지기 위해 연휴 기간 중 혼자 진행해본 toyproject였다.
  • positive와 negative의 비율이 약 8.5 : 1.5로 많은 불균형이 있었으며, 이는 그냥 모든 테스트 데이터에 positive이라고 예측하여도 0.85의 예측력을 가지는 문제가 있다.
  • 물론 학습과정에서 불균형 데이터는 over_fitting하여 맞추어 주었으나, 그럼에도 불구하고 전체 데이터의 갯수가 많지 않음으로 인해 높은 예측력을 가지진 못하였다.
  • myplace의 리뷰 크롤링에서도 랜덤하게 에러를 띄우거나, 인터넷망이 느려짐으로 인해 겪는 오류들로 인해 크롤링이 쉽지 않았던점도 어려운 점으로 들수 있겠다.
  • 추후 천천히 데이터를 더욱 수집하여 (다른곳의 리뷰 등) 발전시켜봐야 겠다.
This post is licensed under CC BY 4.0 by the author.

제주버스 승하차 예측 회귀분석 프로젝트

African Cities