Posts 2022-08-21 TIL
Post
Cancel

2022-08-21 TIL

Weekly

  • 회사 건물 침수는 그대로 유지되어 2주째 온라인으로 근무를 하였다.
  • 아마 다음주도 복구는 쉽지 않은것으로 보인다. (벎써 한달..)
  • 자기소개서 자동화 첫번째 모델을 완성했다.
  • 자연어 처리에서 토큰화와 임베딩에서 헷갈리던 부분을 알게 되었는데 다행인것 같다.
  • Pretrian된 Bert도 사용해보고, BiLSTM도 만들어서 해보았는데, 생각보다 성능이 그냥 그랬다. 아니 완전 별로였다 ALl 0 or 1로 예측을 하니 쓸수가 없었다고 봐야되겠다.
  • 덕분에 LGBM 등 Tabular로 접근하는 생각을 하게되었으며 그 과정에서 Embedding Vector에 대해 공부를 하였다.
  • 어쨋든 성능 F1 기준 0.7 ~ 0.8 사이의 모델을 생성하였으며, 이후 파라미터 튜닝 등을 통해 조금더 성능을 개선해 보아야지

Weekend

  • 딸램이 다음주 금요일이면 첫 생일이다. 즉, 돌이다.
  • 주말 내내 양가 식구들과 식사를 하였고, 많은 축하를 받았다.
  • 다만 너무 힘들다 주말 내내 양가식구를 만나는짓은 앞으로 하지 말아야지..

TIL

  • Embedding Vector는 그냥 자연어를 Vector화 한거라고 생각하면 된다.
  • 그래서 자기소개서를 모두 Kiwi Tokenizer를 사용해서 형태소로 만들었고 (토근화)이를 Vector화 하여, 문서를 벡터로 변환 시켰다.
  • 이 과정에서 각 단어의 Vector값을 다 더하는게 맞는지 평균을 내는게 맞는지 고민이 있었는데, 결과적으론 평균을 내는게 맞았다.
    • 다 더해야 중복되는 단어들이 적용이 될거라고 생각했는데, 아니였다 Similarity를 기준으로 보니, 벡터의 평균이 맞았다.
  • 또 OOV 문제를 해결하기 위해 FastText를 Embedding vector로 사용하였다.

오늘의 결론

  • 의도치않게 자연어 처리에 지식을 쌓고 있다.
This post is licensed under CC BY 4.0 by the author.