Posts 2022-07-12 TIL
Post
Cancel

2022-07-12 TIL

Today

  • 어제 너무 바빠서 TIL을 작성하지 못하였다. 반성해본다.
    • 그래서 오늘 어제와 두개의 TIL을 작성하려고 한다.
  • 어제, 오늘 자기소개서 분석과 IR 자료 요청 대응 때문에 굉장히 정신이 없고 바빴다.
  • IR 자료는 금방 끝낼 줄 알았는데 작상하다보니 시간이 길어졌다.
  • 자기소개서 분석은 단순히 키워드를 명사 Count해서 뽑을까했는데, 하다보니 욕심이 나서 오늘 Bert까지 건드려버렸다.
  • 다음주까지 자기소개서 분석 마무리에 선발 타당성 업무도 해야하는데 아직까지 데이터를 전달받지 못해서 좀 난감하다.

TIL

  • 글을 더 잘쓰기 위해 문장 기술 이라는 책을 읽고 있는데, 굉장히 유용한 내용이 많다.
    • 중복된 단어를 제거하라.
    • 필요없는 단어는 삭제하라.
  • 키워드 추출을 위해 아래의 흐름으로 진행하고 있다.
    • Count -> Tf-Idf -> KeyBert
    • Count는 문서안에 있는 단어를 세는것인데 문서에 특정 단어가 여러번 나오면 중요하다고 생각하는것이다.
      • 하지만 모든 문서에 특정 단어가 많이 나온다면 이는 중요한 단어가 맞을까?
    • Tf-Idf는 모든 문서에 특정 단어가 여러번 나온다면 가중치를 줄이는 방법이다.
      • 어려우니까 수식은 일단 제쳐두고, 3개의 문서에 시간 이라는 단어가 꾸준히 등장한다면 시간이라는 단어는 문서를 구별하는데 큰 의미가 없는 단어가 된다.
      • 자주 등장하는 단어는 가중치를 작게주고 각 문서마다 다르게 등장하는 단어에 더 가중치를 주는 방법이다.
    • Key Bert로 키워드 추출은 위의 방식을 다 이용할 수 도있다. 일단 Pre-Train된 모델을 가져다 쓰기 때문에..음 그냥 쓰기엔 편하긴 하나 fine tuning을 해야해서 지금은 하기 어려운 단계다. (그렇다 잘 모른다.)

오늘의 결론

  • 프로젝트가 겹쳐있는데, 이거 할수 있을지.. 일정 조율이 필요할듯 하다.
  • 자소서 분석 프로젝트를 빨리 마무리 하기 위해 키워드 추출부터 끝내보자
This post is licensed under CC BY 4.0 by the author.

Keybert와 kiwi형태소분석기를 사용하여 키워드추출 하기

2022-07-13 TIL