Posts 2022-07-06 TIL
Post
Cancel

2022-07-06 TIL

Today

  • Konlpy에서 사용자 정의 사전을 추가하는 스크립트를 완성했다.
  • 형태소 분석과 토큰화에 대해서 정의가 헷갈린것을 제대로 정리하였다.
  • 선발 타당성 템플릿에 대해 팀 크루와의 의견을 나누고 정리하는 시간을 가졌다.
    • 굉장히 유익했으나, 다른 분들도 그럴지..의문이다

TIL

  • 토큰화 : 자연어처리(NLP)에서 모델의 성능을 좋게 만들기 위해 하는 것으로 문장, 문단을 토큰으로 나누는 과정 토큰으로 나누는 모듈을 토크나이저라고 함
  • 토크나이저의 종류로 워드 피스, 센텐스 피스가 있음
  • 형태소 분석기 : 토큰화의 한 과정으로 생각은 할수 있으나, 형태소라는 의미는 더이상 뜻을 가지지 않는 단어 분절 이기 때문에, 사실 NLP에서 이야기하는 토큰화와는 결이 다르다.
  • 즉, 토크나이저와 형태소 분석기는 그냥 각 별개로 생각하는게 편할것 같다.
    • 논문이나 다른 웹을 찾다보면 형태소 분석을 토큰화의 한 과정으로 설명을 하는데 이는 NLP보다는 그냥 형태소 분석 자체를 토큰화라고 표현하는것 같다.
  • 물론 위의 내용이 틀릴 수 있음.

오늘의 결론

  • 토크나이저와 형태소 분석기는 그냥 각 별개로 생각하자.
This post is licensed under CC BY 4.0 by the author.