Today
- Konlpy에서 사용자 정의 사전을 추가하는 스크립트를 완성했다.
- 형태소 분석과 토큰화에 대해서 정의가 헷갈린것을 제대로 정리하였다.
- 선발 타당성 템플릿에 대해 팀 크루와의 의견을 나누고 정리하는 시간을 가졌다.
- 굉장히 유익했으나, 다른 분들도 그럴지..의문이다
TIL
- 토큰화 : 자연어처리(NLP)에서 모델의 성능을 좋게 만들기 위해 하는 것으로 문장, 문단을 토큰으로 나누는 과정 토큰으로 나누는 모듈을 토크나이저라고 함
- 토크나이저의 종류로 워드 피스, 센텐스 피스가 있음
- 형태소 분석기 : 토큰화의 한 과정으로 생각은 할수 있으나,
형태소
라는 의미는 더이상 뜻을 가지지 않는 단어 분절 이기 때문에, 사실 NLP에서 이야기하는 토큰화와는 결이 다르다. - 즉, 토크나이저와 형태소 분석기는 그냥 각 별개로 생각하는게 편할것 같다.
- 논문이나 다른 웹을 찾다보면 형태소 분석을 토큰화의 한 과정으로 설명을 하는데 이는 NLP보다는 그냥 형태소 분석 자체를 토큰화라고 표현하는것 같다.
- 물론 위의 내용이 틀릴 수 있음.
오늘의 결론
- 토크나이저와 형태소 분석기는 그냥 각 별개로 생각하자.