Today
- KoalaNLP는 여러 형태소 분석기를 같은 API로 사용할수 있다는 장점이 있다.
- 근데 명사를 추가하려고하니, Java 에러가 나서 포기..
- 사전 구축을 할수 없다면 다른 패키지를 찾아야한다.
- Konlpy를 설치 하였음
- M1 mac에는 설치하는데 Java sdk가 특정 버전에서만 작동해서 좀 번거로움
- 그래도 일단 설치
- 중요한건 Konlpy의 Okt도 마찬가지로 사용자 정의 사전을 넣기가 쉽지 않음
- CKonlpy : Custom Konlpy의 약자로, Konlpy에 Custom 버전, 근데 뭔가 패키지 관리가 잘 안되고있어서 맘에 안듬
- Konlpy 사전 직접 변경 : Java Class가 압축되어 있는데, 그 폴더를 풀어서 Noun 폴더에 txt 파일을 업데이트 하고 다시 압축하고.. 되게 귀찮음. 뭔가 자동화하게 만들면 조금은 쓸만하긴 할텐데.. 그거 구축하다가 시간 다 갈듯..ㅋㅋㅋㅋㅋㅋ
- 오늘 의문점이 하나 들었는데 토크나이저랑 형태소 분석기랑 차이가 뭔지 모르겠다.
- Hugging Face의 토크나이저들을 그냥 분석 과정에서 쓰면 안되는건가?
- 형태소 (명사) 만 뽑는 분석기는 따로 Konlpy에서만 가능한건지 ??
TIL
- 문장 작성시 유의점
- 단순하고 짧은 문장이 가장 효율적임
- 미사여구를 이용한 장황한 설명을 피할것
- 문장은 직접적이면서도 단호해야함
- 피동문으로 작성하지 않도록 주의
- 형용사, 부사 등 수식어를 남용하지 말것
- 가급적 전문용어를 사용하지 말것
- 명사를 지나치게 나열하지 말것
오늘의 결론
- 토크나이저와 형태소 분석기? 차이?를 찾아보자