Posts 2022-07-05 TIL
Post
Cancel

2022-07-05 TIL

Today

  • KoalaNLP는 여러 형태소 분석기를 같은 API로 사용할수 있다는 장점이 있다.
    • 근데 명사를 추가하려고하니, Java 에러가 나서 포기..
    • 사전 구축을 할수 없다면 다른 패키지를 찾아야한다.
  • Konlpy를 설치 하였음
    • M1 mac에는 설치하는데 Java sdk가 특정 버전에서만 작동해서 좀 번거로움
    • 그래도 일단 설치
  • 중요한건 Konlpy의 Okt도 마찬가지로 사용자 정의 사전을 넣기가 쉽지 않음
    1. CKonlpy : Custom Konlpy의 약자로, Konlpy에 Custom 버전, 근데 뭔가 패키지 관리가 잘 안되고있어서 맘에 안듬
    2. Konlpy 사전 직접 변경 : Java Class가 압축되어 있는데, 그 폴더를 풀어서 Noun 폴더에 txt 파일을 업데이트 하고 다시 압축하고.. 되게 귀찮음. 뭔가 자동화하게 만들면 조금은 쓸만하긴 할텐데.. 그거 구축하다가 시간 다 갈듯..ㅋㅋㅋㅋㅋㅋ
  • 오늘 의문점이 하나 들었는데 토크나이저랑 형태소 분석기랑 차이가 뭔지 모르겠다.
    • Hugging Face의 토크나이저들을 그냥 분석 과정에서 쓰면 안되는건가?
    • 형태소 (명사) 만 뽑는 분석기는 따로 Konlpy에서만 가능한건지 ??

TIL

  • 문장 작성시 유의점
    • 단순하고 짧은 문장이 가장 효율적임
    • 미사여구를 이용한 장황한 설명을 피할것
    • 문장은 직접적이면서도 단호해야함
    • 피동문으로 작성하지 않도록 주의
    • 형용사, 부사 등 수식어를 남용하지 말것
    • 가급적 전문용어를 사용하지 말것
    • 명사를 지나치게 나열하지 말것

오늘의 결론

  • 토크나이저와 형태소 분석기? 차이?를 찾아보자
This post is licensed under CC BY 4.0 by the author.