kiwi 형태소 분석기(0.15.0 업데이트)

한국어 형태소 분석기 kiwi 업데이트. 주목할 만한 기능은 Subword Tokenizer.

서브워드는 기존 사전기반 형태소 분석이 아니라, 모델이 자주 같이 나오는 음절(혹은 다른 단위)을 단어로 인식해 묶는 방식.

BERT, GPT 등 딥러닝 기반 자연어처리 모델에서는 서브워드 토크나이저를 사용 중.

기능 추가/개선

  • 둘 이상의 형태소로 더 잘게 분리될 수 있는 형태소를 추가 분리하는 옵션인 splitComplex 도입
  • 부사파생접사를 위한 XSM 태그 추가 및 이에 해당하는 형태소 -이-히-로-스레 추가
  • 조사/어미에 덧붙는 받침을 위한 Z_CODA 태그 추가 및 조사/어미에서 자동으로 Z_CODA를 분절해내는 기능 추가
  • 형태 분석 및 언어 모델 탐색 속도 최적화
  • 옛한글 문자를 특수 기호로 분리하지 않고 일반 한글과 동일하게 처리하도록 개선
  • 형태소 분석 기반의 Subword Tokenizer 구현 (현재 실험적으로 지원 중)
  • 문장 분리 성능 개선
    • 2010. 01. 01. 와 같이 공백이 포함된 serial 패턴 처리 보강
    • Dr., Mr. 와 같이 약자 표현의 .이 마침표로 처리되지 않도록 보강
    • ‘-음’으로 문장이 끝나는 경우를 판별하기 위해 음/EF 형태소 추가 및 모델 보강

https://github.com/bab2min/Kiwi/releases/tag/v0.15.0

Leave a Comment