Skip to content
Junsoo Shin edited this page Mar 3, 2019 · 15 revisions

사용자 사전 사용

Function

문장 내에서 사용자 사전에 포함된 단어가 출현하면 사용자 사전에서 정의된 품사를 우선 순위로 인식합니다.
주로 사람이름, 영화제목, 브랜드명, 지명 등과 같이 고유명사를 인식하는데 활용할 수 있습니다.
기분석 사전보다 우선 순위가 낮습니다.

Code Example

//KOMORAN에서 기본으로 제공되는 LIGHT 모델 사용
Komoran komoran = new Komoran(DEFAULT_MODEL.LIGHT);
//사용자 사전 적용. 원하는 위치에 사용자 사전 파일을 생성한 후 경로만 지정해주면 됩니다.
komoran.setUserDic("user_data/dic.user");

File Format

사용사 사전의 포맷은 [단어] [\t] [품사]로 구성되어 있어야 합니다.
단어는 아래 예제의 "바람과 함께 사라지다"와 같이 띄어쓰기가 허용됩니다.
형태소의 품사를 적지 않으면 기본적으로 고유명사(NNP)로 인지합니다.
라인의 시작에 #으로 주석 처리가 가능합니다.

바람과 함께 사라지다	NNG
바람과 함께	NNP
#자연어	NNG

기분석 사전 사용

Function

문장 내에서 기분석 사전에 포함된 어절이 출현하면 기분석 사전에 정의된 분석 결과대로 분석합니다.
주로 사용자 사전 추가 및 확률 튜닝으로도 원하는 분석 결과가 나오지 않을 때 사용합니다.
사용자 사전보다 우선순위가 높습니다.

Caution

분석된 결과의 품사열은 grammar.in에 포함된 문법 형태여야 합니다.
아래 예의 분석 결과인 NNG 다음에 ETM이 출현하는 문법은 grammar.in에 포함되어 있지 않습니다.
그렇기 때문에 해당 어절의 기분석 결과는 적용되지 않습니다.

#잘못 된 예
감기는	감/NNG 기/ETM 는/JKG

Code Example

//KOMORAN에서 기본으로 제공되는 LIGHT 모델 사용
Komoran komoran = new Komoran(DEFAULT_MODEL.LIGHT);
//기분석 사전 적용. 원하는 위치에 기분석 사전 파일을 생성한 후 경로만 지정해주면 됩니다.
komoran.setFWDic("user_data/fwd.user");

File Format

기분석 사전의 포맷은 [분석대상어절] [\t] [형태소1/품사1] [ ] [형태소2/품사2] [ ]...로 구성되어 있어야 합니다.
사용자 사전과 마찬가지로 라인의 맨 앞에 #를 사용하여 주석처리가 가능합니다.

감기는	감/NNG 기는/NNG
바랬어요	바라었/NP
흘렸어요	흘리/VV 었/EP 어요/EC
#바람과	바람/NNG

자신만의 트레이닝 데이터를 이용한 모델 생성

WIP

품사표

아래 링크에서 KOMORAN 품사 태그를 참고하시기 바랍니다.
https://docs.komoran.kr/firststep/postypes.html

벤치 마킹 결과

아래 링크에서 KOMORAN과 다른 형태소 분석기들 간의 비교 실험한 내용을 확인하실 수 있습니다.
분석 결과를 보면 KOMORAN에서 기본으로 제공하는 FULL 버전을 사용한 것으로 판단됩니다.
https://iostream.tistory.com/144

Documentation

References

Examples

  • Analysis using Java (준비 중)
  • Analysis using Spark (준비 중)
  • Analysis using Terminal (준비 중)
Clone this wiki locally