문장의 일부만 알고 있을 때, 다음 단어가 무엇이 나올지 알고 있다면, 혹은 그 구조에 특정 단어가 출현할 확률을 알고 있다면, 자연어 처리에 도움이 될 것이다. 선택 선호도는 특정 단어들이 동시 출현할 확률(서로 연관됐을 확률)이 있다면, 그 조건부 확률 p(w|x)는 문서에서 w가 출현할 확률 p(w)의 확률과는 확연히 다를 것이라고 가정한다. 예를 들어, "커피를"이라는 단어 뒤에 "마시다"가 나올 확률은 기존 문서에서 "마시다"가 나올 확률보다 훨씬 더 높을 것이다. (더 낮은 경우도 있을까?) 이를 쿨러-라이블러 발산 (KL divergence)를 사용해 선호도를 나타낸다.
더 세부적으로 들어가보자.
어떤 명사를 형용하는 동사를 동사 술어라고 한다. 어떤 명사들은 꼭 특정한 동사와 짝을 이뤄서 등장한다. '마시다'는 '차', '커피', '콜라' 등과 같이 각종 음료와 함께 등장하고, '입다'는 '코트', '반팔', '바지' 등과 같이 의류와 함께 등장한다. 이 동사 술어를 통해서 우리는 바로 전후에 등장하는 명사를 클래스별로 나눌 수 있다.
더 자세한 내용은
https://silvercityz.tistory.com/27
selectional preference and sense disambiguation <선택적 선호도와 중의성 해소> Resnik(1997)
Abstract 트레이닝 데이터의 부족은 문장 중의성 해소를 위한 코퍼스 기반의 접근의 큰 문제 점이였다. 선택적 선호도는 전통적으로 모호성과 연관되어있다. 이 논문은 어떻게 선택적 선호도의 통계적 모델이 직접..
silvercityz.tistory.com
참고
'NLP' 카테고리의 다른 글
sliding window (0) | 2020.03.30 |
---|---|
자연어 처리 (0) | 2020.03.28 |