SILVERCitYz

selectional preference and sense disambiguation <선택적 선호도와 중의성 해소> Resnik(1997) 본문

PAPERS

selectional preference and sense disambiguation <선택적 선호도와 중의성 해소> Resnik(1997)

silvercityz 2020. 4. 1. 17:11

Abstract
트레이닝 데이터의 부족은 문장 중의성 해소를 위한 코퍼스 기반의 접근의 큰 문제 점이였다. 선택적 선호도는 전통적으로 모호성과 연관되어있다. 이 논문은 어떻게 선택적 선호도의 통계적 모델이 직접 manual annotation of selection restrictions 또는 supervised training 없이도 중의성 해소에 사용될 수 있는지 보여준다.

Introduction
selectional constraints와 word sense disambiguation이 서로 밀접한 관련이 있다는 사실은 오래전부터 관찰되어왔다. 물론, most computational settings에서 대표적인 sense disambiguation의 예는 Katz and Fodor's use of Boolean selection restricxtions to constrain semantic interpretation이다. 예를 들어, burgundy의 단어 뜻은 색깔 또는 음료로 해석될 수 있지만, 'Mary drank burgundy'에서 burgundy는 단지 음료수만을 의미한다. 왜나하면, 앞의 'drink'가 다음에 올 명사를 액체로 선택 제한 (selection restriction) 하기 때문이다.
중의성 해소에 대한 이러한 접근법은  semantic feature와 selection restrictions를 손수(manually annotate) 특정짓기에는 관심 영역이 너무 커지면서 문제가 발생했다. 이 논문은 이러한 광범위한 세팅에서 자동으로 모호성을 해소해주는 selectional constraints의 사용에 대해 이야기한다. 이러한 접근은 통계적 그리고 지식 기반의 방법을 합친다. 하지만, 중의성 해소를 위한 최근 코퍼스 기반 방법들과는 달리 sense annotating text가 시작점부터 없다고 가정한다. (corpus기반 x) 이 가정을 motivating하는 것은 현재 주어진 텍스트의 제한된 접근성 뿐만 아니라, 상황이 언제든지 바뀔 수 있다는 의구심 (skepticism)이기도 하다. pos 태깅을 위한 annotated training material과는 정반대로, a) 여기엔(중의성 해소) 보편적으로 쓰이는 coarse-level의 구별법이 없다 (반면에 pos태그 세트들은 디테일 면에서 조금씩 다르다) b) sense annotation은 비교적높은 에러율을 보여준다. c) 어떠한 완전 자동적 방법도 Penn Treebank project와 같이 고용량의 annotation을 제공하기 위한  'annotate automatically, correct manually' 방법을 지원할 정도로 좋은 퀄리티의 아웃풋을 뽑지 못한다.

Selectional Preference as Statistical Association
여기서 사용되는 선택적 선호도의 treatment는 통계적 그리고 지식기반의 방법들을 합친 방법으로 Resnik에 의해 제안되었다. 이 접근법의 중점은 predicates와 conceptual classes의 동시 출현도(cooccurrence)를 확률적 모델로 잡아낸 것이다. 사전 분포인 PrR(c)은 predicate의 identity와 상관없이 predicate-argument relation R에서 argument로 쓰이는 클래스의 출현확률을 의미한다. 예를 들면, verb-subject 관계가 주어졌을 때, 에 대한 사전 확률은 에 대한 사전 확률보다 훨씬 더 높을 것이다. 하지만, predicate identity가 고려되었을 때, 그 확률은 바뀐다 - buzz가 동사일 때, 의 등장확률은 전보다 더 높을 것이고, 의 등장확률은 낮아질 것이다. 확률적 측면에서 봤을 때, 이것은 조건적 분포 또는 사후 확률 분포와 selectional preference를 결정하는 사전확률 간의 차이이다. <- 쉽게 얘기해서, predicate에 따라 함께 딸려오는 conceptual class의 확률이 달라지는데, 이 차이를 어떤 단어가 해당 클래스를 얼마만큼 선호하는지에 대한 척도로 사용할 수 있다는 뜻이다. 예를 들어, <마시다>라는 동사가 주어졌을 때, <곤충> 클래스보다 <음료> 클래스의 출현확률이 높을 것이다. (이를 '마시다'라는 동사가 주어졌을 때, <음료> 클래스의 선택 선호도가 <곤충> 클래스의 선택 선호도보다 높다 라고 표현한다.)
정보 이론은 이 사전확률과 사후확률의 차이를 어떻게 정량화할지에 대해  relative entropy 형태로 방법을 제공한다. 이 모델은 selectional preference strength of a predicate이라고 한다.

selectional preference


직관적으로, Sr(p)는 predicate p가 conceptual class에 대하여 얼마만큼의 정보 (in bits)를 제공하는지 측정한다. Pr(c)가 Pr(c|p)와 근사할수록, 그러므로 selectional preference가 덜 강하다. <- Pr(c)와 Pr(c|p) 간의 차이가 없다는 것은, predicate p가 등장한다고 해서 c의 등장확률에 변화를 주지 않는다는 것. 그러므로 해당 predicate과 class간의 상관관계가 약하다는 뜻이다.
이 정의를 바탕으로, predicate에 대한 argument로써 특정 클래스의 'semantic fit' 을 규정할 수 있는 자연스러운 방법은 전반적인 selectional preference strength에 대한 기여도를 통해서이다. 세부적으로는, 어떤 predicate에 잘 fit하는 클래스들은 사전확률에 비교해서 높은 사후 확률을 가질 것이라고 예측할 수 있다. (위에서 insect의 예처럼) 정식적으로, selectional association (선택적 연관도)는 이렇게 정의한다.

selectional association

selectional preference 모델은 언어심리학적 방법을 통해서 얻은 human judgements of argument plausibility 실험에서 유의미한 예측을 보여주었다. 또한 syntactic disambiguation과 automatic acquisition of more KatzFodoresque selection restrictions in the form of weighted disjunction에서도 적용되었다. selectional association은 또한 syntactic optionality 케이스에서도 사용되었다.

Estimation Issues
만약 taxonomic classes가 학습 코퍼스에서 explicitly 라벨되었다면, 모델의 확률에 대한 예측은 꽤 직선적이다. 하지만, text corpora가 클래스들이 아닌 단어들을 포함할 때, argument position에서의 각 단어들의 등장을 conceptual classs 중 하나쯤엔 포함된다고 가정하고 다뤄야하며 그에 맞춰 빈번도 수도 확인해주어야한다.  현재, 이는 관찰된 argument를 포함한 모든 conceptual classes에 대해 uniformly 'credit'을 배분하는 방식으로 시행된다. 공식적으로 predicate-argument relationship R이 주어졌을 때 (예를 들어 verb-object relationship), predicate p와 conceptual class c는 이렇게 설명된다.

여기서 countR(p,w)는 R에서 단어 w가 p의 argument로써 등장한 횟수이고, classes(w)는 w가 속한 taxonomic classes의 수이다. (예를 들어, '차'의 classes(w)는 마시는 차, 타는 차, 시간 차 등으로 3이라고 할 수 있다) 이 빈번도가 주어졌을 때, 확률들은 maximum likelihood 방법을 사용해서 예측된다. 단어 클래스의 사용은 그 자체로 smoothing 기법 중 하나이다.
이러한 추정 방법은 Yarowsky가 Roget's thesaurus categories를 위해 사용한 방법과 비슷하고, 비슷한 이유에서 작동한다. 예를 들어 verb-object 관계를 진 두 개의 케이스를 생각해보자. 'drink coffee'와 'drink wine'. 커피는 wordnet에서 1.4 명사 택소노미에서 2가지 senses 가지고, 13개의 클래스에 속하며, 와인은 두개의 senses와 16개의 클래스에 속한다. 이는 count verb-obj (drink, coffee) = 1이 drink와 함께 coffee를 포함한 13개의 클래스에 의해서 joint frequency가 13분의 1로 분배되고, 마찬가지로 drink와 wine의 joint frequency 또한 wine을 포함한 16개의 클래스들에 의해서 16분의 1로 분배된다는 뜻이다. 결정적으로 이 두 단어들 각각이 모호함에도 불구하고, 이 두 단어를 모두 포함한 taxonomic classes만이 -e.g. - 관찰된 케이스 모두에 크레딧을 받을 수 있다. (이런 의미에서 smoothing)전반적으로, 단어들은 각자 다른 방식으로 모호하기 때문에, co-occurrence(동시출현)에 대한 명백한 근거가 있을 때만 클래스에 '크레딧'이 부여된다. 나머지는 노이즈로 간주되어 사라진다. 그러므로 학습 텍스트에 class annotation이 부족함에도 불구하고, class-based probability에 적용할만한 추정치에 다다르는 것이 가능하다.

An Unsupervised Method for Sense Disambiguation
테이블 1은 Resnik이 사람들에 의해 만들어진 argument plausibility judgment와 selectional association을 비교한 샘플이다. 이 중 가장 흥미로운 사실은 동사들이 강하게 그들의 arguments들의 sense를 고른 방법이다. 예를 들어, letter는 워드넷에서 3가지 senses를 가지고 있고, 19개의 클래스에 포함된다. write의 object로써의 plausibility를 가늠하기 위해, write에 사용된 selectional association은 19개의 클래스들에 대하여 계산하고, 가장 큰 값을 리턴했다. 이 경우,  <writing> 클래스 ('anything expressed in letters; reading matter'). letter에 대해 오직 하나의 sense만 이 클래스를 상속하고(has this class as an ancestor), argument plausibility를 결정하는 이 방법은, 근본적으로, side effect로써 sense disambiguation을 수행했다.

이 관찰은 selectional preference를 사용해 모호성 해소를 하는 간단한 알고리즘을 제시한다. predicate p와 관계를 맺는 noun을 n이라고 할 때, {s1,...,sk}를 가능한 senses라고 하자.

1부터 k까지 이 값들을 계산하고, ai를 sense si에 대한 점수로 정한다. 이 스코어를 매기는 가장 간단한 방법은 Miller et al의 실험과 같다. n이 오직 하나의 sense만을 가지고 있다면, 그것을 고르고, ai가 가장 큰 값 (비등할 경우, 랜덤으로 선택)을 sense si로 선택한다.

Evaluation

 

Task and materials. 트레이닝셋과 테스트셋은 Penn Treebank project에서 손수 확인된 Brown corpus of American English를 사용했다. 이 데이터의 일부분은 워드넷 그룹에 sense-tagged되어 있기도 하다. parsed, sense-tagged된 코퍼스가 wordnet에 sense-tagged corpus와 합쳐지면서 만들어진 것이다. (대략 brown corpus에서 다양한 genre들의 텍스트들로 200,000 단어들이 사용됬다.) <- brown corpus중 일부분은 sense-tagged되고, 일부분은 그냥 텍스트임.

verb-object 관계를 위한 테스트 셋은 Treebank의 verb-object 짝들을 추출하기 위한 tgrep utility를 사용해서 트레이닝 코퍼스에서 첫번째 훈련시킨 selectional preference 모델에 의해서 짜여졌다. 트레이닝 코퍼스에서 한 번만 나온 단어들을 제외하고 가장 강하게 해당 object들과 연관된 100개의 동사들 (selectional association이 높은)을 골랐다. 테스트 데이터는 (verb, object, correct sense) 형식으로 작성되었고, 해당 100개의 동사들과 함께 test corpus에 합쳐졌다.

평가 항목은 다른 surface syntactic relationship과 같이 verb-subject( John<-admires), adjective-noun (tall -> building), modifier-head(river ->bank), 그리고 head-modifier (river<-bank)와 같이 표현되었다.

 

Baseline. Miler et al.의 논문처럼 랜덤으로 선택된 disambiguation이 baseline으로 사용되었다.만약 noun이 하나의 sense만을 갖고 있다면 그걸 사용하고, 아니면 랜덤으로 sense 중 하나를 고른다.

 

Results. 알고리즘과 baseline 둘  랜덤 프로세스를 거치기 때문에, 평가는 서로 다른 랜덤시드를 사용하여 진행했다. 테이블 2는 오직 모호한 테스트 케이스들에 대해 10번동안 시행된 결과를 요약해놓은 것이다. 알고리즘과 baseline의 결과 평균 차이 값은 유의미했다. 

 

Discussion. 이 실험의 결과들은 자동적으로 selectional constraints를 필요로 하는 disambiguation이 랜덤 초이스보다 훨씬 성능이 좋다는 걸 보여주었다. 하지만, 놀랍지 않게도, supervised training을 통해 한 결과에는 미치지 못하였다.  그런 측면에서 가장 직선적인 비교 포인트는 Miller et al의 frequency heuristic 성능과의 비교이다. -항상 단어의 가장 빈번한 sense를 선택하고, - 완전 명사, 동사, 형용사, 부사 등 sense-tagged된 코퍼스를 사용해서 평가를 했다. 모호한 단어들을 봤을 때, 랜덤 baseline의 정답률이 26.8%인 반면, 이 방법은 58.2%가 맞았다.

하지만, frequency heuristic은 sense-tagged를 한 트레이닝 데이터가 요구되는 반면, 이 논문의 초기 가정은 그러한 데이터가 없다는 것이 결정적이다. 더 공정한 비교는 그러므로 다른 unsupervised algorithm (annotate 데이터가 필요없는)과의 비교일 것이다.불행히도 그러한 현재 이 분야에는 알고리즘에 대한 수치적 평가보다는 알고리즘 수가 더 많다. 한 실험은 문장에 동시 출현하는 단어들의 대체적(alternative) senses들을 위해 사전적 의미의 overlap을 최대화하는 stochastic search procedure를  사용했다. homograph 레벨에서 72%의 disambiguation 정확도를 보여주었고, sense 레벨에서는 47%의 정확도를 보여주었다. 더 잘 정제된 워드넷 sense distinctions을 사용했기 때문에, 비교에 더 적합하다고 할 수 있다. 이 실험은 noun으로만 단어를 제한하지 않은 면에서 더 보편적이다. 반면에, 이 실험의 테스트 셋은 통문장들에서 모호한 단어들을 뽑아왔기 때문에, 덜 모호한 단어들의 존재로 인해 정확도가 향상됬을 가능성도 있다. (문장 내 존재하는 다른 '잘 정의된' 단어들의 존재 때문에 정확도가 올라갔을 수도 있다.)

Sussna(1993)은 워드넷을 사용하여 명사의 unsupervised disambiguation도 연구했다. Cowie et al.과 같이 그의 알고리즘은 noun taxonomy를 사용해서 문장 내 명사들 간의 pairwise semantic distance로 문장 전체 간의 semantic coherence를 최적화한다. 이 실험과의 결과 비교도 두 가지의 이유로 어렵다.첫번째, Sussna는 (35K nodes vs 49K nodes) 훨씬 작은 noun taxonomy를 갖고 잇는 워드넷의 초기버전을 사용했다. 두번째, 그리고 더 중요한 것은 테스트 데이터를 만드는데 있어서 Sussna의 사람 sense-tagger들 (tagging articles from the Time IR test collection)은 정확한 지침보다는 그들이 생각하기에 '좋은' (객관적이지 못한) sense들을 명사에 태그했다; Sussna는 최고의 sense 하나에 명사를 매칭하는 것 대신에 그 객관적인 기준을 반영한 scoring matrix를 사용했다. 꽤 정당성 있는 조치였지만, 현재 실험에서는 배제된 옵션이다. 그럼에도 불구하고, 'good'이라고 평가된 sense들이 있으면 정답이라고 %를 사용해 보고했기 때문에 부분적인 비교는 가능하다. (중략)

unsupervised sense disambiguation을 사용해서 얻은 가장 좋은 결과들은 (100개의 window 사이즈를 사용해서) Roget의 thesaurus의 클래스들을 사용해 co-occurrence model을 만든 Yarowsky(1992)의 실험에서이다. 그는 12개의 다의어 단어들을 사용한 모호성 해소 테스트 케이스에서 72-99% (평균 92%)의 결과를 냈다. Cowie et al.의 실험들에서와 같이 세밀한 차이들의 선택이 높은 정확도에 기여했다. 비교하자면, Yarowsky의 테스트 셋의 몇몇 단어들은 Roget의 tehsaurus 카테고리에선 최대 6개의 senses가 필요한 것을, 워드넷에서는 10개의 senses들 중에 골라야했다. 워드넷에서 6가지 방법으로 분류되는 것을, 로젯의 thesaurus에서는 3가지 분류가 필요했다.

워드넷과 같이 풍부한 taxonomy는 snese vs homograph distinction에 일관성 있는 (discontinuous) 관점을 제공한다. 예를 들어, town이 워드넷에 세가지의 sense가 있다. (행정적 의미, 지리학적 의미, 사람들이 모인 곳) leave의 object로써의 타운이 주어졌을 때, selectional preference는  common ancestor인 <location>으로 인해 첫 두 가지 sense들에서 비등한 결과를 보여줄 것이다. 그 효과로 taxonomy에서 가장 높은 점수로 클래스를  자동 선택할 경우 다른 세팅에서 homograph/sense distinction와 같은 coarse category를 제공한다.  coarser category의 선택은 컨텍스트 상 다양하다: rural town에서의 argument처럼, 두 가지 같은 sense가 아직 비등하고, 공통 ancestor인 <region> (<location>의 subclass)이 스코어를 결정한다. 

다른 논문에서, Yarowsky는 supervised training을 요구로 하지만, 그의 알고리즘이 selectional constraints를 포함한 local collocational 정보가 sense disambiguation에서 커다란 영향으로 사용될 수 있다는 것을 보여주었다. 지금 이 논문의 실험은 같은 종류의 정보를 사용했지만, unsupervised setting에서 얻은 것이라고 할 수 있다.

 

Conclusions and Future Work

Selectional preference Strength가 정보이론의 상대 엔트로피에서 따온 것이지만, selectional association은 그렇지 않다; 이 접근은 단순 공통의 정보와 likelihood ratio로 비교를 해서 얻은 대체 통계적 연관성 측정을 사용한 실험이다. selectional preference에 대한 정보를 합치는 것 [e.g) 명사가 verb의 object인 동시에 adjective에 의해서 형용될 때와 같이.] 또한 도움이 되었다. 

더 중요한 것은 Yarowsky (1992)에 의해서 더 광범위한 context로 응용된 selectional preference 이상의 정보이다. 더 세부적으로 나눠진 sense들을 사용한 unsupervised disambiguation 시도들에 비하면 놀랍진 않지만, 우리가 이 논문에서 언급한 방법의 성능은 현재 제한되어있다. 이 논문의 take-away 중 하나는 selectional preference가 disambiguation에 있어서 중요한 요인임에는 틀림없지만, 그 실용적 broad-coverage application은 제한되어(적어도 명사를 disambiguate함에 있어서는) 있다. 왜냐하면 많은 동사들과 modifier들이 그렇게 큰 차이를 만들 정도로 강하게 선택( select strongly)되지 않기 때문이다. 몇몇 증거를 제공할 수는 있지만, frequency-based priors, topical context와 같은 다른 정보들에게 도움이 될 정도일 뿐이다.

'PAPERS' 카테고리의 다른 글

(part 1) A Bit of Progress in Natural Modeling by J GoodMan(2001)  (0) 2020.04.09
A Theory of the Learnable(1984)  (0) 2020.02.18
Comments