NLP (3) 썸네일형 리스트형 선택 선호도 (selectional preference) 문장의 일부만 알고 있을 때, 다음 단어가 무엇이 나올지 알고 있다면, 혹은 그 구조에 특정 단어가 출현할 확률을 알고 있다면, 자연어 처리에 도움이 될 것이다. 선택 선호도는 특정 단어들이 동시 출현할 확률(서로 연관됐을 확률)이 있다면, 그 조건부 확률 p(w|x)는 문서에서 w가 출현할 확률 p(w)의 확률과는 확연히 다를 것이라고 가정한다. 예를 들어, "커피를"이라는 단어 뒤에 "마시다"가 나올 확률은 기존 문서에서 "마시다"가 나올 확률보다 훨씬 더 높을 것이다. (더 낮은 경우도 있을까?) 이를 쿨러-라이블러 발산 (KL divergence)를 사용해 선호도를 나타낸다. 더 세부적으로 들어가보자. 어떤 명사를 형용하는 동사를 동사 술어라고 한다. 어떤 명사들은 꼭 특정한 동사와 짝을 이뤄서 .. sliding window 자연어의 해석 방향은 무궁무진하다. 단어(word) 가 모여서 문장(sentence) 이 되고, 문장이 모여 글(text) 이 되고, 글이 모여서 말뭉치(corpus)가 된다. 자연어에 대한 통계적 접근은 보통 이 단위들의 빈번도 (frequency) 조사로 시작된다. tf-idf 를 통해 단어 각각의 빈번도에 대해서 알아보았다면, 이제 단어 간의 같이 출현할 확률과 같이 유기적인 관계에 대해서 조사하는 법을 알아보도록 하자. 두 단어가 같이 출현할 확률이라고 했을 때, 같이 출현하는 것에 대한 범위는 어떻게 정의할 수 있을까. 글 단위? 문장 단위? 아니면 해당 단어 바로 옆? 이를 window size라고 한다. window size가 1이라면, 해당 단어의 바로 앞 뒤의 단어들을 살피고, 5라면, .. 자연어 처리 자연어 처리 방법 - 단어 간의 유사도 - 단어를 수치적으로 표현하여 기계가 이해할 수 있도록 -> Word Embedding - 문장의 context 이해 -Token : 단어처럼 의미를 가지는 요소 -Morphemes : 의미를 가지는 언어에서 최소 단위 -POS : Nouns, Verbs (문법적 역할) -Stopword : I my, me, 조사, 접미사와 같이 자주 나타나지만 실제 의미에 큰 기여를 하지 못하는 단어들 -Stemming : 어간만 추출하는 것을 의미( running, runs, run -> run ) -Lemmatization : 앞뒤 문맥을 보고 단어를 식별하는 것 -Lexical Analysis (어휘분석) -WSD (word sense disambiguation) : 동형어.. 이전 1 다음