본문 바로가기

cooccurrence

(1)

sliding window 자연어의 해석 방향은 무궁무진하다. 단어(word) 가 모여서 문장(sentence) 이 되고, 문장이 모여 글(text) 이 되고, 글이 모여서 말뭉치(corpus)가 된다. 자연어에 대한 통계적 접근은 보통 이 단위들의 빈번도 (frequency) 조사로 시작된다. tf-idf 를 통해 단어 각각의 빈번도에 대해서 알아보았다면, 이제 단어 간의 같이 출현할 확률과 같이 유기적인 관계에 대해서 조사하는 법을 알아보도록 하자. 두 단어가 같이 출현할 확률이라고 했을 때, 같이 출현하는 것에 대한 범위는 어떻게 정의할 수 있을까. 글 단위? 문장 단위? 아니면 해당 단어 바로 옆? 이를 window size라고 한다. window size가 1이라면, 해당 단어의 바로 앞 뒤의 단어들을 살피고, 5라면, ..

이전 1 다음

티스토리툴바