- nlp
- L1 Distance
- 거리 재기
- 동사 술어
- back propagation
- defaultdict
- KoNLPy
- 클래스
- 슬라이딩 윈도우
- word2vec
- 워드 임베딩
- 역전파
- 자카드 유사도
- 자연어처리
- 파이썬
- 유사도
- cooccurrence
- Sliding Window
- 동시 출현
- 벗기다
- 자연어 처리
- Infinity Distance
- L2 Distance
- Strip
- 인사이드
- 명사 클래스
- 워드투벡
- selectional preference
- selectional association
- 선택 선호도
- Today
- Total
목록전체 글 (24)
SILVERCitYz
파이썬 자료 구조에는 list와 array가 있다. list는 메모리를 할당받은 주소부터 차례로 리스트 크기만큼의 메모리를 할당받는다. 또, list는 리스트 내 타입이 다른 데이터들을 가질 수 있다. 예를 들어, ['1', 2, '3', 4]처럼 string과 int를 한 번에 담을 수 있다. 반면, array는 메모리를 할당받을 때, 컴퓨터가 알아서 남은 메모리 주소를 할당해준다. 리스트처럼 데이터들이 붙어있는 것이 아니라 각자 띄어져있어도 무관하다는 뜻이다. 이러한 array의 특성 덕분에 대용량의 데이터를 다룰 때 메모리 관리가 더 효율적이다. array는 같은 자료형만을 담을 수 있다. list - 서로 다른 타입의 데이터 저장 가능 - 메모리 할당받을 때, 일체로 할당 (테트리스처럼) arra..
https://www.youtube.com/watch?v=7VeUPuFGJHk x variables : x1, x2, x3,...., xn y variable : y (binary 0/1) 에 대해 각 x feature들이 y 값에 대해 어떤 연관이 있는지 확인. 예를 들어, x1 >500 일 때, y = 1인 경우 80 y = 0인 경우 30 x1 500일 때, 1 - (80/110)^2 - (30/110)^2과 x1500일 때와 x1
https://www.youtube.com/watch?v=GSwYGkTfOKk Image Classification -> Image Classification with localization -> Detection 우리가 당장 인터넷을 켜서 AI 비전 인식에 대해 검색을 하면, 나오는 최신 기술은 이미지 내에 object의 갯수가 몇 개이던 그리고 클래스 종류가 다양하던 간에 다 찾아내는 Object Detection과 픽셀 단위로 물체의 경계선까지 인식하는 Image Segmentation이다. 하지만, 이미지 분류에서 시작한 이미지 인식 기술이 앞의 최신 기술들로 갑자기 발전했을까. 이미지 분류 기술이 확실하게 입증되자 사람들은 이미지 내 물체의 클래스와 위치에 대해 연구하기 시작했다. 처음에는 이미..
https://www.youtube.com/watch?v=f0t-OCG79-U 매번 헷갈리는 CNN. 이렇게 시각화되서 보니 생각이 정리 되는듯 하다. input image와 필터 간 연속된 행렬의 곱의 연산들(hidden layer)이 마지막 layer에서 확률을 평가받는다. 그리고 그 예측 결과값과 실제 결과값의 차이를 back propagation으로 filter값에 반영한다.
자연어 처리 기법이 어떤 식으로 발전했는지 N-grams, Clustering, Caching, Smoothing, Skipping models, sentence-mixture 모델 등에 대해 이야기하면서 간략하게 알려주는 논문이다. 2001년에 나온 논문이라 SOTA 기법들에 대한 내용은 없지만, 전체적인 흐름을 읽기엔 좋을 듯 하다. 73쪽의 방대한 분량이라 파트를 몇 개 나눠서 정리하려 한다. 자연어 모델은 보통 시작을 전에 있던 단어 배열의 확률을 가지고 타겟 단어의 확률을 예측하는 것이 기본이다. 수식으로 표현하면, P(w_1w_2...w_i) = P(w1)P(w_2|w_1)P(w3|w_1w_2) ...P(wi|w_1w_2...w_i-1) 이렇게 정리되는데, P(w1)이나 P(w_2|w_1)과 ..
참고자료: https://towardsdatascience.com/word2vec-from-scratch-with-numpy-8786ddd49e72 import re def tokenize(text): # obtains tokens with a least 1 alphabet pattern = re.compile(r'[A-Za-z]+[\w^\']*|[\w^\']*[A-Za-z]+[\w^\']*') return pattern.findall(text.lower()) def mapping ( text ) : word_to_id = {} id_to_word = {} for i, word in enumerate(set(text)) : word_to_id[word] = i id_to_word[i] = word ret..
Abstract 트레이닝 데이터의 부족은 문장 중의성 해소를 위한 코퍼스 기반의 접근의 큰 문제 점이였다. 선택적 선호도는 전통적으로 모호성과 연관되어있다. 이 논문은 어떻게 선택적 선호도의 통계적 모델이 직접 manual annotation of selection restrictions 또는 supervised training 없이도 중의성 해소에 사용될 수 있는지 보여준다. Introduction selectional constraints와 word sense disambiguation이 서로 밀접한 관련이 있다는 사실은 오래전부터 관찰되어왔다. 물론, most computational settings에서 대표적인 sense disambiguation의 예는 Katz and Fodor's use of..
문장의 일부만 알고 있을 때, 다음 단어가 무엇이 나올지 알고 있다면, 혹은 그 구조에 특정 단어가 출현할 확률을 알고 있다면, 자연어 처리에 도움이 될 것이다. 선택 선호도는 특정 단어들이 동시 출현할 확률(서로 연관됐을 확률)이 있다면, 그 조건부 확률 p(w|x)는 문서에서 w가 출현할 확률 p(w)의 확률과는 확연히 다를 것이라고 가정한다. 예를 들어, "커피를"이라는 단어 뒤에 "마시다"가 나올 확률은 기존 문서에서 "마시다"가 나올 확률보다 훨씬 더 높을 것이다. (더 낮은 경우도 있을까?) 이를 쿨러-라이블러 발산 (KL divergence)를 사용해 선호도를 나타낸다. 더 세부적으로 들어가보자. 어떤 명사를 형용하는 동사를 동사 술어라고 한다. 어떤 명사들은 꼭 특정한 동사와 짝을 이뤄서 ..