카테고리 없음
문장의 중간에 whitespace가 존재할 경우
silvercityz
2020. 3. 27. 16:38
corpus 정제할 때 목표 말뭉치에 whitespace가 존재할 경우 어떻게 해결하는지 알아보자.
예를 들어,
'''
hey, siri. play me a
song. something tender.
'''
사람이 읽는데는 문제가 없지만, 지저분하다. 'play me a song'은 분명 한문장인데, 사이에 '\n' (줄바꿈)이 거슬린다.
phrases = '''hey, siri. play me a
song. something tender.'''
phrases = ' '.join([p.strip() for p in phrases.split('\n')])
sent_tokenize(phrases)
1) .split('\n') 함수로 문장을 엔터로 나눈다.
2) 나눈 문장을 ' ' (띄어쓰기)로 .join() 한다.
3) nltk.sent_tokenize()로 문장을 토큰화한다.
output = ['hey, siri.', 'play me a song.', 'something tender.']
다음은 단어가 중간에 잘려 다음 줄로 넘어간 것을 어떻게 처리할지 알아보자.
예를 들어,
'''
hey siri. play me a song. some-
thing tender.
'''