문장의 중간에 whitespace가 존재할 경우

카테고리 없음

silvercityz 2020. 3. 27. 16:38

corpus 정제할 때 목표 말뭉치에 whitespace가 존재할 경우 어떻게 해결하는지 알아보자.

예를 들어,

'''

hey, siri. play me a

song. something tender.

'''

사람이 읽는데는 문제가 없지만, 지저분하다. 'play me a song'은 분명 한문장인데, 사이에 '\n' (줄바꿈)이 거슬린다.

phrases = '''hey, siri. play me a 
song. something tender.'''

phrases = ' '.join([p.strip() for p in phrases.split('\n')])

sent_tokenize(phrases)

1) .split('\n') 함수로 문장을 엔터로 나눈다.

2) 나눈 문장을 ' ' (띄어쓰기)로 .join() 한다.

3) nltk.sent_tokenize()로 문장을 토큰화한다.

output = ['hey, siri.', 'play me a song.', 'something tender.']

다음은 단어가 중간에 잘려 다음 줄로 넘어간 것을 어떻게 처리할지 알아보자.

예를 들어,

'''

hey siri. play me a song. some-

thing tender.

'''