NLTK Library
- NLTK(Natural Language Toolkit)은 자연어 처리를 위한 라이브러리
|
|
문장을 단어 수준에서 토큰화
|
|
Output
|
|
POS Tagging
|
|
Output
|
|
NLTK POS Tags List
Stopwords 제거
|
|
Output
|
|
Lemmatizing
- Lemmatization: 단어의 형태소적/사전적 분석을 통해 파생적 의미를 제거하고,
어근에 기반하여 기본 사전형인 lemma를 찾는 것
|
|
- default로
n
이므로 ‘cats’, ‘geese’ 들은 기본명사형을 반환 - 형용사 ‘better’는
pos
에a
를 함께 입력해주어야 원형인 ‘good’을 반환 - 동사 ‘ran’은
pos
에v
를 함께 입력해주어야 원형인 ‘run’을 반환
영화 리뷰 데이터 전처리
|
|