[NLP] 1. 텍스트 마이닝 기초

·
Data/AI
텍스트마이닝 패러다임의 변화BERT지금은 텍스트 분류 등의 작업에 딥러닝 기반의 BERT를 쓰는 것이 일반화됐다.BERT는 트랜스포머에 기반한 모형으로, 자세한 작동원리를 이해하기 매우 어려운 편인데도 최근 대부분의 작업에 사용된다.책 한권 정도의 분량에 대해서 문서를 분류해야할 때는 카운터 기반의 문서 표현이 BERT같은 최신모형 보다 낫다는 연구결과가 있다.카운터 기반의 문서 표현문서를 사용된 단어의 빈도로 표현하는 것이 과정에서 단어들이 텍스트에 나타난 순서에 대한 정보는 사라진다. 즉, 사람이 문서를 이해할 때 가장 중요하게 생각하는 문맥에 대한 정보는 사라지고, 대신 단어에 대한 통계만이 남게 된다. 그러나 텍스트 마이닝의 원래 목적, 텍스트 내용을 기반으로 어떤 사건을 예측하는 것은 이 정보의..