머신러닝 || 딥러닝

[자연어처리/NLP] 토픽모델링

써니(>_<) 2022. 9. 8. 08:23

토픽 모델링 

-문서를 대표하는 토픽을 발견하고, 많은 양의 비정형 데이터를 정리하는데 사용한다 

-토픽 모델링은 스스로 패턴을 인식하는 비지도 학습방식이므로 레이블이 된 데이터가 필요없다

-파이썬의 gensim을 사용해 쉽게 구현할수있다

 

토픽모델링의 사례

-문서토픽요약: 토픽을 요약하여 신속하게 분류한다

-검색엔진 최적화: 문서의 키워드를 식별하여 쉽게 태그할수있다

-고객 지원 개선: 제품 및 서비스 사양, 고객 불만 및 피드백에 관한 토픽과 키워드를 분류한다 (FAQ, 챗봇등에 활용가능)

 

토픽모델링 알고리즘

-잠재 디리클레 할당 (LDA, Latent Dirichlet Allocation) : 문서의 토픽은 단 하나로 정해지는 것이 아니라 여러 토픽의 비율로 표현할수있다고 가정하는 확률 모델 (e.g. 알파고에 관한 기사에서 바둑이라는 주제가 60%, 인공지능이라는 주제가 40% 다뤄진다) 

 

 

 

reference 

실무가 훤히 보이는 머신러닝 & 딥러닝 (마창수, 최재철)