-
[자연어처리/NLP] 토픽모델링머신러닝 || 딥러닝 2022. 9. 8. 08:23
토픽 모델링
-문서를 대표하는 토픽을 발견하고, 많은 양의 비정형 데이터를 정리하는데 사용한다
-토픽 모델링은 스스로 패턴을 인식하는 비지도 학습방식이므로 레이블이 된 데이터가 필요없다
-파이썬의 gensim을 사용해 쉽게 구현할수있다
토픽모델링의 사례
-문서토픽요약: 토픽을 요약하여 신속하게 분류한다
-검색엔진 최적화: 문서의 키워드를 식별하여 쉽게 태그할수있다
-고객 지원 개선: 제품 및 서비스 사양, 고객 불만 및 피드백에 관한 토픽과 키워드를 분류한다 (FAQ, 챗봇등에 활용가능)
토픽모델링 알고리즘
-잠재 디리클레 할당 (LDA, Latent Dirichlet Allocation) : 문서의 토픽은 단 하나로 정해지는 것이 아니라 여러 토픽의 비율로 표현할수있다고 가정하는 확률 모델 (e.g. 알파고에 관한 기사에서 바둑이라는 주제가 60%, 인공지능이라는 주제가 40% 다뤄진다)
reference
실무가 훤히 보이는 머신러닝 & 딥러닝 (마창수, 최재철)
'머신러닝 || 딥러닝' 카테고리의 다른 글
[싸이킷런 기초] 싸이킷런 함수 사용하기 (0) 2022.11.10 [자연어처리/NLP] 단어 임베딩: word2vec (0) 2022.09.08 [객체추출] Object detection with 텐서플로 (0) 2022.09.08 [DL] deep neural net의 문제점 : over fitting & gradient vanishing (0) 2022.08.13 [DL개념] MLP (multi layer perceptron) (0) 2022.08.11