머신러닝 || 딥러닝
-
-
[Gensim] pre-trained model / model training 셋업 with Gensim머신러닝 || 딥러닝/NLP 2022. 10. 31. 20:22
Where to download pre-trained model from gensim https://github.com/RaRe-Technologies/gensim-data https://huggingface.co/models?other=gensim load pre-trained model using gensim.downloader.load https://radimrehurek.com/gensim/models/word2vec.html https://kavita-ganesan.com/easily-access-pre-trained-word-embeddings-with-gensim/#.Y1_HIOzMK3I load pre-trained model using API https://radimrehurek.com/..
-
[자연어처리/NLP] 단어 임베딩: word2vec머신러닝 || 딥러닝 2022. 9. 8. 08:44
원핫인코딩의 단점: -단어의 존재여부만 표현할뿐 단어사이의 맥락은 표현하지 못한다. -문장내의 단어가 많아질수록 벡터의 차원이 증가된다. 해결책 : 단어를 다차원공간에 벡터화 하자 ! => aka 단어 임베딩 word2vec -단어 임베딩 알고리즘, 딥러닝을 이용한 비지도학습 -단어의 앞뒤 관계를 보고 근접도를 계산하여 벡터 형태로 정량화하는 기법 (200~1000차원 정도에서 벡터로 표현) - e.g. woman+king-man = queen - "같은 맥락에 있는 단어는 서로 가까운 의미를 가지고있다"라는 전제 (각 단어의 앞뒤 관계가 비슷한 단어들은 비슷한 공간에 몰려있게된다) -단어가 주어졌을때 근처에 등장하는 다른 단어는 비슷한 의미의 단어일 가능성이 높다 word2vec 의 두가지 모델 -CB..
-
[자연어처리/NLP] 토픽모델링머신러닝 || 딥러닝 2022. 9. 8. 08:23
토픽 모델링 -문서를 대표하는 토픽을 발견하고, 많은 양의 비정형 데이터를 정리하는데 사용한다 -토픽 모델링은 스스로 패턴을 인식하는 비지도 학습방식이므로 레이블이 된 데이터가 필요없다 -파이썬의 gensim을 사용해 쉽게 구현할수있다 토픽모델링의 사례 -문서토픽요약: 토픽을 요약하여 신속하게 분류한다 -검색엔진 최적화: 문서의 키워드를 식별하여 쉽게 태그할수있다 -고객 지원 개선: 제품 및 서비스 사양, 고객 불만 및 피드백에 관한 토픽과 키워드를 분류한다 (FAQ, 챗봇등에 활용가능) 토픽모델링 알고리즘 -잠재 디리클레 할당 (LDA, Latent Dirichlet Allocation) : 문서의 토픽은 단 하나로 정해지는 것이 아니라 여러 토픽의 비율로 표현할수있다고 가정하는 확률 모델 (e.g. ..
-
[객체추출] Object detection with 텐서플로머신러닝 || 딥러닝 2022. 9. 8. 02:34
Object detection using Tensor flow API Setup (MAC) Install Python library $ pip install pillow $ pip install lxml $ pip install jupyter $ pip install matplotlib Install protocol buffer 1. download protobuf-all-21.5.tar.gz from https://github.com/protocolbuffers/protobuf/releases 2. Extract the tar.gz file. 3. $cd ~/Downloads/protobuf-2.4.1 4. $./configure 5. $make 6. $make check 7. $sudo make in..