[DL] deep neural net의 문제점 : over fitting & gradient vanishing

머신러닝 || 딥러닝

써니(>_<) 2022. 8. 13. 12:24

복잡한 모델을 예측하기위해서는 parameter의 수를 증가 시켜야한다. => getting deeper

parameter가 많아질수록 training dataset에서만 잘 작동하는 overfitting문제가 생긴다.

=> 이에 대한 solution으로는 regulararization (L1, L2)와 Drop out 이 있다

네트워크의 레이어의 개수가 증가할수록 backpropagation과정에서 gradient가 점점 0에 가까워지는 경우가 생긴다.

=> activation function으로 시그모이드 대신 ReLU, leaky ReLU, ELU를 사용한다

모델성능을 향상 시킬수있는 다른 테크닉들 :

Weight initialization : Xavier initialization

Batch normalization