깊은 인공 신경망을 학습하다보면 역전파 과정에서 입력층으로 갈 수록 기울기(gradient)가 점차적으로 작아지는 현상이 발생할 수 있다. 입력층에 가까운 층들에서 가중치 업데이트가 제대로 되지 않으면 결국 최적의 모델을 찾지 못하는데 이를 기울기 소실(Gradient Vanishing)이라고 한다.반대의 경우도 존재하는데, 기울기가 점차 커지더니 가중치들이 비정상적으로 큰 값이 되면서 결국 발산하게 되는 기울기 폭주(Gradient Exploding)도 존재한다. 이는 순환 신경망(Recurrent Neural Network,RNN)에서 쉽게 발생한다.1. ReLU와 ReLU의 변형들시그모이드 함수: 입력의 절대값이 클 경우에 출력값이 0 또는 1에 수렴하면서 기울기가 0에 가까워진다. ➡️ 역전파 과..