목차 1. Stochastic Gradient Descent 1.1 SGD의 문제점 2. SGD + Momentum 3. Nesterov Momentum 4. AdaGrad 5. RMSProp 6. Adam 7. Learning rate 8. Second-order Optimization 9. Regularization 9.1 Model Ensembles 9.2 Dropout 9.3 Data Augmentation 9.4 Others 10. Tranfer Learning 1. Stochastic Gradient Descent SGD는 데이터를 미니 배치로 나눈 후, 데이터 전체를 한꺼번에 사용하여 모델의 가중치를 업데이트 하는것이 아닌 미니 배치마다 가중치를 업데이트하여 속도면에서 개선시킨 최적화(Opt..