728x90 반응형 AdaGrad1 밑바닥부터 시작하는 딥러닝 Chapter6 - 학습 관련 기술들 등방성 함수 f(x, y) = x^2 + y^2 등방성 함수는 각 위치에서 기울어진 방향의 본래의 최솟값을 가리킨다. 따라서 등방성 함수의 경우 SGD를 이용해도 무방하다. SGD의 단점 비등방성 함수 비등방성 함수는 각 위치에서의 기울기가 가리키는 지점이 하나가 아니라 여러개이다. 기울기의 대부분은 최소값의 위치인 (0,0)을 가리키지 않는다. 이 상태에서 SGD를 적용하면 결과가 다음과 같다. 심하게 굽이진 움직임으로 상당히 비효율적이다. 위와 같은 SGD의 단점을 개선해주는 모멘텀, AdaGrad, Adam 에 대해 알아보자. 모멘텀 모멘텀은 '운동량' 을 뜻하는 단어 물리에서 p(운동량) = m(질량) * v(속도) 인데, 신경망에서는 질량을 1로 두고 운동량을 속도로만 나타낸다. 여기서 v 변수.. 2022. 6. 26. 이전 1 다음 728x90 반응형