728x90 반응형 AdaGrad1 밑바닥부터 시작하는 딥러닝 Chapter6 - 학습 관련 기술들 등방성 함수f(x, y) = x^2 + y^2등방성 함수는 각 위치에서 기울어진 방향의 본래의 최솟값을 가리킨다.따라서 등방성 함수의 경우 SGD를 이용해도 무방하다. SGD의 단점비등방성 함수비등방성 함수는 각 위치에서의 기울기가 가리키는 지점이 하나가 아니라 여러개이다.기울기의 대부분은 최소값의 위치인 (0,0)을 가리키지 않는다.이 상태에서 SGD를 적용하면 결과가 다음과 같다.심하게 굽이진 움직임으로 상당히 비효율적이다. 위와 같은 SGD의 단점을 개선해주는 모멘텀, AdaGrad, Adam 에 대해 알아보자. 모멘텀모멘텀은 '운동량' 을 뜻하는 단어 물리에서 p(운동량) = m(질량) * v(속도) 인데, 신경망에서는 질량을 1로 두고 운동량을 속도로만 나타낸다.여기서 v 변수는 속도에.. 2022. 6. 26. 이전 1 다음 728x90 반응형