하이퍼파라미터 2

오버피팅 방지와 하이퍼파라미터 최적화

가중치 매개변수 초깃값 가중치 매개변수의 초깃값을 어떤 값으로 사용하는 지에 따라서 각 층의 활성화값의 분포가 달라지는데, 데이터가 넓게 적당히 분포되어야 활성화 함수가 제 역할을 더 잘 하게 되면서 효율적인 학습이 이루어진다. 배치 정규화 가중치 매개변수 초기화처럼, 각 층의 활성화 분포 값을 적당히 퍼질 수 있도록 강제하는 방법이다. 말 그대로 학습할 때 미니 "배치" 마다 데이터가 평균 0, 분산 1이 되도록 데이터를 정규화하고 데이터를 확대, 이동시키면서 값을 조정한다. 기존보다 더 빠르게 학습할 수 있고, 초깃값에 크게 영향받지 않으며, 오버피팅을 억제한다는 장점이 있다. 오버피팅 훈련 데이터에만 지나치게 모델이 적응되어서 범용성이 낮은 모델로 학습되버리는 현상이다. 주로 데이터 개수가 적거나,..

신경망 학습 : 손실함수, 활성화함수, 파라미터

활성화함수 활성화함수는 신경망으로 계산한 입력신호의 모든 합을 각 함수식에 맞게 처리해 출력값으로 변환해주는 역할을 한다. 활성화함수를 사용하는 이유는, 출력값을 비선형의 형태로 바꾸기 위해서이다. 비선형으로 만들어주는 이유는 선형 구조에 문제가 있기 때문이다. 여러개의 선형식 레이어를 아무리 쌓아도 하나의 선형식으로 표현할 수 있기에 비선형 함수를 사용해주어야 한다. 라고 하는데 사실 이해가 완벽하게 되지 않았다. 히든 레이어에서 가중치와 노드값, 편향값들을 어떻게 더하고 곱할지 구성하고 계산하는 것만으로는 비선형식을 만들 수 없는 것일까? 이 부분이 더 궁금해서 찾아보았다. 그리고 그 예측이 맞았다. Geeks for Geeks 라는 해외 사이트에서 활성화함수에 대해 설명한 글을 찾아보았는데, "A ..