Post

[딥러닝] 다층 퍼셉트론과 역전파

단층 퍼셉트론의 한계

  • 선형함수로 표현되는 결정경계로 국한되는 학습 능력
  • 배타적 논리합(XOR) 문제를 해결하지 못함
  • 다층 퍼셉트론을 이용하면 다양한 경계의 표현이 가능함

다층 퍼셉트론

  • 입력층과 출력층 사이에 1개 이상의 층이 있는 피드포워드 신경망
  • 은닉층(hidden layer)
    • 입력층과 출력증 사이에 배치된 층
    • 직접적인 레이블이 제공되지 않음
  • 손실함수(loss function)
    • 모델의 출력이 목표 출력을 얼마나 잘 예측하고 있는지 평가하기 위해 정의된 함수
    • = 비용함수(cost function)
  • 역전파(backpropagation)
    • 다층 피드포워드 신경망의 훈련에 사용되는 알고리즘
    • 가중치에 대한 손실함수의 편미분을 체인 룰에 따라 계산하여 가중치를 업데이트하는 과정을 출력층으로부터 이전 층으로 역순으로 반복하여 진행함

역전파

  • 1974년 Paul Werbos, 1986년 David Rumelhart 등이 발표한 다층 피드포워드 신경망의 학습 알고리즘
  • 지도학습 방식
  • 미분 가능한 활성함수를 사용
    • Rumelhart의 본문에서는 뉴런의 활성함수로 시그모이드 함수 사용
    • 모든 u에 대해 미분을 구할 수 있음

역전파 알고리즘

  • 출력층에서 입력층 방향으로 역방향 진행
  • 체인 룰에 따라 각 층의 학습 대상 파라미터(가중치, 바이어스)에 대한 손실함수의 편미분을 구한 후 이를 학습률에 따라 반영하여 가중치를 업데이트
  • 경사 하강법을 이용한 최적화

모멘텀을 이용한 학습

  • w의 변화량을 속도(velocity)라는 개념으로 봄
  • 모멘텀의 비율로 이전 시점의 속도(w의 변화량)를 w의 업데이트에 반영함
  • 변화의 방향이 급격히 변화하는 것을 완화함으로써 경사 하강법을 개선할 수 있다.

다중 클래스 분류를 위한 다층 퍼셉트론 학습

소프트맥스(softmax)

  • 3개 이상의 다중 클래스 분류 문제에서 출력층의 활성함수로 적합한 함수
  • 출력층이 클래스 집합의 확률분포를 나타내는 값을 출력함
  • 각각의 출력은 0과 1 사이의 값을 갖고, 모든 출력의 합은 1이다.

교차 엔트로피(cross entropy)

  • 추정된 확률분포와 레이블에 해당되는 확률분포의 차이를 측정하는데 적합한 손실함수

This post is licensed under CC BY 4.0 by the author.