본문 바로가기

Deep Learning

(6)
0206 Vanishing / Exploding Gradient Gradient의 소실과 폭주 문제 역전파 알고리즘은 출력층에서 입력층으로 오차 그레이디언트를 전파하면서 진행된다. 알고리즘이 신경망의 모든 파라미터에 대한 오차 함수의 그레이디언트를 계산하면 경사 하강법 단계에서 이 그레이디언트를 사용해 각 파라미터를 수정한다. 그런데 알고리즘 하위층으로 진행될수록 그레이디언트가 점점 작아지는 경우가 많습니다. 경사 하강법이 하위층의 연결 가중치를 변경되지 않은 채로 둔다면 훈련이 좋은 솔루션으로 수렴되지 않을 것이다. 이 문제를 그레이디언트 소실이라고 한다. 반대로 그레이디언트 폭주 문제도 발생하는데 이런 경우는 주로 순환 신경망 RNN에서 발생한다. 초기 머신러닝은 시그모이드 활성화 함수와 평균이 0이고 표준편차가 1인 정규본포로 가중치를 초기화했다. 이 조합을 ..
0204 Cross Validation / Confusion Matrix 성능측정 위 그래프는 loss 관점에서 보는 underfitting과 overfitting을 보여준다. Training loss와 test loss가 함께 감소하는 구간 (underfitting) Training loss는 감소하지만, test loss는 증가하는 구간 (overfitting) 우리의 목적은 머신 러닝 모델을 학습시면서 overfitting이 발생하기 직전에 학습을 멈추는 것이다.(early stopping) 이 목적을 달성하기 위해서 머신러닝에서는 validation set을 이용한다. Validation Dataset validation dataset은 임의로 추가된 게 아니라 training dataset으로부터 추출된 dataset이다. 위 그림은 validation dataset..
0203 Logistic Regression 로지스틱 회귀 회귀 알고리즘은 분류 모델로 사용할 수 있다. 특히 로지스틱 회귀는 샘플이 특정 클래스에 속할 확률을 추정하는데 널리 사용된다. 대표적으로 Binary classifier가 이에 해당된다. 로지스틱 회귀의 작동방식 역시 선형 회귀 모델과 같이 가중치 합을 계산한 다음 편향을 더한다. 다만 선형회귀처럼 결과를 바로 출력하지 않고 결과값의 logistic을 출력한다. 로지스틱 회귀에 사용되는 가장 대표적인 함수가 시그모이드이다. 시그모이드의 수식과 그래프 형태는 아래와 같다. 시그모이드 함수의 특징은 아래와 같다. 로지스틱 함수는 0과 1사이의 값을 출력하는 시그모이드 함수를 사용한다. 시그모이드 함수는 binary classification에 사용된다. t값이 축의 가운데에 있을때는 Line..
0202 Regularized Linear Models 학습 중에 흔히 겪는 문제 중 하나가 바로 과대적합(overfitting)이다. 이번 장에서는 과대적합을 감소시키기 위한 방법 중 하나인 규제에 대해 설명해보려 한다. 선형 회귀 모델에서는 보통 모델의 가중치를 제한하여 규제를 가한다. 대표적인 규제 방법으로는 3가지가 있다. 릿지 회귀 라쏘 회귀 엘라스틱 회귀 릿지회귀 릿지회귀는 규제가 추가된 형태의 선형 회귀이다. 규제항 𝛼∑𝑖=1𝑛𝜃𝑖2 이 Cost함수에 추가가 된다. 이는 학습을 통해 모델을 데이터에 맞추는 것 뿐만 아니라 모델의 가중치가 되도록 보수적으로 유지되도록 한다. 규제항은 가중치 벡터의 L2-norm이다. 규제항의 가중치 알파가 커질수록 분산은 줄지만 편향은 커진다. 모델의 분산과 편향은 trade-off 관계에 있으며 적절히 튜닝을 해..
0201 Regression Model Approximation 근사치는 참값과 비슷한 True value와 비슷한 값을 의미한다. True value를 계산하기 힘들 때 approximation을 사용한다. 대표적으로 반올림이 있다. Interpolation vs Approximation 보간법은 점으로 표현된 데이터를 선으로 잇는 방식으로 값을 예측하는 방법이다. 반면, 근사법은 전체 데이터의 통계에 기반해 가장 높은 확률을 지닌 값을 예측하는 방법이다. 보간법은 이상치에 큰 영향을 받기 때문에, 주어진 데이터의 신뢰도가 높은 경우에 사용한다. 반면에 근사법은 이상치에 Robust하다. Regression 회귀 분석이란 독립변수와 종속변수 간의 관계를 통계적으로 모델링하는 기법이다. 데이터 + 결과값으로 알고리즘을 구한다는 점에서 머신러닝..
딥러닝 01::퍼셉트론에서 손실함수 까지 기계가 알고리즘을 짠다 = 머신러닝 데이터 + 출력 => 과정 지도학습: 데이터 + 라벨 => 판별 가능 비지도학습: 정답이 없다. 라벨이 없다. 유사도 클러스터링(군집화) -> 추천 강화학습: 정답에 대한 지도는 없다. 다만 결과가 0인지 1인지 예측모델 예측 모델은 수식으로 나타낼 수 있다. 선형으로 표현한다면 아래와 같다. y = w1*x1 + w2*x2 + ... + b 인풋(x1, x2, ...)에 가중치(w1, w2, ...)를 곱하고 편향(b)를 더해 아웃풋을 도출할 수 있고 이 아웃풋이 예측 모델의 예측 값다. 학습 학습을 위해서는 우선 실제(input, output)으로 구성된 데이터셋이 필요하다. 앞서 인풋으로 아웃풋을 도출했듯이, 실제 데이터를 모델에 넣으면 예측 값이 나온다. 실제 ..