TigerCow.Door


안녕하세요.

이번 포스팅에서는 Neural Network에서도 가장 재밌고, 꽃이라고 하는 Recurrent Neural Network(RNN)에 대해서 알아보도록 하겠습니다.



1. Sequence(or Series) Data


우리가 사용하는 데이터들 중에서는 sequence data들이 매우 많이 있습니다.

예를 들어, 우리가 이야기하는 자연어에서도 단순히 하나의 단어에 대해서만 이해해서 전체적인 이해를 할 수 있는 것이 아니라, 그전에 이야기했던 단어들을 모두 이해해야 합니다. 이러한 데이터를 sequence data라고 합니다.


이전의 NN이나 CNN등 에서는 하나의 입력, x에 대해서 출력 y를 나타내는 간단한 형태였기 때문에 시리즈 데이터인, x0, x1, ..., xt등의 데이터를 처리하기 힘들었습니다.


그래서 이러한 시리즈 데이터를 처리하기 위해서 다음과 같은 모델이 고안되었습니다.



즉, 입력값에 대해서 현재의 state가 다음의 state에 영향을 미치는 것입니다.

이를 좀 더 펼쳐서 살펴보면 다음과 같습니다.


실제로는 우측과 같이 구현되는데, 위에서 언급한 바와 같이, x0 를 통해 계산된 것이 x1이 계산될때 영향을 미칩니다.

이러한 모델은 시리즈 데이터들을 다루는데 매우 효과적입니다.



2. Recurrent Neural Network


즉, 이러한 모델을 RNN(Recurrent Neural Network)라고 합니다.

이러한 모델은 어떻게 계산하는 것일까요?


RNN에서는 state라는 개념이 존재하는데, state를 계산하기 위해, 그 전에 있던 old state가 사용되고 입력값 x가 사용됩니다.

그리고 여기서 사용되는 함수, f는 전체적으로 동일합니다.


좀 더 구체적으로 값을 계산하는 방법에 대해서 알아보겠습니다.

가장 기초적으로는 Vanilla RNN입니다.


우리가 그동안 다뤘던 WX 와 같은 형태처럼, 입력값 h_(t-1)에 대해서 W_(hh)*h_(t-1)로 계산되고, x_t에 대해서는 W_(xh)*x_t와 같이 계산됩니다. 그리고 sigmoid와 비슷한 tanh에 두 값을 더해서 넣어줍니다.

그리고 결과값 yt에 대해서는 W_(hy)*h_t로 계산합니다.

이때 y가 몇개의 벡터로 나올 것인가는 우리가 설정하는 W에 따라서 결정됩니다.



3. Recurrent Networks



위에서 알아본 RNN은 매우 다양하게 활용될 수 있습니다.

위의 그림을 보시면, 첫번째는 우리가 그동안 다루었던 단순한 Neural Network같은 것으로부터 시작해, Image Captioning에서 이용되는 one to many 형태도 있으며, Sentiment Classification으로써 여러개의 단어를 통해 감정을 예측하는 등으로 활용되는 many to one, 그리고 many to many의 형태가 있습니다.


블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요. 문범우입니다.

지난 포스팅에서 CNN에 대해서 알아보았습니다.

이번 포스팅에서는 이어서, CNN에서의 pooling과 나머지 것들에 대해서 알아보도록 하겠습니다.


1. Pooling



Convolution Neural Network의 전체적인 구조를 위의 그림과 같이 확인해보면, Convolution과 RELU가 붙어져 있으며 중간에 한번씩 POOL을 하게 됩니다.


이때 진행되는 POOL이라는 것이 무엇인가 알아보도록 하겠습니다.


pooling이라는 것을 먼저 간단히 생각해본다면, sampling이라고 생각하면 됩니다.

우리가 입력 이미지에 대해서 위의 그림과 같이 convolution layer를 만드는데, 여기서 하나의 layer만 뽑아내고 이를 resize하는 과정을 pooling이라고 합니다.

복잡한 것이 아니고, 하나의 예를 들어서 pooling을 진행해보도록 하겠습니다.


pooling에서도 많이 사용되는 max pooling은 아래 사진과 같이 진행됩니다.


pooling에서는 우리가 지난 포스팅에서 알아보았던 filter라는 개념이 다시 사용되는데, 위의 사진과 같이, 2x2 형태의 필터를 이용하며, 이때 stride는 2로 설정하였습니다.

그럼 필터에서 어떠한 값을 어떻게 추출할 것인지가 문제가 됩니다.

이때 위에서 말했듯, max pooling을 사용하면 그림의 오른쪽과 같이 나오게 됩니다.


이런식으로 처리하는 것이 pooling입니다.



2. Others



정리를 해보자면, 지난 포스팅에서 배운 Convolution 을 통해 나온 벡터 값을 RELU 함수에 입력하고, 그 과정 중간에 위에서 배운 pooling과정을 진행하여 resize하는 방법을 진행합니다. 물론 layer를 어떻게 설정하느냐는 모델을 만드는 여러분의 몫입니다.

그리고 마지막 과정에서 보통 pooling을 진행하는데, 예를 들어 pooling을 통해 3x3x10의 형태로 결과가 나왔다면 이것을 x 값으로 하여 일반적인 Neural network를 구성하면 됩니다.

블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요. 문범우입니다.

이번포스팅에서는 Convolutional Neural Networks에 대해 알아보도록 하겠습니다.


1. Convolutional Neural Networks


이번 포스팅에서 사용되는 슬라이드는 대부분 위의 사진에 나와 있는 주소에서 가져오게 되었습니다.




우리가 알아볼 Convolutional Neural Networks의 기본적인 개념은 고양이 실험에서 시작되었습니다.


고양이에게 어떤 이미지를 보여줬더니, 그림을 읽어들이는 뉴런들이 동시에 동작하는 것이 아니라, 특정 그림의 특정 부분에 대해서만 동작하는 것을 알게 되었습니다.


즉, 고양이가 이미지의 입력을 나누어서 받아 뉴런에서 나누어진 입력들을 처리하게 된 것이죠.


하나의 레이어씩 어떻게 처리되는지 조금 더 자세히 살펴보도록 하겠습니다.


위와 같이 32x32x3 형태의 이미지(또는 벡터)가 존재합니다.

이때 32x32는 크기라고 가정하고, 3은 이미지의 색상의 종류라고 생각해보겠습니다.

그리고 위에서 이야기했던 것과 같이 이미지에 대해 전체적으로 처리하는 것이 아니라, 아래와 같이 빨간색 부분과 같이 일부분을 처리합니다.


이러한 일부분을 우리는 filter라고 부르는데 이 필터의 형태는 우리가 정할 수 있습니다. 예외적으로 이미지의 대한 색의 종류, 3은 고정시키고 단순히 크기에 대한 형태만 우리가 지정할 수 있습니다.

그럼 이 필터는 전체 이미지의 5x5의 영역만 읽어들이게 됩니다.

그리고 그 영역을 읽어서 하나의 숫자를 뽑아내게 됩니다.

이것이 필터의 역할입니다.

근데 이것을 어떻게 하나의 값으로 만들어낼 수 있을까요?

그것은, 위의 사진에서 나온것과 같이 우리가 자주 사용하던 Wx+b 의 형태를 이용해서 하나의 값을 뽑아냅니다.

그리고 여기서 W는 우리가 어떤 영역에 대해서 하나의 숫자를 만들어내는데 사용되는 필터의 값이라고 생각하면 되겠습니다.

그리고 이렇게 결정된 W에 대해서 변하지 않도록 고정하고 전체의 이미지를 훑도록 합니다. 즉 아래와 같이 하나의 필터가 전체의 이미지를 스캔합니다.

위의 그림에서 빨간색, 파란색, 초록색 테두리를 가진 것과 같이 하나의 필터를 한칸 또는 그 이상씩 이동시키며 전체 이미지를 확인합니다.


그럼 위의 그림을 예시로 생각해보면 전체 9x9 의 형태에서 3x3 형태의 필터를 사용하는데 위와 같이 한칸씩 움직이면서 하나의 값을 뽑아내게 되면 뽑아낸 값들은 어떤 형태를 가지게 될까요?

결과값들은 7x7 형태를 가지게 될 것입니다.

이때 우리가 한칸씩 필터를 움직이게 됬는데, 이때 움직이는 크기를 stride라고 합니다. 즉, stride를 2로 설정해보면 아래와 같이 2칸씩 필터가 움직이면서 전체 이미지를 읽게됩니다.



그리고 위와 같이 stride를 2로 설정한다면, 전체 결과의 형태는 4x4 형태를 가지게 될 것입니다.


이를 전반적으로 살펴보면, 우리가 NxN형태의 이미지에서 FxF형태의 필터를 이용했을때 stride 설정하면 위와 같은 식으로 output size를 알아낼 수 있습니다.

그리고 위의 사진에서 stride 를 3으로 설정했을때와 같이 정수로 나누어 떨어지지 않을때는 그 필터의 형태나 stride를 사용할 수 없는 것 입니다.


그런데, 이렇게 사용하게 되면 기본 이미지보다 output 의 size가 작아지면서 어떤 정보가 사라지는 등의 문제가 발생할 수 있습니다.

이를 막기 위해서 우리가 사용하는 방법은 padding이라는 개념입니다.



위의 사진과 같이 기본이미지의 모서리에 0이라는 값으로 채워주는 것을 padding 이라고 합니다.

이렇게 하는 이유는, 이미지의 형태가 급격하게 작아지는 것을 막기 위한 이유와, 이미지의 모서리임을 알려주는 이유 두가지가 있습니다.


위의 사진에서 pad를 1 pixel로 설정하여 output size를 확인해보면 7x7 이 나오게 됩니다. 즉 입력 이미지와 출력 이미지의 size가 같게 됩니다.


지금까지 알아본 것이 기본적으로 하나의 Convolution layer를 만드는 방법입니다.


그리고 이러한 방법을 이용하여 위의 사진과 같이 여러개의 레이어를 만듭니다. 이때 새롭게 이용되는 filter는 이전의 filter와 W의 값이 다를 것 입니다.



그리고 이것을 한개, 두개의 레이어만 만들 것이 아니라 위와 같이 여러개의 레이어를 만듭니다. 그리고 각 레이어의 W값이 다르기 때문에 각 레이어의 값이 서로 다를 것입니다.

그리고 이렇게 만들어진 레이어들의 형태, (?, ?, ?)에서 마지막 세번째 값을 그 레이어의 숫자가 됩니다.


즉 여러개의 레이어를 만들면서 그 결과를 통해 또 다른 레이어를 만들면서 위와 같은 Convolution layers를 만들 수 있습니다.


블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요. 문범우입니다.

이번 포스팅에서는 dropout과 model ensemble에 대해서 살펴보도록 하겠습니다.



1. Dropout


우리가 dropout을 하는 이유는 바로 아래와 같은 overfitting 때문입니다.



우리가 과거에 알아봤던 것처럼, 훈련 data에 있어서는 100%의 accuracy를 내지만, 실제로 test data에 있어서는 높은 예측율을 내지 못하게 되는 현상이죠.



위와 같이, 파란색 그래프, training 에서는 에러율이 점점 낮아지지만, 실제로 빨간색 그래프처럼 test data를 통해 확인해보니 어느 시점부터 에러율이 더 증가하게 됩니다.


이러한 overfitting은 우리가 더 깊게 만들수록 일어날 확률이 커집니다.

왜냐하면 더 깊어질수록 더 많은 변수가 생기기 때문입니다.


그럼 이를 해결하기 위해서는 무슨 방법이 있을까요?


첫번째로는, 더 많은 데이터를 훈련시키는 것입니다.

또는 feature를 줄여주는 방법도 있을 것입니다.

그리고 우리가 예전에 간단히 알아봤던, Regularization 이라는 방법이 있습니다.



우리가 예전에 알아봤던 것처럼, 위의 식과 같이 처리함으로써 Regularization을 하는 L2regularization도 있습니다.


그리고 Neural Network에서는 또다른, dropout이라는 방법이 있습니다.

dropout이란 쉽게 말해서, 위 그림에서 왼쪽 그림과 같은 모델에서 몇개의 연결을 끊어서, 즉 몇개의 노드를 죽이고 남은 노드들을 통해서만 훈련을 하는 것입니다.

이때 죽이는, 쉬게하는 노드들을 랜덤하게 선택합니다.




쉽게 말해 각 노드들을 어떤 전문가라고 생각해본다면 랜덤하게 몇명은 쉬게하고 나머지만 일하게 합니다. 

그리고 마지막에는 모든 전문가들을 총 동원해서 예측을 하게 합니다.


이러한 아이디어가 dropout 입니다.


실제로 텐서플로우에서 구현하기에도 어렵지 않게 가능합니다.

우리가 원래 만들었던 layer를 dropout함수에 넣어서, 몇 퍼센트의 노드가 일하게 할 것인지 함께 적어줍니다.

위의 코드를 보면 Train에서는 0.7, 즉 70%의 노드들이 랜덤하게 훈련되게 하였습니다.

그리고 실수하면 안되는 점이 Evaluation 과정에서는 dropout_rate를 1로 함으로써 100%의 노드들을 참가시키도록 해야 합니다.



2. Ensemble



우리가 추후, 학습시킬 수 있는 장비가 많을때 사용할 수 있는 또 하나의 방법도 있습니다.

Ensemble이라고 하는 것인데, 위와 같이 여러개의 독립적인 모델을 만듭니다. 이때 훈련 데이터셋은 별도로 해도 되고, 모두 같은 훈련 데이터셋을 이용해도 상관 없습니다.

이때 각 모델의 초기값이 서로 다르기때문에 결과도 약간씩 다를 것입니다.

그리고 이후에 독립적인 모델들을 모두 합쳐서 한번에 예측을 하게 합니다.

즉, 이것은 전문가 한명에게 어떤 질문을 하는 것이 아니고 서로 독립적인 전문가 다수를 모아두고 질문을 하는 것과 같습니다.


실제로 Ensembel을 이용하면 2%~5%까지도 예측율이 올라간다고 합니다.


블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요. 문범우입니다.

이번에는 지난 포스팅에 이어서 딥러닝을 잘하는 방법 중 weight의 초기값을 설정하는 방법에 대해서 알아보도록 하겠습니다.



1. RBM(Restricted Belief Machine)


우리가 지난 포스팅에서 위의 그림과 같은 Vanishing gradient 문제에 대해서 알아보았습니다.

그리고 이 문제에 대해서는 Hilton 교수님께서는 4가지 이유를 꼬집었습니다.


위의 4가지 항목중 제일 아래에 있는 것은 우리가 지난 포스팅에서 sigmoid함수 대신, ReLU함수를 사용함으로써 해결할 수 있었습니다.

하지만 하이라이트 된 것과 같이 또 다른 문제도 있었습니다.


이전의 테스트에서도 아래와 같이, 같은 ReLU함수를 사용했음해도 불구하고 cost가 초반에 다르게 변화하는 것을 볼 수 있습니다.


이러한 현상이 발생하는 이유는 우리가 테스트를 할때, 초기값을 랜덤하게 지정해서 발생한 현상입니다.


그럼, 이런 초기값에 대해서 좀 더 자세히 살펴보도록 하겠습니다.

단적으로 초기값을 0으로 설정해보면 어떨까요?

그럼, 위와 같은 그림에서 W를 0으로 둔것이고, 이것이 chain rule에서 사용됩니다. 그럼 x = df/dg * W 이므로 x = 0이 되고, 그 앞에 있는 것들도 모두 0이되면서 gradient가 사라져 버립니다.


따라서, 절대로 초기값으로 0을 주면 안된다는 것을 알 수 있습니다.

그럼 초기값을 어떻게 주어져야 할까요?


이에 대해 2006년 Hilton교수님께서 논문을 쓰시면서 RBM(Restricted Boatman Machine)을 사용함으로써 해결하게 됩니다.

그리고 이러한 RBM을 사용한 네트워크를 DBN(Deep Belief Networks)라고 합니다.


어떻게 동작되는 것 일까요?


먼저, 입력을 재생산 해냅니다.


위의 그림과 같이, 입력값을 weight와 곱해서 b값을 얻어냅니다. 또한 b 유닛아래에 있는 것들에 대해서도 같은 방법을 통해서 값을 얻습니다. 이러한 과정을 Forward 라고 합니다.



그리고, Backward 방법으로, 우리가 얻은 값들과 weight를 통해 위의 그림에서의 b 값을 얻습니다.

그럼 우리가 처음에 입력한 값을 x라고 한다면, x와 b의 값의 차이가 존재할텐데 이 차이가 최소가 될 때까지 weight를 조절합니다.


이렇게 해서 weight를 구하는 것을 RBM이라고 합니다.

그리고 위와 같은 방법을 encoder/decoder라고도 합니다.


실제로 이것을 네트워크 상에서 적용시키기 위해서는 아래와 같은 과정을 가집니다.

여러개의 레이어가 있을때, 입력값 측의 레이어부터 시작하여 layer 1과 layer 2를 encoder/decoder를 수행하고, 이후에 layer2 와 layer3에 대해 수행하며 끝까지 나아가는 방법입니다.


이제 이러한 과정을 통해 각 weight를 구할 수 있고, 그것을 학습시킨다, training한다는 표현보다는 fine tunning 이라는 표현을 사용합니다.

학습하는 것보다 훨씬 더 빨리 진행되는 작업이기 때문이죠.

이러한 fine tunning이 끝나게 되면 이후 우리가 학습시키고자 하는 데이터들에 대해서 label을 붙여서 실제로 training을 진행합니다.



2. Xavier initalize




그런데 실제로 이것을 구현하는데 있어서는 복잡한 과정이 있을 수 있습니다.

하지만 좋은 소식은, 2010년에 발표된 논문에서 우리가 굳이 RBM을 쓰지 않아도, 좋은 초기값을 얻을 수 있다는 Xavier initialize라는 알고리즘이 나왔습니다.


이는 입력의 노드의 개수에 비례해서 초기값을 세팅하면 된다는 식의 알고리즘 입니다.


이를 식으로 간단히 살펴보면, 우리가 좋은 값, 좋은 weight를 얻기 위해서 입력값의 개수 fan_in 과 출력 값의 개수 fan_out을 이용하여 초기값을 주는 것입니다. 이러한 식을 통해 어쩌면 RBM보다 더 좋은 결과를 가질 수 있다고 합니다.


블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요. 문범우입니다.

오늘은 ReLU(Rectified Linear Unit)에 대해서 알아보겠습니다.



1. NN for XOR


우리가 지난 시간에 XOR문제를 위와 같은 모델로 하여 풀이를 진행해보았습니다.

실제로 텐서플로우를 이용하여 구현해보기도 하였습니다.

그때 각 유닛의 결과에 우리가 Sigmoid 함수를 붙여서 결과값이 0~1이내로 출력되게 했었습니다.



이러한 Sigmoid함수를 activation function 이라고 합니다.

각 모델들에게 어떤 값을 보내게 될 때 일정값 이상이면 active되게 하고 그렇지 않으면 active하지 않게 하기 때문에 주로 그렇게 불린다고 합니다.


그리고 우리는 아래와 같이 각각의 W, b를 만들고 layer를 이용하여 2단의 네트워크를 만들었습니다.


그럼 3단을 가진 네트워크는 어떻게 할까요?

당연히 2단때와 같이, 쉽게 구현할 수 있습니다.

이때, 제일 처음이 layer를 input layer라고 부르며, 가장 바깥쪽(마지막)에 있는 layer를 output layer라고 부릅니다. 그리고 그 사이에 있는 layer들을 hidden layer라고 합니다.


그럼 더 깊게 한번 만들어볼까요?

hidden layer가 9단이 되게끔 구현해보도록 하겠습니다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
W0 = tf.Variable(tf.random_uniform([2,5], -1.01.0), name = 'weight0')
 
W1 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight1')
W2 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight2')
W3 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight3')
W4 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight4')
W5 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight5')
W6 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight6')
W7 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight7')
W8 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight8')
W9 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight9')
 
W10 = tf.Variable(tf.random_uniform([5,1], -1.01.0), name = 'weight10')
 
b0 = tf.Variable(tf.zeros([5]), name = 'bias0')
 
b1 = tf.Variable(tf.zeros([5]), name = 'bias1')
b2 = tf.Variable(tf.zeros([5]), name = 'bias2')
b3 = tf.Variable(tf.zeros([5]), name = 'bias3')
b4 = tf.Variable(tf.zeros([5]), name = 'bias4')
b5 = tf.Variable(tf.zeros([5]), name = 'bias5')
b6 = tf.Variable(tf.zeros([5]), name = 'bias6')
b7 = tf.Variable(tf.zeros([5]), name = 'bias7')
b8 = tf.Variable(tf.zeros([5]), name = 'bias8')
b9 = tf.Variable(tf.zeros([5]), name = 'bias9')
 
b10 = tf.Variable(tf.zeros([5]), name = 'bias10')
 
L1 = tf.sigmoid(tf.matmul(X, W0) + b0)
L2 = tf.sigmoid(tf.matmul(L1, W1) + b1)
L3 = tf.sigmoid(tf.matmul(L2, W2) + b2)
L4 = tf.sigmoid(tf.matmul(L3, W3) + b3)
L5 = tf.sigmoid(tf.matmul(L4, W4) + b4)
L6 = tf.sigmoid(tf.matmul(L5, W5) + b5)
L7 = tf.sigmoid(tf.matmul(L6, W6) + b6)
L8 = tf.sigmoid(tf.matmul(L7, W7) + b7)
L9 = tf.sigmoid(tf.matmul(L8, W8) + b8)
L10 = tf.sigmoid(tf.matmul(L9, W9) + b9)
 
hypothesis = tf.sigmoid(tf.matmul(L10, W10) + b10)
cs


위와 같이 hidden layer가 총 9단이 되도록 구현해보았습니다.

그리고 텐서보드를 이용하기 위해서는 추가적으로 name_scope를 사용하면 됩니다.


그리고 이러한 모델을 실제로 훈련시키고 결과를 확인해보면 다음과 같습니다.

Accuracy 가 0.5가 나왔습니다.

왜그럴까요?

우리가 지난번에 했을때보다 더 깊고, 더 넓게 훈련을 시켰는데 오히려 더 좋지 않은 결과가 나와버렸습니다.



2. Vanishing Gradient


우리가 지난 시간에 알아본, backpropagation에 대해서 다시한번 살펴보도록 하겠습니다.


우리가 위와 같은 구조를 공부했었는데, 이때 backpropagation에서 chain rule을 사용한다고 했었습니다.

지난 포스트에서 알아본것에 따르면, 빨간 동그라미, dg/dx = y의 값을 갖게되고 이에 따라 df/dx = df/dg * dg/dx = df/dg * y 가 됩니다.

근데 이때 y가 어떤 값을 가질지 한번 살펴볼까요?

y가 input layer가 아니었다면, 다른 유닛에 통과하고 sigmoid 함수를 통과했을 것입니다. 그럼 우리가 정확한 y의 값을 알지는 못해도 sigmoid 함수의 특성때문에 0~1사이의 값을 갖는다고 생각할 수 있습니다.

그럼 이때 y의 값이 예를 들어 0.01정도라고 생각해보겠습니다.

이렇게 된다면, 다시 올라가서 df/dx = df/dg * 0.01 이 됩니다.


이렇게 되는 것의 단점이 무엇이냐면, 결국에 값들이 sigmoid 함수를 지나게 되면서 그 값이 1보다 작게 되며 경우에 따라서는 굉장히 0에 가까운 값들이 계속 곱해지게 됩니다.

그러면 결국적으로 굉장히 작은 값을 갖게 됩니다.


즉, 그렇게 되면 결과 단에서 점점 깊어질 수록 그 영향을 찾기 힘들다, 예측하기 힘들다라는 결론을 가져오게 됩니다.

이런 현상을 Vanishing gradient 라고 합니다.



3. Rectified Linear Unit, ReLU


그리고 Hilton 교수님은, 이러한 현상에 있어서 sigmoid가 잘못되었다라는 것을 찾게되었습니다.

sigmoid함수 때문에 1보다 큰 값을 가지지 못하게 되었고, 이로 인해 layer가 깊어지면서 오히려 그 값이 작아져 영향을 찾기 힘들어지기 때문입니다.

그리고 새롭게 생각한 함수가 ReLu, Rectified Linear Unit 입니다


ReLU 함수는 단순합니다. 입력값이 0보다 작을 때는 아예 non-activate로 꺼버리고, 0보다 클때에는 그 값을 그대로 반환합니다.


이러한 ReLU를 사용하는 방법도 매우 간단합니다.

단순히 우리가 sigmoid를 사용하던 곳에 대신 ReLU를 사용하면 됩니다.

물론 텐서플로우에서도 위와 같이 매우 간단하게 사용할 수 있습니다.


실제로 우리가 위에서 제대로 값을 얻지못한 9단 hidden layer를 가진 모델에서 sigmoid 대신 ReLU를 사용하면 다음과 같은 cost를 가지게 됩니다.


ReLU를 여러번 돌리면서 약간의 차이는 존재하지만, sigmoid에 비해서는 훨씬 더 올바른 학습을 가지는 것을 볼 수 있습니다.

물론, layer에서 제일 마지막에선 sigmoid함수를 사용하여 결과 값이 0~1 사이로 나오게끔 해야합니다.


오늘 우리가 알아본 ReLU 이외에도 아래와 같이 다양한 activation function이 있습니다.



블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요.

이번 포스팅에서는 우리가 딥러닝 이론에서 배웠던 XOR 문제를 텐서플로우로 해결해보도록 하겠습니다.

이론적인 부분은 아래 글에서 설명드렸기에, 코드에 대한 이야기를 주로 할 것 같습니다. 딥러닝에 대한 기본적인 이론이기에 잘 이해가 안되시는 분들은 아래 글을 참고해주세요.


딥러닝(DeepLearning) #1_ 딥러닝의 시작



1. XOR data set


먼저 XOR이 어떤건지 간단히 살펴보겠습니다.



XOR은 위에서 가운데에 있는 심볼로 나타냅니다. 그리고 우리에게 필요한 데이터, truth table은 그 오른쪽 표와 같이 나와있습니다. 두 개의 input이 입력되고, input값이 서로 같을 때는 0을 출력하고, input값이 서로 다를 때는 1을 출력합니다.


이것을 텐서플로우에서 데이터로 입력해본다면 아래와 같은 코드로 입력됩니다.


1
2
x_data = np.array([[0,0], [0,1], [1,0], [1,1]], dtype=np.float32)
y_data = np.array([[0],   [1],   [1],   [0]], dtype=np.float32)
cs



2. XOR with Logistic Regression

그럼 이제 전체 모델에 대한 코드를 작성해보겠습니다.
이때, 다시 한번 y, 출력 데이터를 살펴보면 단순히 0 또는 1로만 이루어지기 때문에 우리가 굳이 softmax classifier 등과 같은 알고리즘을 사용할 필요 없이 단순히 logistic regression을 이용하면 됩니다.

지난 실습들에서 구현했던 방식과 마찬가지로 구현해본다면 아래와 같이 코드가 구현됩니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
import tensorflow as tf
import numpy as np
 
x_data = np.array([[0,0], [0,1], [1,0], [1,1]], dtype=np.float32)
y_data = np.array([[0],   [1],   [1],   [0]], dtype=np.float32)
 
= tf.placeholder(tf.float32)
= tf.placeholder(tf.float32)
= tf.Variable(tf.random_normal([2,1]), name = "weight")
= tf.Variable(tf.random_normal([1]), name = "bias")
 
# hypothesis: sigmoid(X * W + b)
hypothesis = tf.sigmoid(tf.matmul(X, W) + b)
 
# cost function / minimize cost
cost = -tf.reduce_mean(Y * tf.log(hypothesis) + (1 - Y) * tf.log(1 - hypothesis))
train = tf.train.GradientDescentOptimizer(learning_rate=0.1).minimize(cost)
 
# predicate / accuracy
predicated = tf.cast(hypothesis > 0.5, dtype=tf.float32)
accuracy = tf.reduce_mean(tf.cast(tf.equal(predicated, Y), dtype=tf.float32))
 
#
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for step in range(10001):
        sess.run(train, feed_dict={X: x_data, Y: y_data})
        if step%100 == 0:
            print(step, sess.run(cost, feed_dict={X: x_data, Y: y_data}), sess.run(W))
    h, c, a = sess.run([hypothesis, predicated, accuracy], feed_dict={X: x_data, Y: y_data})
    print("\nHypothesis: ",h,"\nCorrect: ",c,"\nAccuracy: ",a)
 
cs

그리고 이를 실행시켜 결과를 확인해보면 아래와 같은 결과가 나옵니다.



결과에서 무언가 이상함을 느끼셨나요?

Accuracy가 0.5라는 값으로 출력되었습니다.


하지만 이는 이상한 것이 아닙니다.

우리가 이론시간에서 알아보았듯이, 하나의 node로, 그래프에서 생각해본다면 linear한 직선하나로 XOR 문제를 푸는 것은 불가능 하다고 했었죠.


그래서 우리는 layer라는 개념을 통해 여러개의 모델을 사용하고 이를 연결하는 방법을 배웠습니다. 그럼 그러한 방법으로 다시 시도해보도록 하겠습니다.



3. XOR with Neural Network

오히려 텐서플로우에서 layer라는 것을 이용하는 것은 어렵지 않게 느껴집니다.
단순히 우리가 하나로 만들었던 것을 쪼갠다고 생각하시면 됩니다.

전체적인 코드를 보면 아래와 같습니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
import tensorflow as tf
import numpy as np
 
x_data = np.array([[0,0], [0,1], [1,0], [1,1]], dtype=np.float32)
y_data = np.array([[0],   [1],   [1],   [0]], dtype=np.float32)
 
= tf.placeholder(tf.float32)
= tf.placeholder(tf.float32)
 
# W = tf.Variable(tf.random_normal([2,1]), name = "weight")
# b = tf.Variable(tf.random_normal([1]), name = "bias")
# hypothesis = tf.sigmoid(tf.matmul(X, W) + b)
 
W1 = tf.Variable(tf.random_normal([2,2]), name="weight1")
b1 = tf.Variable(tf.random_normal([2]), name="bias1")
layer1 = tf.sigmoid(tf.matmul(X, W1) + b1)
 
W2 = tf.Variable(tf.random_normal([2,1]), name="weight2")
b2 = tf.Variable(tf.random_normal([1]), name="bias2")
hypothesis = tf.sigmoid(tf.matmul(layer1, W2) + b2)
 
# cost function / minimize cost
cost = -tf.reduce_mean(Y * tf.log(hypothesis) + (1 - Y) * tf.log(1 - hypothesis))
train = tf.train.GradientDescentOptimizer(learning_rate=0.1).minimize(cost)
 
# predicate / accuracy
predicated = tf.cast(hypothesis > 0.5, dtype=tf.float32)
accuracy = tf.reduce_mean(tf.cast(tf.equal(predicated, Y), dtype=tf.float32))
 
#
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for step in range(10001):
        sess.run(train, feed_dict={X: x_data, Y: y_data})
        if step%1000 == 0:
            print(step, sess.run(cost, feed_dict={X: x_data, Y: y_data}), sess.run([W1, W2]))
    h, c, a = sess.run([hypothesis, predicated, accuracy], feed_dict={X: x_data, Y: y_data})
    print("\nHypothesis: ",h,"\nCorrect: ",c,"\nAccuracy: ",a)
 
cs

14~20번 코드를 보시면, 이전에는 하나의 W, b로 hypothesis를 구해내는, 하나의 모델을 이용하는 방법이었는데 이번에는 2개로 나누어서 진행하였습니다.

그리고 결과를 확인해보면 아래와 같습니다.


처음에 나왔던 결과와 다르게, 모델이 제대로 훈련되어 Accuracy 값으로 1이 출력되었습니다.



4. Wide Neural Network

그럼, 우리가 보다 정확하게 예측할수 있는 방법은 무엇이 있을까요?
잠깐, 방금 작성했던 코드를 살펴보겠습니다.


위의 코드에서 빨간색 줄 그어져 있는 부분을 보겠습니다.

처음의 [2,2] 는 x의 입력이 2개이기 때문에 앞의 숫자 2가 나오고, 뒤의 숫자2는 임의로 출력을 2개로 한 것입니다.

그리고 b1에 있는 [2]는 W1에서 출력을 2로 했으므로 같이 맞춰주는 것입니다.


그리고 아래의 [2,1] 에서는 위에서 출력한 2개를 입력으로 받기 때문에 앞의 숫자2가 나오고, 우리가 최종적으로 출력하는 Y는 1개의 출력값을 가지므로 1, 한개로 출력하고 b2도 이와 함께 맞추어 준 것입니다.


즉, 이것을 그림으로 나타내면 아래와 같습니다.



그럼 다시 돌아와서, 우리가 보다 더 정확하게 예측할 수 있는 방법 중에 하나는, 위에 그림에서 두개의 모델 사이의 연결선을 증가시키는 방법입니다.


즉, 그림으로 생각하면 다음과 같이 되겠으며


코드로는 다음과 같이 구현이 되겠습니다.



그리고 이러한 변화를 결과로 확인해보면 다음과 같습니다.



모델을 보다 더 Wide 하기전과 비교해본다면, hypothsis의 작은 값은 더 작게, 큰 값은 더 크게 되는 것을 확인하실 수 있습니다.



5. Deep Neural Network


예측율을 높이는 다른 방법은 layer를 더 깊게 만드는 것입니다.


코드로 보면 아래와 같이, 단순하게 layer를 총 4개 사용하였습니다.



그리고 그 결과는 역시, 처음보다 더 좋은 예측율을 보여줍니다.




블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc



안녕하세요. 문범우입니다.

이번 포스팅에서는 Backpropagation에 대해서 알아보겠습니다.

지난 포스팅에서 XOR문제를 풀어보았는데, 정확하게 W나 b에 대한 값을 구하지는 못하였습니다. 그럼 이런 상황에서 어떻게 W와 b를 구하는지, 정확하게는 backpropagation이 어떻게 사용되는 것인지 알아보도록 하겠습니다.



1. Intro


먼저, 우리가 어떻게 W나 b와 같은 값을 구할 수 있을까요?

우리가 그동안 다루어 보았던 Gradient의 개념을 이용합니다.

우리는 보통 결과로 나오는 Y값을 통해 Cost함수를 정의하였습니다.

그리고 위와 같은 그래프형태로 나타날때, W가 어떤 초기값으로 시작하는지에 상관없이 그 점에서의 기울기를 이용하여 global minimum을 찾을 수 있었습니다.

즉, 이것을 구현하기 위해서는 특정 위치에서의 미분값을 필요로 합니다.


그런데 이것이 Neural Network로 가면서 복잡해지기 시작합니다. 


위와 같이 노드들이 한두개가 아니고, 각 노드에도 우리가 저번에 사용했듯이 sigmoid함수를 사용하는 등의 상황이 있었기 때문입니다.

여기서 미분값을 구한다는 것은 입력값 X이 결과 값 Y에 끼치는 영향을 알아야 한다는 것입니다. 그런데 단순히 입력값 X 뿐아니라, 각각의 노드들에 대해서도 구해야 각 노드들에 대한 W와 b값을 구할 수 있게됩니다.


그리고 이것은 1969년에 Minsky교수님께서 아무도 이것을 구할 수 없다라고 하실만큼 복잡한 과정이 되어버립니다.



2. Backpropagation


그런데 그러한 문제를 Backpropagation으로 해결하게 되었습니다.

Backpropagation은 그 이름에서도 알 수 있듯이, 우리가 forward로 진행하여 얻은 결과값과 실제값을 비교하여 얻은 error, 즉 cost를 통해 다시 뒤로 돌아가는 과정(backward)을 통해 어떻게 무엇을 설정해야 하는지 알아내겠다라는 개념입니다.


그럼 간단한 예제를 통해 실제로 Backpropagation이 어떻게 작동되는지 살펴보도록 하겠습니다.


위와 같이 정의된 f, g가 있습니다.

그리고 이제 여기서 알고자 하는 것은 w가 f에 미치는 영향, x가 f에게 미치는 영향, b가 f에게 미치는 영향입니다.

즉 알고자 하는 것을 그래프에 표시해본다면 아래와 같습니다.



그럼 이제 각각의 값들을 알기 위해 아래와 같은 과정을 진행합니다.


 1. forward(w = -2, x = 5, b = 3)

 2. backward 


1번 과정은 우리가 학습 데이터에서 값을 가져오는 과정이고 그리고 그 후 2번과정을 통해 실제 미분값을 구해보도록 합니다.


1번에서 주어진 데이터를 입력해본다면, g = -10, f = -7의 값을 가지게 됩니다.

그리고 우리가 처음에 정의한 식들을 편미분하여 아래와 같은 결과를 얻을 수 있습니다.

이렇게 정리가 되면 벌써 b가 f에 미치는 영향을 알 수 있게 됩니다.

df/db = 1 이기 때문이죠.


그리고 이어서 나머지 두 값을 얻기 위해, 먼저 g가 f에 미치는 영향을 생각해보면 df/dg = 1 이라는 식이 있기 때문에 이도 쉽게 구할 수 있습니다.


따라서 w가 f에 미치는 영향을 구해봅니다.

df/dw를 구하는 것인데 이때 chain rule을 이용합니다.

즉, df/dw = df/dg * dg/dw 와 같이 생각합니다.

그런데 이렇게 두고보니 df/dg와 dg/dw 두 값모두 알고 있습니다.

df/dg = 1, dg/dw = x = 5 이므로, df/dw = 1 * 5 = 5가 됩니다.


동일한 방식으로, x가 f에 미치는 영향, df/dx를 구해보면 아래의 식과 같습니다.

df/dx = df/dg * dg/dx = 1 * w = 1 * (-2) = -2


이렇게 구할 수 있습니다.


즉, 우리가 지금 간단한 예제로 진행해보았지만 실제로 더 복잡한 모델에서도 위와 같이 뒤에서부터 하나씩 순서대로 계산하면 매우 간단하게 w와 b등과 같은 값을 구할 수 있습니다.


또한 우리가 사용했던 sigmoid도 위와 같은 방법을 적용시킬 수 있습니다.

위의 그래프와 같이 g값을 이용하여 1/x에 대한 미분값을 얻고, 그 값과 +1 자체의 미분값을 구합니다. 그리고 같은 과정을 반복하면서 앞쪽으로 나아가면 됩니다.



이러한 방법을 통해 아래 그림과 같이 매우 복잡한 모델에 대해서도 기계적이고 반복적인 계산을 통해 미분값, 기울기를 구할 수 있습니다.



블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc



안녕하세요. 문범우입니다.

이번 포스팅에서는 딥러닝의 기본 개념으로써 딥러닝의 시작과 XOR문제, 그리고 '딥'의 출현에 대해서 이야기 해보도록 하겠습니다.



1. 딥러닝의 시작



많은 과학자들은 인간이 고민하고 어려워 하는 문제들에 대해서 기계가 해결시켜주기를 바랬습니다.

그리고 그 시작으로 먼저 인간의 뇌를 분석하기 시작했습니다.



그리고 분석된 뇌에 대해서 수학적으로 식을 세우고, 풀어냈습니다.


이를 간단히 하여 위와 같은 그림으로 나타내게 되었습니다.

지난 포스팅들에서도 확인했던 그림들입니다.

그리고 이러한 구조를 직접 하드웨어를 통해 만들기도 하였습니다.

57년도에 Frank 박사님께서 하드웨어로써 이를 구성하기도 하면서 많은 사람들이 이에 대한 꿈을 꾸기 시작했습니다.

그리고 58년도에 NewYork Times에는 이러한 기계들이 스스로 학습하며 보고, 듣고, 말하고, 심지어 스스로를 인지한다는 말까지 하게 되었습니다.

이러한 상황은 역시나 많은 사람들의 관심을 갖게되는 시작이 되었습니다.


그 시작으로 x1과 x2에 대해서 AND와 OR에 대한 답을 내는 문제를 풀기 시작했습니다.

그리고 그 문제들을 풀면서 굉장한 희망을 갖게되었지만,

다시 한번 좌절을 겪게 되는 문제가 있었습니다.


그 문제는, 매우 간단하지만 이전과 다른 XOR문제 이었습니다.

즉, 그전의 AND와 OR문제에 대해서는 linear하게 선을 그어서 문제를 해결할 수 있었지만 XOR문제에 있어서는 어떤 linear한 선을 그어도 그 정확도가 매우 낮을 수 밖에 없었습니다.

그리고 69년도에 MIT AI lab에 있었던 Minsky교수는 이를 수학적으로 풀 수 없는 문제임을 증명합니다. 동시에 MLP(Multilayer perceptrons, Multilayer neural nets) 이 필요하지만 각각의 layer에 대해서 아무도 학습시킬 수 없다고 이야기합니다.


그리고 74년도, Paul Werbos 박사님과 86년도 Hinton 박사님에 의해서Backpropagation 이라는 개념이 등장면서 XOR을 포함한 더 복잡한 문제들을 해결할 수 있게 되었습니다.

또한 LeKun 박사님에 의해서 Convolution Neural Networks 라는 알고리즘이 개발되기도 하였습니다.




기존에는 forward 방식으로 학습을 진행하는 방식이었는데 이러한 방법에서는 앞에서 부터 에러를 수정하는 등의 방법이 어려웠지만 Backpropagation 에서는 에러를 검출하고 그곳에서 부터, 즉 backward 방식으로 에러를 수정하는 알고리즘입니다.



그리고 Convolutional Neural Networks 란 어떤 이미지에 대해서 한번에 인식하게끔 하는 것이 아니라, 부분부분으로 나눠서 이를 학습하고 나중에 합치는 방법입니다.

우리가 흔히 알고있는 '알파고' 또한 이러한 방식의 AI입니다.


그렇지만, 95년도에 다시 한번 큰 문제에 부딪히게 됩니다.



그 동안 진행했던 Backpropagation 은 간단한 문제들을 해결 할 수 있었지만, 우리가 실질적으로 해결하고자 하는 복잡한 문제들에 대해서는 앞에서 발생한 에러를 뒤로 보내다 보니 이 에러의 신호가 너무 약해져 뒤에 가서는 무의미해지게 됩니다. 즉, 복잡한 문제에 대한 훈련을 할 수록 성능이 더 떨어지게 됩니다.

또한 LeKun 교수님께서도 오히려 다른, 랜덤 방식의 알고리즘들이 더 성능이 좋다고 하면서 다시한번 AI분야에 대한 열기가 식게 되었습니다.



2. CIFAR 와 '딥'의 출현



이러한 찬바람 속에서 등장한 단체가 있었습니다.

바로 CIFAR 라는 캐나다에 위치한 단체인데, 이 단체는 당장 지금 돈이 되지 않아도 연구를 하라는 등의 지원을 했습니다.

그리고 Hinton 교수님은 이 단체가 위치한 캐나다로 이주하게 됩니다.



그리고 마침내 2006년, 2007년에 Hinton 교수님과 Bengio 교수님의 논문들을 통해 큰 돌파구가 생기게 됩니다.

그 전에는 우리가 매우 '딥'한 문제들에 대해서 학습을 시키는데 문제가 발생했는데 2006년 논문에서, 우리가 이러한 문제들이 생기는 이유는 초기값을 제대로 설정하지 못해서라고 이야기를 합니다.

그리고 2007년에는 그 초기값문제가 맞으며 한걸음 더 나아가 깊은 '딥'한 문제를 풀수 있음을 보여주게 됩니다.

그리고 이때, Neural Nets 가 아닌, 새로운 이름 Deep Nets, Deep Learning 으로 새로운 시작을 하게 됩니다.



그리고 실제로 더 주목을 받게되는 계기는 ImageNET이라는, 이미지를 보고 컴퓨터가 무엇인지 맞추는 문제에서 입니다.

그 전에는 매년 1~2%의 오차율을 감소시키며 2011년 기준으로 약 26%의 오류를 가지고 있었지만 2012년 Hinton 교수님의 연구실에 있는 박사과정 학생이 오류를 15%로 떨어뜨리게 됩니다.

이는 2015년, Deep Learning 기술을 기반으로 해서 약 3%대의 오류를 가지게 됬는데, 이때 사람의 오류는 약 5%였다고 합니다.


그리고 이후에는 컴퓨터가 단순히 이미지를 맞추는 것이 아니라 이미지에 대해 설명을 하는 기술까지 개발이 되었습니다.


그리고 이후 Hinton 교수님은 우리가 왜 그전에는 잘 하지 못했을까에 대해 4가지 문제를 이야기합니다.

이제 이러한 것들에 대해서 천천히 이야기를 해보도록 하겠습니다.

그리고 다음 포스팅에서는 우리가 직접 XOR문제를 딥러닝으로 해결해보도록 하겠습니다.


블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc



안녕하세요.

이번 포스팅에서는 머신러닝 모델이 얼마나 잘 동작하는지 알아보는 방법에 대해서 이야기하겠습니다.



1. Performance evaluation


우리는 지난 포스팅들을 통해, 머신러닝 모델을 만들고 데이터를 통해 학습을 시켰습니다.

그런데 그 모델이 얼마나 훌륭한가, 얼마나 성공적으로 예측할 수 있을까를 어떻게 평가할 수 있을까요?

우리가 만든 모델에 A라는 데이터를 통해서 훈련을 시켰는데 그 A를 토대로 그대로 평가한다면 어떨까요?

당연히, 100%의 예측률을 보일 것입니다.

예를 들면, 여러분들이 시험공부를 할때 공부했던 문제들에서 숫자하나 바뀌지 않고 그대로 시험이 출제되는 것과 같은 것입니다.

이러한 것은 모델의 성능을 평가하는데 올바르지 않습니다.


그래서 우리는 일반적으로, 우리가 가지고 있는 데이터들중의 70%를 토대로 훈련을 하고 나머지 30%를 테스트하는데 사용합니다.

이때 모델을 훈련하는데 사용하는 70%의 데이터를, training data set 이라고 하며 30%의 데이터를 test data set이라고 합니다.

따라서 어떤 모델을 만들때 training data set을 이용하여 모델을 성공적으로 만든후에 딱 1번의 기회로 test data set을 이용합니다.


그런데 우리가 지난 포스팅에서 이야기 했던 것처럼, 어떤 a라는 learning rate 또는 regulariazation와 같은 것을 튜닝할 필요가 있을 때 보통 사람들은 우리가 가지고 있는 70%의 Training set과 Validation set을 나누어서 모델을 훈련시킵니다.

이때 나누어진 진짜 training set은 말 그대로 훈련하는데 사용되고 위에서 언급한 learning rate 또는 regularization와 같은 것을 튜닝하는데 validation set을 이용합니다. 그리고 testing set은 이전과 같이 딱 1번의 기회로 성능을 평가하는데 사용합니다.



2. Online learning


그런데 우리가 수없이 많은 데이터가 존재했다고 했을 때, 많은 데이터를 한번에 위와 같이 학습시키는 등으로 사용하기 힘들 수 있습니다.

때문에 Online learning 이라는 학습방법도 있습니다.


예를 들어 우리가 100만개의 데이터가 있다고 했을 때 이것을 한번에 사용하는 것이 아니라, 10만개씩 잘라서 학습을 시킵니다.

첫번째 10만개가 학습이 되면 그 학습결과를 모델이 기억하고 있어야 하고 이어서 두번째 10만개를 학습합니다. 이러한 방식으로 매우 큰 데이터를 학습하는 것을 Online learning 방법이라고 합니다.



3. Accurancy


우리가 학습시키고 만들어낸 모델의 정확성에 대해서는, 간단하게 testing data set을 통해서 확인합니다.

우리는 testing data set에 대해 결과값을 알고있기 때문에 이 결과값들과 우리의 모델이 도출한 값을 비교하여 100개 중에 10개가 맞았다면 10%, 90개가 맞았다면 90%라는 식으로 이야기를 합니다.

최근에는 이미지 인식 분야에 있어서 그 정확도가 약 95%를 넘어서고 있습니다.

실제로 이것을 확인해보는 것은 다음 실습을 통해서 진행하도록 하겠습니다.


다음 포스팅에서는 우리가 이야기하는 Neural Network에 대해서 보다 깊게 알아보도록 하겠습니다.



블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc