TigerCow.Door


안녕하세요. 문범우입니다.

지난 포스팅에서 CNN에 대해서 알아보았습니다.

이번 포스팅에서는 이어서, CNN에서의 pooling과 나머지 것들에 대해서 알아보도록 하겠습니다.


1. Pooling



Convolution Neural Network의 전체적인 구조를 위의 그림과 같이 확인해보면, Convolution과 RELU가 붙어져 있으며 중간에 한번씩 POOL을 하게 됩니다.


이때 진행되는 POOL이라는 것이 무엇인가 알아보도록 하겠습니다.


pooling이라는 것을 먼저 간단히 생각해본다면, sampling이라고 생각하면 됩니다.

우리가 입력 이미지에 대해서 위의 그림과 같이 convolution layer를 만드는데, 여기서 하나의 layer만 뽑아내고 이를 resize하는 과정을 pooling이라고 합니다.

복잡한 것이 아니고, 하나의 예를 들어서 pooling을 진행해보도록 하겠습니다.


pooling에서도 많이 사용되는 max pooling은 아래 사진과 같이 진행됩니다.


pooling에서는 우리가 지난 포스팅에서 알아보았던 filter라는 개념이 다시 사용되는데, 위의 사진과 같이, 2x2 형태의 필터를 이용하며, 이때 stride는 2로 설정하였습니다.

그럼 필터에서 어떠한 값을 어떻게 추출할 것인지가 문제가 됩니다.

이때 위에서 말했듯, max pooling을 사용하면 그림의 오른쪽과 같이 나오게 됩니다.


이런식으로 처리하는 것이 pooling입니다.



2. Others



정리를 해보자면, 지난 포스팅에서 배운 Convolution 을 통해 나온 벡터 값을 RELU 함수에 입력하고, 그 과정 중간에 위에서 배운 pooling과정을 진행하여 resize하는 방법을 진행합니다. 물론 layer를 어떻게 설정하느냐는 모델을 만드는 여러분의 몫입니다.

그리고 마지막 과정에서 보통 pooling을 진행하는데, 예를 들어 pooling을 통해 3x3x10의 형태로 결과가 나왔다면 이것을 x 값으로 하여 일반적인 Neural network를 구성하면 됩니다.

블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요. 문범우입니다.

이번포스팅에서는 Convolutional Neural Networks에 대해 알아보도록 하겠습니다.


1. Convolutional Neural Networks


이번 포스팅에서 사용되는 슬라이드는 대부분 위의 사진에 나와 있는 주소에서 가져오게 되었습니다.




우리가 알아볼 Convolutional Neural Networks의 기본적인 개념은 고양이 실험에서 시작되었습니다.


고양이에게 어떤 이미지를 보여줬더니, 그림을 읽어들이는 뉴런들이 동시에 동작하는 것이 아니라, 특정 그림의 특정 부분에 대해서만 동작하는 것을 알게 되었습니다.


즉, 고양이가 이미지의 입력을 나누어서 받아 뉴런에서 나누어진 입력들을 처리하게 된 것이죠.


하나의 레이어씩 어떻게 처리되는지 조금 더 자세히 살펴보도록 하겠습니다.


위와 같이 32x32x3 형태의 이미지(또는 벡터)가 존재합니다.

이때 32x32는 크기라고 가정하고, 3은 이미지의 색상의 종류라고 생각해보겠습니다.

그리고 위에서 이야기했던 것과 같이 이미지에 대해 전체적으로 처리하는 것이 아니라, 아래와 같이 빨간색 부분과 같이 일부분을 처리합니다.


이러한 일부분을 우리는 filter라고 부르는데 이 필터의 형태는 우리가 정할 수 있습니다. 예외적으로 이미지의 대한 색의 종류, 3은 고정시키고 단순히 크기에 대한 형태만 우리가 지정할 수 있습니다.

그럼 이 필터는 전체 이미지의 5x5의 영역만 읽어들이게 됩니다.

그리고 그 영역을 읽어서 하나의 숫자를 뽑아내게 됩니다.

이것이 필터의 역할입니다.

근데 이것을 어떻게 하나의 값으로 만들어낼 수 있을까요?

그것은, 위의 사진에서 나온것과 같이 우리가 자주 사용하던 Wx+b 의 형태를 이용해서 하나의 값을 뽑아냅니다.

그리고 여기서 W는 우리가 어떤 영역에 대해서 하나의 숫자를 만들어내는데 사용되는 필터의 값이라고 생각하면 되겠습니다.

그리고 이렇게 결정된 W에 대해서 변하지 않도록 고정하고 전체의 이미지를 훑도록 합니다. 즉 아래와 같이 하나의 필터가 전체의 이미지를 스캔합니다.

위의 그림에서 빨간색, 파란색, 초록색 테두리를 가진 것과 같이 하나의 필터를 한칸 또는 그 이상씩 이동시키며 전체 이미지를 확인합니다.


그럼 위의 그림을 예시로 생각해보면 전체 9x9 의 형태에서 3x3 형태의 필터를 사용하는데 위와 같이 한칸씩 움직이면서 하나의 값을 뽑아내게 되면 뽑아낸 값들은 어떤 형태를 가지게 될까요?

결과값들은 7x7 형태를 가지게 될 것입니다.

이때 우리가 한칸씩 필터를 움직이게 됬는데, 이때 움직이는 크기를 stride라고 합니다. 즉, stride를 2로 설정해보면 아래와 같이 2칸씩 필터가 움직이면서 전체 이미지를 읽게됩니다.



그리고 위와 같이 stride를 2로 설정한다면, 전체 결과의 형태는 4x4 형태를 가지게 될 것입니다.


이를 전반적으로 살펴보면, 우리가 NxN형태의 이미지에서 FxF형태의 필터를 이용했을때 stride 설정하면 위와 같은 식으로 output size를 알아낼 수 있습니다.

그리고 위의 사진에서 stride 를 3으로 설정했을때와 같이 정수로 나누어 떨어지지 않을때는 그 필터의 형태나 stride를 사용할 수 없는 것 입니다.


그런데, 이렇게 사용하게 되면 기본 이미지보다 output 의 size가 작아지면서 어떤 정보가 사라지는 등의 문제가 발생할 수 있습니다.

이를 막기 위해서 우리가 사용하는 방법은 padding이라는 개념입니다.



위의 사진과 같이 기본이미지의 모서리에 0이라는 값으로 채워주는 것을 padding 이라고 합니다.

이렇게 하는 이유는, 이미지의 형태가 급격하게 작아지는 것을 막기 위한 이유와, 이미지의 모서리임을 알려주는 이유 두가지가 있습니다.


위의 사진에서 pad를 1 pixel로 설정하여 output size를 확인해보면 7x7 이 나오게 됩니다. 즉 입력 이미지와 출력 이미지의 size가 같게 됩니다.


지금까지 알아본 것이 기본적으로 하나의 Convolution layer를 만드는 방법입니다.


그리고 이러한 방법을 이용하여 위의 사진과 같이 여러개의 레이어를 만듭니다. 이때 새롭게 이용되는 filter는 이전의 filter와 W의 값이 다를 것 입니다.



그리고 이것을 한개, 두개의 레이어만 만들 것이 아니라 위와 같이 여러개의 레이어를 만듭니다. 그리고 각 레이어의 W값이 다르기 때문에 각 레이어의 값이 서로 다를 것입니다.

그리고 이렇게 만들어진 레이어들의 형태, (?, ?, ?)에서 마지막 세번째 값을 그 레이어의 숫자가 됩니다.


즉 여러개의 레이어를 만들면서 그 결과를 통해 또 다른 레이어를 만들면서 위와 같은 Convolution layers를 만들 수 있습니다.


블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요. 문범우입니다.

이번 포스팅에서는 dropout과 model ensemble에 대해서 살펴보도록 하겠습니다.



1. Dropout


우리가 dropout을 하는 이유는 바로 아래와 같은 overfitting 때문입니다.



우리가 과거에 알아봤던 것처럼, 훈련 data에 있어서는 100%의 accuracy를 내지만, 실제로 test data에 있어서는 높은 예측율을 내지 못하게 되는 현상이죠.



위와 같이, 파란색 그래프, training 에서는 에러율이 점점 낮아지지만, 실제로 빨간색 그래프처럼 test data를 통해 확인해보니 어느 시점부터 에러율이 더 증가하게 됩니다.


이러한 overfitting은 우리가 더 깊게 만들수록 일어날 확률이 커집니다.

왜냐하면 더 깊어질수록 더 많은 변수가 생기기 때문입니다.


그럼 이를 해결하기 위해서는 무슨 방법이 있을까요?


첫번째로는, 더 많은 데이터를 훈련시키는 것입니다.

또는 feature를 줄여주는 방법도 있을 것입니다.

그리고 우리가 예전에 간단히 알아봤던, Regularization 이라는 방법이 있습니다.



우리가 예전에 알아봤던 것처럼, 위의 식과 같이 처리함으로써 Regularization을 하는 L2regularization도 있습니다.


그리고 Neural Network에서는 또다른, dropout이라는 방법이 있습니다.

dropout이란 쉽게 말해서, 위 그림에서 왼쪽 그림과 같은 모델에서 몇개의 연결을 끊어서, 즉 몇개의 노드를 죽이고 남은 노드들을 통해서만 훈련을 하는 것입니다.

이때 죽이는, 쉬게하는 노드들을 랜덤하게 선택합니다.




쉽게 말해 각 노드들을 어떤 전문가라고 생각해본다면 랜덤하게 몇명은 쉬게하고 나머지만 일하게 합니다. 

그리고 마지막에는 모든 전문가들을 총 동원해서 예측을 하게 합니다.


이러한 아이디어가 dropout 입니다.


실제로 텐서플로우에서 구현하기에도 어렵지 않게 가능합니다.

우리가 원래 만들었던 layer를 dropout함수에 넣어서, 몇 퍼센트의 노드가 일하게 할 것인지 함께 적어줍니다.

위의 코드를 보면 Train에서는 0.7, 즉 70%의 노드들이 랜덤하게 훈련되게 하였습니다.

그리고 실수하면 안되는 점이 Evaluation 과정에서는 dropout_rate를 1로 함으로써 100%의 노드들을 참가시키도록 해야 합니다.



2. Ensemble



우리가 추후, 학습시킬 수 있는 장비가 많을때 사용할 수 있는 또 하나의 방법도 있습니다.

Ensemble이라고 하는 것인데, 위와 같이 여러개의 독립적인 모델을 만듭니다. 이때 훈련 데이터셋은 별도로 해도 되고, 모두 같은 훈련 데이터셋을 이용해도 상관 없습니다.

이때 각 모델의 초기값이 서로 다르기때문에 결과도 약간씩 다를 것입니다.

그리고 이후에 독립적인 모델들을 모두 합쳐서 한번에 예측을 하게 합니다.

즉, 이것은 전문가 한명에게 어떤 질문을 하는 것이 아니고 서로 독립적인 전문가 다수를 모아두고 질문을 하는 것과 같습니다.


실제로 Ensembel을 이용하면 2%~5%까지도 예측율이 올라간다고 합니다.


블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요. 문범우입니다.

이번에는 지난 포스팅에 이어서 딥러닝을 잘하는 방법 중 weight의 초기값을 설정하는 방법에 대해서 알아보도록 하겠습니다.



1. RBM(Restricted Belief Machine)


우리가 지난 포스팅에서 위의 그림과 같은 Vanishing gradient 문제에 대해서 알아보았습니다.

그리고 이 문제에 대해서는 Hilton 교수님께서는 4가지 이유를 꼬집었습니다.


위의 4가지 항목중 제일 아래에 있는 것은 우리가 지난 포스팅에서 sigmoid함수 대신, ReLU함수를 사용함으로써 해결할 수 있었습니다.

하지만 하이라이트 된 것과 같이 또 다른 문제도 있었습니다.


이전의 테스트에서도 아래와 같이, 같은 ReLU함수를 사용했음해도 불구하고 cost가 초반에 다르게 변화하는 것을 볼 수 있습니다.


이러한 현상이 발생하는 이유는 우리가 테스트를 할때, 초기값을 랜덤하게 지정해서 발생한 현상입니다.


그럼, 이런 초기값에 대해서 좀 더 자세히 살펴보도록 하겠습니다.

단적으로 초기값을 0으로 설정해보면 어떨까요?

그럼, 위와 같은 그림에서 W를 0으로 둔것이고, 이것이 chain rule에서 사용됩니다. 그럼 x = df/dg * W 이므로 x = 0이 되고, 그 앞에 있는 것들도 모두 0이되면서 gradient가 사라져 버립니다.


따라서, 절대로 초기값으로 0을 주면 안된다는 것을 알 수 있습니다.

그럼 초기값을 어떻게 주어져야 할까요?


이에 대해 2006년 Hilton교수님께서 논문을 쓰시면서 RBM(Restricted Boatman Machine)을 사용함으로써 해결하게 됩니다.

그리고 이러한 RBM을 사용한 네트워크를 DBN(Deep Belief Networks)라고 합니다.


어떻게 동작되는 것 일까요?


먼저, 입력을 재생산 해냅니다.


위의 그림과 같이, 입력값을 weight와 곱해서 b값을 얻어냅니다. 또한 b 유닛아래에 있는 것들에 대해서도 같은 방법을 통해서 값을 얻습니다. 이러한 과정을 Forward 라고 합니다.



그리고, Backward 방법으로, 우리가 얻은 값들과 weight를 통해 위의 그림에서의 b 값을 얻습니다.

그럼 우리가 처음에 입력한 값을 x라고 한다면, x와 b의 값의 차이가 존재할텐데 이 차이가 최소가 될 때까지 weight를 조절합니다.


이렇게 해서 weight를 구하는 것을 RBM이라고 합니다.

그리고 위와 같은 방법을 encoder/decoder라고도 합니다.


실제로 이것을 네트워크 상에서 적용시키기 위해서는 아래와 같은 과정을 가집니다.

여러개의 레이어가 있을때, 입력값 측의 레이어부터 시작하여 layer 1과 layer 2를 encoder/decoder를 수행하고, 이후에 layer2 와 layer3에 대해 수행하며 끝까지 나아가는 방법입니다.


이제 이러한 과정을 통해 각 weight를 구할 수 있고, 그것을 학습시킨다, training한다는 표현보다는 fine tunning 이라는 표현을 사용합니다.

학습하는 것보다 훨씬 더 빨리 진행되는 작업이기 때문이죠.

이러한 fine tunning이 끝나게 되면 이후 우리가 학습시키고자 하는 데이터들에 대해서 label을 붙여서 실제로 training을 진행합니다.



2. Xavier initalize




그런데 실제로 이것을 구현하는데 있어서는 복잡한 과정이 있을 수 있습니다.

하지만 좋은 소식은, 2010년에 발표된 논문에서 우리가 굳이 RBM을 쓰지 않아도, 좋은 초기값을 얻을 수 있다는 Xavier initialize라는 알고리즘이 나왔습니다.


이는 입력의 노드의 개수에 비례해서 초기값을 세팅하면 된다는 식의 알고리즘 입니다.


이를 식으로 간단히 살펴보면, 우리가 좋은 값, 좋은 weight를 얻기 위해서 입력값의 개수 fan_in 과 출력 값의 개수 fan_out을 이용하여 초기값을 주는 것입니다. 이러한 식을 통해 어쩌면 RBM보다 더 좋은 결과를 가질 수 있다고 합니다.


블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요. 문범우입니다.

오늘은 ReLU(Rectified Linear Unit)에 대해서 알아보겠습니다.



1. NN for XOR


우리가 지난 시간에 XOR문제를 위와 같은 모델로 하여 풀이를 진행해보았습니다.

실제로 텐서플로우를 이용하여 구현해보기도 하였습니다.

그때 각 유닛의 결과에 우리가 Sigmoid 함수를 붙여서 결과값이 0~1이내로 출력되게 했었습니다.



이러한 Sigmoid함수를 activation function 이라고 합니다.

각 모델들에게 어떤 값을 보내게 될 때 일정값 이상이면 active되게 하고 그렇지 않으면 active하지 않게 하기 때문에 주로 그렇게 불린다고 합니다.


그리고 우리는 아래와 같이 각각의 W, b를 만들고 layer를 이용하여 2단의 네트워크를 만들었습니다.


그럼 3단을 가진 네트워크는 어떻게 할까요?

당연히 2단때와 같이, 쉽게 구현할 수 있습니다.

이때, 제일 처음이 layer를 input layer라고 부르며, 가장 바깥쪽(마지막)에 있는 layer를 output layer라고 부릅니다. 그리고 그 사이에 있는 layer들을 hidden layer라고 합니다.


그럼 더 깊게 한번 만들어볼까요?

hidden layer가 9단이 되게끔 구현해보도록 하겠습니다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
W0 = tf.Variable(tf.random_uniform([2,5], -1.01.0), name = 'weight0')
 
W1 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight1')
W2 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight2')
W3 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight3')
W4 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight4')
W5 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight5')
W6 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight6')
W7 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight7')
W8 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight8')
W9 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight9')
 
W10 = tf.Variable(tf.random_uniform([5,1], -1.01.0), name = 'weight10')
 
b0 = tf.Variable(tf.zeros([5]), name = 'bias0')
 
b1 = tf.Variable(tf.zeros([5]), name = 'bias1')
b2 = tf.Variable(tf.zeros([5]), name = 'bias2')
b3 = tf.Variable(tf.zeros([5]), name = 'bias3')
b4 = tf.Variable(tf.zeros([5]), name = 'bias4')
b5 = tf.Variable(tf.zeros([5]), name = 'bias5')
b6 = tf.Variable(tf.zeros([5]), name = 'bias6')
b7 = tf.Variable(tf.zeros([5]), name = 'bias7')
b8 = tf.Variable(tf.zeros([5]), name = 'bias8')
b9 = tf.Variable(tf.zeros([5]), name = 'bias9')
 
b10 = tf.Variable(tf.zeros([5]), name = 'bias10')
 
L1 = tf.sigmoid(tf.matmul(X, W0) + b0)
L2 = tf.sigmoid(tf.matmul(L1, W1) + b1)
L3 = tf.sigmoid(tf.matmul(L2, W2) + b2)
L4 = tf.sigmoid(tf.matmul(L3, W3) + b3)
L5 = tf.sigmoid(tf.matmul(L4, W4) + b4)
L6 = tf.sigmoid(tf.matmul(L5, W5) + b5)
L7 = tf.sigmoid(tf.matmul(L6, W6) + b6)
L8 = tf.sigmoid(tf.matmul(L7, W7) + b7)
L9 = tf.sigmoid(tf.matmul(L8, W8) + b8)
L10 = tf.sigmoid(tf.matmul(L9, W9) + b9)
 
hypothesis = tf.sigmoid(tf.matmul(L10, W10) + b10)
cs


위와 같이 hidden layer가 총 9단이 되도록 구현해보았습니다.

그리고 텐서보드를 이용하기 위해서는 추가적으로 name_scope를 사용하면 됩니다.


그리고 이러한 모델을 실제로 훈련시키고 결과를 확인해보면 다음과 같습니다.

Accuracy 가 0.5가 나왔습니다.

왜그럴까요?

우리가 지난번에 했을때보다 더 깊고, 더 넓게 훈련을 시켰는데 오히려 더 좋지 않은 결과가 나와버렸습니다.



2. Vanishing Gradient


우리가 지난 시간에 알아본, backpropagation에 대해서 다시한번 살펴보도록 하겠습니다.


우리가 위와 같은 구조를 공부했었는데, 이때 backpropagation에서 chain rule을 사용한다고 했었습니다.

지난 포스트에서 알아본것에 따르면, 빨간 동그라미, dg/dx = y의 값을 갖게되고 이에 따라 df/dx = df/dg * dg/dx = df/dg * y 가 됩니다.

근데 이때 y가 어떤 값을 가질지 한번 살펴볼까요?

y가 input layer가 아니었다면, 다른 유닛에 통과하고 sigmoid 함수를 통과했을 것입니다. 그럼 우리가 정확한 y의 값을 알지는 못해도 sigmoid 함수의 특성때문에 0~1사이의 값을 갖는다고 생각할 수 있습니다.

그럼 이때 y의 값이 예를 들어 0.01정도라고 생각해보겠습니다.

이렇게 된다면, 다시 올라가서 df/dx = df/dg * 0.01 이 됩니다.


이렇게 되는 것의 단점이 무엇이냐면, 결국에 값들이 sigmoid 함수를 지나게 되면서 그 값이 1보다 작게 되며 경우에 따라서는 굉장히 0에 가까운 값들이 계속 곱해지게 됩니다.

그러면 결국적으로 굉장히 작은 값을 갖게 됩니다.


즉, 그렇게 되면 결과 단에서 점점 깊어질 수록 그 영향을 찾기 힘들다, 예측하기 힘들다라는 결론을 가져오게 됩니다.

이런 현상을 Vanishing gradient 라고 합니다.



3. Rectified Linear Unit, ReLU


그리고 Hilton 교수님은, 이러한 현상에 있어서 sigmoid가 잘못되었다라는 것을 찾게되었습니다.

sigmoid함수 때문에 1보다 큰 값을 가지지 못하게 되었고, 이로 인해 layer가 깊어지면서 오히려 그 값이 작아져 영향을 찾기 힘들어지기 때문입니다.

그리고 새롭게 생각한 함수가 ReLu, Rectified Linear Unit 입니다


ReLU 함수는 단순합니다. 입력값이 0보다 작을 때는 아예 non-activate로 꺼버리고, 0보다 클때에는 그 값을 그대로 반환합니다.


이러한 ReLU를 사용하는 방법도 매우 간단합니다.

단순히 우리가 sigmoid를 사용하던 곳에 대신 ReLU를 사용하면 됩니다.

물론 텐서플로우에서도 위와 같이 매우 간단하게 사용할 수 있습니다.


실제로 우리가 위에서 제대로 값을 얻지못한 9단 hidden layer를 가진 모델에서 sigmoid 대신 ReLU를 사용하면 다음과 같은 cost를 가지게 됩니다.


ReLU를 여러번 돌리면서 약간의 차이는 존재하지만, sigmoid에 비해서는 훨씬 더 올바른 학습을 가지는 것을 볼 수 있습니다.

물론, layer에서 제일 마지막에선 sigmoid함수를 사용하여 결과 값이 0~1 사이로 나오게끔 해야합니다.


오늘 우리가 알아본 ReLU 이외에도 아래와 같이 다양한 activation function이 있습니다.



블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요.

이번 포스팅에서는 우리가 딥러닝 이론에서 배웠던 XOR 문제를 텐서플로우로 해결해보도록 하겠습니다.

이론적인 부분은 아래 글에서 설명드렸기에, 코드에 대한 이야기를 주로 할 것 같습니다. 딥러닝에 대한 기본적인 이론이기에 잘 이해가 안되시는 분들은 아래 글을 참고해주세요.


딥러닝(DeepLearning) #1_ 딥러닝의 시작



1. XOR data set


먼저 XOR이 어떤건지 간단히 살펴보겠습니다.



XOR은 위에서 가운데에 있는 심볼로 나타냅니다. 그리고 우리에게 필요한 데이터, truth table은 그 오른쪽 표와 같이 나와있습니다. 두 개의 input이 입력되고, input값이 서로 같을 때는 0을 출력하고, input값이 서로 다를 때는 1을 출력합니다.


이것을 텐서플로우에서 데이터로 입력해본다면 아래와 같은 코드로 입력됩니다.


1
2
x_data = np.array([[0,0], [0,1], [1,0], [1,1]], dtype=np.float32)
y_data = np.array([[0],   [1],   [1],   [0]], dtype=np.float32)
cs



2. XOR with Logistic Regression

그럼 이제 전체 모델에 대한 코드를 작성해보겠습니다.
이때, 다시 한번 y, 출력 데이터를 살펴보면 단순히 0 또는 1로만 이루어지기 때문에 우리가 굳이 softmax classifier 등과 같은 알고리즘을 사용할 필요 없이 단순히 logistic regression을 이용하면 됩니다.

지난 실습들에서 구현했던 방식과 마찬가지로 구현해본다면 아래와 같이 코드가 구현됩니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
import tensorflow as tf
import numpy as np
 
x_data = np.array([[0,0], [0,1], [1,0], [1,1]], dtype=np.float32)
y_data = np.array([[0],   [1],   [1],   [0]], dtype=np.float32)
 
= tf.placeholder(tf.float32)
= tf.placeholder(tf.float32)
= tf.Variable(tf.random_normal([2,1]), name = "weight")
= tf.Variable(tf.random_normal([1]), name = "bias")
 
# hypothesis: sigmoid(X * W + b)
hypothesis = tf.sigmoid(tf.matmul(X, W) + b)
 
# cost function / minimize cost
cost = -tf.reduce_mean(Y * tf.log(hypothesis) + (1 - Y) * tf.log(1 - hypothesis))
train = tf.train.GradientDescentOptimizer(learning_rate=0.1).minimize(cost)
 
# predicate / accuracy
predicated = tf.cast(hypothesis > 0.5, dtype=tf.float32)
accuracy = tf.reduce_mean(tf.cast(tf.equal(predicated, Y), dtype=tf.float32))
 
#
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for step in range(10001):
        sess.run(train, feed_dict={X: x_data, Y: y_data})
        if step%100 == 0:
            print(step, sess.run(cost, feed_dict={X: x_data, Y: y_data}), sess.run(W))
    h, c, a = sess.run([hypothesis, predicated, accuracy], feed_dict={X: x_data, Y: y_data})
    print("\nHypothesis: ",h,"\nCorrect: ",c,"\nAccuracy: ",a)
 
cs

그리고 이를 실행시켜 결과를 확인해보면 아래와 같은 결과가 나옵니다.



결과에서 무언가 이상함을 느끼셨나요?

Accuracy가 0.5라는 값으로 출력되었습니다.


하지만 이는 이상한 것이 아닙니다.

우리가 이론시간에서 알아보았듯이, 하나의 node로, 그래프에서 생각해본다면 linear한 직선하나로 XOR 문제를 푸는 것은 불가능 하다고 했었죠.


그래서 우리는 layer라는 개념을 통해 여러개의 모델을 사용하고 이를 연결하는 방법을 배웠습니다. 그럼 그러한 방법으로 다시 시도해보도록 하겠습니다.



3. XOR with Neural Network

오히려 텐서플로우에서 layer라는 것을 이용하는 것은 어렵지 않게 느껴집니다.
단순히 우리가 하나로 만들었던 것을 쪼갠다고 생각하시면 됩니다.

전체적인 코드를 보면 아래와 같습니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
import tensorflow as tf
import numpy as np
 
x_data = np.array([[0,0], [0,1], [1,0], [1,1]], dtype=np.float32)
y_data = np.array([[0],   [1],   [1],   [0]], dtype=np.float32)
 
= tf.placeholder(tf.float32)
= tf.placeholder(tf.float32)
 
# W = tf.Variable(tf.random_normal([2,1]), name = "weight")
# b = tf.Variable(tf.random_normal([1]), name = "bias")
# hypothesis = tf.sigmoid(tf.matmul(X, W) + b)
 
W1 = tf.Variable(tf.random_normal([2,2]), name="weight1")
b1 = tf.Variable(tf.random_normal([2]), name="bias1")
layer1 = tf.sigmoid(tf.matmul(X, W1) + b1)
 
W2 = tf.Variable(tf.random_normal([2,1]), name="weight2")
b2 = tf.Variable(tf.random_normal([1]), name="bias2")
hypothesis = tf.sigmoid(tf.matmul(layer1, W2) + b2)
 
# cost function / minimize cost
cost = -tf.reduce_mean(Y * tf.log(hypothesis) + (1 - Y) * tf.log(1 - hypothesis))
train = tf.train.GradientDescentOptimizer(learning_rate=0.1).minimize(cost)
 
# predicate / accuracy
predicated = tf.cast(hypothesis > 0.5, dtype=tf.float32)
accuracy = tf.reduce_mean(tf.cast(tf.equal(predicated, Y), dtype=tf.float32))
 
#
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for step in range(10001):
        sess.run(train, feed_dict={X: x_data, Y: y_data})
        if step%1000 == 0:
            print(step, sess.run(cost, feed_dict={X: x_data, Y: y_data}), sess.run([W1, W2]))
    h, c, a = sess.run([hypothesis, predicated, accuracy], feed_dict={X: x_data, Y: y_data})
    print("\nHypothesis: ",h,"\nCorrect: ",c,"\nAccuracy: ",a)
 
cs

14~20번 코드를 보시면, 이전에는 하나의 W, b로 hypothesis를 구해내는, 하나의 모델을 이용하는 방법이었는데 이번에는 2개로 나누어서 진행하였습니다.

그리고 결과를 확인해보면 아래와 같습니다.


처음에 나왔던 결과와 다르게, 모델이 제대로 훈련되어 Accuracy 값으로 1이 출력되었습니다.



4. Wide Neural Network

그럼, 우리가 보다 정확하게 예측할수 있는 방법은 무엇이 있을까요?
잠깐, 방금 작성했던 코드를 살펴보겠습니다.


위의 코드에서 빨간색 줄 그어져 있는 부분을 보겠습니다.

처음의 [2,2] 는 x의 입력이 2개이기 때문에 앞의 숫자 2가 나오고, 뒤의 숫자2는 임의로 출력을 2개로 한 것입니다.

그리고 b1에 있는 [2]는 W1에서 출력을 2로 했으므로 같이 맞춰주는 것입니다.


그리고 아래의 [2,1] 에서는 위에서 출력한 2개를 입력으로 받기 때문에 앞의 숫자2가 나오고, 우리가 최종적으로 출력하는 Y는 1개의 출력값을 가지므로 1, 한개로 출력하고 b2도 이와 함께 맞추어 준 것입니다.


즉, 이것을 그림으로 나타내면 아래와 같습니다.



그럼 다시 돌아와서, 우리가 보다 더 정확하게 예측할 수 있는 방법 중에 하나는, 위에 그림에서 두개의 모델 사이의 연결선을 증가시키는 방법입니다.


즉, 그림으로 생각하면 다음과 같이 되겠으며


코드로는 다음과 같이 구현이 되겠습니다.



그리고 이러한 변화를 결과로 확인해보면 다음과 같습니다.



모델을 보다 더 Wide 하기전과 비교해본다면, hypothsis의 작은 값은 더 작게, 큰 값은 더 크게 되는 것을 확인하실 수 있습니다.



5. Deep Neural Network


예측율을 높이는 다른 방법은 layer를 더 깊게 만드는 것입니다.


코드로 보면 아래와 같이, 단순하게 layer를 총 4개 사용하였습니다.



그리고 그 결과는 역시, 처음보다 더 좋은 예측율을 보여줍니다.




블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc



안녕하세요. 문범우입니다.

이번 포스팅에서는 Backpropagation에 대해서 알아보겠습니다.

지난 포스팅에서 XOR문제를 풀어보았는데, 정확하게 W나 b에 대한 값을 구하지는 못하였습니다. 그럼 이런 상황에서 어떻게 W와 b를 구하는지, 정확하게는 backpropagation이 어떻게 사용되는 것인지 알아보도록 하겠습니다.



1. Intro


먼저, 우리가 어떻게 W나 b와 같은 값을 구할 수 있을까요?

우리가 그동안 다루어 보았던 Gradient의 개념을 이용합니다.

우리는 보통 결과로 나오는 Y값을 통해 Cost함수를 정의하였습니다.

그리고 위와 같은 그래프형태로 나타날때, W가 어떤 초기값으로 시작하는지에 상관없이 그 점에서의 기울기를 이용하여 global minimum을 찾을 수 있었습니다.

즉, 이것을 구현하기 위해서는 특정 위치에서의 미분값을 필요로 합니다.


그런데 이것이 Neural Network로 가면서 복잡해지기 시작합니다. 


위와 같이 노드들이 한두개가 아니고, 각 노드에도 우리가 저번에 사용했듯이 sigmoid함수를 사용하는 등의 상황이 있었기 때문입니다.

여기서 미분값을 구한다는 것은 입력값 X이 결과 값 Y에 끼치는 영향을 알아야 한다는 것입니다. 그런데 단순히 입력값 X 뿐아니라, 각각의 노드들에 대해서도 구해야 각 노드들에 대한 W와 b값을 구할 수 있게됩니다.


그리고 이것은 1969년에 Minsky교수님께서 아무도 이것을 구할 수 없다라고 하실만큼 복잡한 과정이 되어버립니다.



2. Backpropagation


그런데 그러한 문제를 Backpropagation으로 해결하게 되었습니다.

Backpropagation은 그 이름에서도 알 수 있듯이, 우리가 forward로 진행하여 얻은 결과값과 실제값을 비교하여 얻은 error, 즉 cost를 통해 다시 뒤로 돌아가는 과정(backward)을 통해 어떻게 무엇을 설정해야 하는지 알아내겠다라는 개념입니다.


그럼 간단한 예제를 통해 실제로 Backpropagation이 어떻게 작동되는지 살펴보도록 하겠습니다.


위와 같이 정의된 f, g가 있습니다.

그리고 이제 여기서 알고자 하는 것은 w가 f에 미치는 영향, x가 f에게 미치는 영향, b가 f에게 미치는 영향입니다.

즉 알고자 하는 것을 그래프에 표시해본다면 아래와 같습니다.



그럼 이제 각각의 값들을 알기 위해 아래와 같은 과정을 진행합니다.


 1. forward(w = -2, x = 5, b = 3)

 2. backward 


1번 과정은 우리가 학습 데이터에서 값을 가져오는 과정이고 그리고 그 후 2번과정을 통해 실제 미분값을 구해보도록 합니다.


1번에서 주어진 데이터를 입력해본다면, g = -10, f = -7의 값을 가지게 됩니다.

그리고 우리가 처음에 정의한 식들을 편미분하여 아래와 같은 결과를 얻을 수 있습니다.

이렇게 정리가 되면 벌써 b가 f에 미치는 영향을 알 수 있게 됩니다.

df/db = 1 이기 때문이죠.


그리고 이어서 나머지 두 값을 얻기 위해, 먼저 g가 f에 미치는 영향을 생각해보면 df/dg = 1 이라는 식이 있기 때문에 이도 쉽게 구할 수 있습니다.


따라서 w가 f에 미치는 영향을 구해봅니다.

df/dw를 구하는 것인데 이때 chain rule을 이용합니다.

즉, df/dw = df/dg * dg/dw 와 같이 생각합니다.

그런데 이렇게 두고보니 df/dg와 dg/dw 두 값모두 알고 있습니다.

df/dg = 1, dg/dw = x = 5 이므로, df/dw = 1 * 5 = 5가 됩니다.


동일한 방식으로, x가 f에 미치는 영향, df/dx를 구해보면 아래의 식과 같습니다.

df/dx = df/dg * dg/dx = 1 * w = 1 * (-2) = -2


이렇게 구할 수 있습니다.


즉, 우리가 지금 간단한 예제로 진행해보았지만 실제로 더 복잡한 모델에서도 위와 같이 뒤에서부터 하나씩 순서대로 계산하면 매우 간단하게 w와 b등과 같은 값을 구할 수 있습니다.


또한 우리가 사용했던 sigmoid도 위와 같은 방법을 적용시킬 수 있습니다.

위의 그래프와 같이 g값을 이용하여 1/x에 대한 미분값을 얻고, 그 값과 +1 자체의 미분값을 구합니다. 그리고 같은 과정을 반복하면서 앞쪽으로 나아가면 됩니다.



이러한 방법을 통해 아래 그림과 같이 매우 복잡한 모델에 대해서도 기계적이고 반복적인 계산을 통해 미분값, 기울기를 구할 수 있습니다.



블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc



안녕하세요. 문범우입니다.

이번 포스팅에서는 XOR문제에 대한 이야기를 해보도록 하겠습니다.


1. XOR 문제의 개요


지난 포스팅에서 딥러닝에 대한 개념과 그 동안의 역사에 대해서 알아보며, XOR문제가 매우 까다로운 문제로 다가왔음을 알아보았습니다.


그럼 그 골치덩이 문제를 어떻게 풀 수 있을까요?


먼저, 그때에 그 문제에 부딪혔던 이유 중 하나는, XOR문제가 단순히 하나의 모델로는 풀이가 불가능하다라는 증명 및 사실들 때문이었습니다.


그렇다면, 하나의 모델이 아닌 2개, 3개, 다수의 모델을 이용하면 어떨까요?


이러한 경우에는 XOR문제에 대해 풀이가 가능하다고 했습니다.


하지만, 또 한번의 문제가 발생했습니다.


여러개의 모델을 사용하는 경우에, 각각의 모델에 대한 학습은 어떻게 할 것이냐가 문제였습니다.

문제가 복잡해지고 어려워질수록 다수의 모델을 사용해야 하는데, 이 때 그러한 모델들을 학습하기 위한 W와 b를 구할 수 있는 해결방안이 없었습니다.



2. XOR using NN


그럼 먼저, Neural Network로 XOR문제를 해결해보도록 하겠습니다.

XOR은 위와 같은 속성을 가지고 있습니다.

x1 과 x2가 서로 다를 때만 그 결과가 1이고 나머지 경우에는 0의 결과값을 가집니다.

그리고 위의 그래프와 같이, 이를 그래프로 표현했을때 결과값 1과 0에 대해서 하나의 직선으로 정확히 나눌 수가 없습니다.


이러한 문제를 우리가 3개의 모델을 가지고 풀어보도록 하겠습니다.


위의 그림과 같은 3개의 모델을 이용합니다.

Model1 과 Model2에는 각각 x1과 x2의 데이터가 입력되고, 이에 대한 결과 값 y1과 y2를 Model3의 입력값으로 하여 최종 y값을 얻습니다.

이때 그림에서 동그라미 S가 있는 것은 sigmoid 함수를 나타낸 것입니다.


sigmoid는 과거에 살펴보았는데 아래와 같은 형태를 띄는 함수 입니다.



그럼 3개의 모델을 이용하는 것을 표로 정리해보면 다음과 같습니다.


X1

X2

Y1

Y2

Y

XOR

0

0




0

0

1




1

1

0




1

1

1




0


이제 이를 토대로 하여 실제 계산을 해보겠습니다.

다만 각 모델에 대한 W값과 b 값이 필요한데, 이를 구하는 방법은 다음 포스팅에서 다루도록 하고 일단은 임의의 값을 대입하여 풀이해보도록 해보겠습니다.



위와 같이 각 모델에 대한 W 와 b 값을 정하여 계산을 진행합니다.



위와 같이 각각의 X1, X2에 따라서 계산해보았습니다.

시그모이드에 관해서는 입력값이 양수이면 1, 음수이면 0으로 단순하게 계산하였습니다.

계산을 통해 얻은 값들을 표에 정리하면 다음과 같습니다.


X1

X2

Y1

Y2

Y

XOR

0

0

0

1

0

0

0

1

0

0

1

1

1

0

0

0

1

1

1

1

1

0

0

0

위의 표와 같이, 3개의 모델을 이용했을 때 최종적인 결과 값인 Y와 XOR의 결과 값이 일치함을 볼 수 있습니다.



즉, 위와 같이 3개의 모델을 이용해서 Neural Network를 구성하면 XOR 문제를 해결할 수 있습니다.

그런데 우리가 임의로 설정했던 W와 b값과 같은 형태말고도 다른 형태의 값들이 존재할까요?

한번 스스로 생각해보고 고민해보시길 바랍니다.


또한, 위와 같은 모델은 우리가 과거에 보았던 Multinomial 을 이용해 아래와 같이 표현할 수도 있습니다.



Model 1과 Model 2를 합친 것인데, 이때 W와 b를 알맞게 수정해줘야 합니다.

그리고 위에서 Model 1+2의 W를 W1, b를 b1이라고 하고 Model3의 W를 W2, b를 b2라고 한다면


K = sigmoid(X*W1 + b1)

Y = sigmoid(K*W2 + b2)


가 될 것이며, 이를 tensorflow 를 이용해 아래와 같이 표현할 수도 있습니다.


그럼, 이제 최종적으로 위와 같은 모델에서 W1, b1, W2, b2를 어떻게 계산해낼 수 있을까요?

이에 대한 것은 다음 포스팅에서 다뤄보도록 하겠습니다.

블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요. 

이번 포스팅에서는 지난 포스팅에 이어 Softmax classifier의 cost 함수에 대해서 알아보도록 하겠습니다.


1. Softmax classifier



우리가 지난 포스팅에서 학습한바와 같이, 위의 사진에서 오른쪽에 x 표가 되어있는 것보다는 제일좌측에 있는 하나의 행렬을 곱함으로써 하나의 벡터로써 결과가 나오게 됩니다.



즉 위와 같이 간단하게 생각해볼 수 있고, 빨간색 글씨 처럼 위에서 부터 a, b, c가 될 확률로 볼 수 있습니다.

그런데 빨간색으로 나와있는 숫자보다, 우측 알파벳 옆에 쓰인 검정색 글씨 처럼 각각이 0과 1사이의 값을 갖고 세개의 합이 1이되게 한다면, 우리는 각각의 값을 확률처럼 이용할 수 있게 됩니다.

확률처럼 이용할 수 있다는 것은 추후 우리가 분류를 할때 더 편하게 사용할 수 있기 때문에 우리는 각각의 값이 0~1사이의 값을 가지고 그들의 합이 1이 되도록 하려고 합니다.

그리고 그러한 것을 해주는 것이 바로 Softmax 입니다.



위와 같은 구조를 같는 Softmax 함수를 통해 각각의 값을 확률로써 볼 수 있습니다.



그리고 위의 사진처럼, 각각의 확률 값을 보면서 제일 큰 값을 1로 만들고 나머지를 0으로 만드는 One-Hot Encoding을 이용합니다. 이는 텐서플로우에서 max 등의 함수를 이용하면 쉽게 구현할 수 있습니다.


이렇게 해서 Hypothesis를 완성했으면 이제 Cost 함수를 만들어야 합니다.

그리고 그 후에 cost 값을 최소화 하면 됩니다.

먼저, Cost 함수를 살펴보겠습니다.



그림에서와 같이, 좌측에 있는 값이 Y hat으로써 우리가 Hypothesis를 통해 얻은 값이며 오른쪽의 값이 실제 Y의 값입니다.

그럼 왜 위와 같은 Cost함수가 나오는지 살펴보겠습니다.



위와 같이, 실제 값 L 이 [ 0 1 ]로 존재할때, 우리가 Y hat 값으로 [ 0 1 ]과 [ 1 0 ]일 때 위에서 세운 Cost 함수로 cost를 계산해보면 올바르게 예측한 [ 0 1 ] 에서는 cost 값이 0이 나오고 틀리게 예측한 [ 1 0 ] 에서는 cost 값이 무한대가 되게 됩니다.

따라서 우리가 세운 Cost 함수가 올바른 것을 알 수 있습니다.



그런데 이러한 Cost 함수는 우리가 지난 포스팅에서 알아보았던 Logistic cost 함수와 동일합니다.

식을 보았을 때는 매우 다르게 보이는데 어떻게 같은건지, 다음 포스팅에서 확인해보도록 하겠습니다.



그럼 마지막으로 cost를 최소화 하기위한 작업을 해야합니다.



지난 포스팅들에서 했던 것처럼 Gradient descent 를 이용하면 됩니다.

직접적으로 우리가 미분을 다루지는 않지만 미분을 통해 기울기를 구해서 그것을 통해 그래프상에서 내려가며 cost를 최소화 한다고 생각하시면 됩니다.

블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요.

이번 포스팅에서는 Multinomial classification의 개념대해 알아보도록 하겠습니다.


1. Multinomial classification 이란?


앞으로 몇개의 포스팅에서 우리는 여러개의 클래스가 있을때 그것을 예측하는 Multinomial clssification, 그리고 그 중에서도 가장 많이 사용되는 softmax classification에 대해서 알아봅니다.

먼저 Multinomial classification 이란 무엇일까요?


우리는 지난 포스팅을 통해 Logistic regression에 대해서 알아보았습니다.

이때, 단순히 Hypothesis를 H(x) = WX 라는 식으로 세운다면 결과 값이 0 또는 1이 아닌 값이 나올 수 있기 때문에 우리는 z = H(x), g(z) 라는 식으로 두고 g(z)를 sigmoid 함수로 둠으로써 0과 1내의 값으로 결과가 나오도록 하였습니다.


이러한 과정을 간단하게 도식으로 표현해보면 다음과 같습니다.



그리고 우리는 이러한 것을 바탕으로 아래 그래프에서 ㅁ와 x를 구분하는 선을 그려냅니다.



그럼, Multinomial classification이란 무엇일까요?

Multinomial classification이란 단순히 0 또는 1로써 구별하는 것을 넘어, 다양한 것으로 분류하는 것입니다.



위의 그래프는 A, B, C 세개의 종류로 구별하는 것인데, 이를 하기 위해 3개의 선을 그었습니다.

위의 그래프와 같이 우리가 학습했던 Logisitc Regression 여러개를 이용한다면 이러한 Multinomial classification 구현이 가능합니다.


그리고 이러한 것들을 도식화해서 나타내 본다면 아래 그림과 같을 것 입니다.



여기서 아래 행렬을 통해 y hat 값을 얻을 수 있습니다.



이런 y hat 값들은 도식화된 그림에서의 z에 대응되는 데이터이기 때문에 다시 각각의 y hat에 sigmoid함수를 적용해야 합니다. 하지만 각각의 y hat에 sigmoid 함수를 적용하는 것보다 보다 효율적인 방법이 존재합니다.

이러한 방법에 대해서는 다음 포스팅에서 알아보도록 하겠습니다.

블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc