TigerCow.Door

3_Regression


안녕하세요. 문범우입니다.

이번 포스팅은 텐서플로우의 튜토리얼 세번째 내용, Regression에 대한 내용입니다.


In [2]:
# TensorFlow and tf.keras
# 텐서플로우와 keras를 import한다. 이떄 tensorflow는 tf라는 별칭으로 사용할 것임.
import tensorflow as tf
from tensorflow import keras

# Helper libraries
# numpy와 matplotlib을 사용한다.
import numpy as np
import matplotlib.pyplot as plt
# jupyter notebook에서 matplotlib을 사용하기 위한 매직커맨드
%matplotlib inline

print("사용되는 tensorflow의 버전:",tf.__version__)
사용되는 tensorflow의 버전: 1.9.0

Regression 이란?

Regression(회귀분석)이란, 관찰되는 연속형 변수들에 대해서 두 변수 사이의 모형을 구한뒤 그 적합도를 측정하는 분석 방식이다.

ㄱ. 데이터 준비

tensorflow를 이용하여 데이터를 다운 받고 데이터를 섞어준다.(shuffle)

이후 데이터를 확인해보는데 이전과 다른점은, 그전보다 데이터의 개수가 훨씬 적다.

실제로 확인해보면 이번 실습에서 사용되는 데이터의 개수는 전체 506개이다.

In [8]:
boston_housing = keras.datasets.boston_housing

(train_data, train_labels), (test_data, test_labels) = boston_housing.load_data()

# Shuffle the training set
order = np.argsort(np.random.random(train_labels.shape))
train_data = train_data[order]
train_labels = train_labels[order]
In [9]:
print("Training set: {}".format(train_data.shape))  # 404 examples, 13 features
print("Testing set:  {}".format(test_data.shape))   # 102 examples, 13 features
Training set: (404, 13)
Testing set:  (102, 13)
In [10]:
train_data[0]
Out[10]:
array([7.8750e-02, 4.5000e+01, 3.4400e+00, 0.0000e+00, 4.3700e-01,
       6.7820e+00, 4.1100e+01, 3.7886e+00, 5.0000e+00, 3.9800e+02,
       1.5200e+01, 3.9387e+02, 6.6800e+00])

위와 같이 하나의 데이터는 총 13개의 특징을 가지고 있다.

각 특징이 나타내는 의미는 다음과 같다.

  1. Per capita crime rate.(1인당 범죄율)

  2. The proportion of residential land zoned for lots over 25,000 square feet.(25,000 평방 피트가 넘는 지역에 거주하는 토지의 비율.)

  3. The proportion of non-retail business acres per town.(마을 당 비 소매 사업 에이커의 비율.)

  4. Charles River dummy variable (= 1 if tract bounds river; 0 otherwise).(Charles River 더미 변수 (강이 경계에 있으면 1, 그렇지 않으면 0).)

  5. Nitric oxides concentration (parts per 10 million).(질소 산화물 농도 (1000 만 분당).)

  6. The average number of rooms per dwelling.(주거 당 평균 객실 수.)

  7. The proportion of owner-occupied units built before 1940.(1940 년 이전에 건설 된 소유 점령 단위의 비율.)

  8. Weighted distances to five Boston employment centers.(5 개의 보스턴 고용 센터에 가중치 적용.)

  9. Index of accessibility to radial highways.(방사형 고속도로 접근성 지수.)

  10. Full-value property-tax rate per $10,000.($ 10,000 당 부당한 재산세 비율.)

  11. Pupil-teacher ratio by town.(마을 별 학생 - 교사 비율.)

  12. 1000 (Bk - 0.63) ** 2 where Bk is the proportion of Black people by town.(1000 (Bk - 0.63) ** 2 여기서 Bk는 도시 별 흑인 비율입니다.)

  13. Percentage lower status of the population.(인구의 낮은 지위의 백분율.)

위와 같은 데이터들은 서로 다른 범위를 가지고 있다.

어떤 데이터는 0,1 의 범위를, 어떤 데이터는 1~12의 범위를, 어떤 데이터는 0~100의 범위를 가지고 있다.

실제 데이터들은 위와 같이 서로 다른 범주를 갖는 경우가 많은데, 이를 잘 분석하고 탐색하는 것은 중요한 기술이다.

먼저 pandas를 이용해서 입력데이터를 column name과 함께 살펴본다.

In [11]:
import pandas as pd

column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
                'TAX', 'PTRATIO', 'B', 'LSTAT']

df = pd.DataFrame(train_data, columns=column_names)
df.head()
Out[11]:
CRIM ZN INDUS CHAS NOX RM AGE DIS RAD TAX PTRATIO B LSTAT
0 0.07875 45.0 3.44 0.0 0.437 6.782 41.1 3.7886 5.0 398.0 15.2 393.87 6.68
1 4.55587 0.0 18.10 0.0 0.718 3.561 87.9 1.6132 24.0 666.0 20.2 354.70 7.12
2 0.09604 40.0 6.41 0.0 0.447 6.854 42.8 4.2673 4.0 254.0 17.6 396.90 2.98
3 0.01870 85.0 4.15 0.0 0.429 6.516 27.7 8.5353 4.0 351.0 17.9 392.43 6.36
4 0.52693 0.0 6.20 0.0 0.504 8.725 83.0 2.8944 8.0 307.0 17.4 382.00 4.63

입력 데이터에 따른 label은 house price(thousands of dollars) 이다.

In [12]:
print(train_labels[0:10])  # Display first 10 entries
[32.  27.5 32.  23.1 50.  20.6 22.6 36.2 21.8 19.5]

ㄴ. 데이터 정규화

위에서 언급한 바와 같이 범위 등이 서로 다른 데이터들은 정규화를 시켜주는 것이 좋다.

각 특징에 대해 특징의 평균을 빼고 표준편차로 나누어준다.

정규화 없이도 모델이 훈련될 수 있지만, 정규화 되지 않은 데이터들은 훈련을 보다 어렵게 할 수 있으며

심지어 모델이 입력되는 데이터의 단위에 의존하게 될 수 있다.

In [15]:
# Test data is *not* used when calculating the mean and std.

mean = train_data.mean(axis=0)
std = train_data.std(axis=0)
train_data = (train_data - mean) / std
test_data = (test_data - mean) / std # test_data도 train_data의 평균과 표준편차를 이용한다.

print(train_data[0])  # First training sample, normalized
[-0.39725269  1.41205707 -1.12664623 -0.25683275 -1.027385    0.72635358
 -1.00016413  0.02383449 -0.51114231 -0.04753316 -1.49067405  0.41584124
 -0.83648691]

ㄷ. 모델 만들기

우리는 sequential 모델을 사용하여 두개의 dense layer를 연결한다.

그리고 최종 출력에서는 하나의 값을 반환하도록 한다.

In [16]:
def build_model():
  model = keras.Sequential([
    keras.layers.Dense(64, activation=tf.nn.relu, 
                       input_shape=(train_data.shape[1],)),
    keras.layers.Dense(64, activation=tf.nn.relu),
    keras.layers.Dense(1)
  ])

  optimizer = tf.train.RMSPropOptimizer(0.001)

  model.compile(loss='mse',
                optimizer=optimizer,
                metrics=['mae'])
  return model

model = build_model()
model.summary()
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
dense (Dense)                (None, 64)                896       
_________________________________________________________________
dense_1 (Dense)              (None, 64)                4160      
_________________________________________________________________
dense_2 (Dense)              (None, 1)                 65        
=================================================================
Total params: 5,121
Trainable params: 5,121
Non-trainable params: 0
_________________________________________________________________

ㄹ. 모델 훈련하기

총 500epochs를 진행하며 각 epoch마다 dot을 통해 표시하도록 한다.

훈련에 대한 것은 history 개체에 저장한다.

In [17]:
# Display training progress by printing a single dot for each completed epoch.
class PrintDot(keras.callbacks.Callback):
  def on_epoch_end(self,epoch,logs):
    if epoch % 100 == 0: print('')
    print('.', end='')

EPOCHS = 500

# Store training stats
history = model.fit(train_data, train_labels, epochs=EPOCHS,
                    validation_split=0.2, verbose=0,
                    callbacks=[PrintDot()])
....................................................................................................
....................................................................................................
....................................................................................................
....................................................................................................
....................................................................................................

history개체에 저장한 것을 그래프로 살펴본다.

In [18]:
def plot_history(history):
  plt.figure()
  plt.xlabel('Epoch')
  plt.ylabel('Mean Abs Error [1000$]')
  plt.plot(history.epoch, np.array(history.history['mean_absolute_error']), 
           label='Train Loss')
  plt.plot(history.epoch, np.array(history.history['val_mean_absolute_error']),
           label = 'Val loss')
  plt.legend()
  plt.ylim([0,5])

plot_history(history)

위의 그래프를 보면 알수 있듯이 약 200epoch부터는 모델의 성능향상이 거의 없다.

이럴때 모델이 자동적으로 stop을 하도록 수정해보자.

model.fit의 callback 부분에 earyl stop이 추가되었다.

In [19]:
model = build_model()

# The patience parameter is the amount of epochs to check for improvement.
early_stop = keras.callbacks.EarlyStopping(monitor='val_loss', patience=20)

history = model.fit(train_data, train_labels, epochs=EPOCHS,
                    validation_split=0.2, verbose=0,
                    callbacks=[early_stop, PrintDot()])

plot_history(history)
....................................................................................................
..

실제로 test data를 통해 얼마 만큼의 평균오차를 내는지 확인해보자.

In [20]:
[loss, mae] = model.evaluate(test_data, test_labels, verbose=0)

print("Testing set Mean Abs Error: ${:7.2f}".format(mae * 1000))
Testing set Mean Abs Error: $2947.01

ㅁ. 예측하기

In [21]:
test_predictions = model.predict(test_data).flatten()

print(test_predictions)
[10.710474 18.635462 22.104404 32.81973  27.015018 21.178158 26.611774
 22.564915 19.1268   23.936018 19.752283 17.452827 15.371007 43.447193
 19.94533  21.828798 27.71085  20.554897 20.708773 28.653221 12.816028
 16.259748 21.786507 17.738703 22.114128 26.368296 31.233797 31.095444
 11.65609  21.96858  20.735067 16.558405 35.90579  26.044052 18.955885
  8.80617  16.236498 18.209204 21.766678 27.251543 29.999348 30.49238
 14.658896 44.367027 31.695284 26.308619 28.913197 17.901768 24.071257
 23.236986 35.848755 20.972424 12.508268 16.33727  36.16853  29.573055
 13.147843 50.08273  37.53314  25.052143 27.157457 17.663246 15.22098
 19.24395  24.517494 22.699238 13.476988 23.181868 14.789012  8.453533
 27.990353 30.44094  26.718273 15.372239 26.475368 18.167768 21.319874
 24.394728 36.479847 11.181536 21.34497  39.06884  17.925838 14.414492
 18.226086 19.24096  20.92412  21.49447  21.532913 34.560352 21.857464
 21.240526 25.733452 40.7276   37.847027 20.7775   36.419277 53.005924
 28.091654 47.61222  32.666664 21.303524]


블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요.

이번 포스팅에서는 Neural Network에서도 가장 재밌고, 꽃이라고 하는 Recurrent Neural Network(RNN)에 대해서 알아보도록 하겠습니다.



1. Sequence(or Series) Data


우리가 사용하는 데이터들 중에서는 sequence data들이 매우 많이 있습니다.

예를 들어, 우리가 이야기하는 자연어에서도 단순히 하나의 단어에 대해서만 이해해서 전체적인 이해를 할 수 있는 것이 아니라, 그전에 이야기했던 단어들을 모두 이해해야 합니다. 이러한 데이터를 sequence data라고 합니다.


이전의 NN이나 CNN등 에서는 하나의 입력, x에 대해서 출력 y를 나타내는 간단한 형태였기 때문에 시리즈 데이터인, x0, x1, ..., xt등의 데이터를 처리하기 힘들었습니다.


그래서 이러한 시리즈 데이터를 처리하기 위해서 다음과 같은 모델이 고안되었습니다.



즉, 입력값에 대해서 현재의 state가 다음의 state에 영향을 미치는 것입니다.

이를 좀 더 펼쳐서 살펴보면 다음과 같습니다.


실제로는 우측과 같이 구현되는데, 위에서 언급한 바와 같이, x0 를 통해 계산된 것이 x1이 계산될때 영향을 미칩니다.

이러한 모델은 시리즈 데이터들을 다루는데 매우 효과적입니다.



2. Recurrent Neural Network


즉, 이러한 모델을 RNN(Recurrent Neural Network)라고 합니다.

이러한 모델은 어떻게 계산하는 것일까요?


RNN에서는 state라는 개념이 존재하는데, state를 계산하기 위해, 그 전에 있던 old state가 사용되고 입력값 x가 사용됩니다.

그리고 여기서 사용되는 함수, f는 전체적으로 동일합니다.


좀 더 구체적으로 값을 계산하는 방법에 대해서 알아보겠습니다.

가장 기초적으로는 Vanilla RNN입니다.


우리가 그동안 다뤘던 WX 와 같은 형태처럼, 입력값 h_(t-1)에 대해서 W_(hh)*h_(t-1)로 계산되고, x_t에 대해서는 W_(xh)*x_t와 같이 계산됩니다. 그리고 sigmoid와 비슷한 tanh에 두 값을 더해서 넣어줍니다.

그리고 결과값 yt에 대해서는 W_(hy)*h_t로 계산합니다.

이때 y가 몇개의 벡터로 나올 것인가는 우리가 설정하는 W에 따라서 결정됩니다.



3. Recurrent Networks



위에서 알아본 RNN은 매우 다양하게 활용될 수 있습니다.

위의 그림을 보시면, 첫번째는 우리가 그동안 다루었던 단순한 Neural Network같은 것으로부터 시작해, Image Captioning에서 이용되는 one to many 형태도 있으며, Sentiment Classification으로써 여러개의 단어를 통해 감정을 예측하는 등으로 활용되는 many to one, 그리고 many to many의 형태가 있습니다.


블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요. 문범우입니다.

지난 포스팅에서 CNN에 대해서 알아보았습니다.

이번 포스팅에서는 이어서, CNN에서의 pooling과 나머지 것들에 대해서 알아보도록 하겠습니다.


1. Pooling



Convolution Neural Network의 전체적인 구조를 위의 그림과 같이 확인해보면, Convolution과 RELU가 붙어져 있으며 중간에 한번씩 POOL을 하게 됩니다.


이때 진행되는 POOL이라는 것이 무엇인가 알아보도록 하겠습니다.


pooling이라는 것을 먼저 간단히 생각해본다면, sampling이라고 생각하면 됩니다.

우리가 입력 이미지에 대해서 위의 그림과 같이 convolution layer를 만드는데, 여기서 하나의 layer만 뽑아내고 이를 resize하는 과정을 pooling이라고 합니다.

복잡한 것이 아니고, 하나의 예를 들어서 pooling을 진행해보도록 하겠습니다.


pooling에서도 많이 사용되는 max pooling은 아래 사진과 같이 진행됩니다.


pooling에서는 우리가 지난 포스팅에서 알아보았던 filter라는 개념이 다시 사용되는데, 위의 사진과 같이, 2x2 형태의 필터를 이용하며, 이때 stride는 2로 설정하였습니다.

그럼 필터에서 어떠한 값을 어떻게 추출할 것인지가 문제가 됩니다.

이때 위에서 말했듯, max pooling을 사용하면 그림의 오른쪽과 같이 나오게 됩니다.


이런식으로 처리하는 것이 pooling입니다.



2. Others



정리를 해보자면, 지난 포스팅에서 배운 Convolution 을 통해 나온 벡터 값을 RELU 함수에 입력하고, 그 과정 중간에 위에서 배운 pooling과정을 진행하여 resize하는 방법을 진행합니다. 물론 layer를 어떻게 설정하느냐는 모델을 만드는 여러분의 몫입니다.

그리고 마지막 과정에서 보통 pooling을 진행하는데, 예를 들어 pooling을 통해 3x3x10의 형태로 결과가 나왔다면 이것을 x 값으로 하여 일반적인 Neural network를 구성하면 됩니다.

블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요. 문범우입니다.

이번포스팅에서는 Convolutional Neural Networks에 대해 알아보도록 하겠습니다.


1. Convolutional Neural Networks


이번 포스팅에서 사용되는 슬라이드는 대부분 위의 사진에 나와 있는 주소에서 가져오게 되었습니다.




우리가 알아볼 Convolutional Neural Networks의 기본적인 개념은 고양이 실험에서 시작되었습니다.


고양이에게 어떤 이미지를 보여줬더니, 그림을 읽어들이는 뉴런들이 동시에 동작하는 것이 아니라, 특정 그림의 특정 부분에 대해서만 동작하는 것을 알게 되었습니다.


즉, 고양이가 이미지의 입력을 나누어서 받아 뉴런에서 나누어진 입력들을 처리하게 된 것이죠.


하나의 레이어씩 어떻게 처리되는지 조금 더 자세히 살펴보도록 하겠습니다.


위와 같이 32x32x3 형태의 이미지(또는 벡터)가 존재합니다.

이때 32x32는 크기라고 가정하고, 3은 이미지의 색상의 종류라고 생각해보겠습니다.

그리고 위에서 이야기했던 것과 같이 이미지에 대해 전체적으로 처리하는 것이 아니라, 아래와 같이 빨간색 부분과 같이 일부분을 처리합니다.


이러한 일부분을 우리는 filter라고 부르는데 이 필터의 형태는 우리가 정할 수 있습니다. 예외적으로 이미지의 대한 색의 종류, 3은 고정시키고 단순히 크기에 대한 형태만 우리가 지정할 수 있습니다.

그럼 이 필터는 전체 이미지의 5x5의 영역만 읽어들이게 됩니다.

그리고 그 영역을 읽어서 하나의 숫자를 뽑아내게 됩니다.

이것이 필터의 역할입니다.

근데 이것을 어떻게 하나의 값으로 만들어낼 수 있을까요?

그것은, 위의 사진에서 나온것과 같이 우리가 자주 사용하던 Wx+b 의 형태를 이용해서 하나의 값을 뽑아냅니다.

그리고 여기서 W는 우리가 어떤 영역에 대해서 하나의 숫자를 만들어내는데 사용되는 필터의 값이라고 생각하면 되겠습니다.

그리고 이렇게 결정된 W에 대해서 변하지 않도록 고정하고 전체의 이미지를 훑도록 합니다. 즉 아래와 같이 하나의 필터가 전체의 이미지를 스캔합니다.

위의 그림에서 빨간색, 파란색, 초록색 테두리를 가진 것과 같이 하나의 필터를 한칸 또는 그 이상씩 이동시키며 전체 이미지를 확인합니다.


그럼 위의 그림을 예시로 생각해보면 전체 9x9 의 형태에서 3x3 형태의 필터를 사용하는데 위와 같이 한칸씩 움직이면서 하나의 값을 뽑아내게 되면 뽑아낸 값들은 어떤 형태를 가지게 될까요?

결과값들은 7x7 형태를 가지게 될 것입니다.

이때 우리가 한칸씩 필터를 움직이게 됬는데, 이때 움직이는 크기를 stride라고 합니다. 즉, stride를 2로 설정해보면 아래와 같이 2칸씩 필터가 움직이면서 전체 이미지를 읽게됩니다.



그리고 위와 같이 stride를 2로 설정한다면, 전체 결과의 형태는 4x4 형태를 가지게 될 것입니다.


이를 전반적으로 살펴보면, 우리가 NxN형태의 이미지에서 FxF형태의 필터를 이용했을때 stride 설정하면 위와 같은 식으로 output size를 알아낼 수 있습니다.

그리고 위의 사진에서 stride 를 3으로 설정했을때와 같이 정수로 나누어 떨어지지 않을때는 그 필터의 형태나 stride를 사용할 수 없는 것 입니다.


그런데, 이렇게 사용하게 되면 기본 이미지보다 output 의 size가 작아지면서 어떤 정보가 사라지는 등의 문제가 발생할 수 있습니다.

이를 막기 위해서 우리가 사용하는 방법은 padding이라는 개념입니다.



위의 사진과 같이 기본이미지의 모서리에 0이라는 값으로 채워주는 것을 padding 이라고 합니다.

이렇게 하는 이유는, 이미지의 형태가 급격하게 작아지는 것을 막기 위한 이유와, 이미지의 모서리임을 알려주는 이유 두가지가 있습니다.


위의 사진에서 pad를 1 pixel로 설정하여 output size를 확인해보면 7x7 이 나오게 됩니다. 즉 입력 이미지와 출력 이미지의 size가 같게 됩니다.


지금까지 알아본 것이 기본적으로 하나의 Convolution layer를 만드는 방법입니다.


그리고 이러한 방법을 이용하여 위의 사진과 같이 여러개의 레이어를 만듭니다. 이때 새롭게 이용되는 filter는 이전의 filter와 W의 값이 다를 것 입니다.



그리고 이것을 한개, 두개의 레이어만 만들 것이 아니라 위와 같이 여러개의 레이어를 만듭니다. 그리고 각 레이어의 W값이 다르기 때문에 각 레이어의 값이 서로 다를 것입니다.

그리고 이렇게 만들어진 레이어들의 형태, (?, ?, ?)에서 마지막 세번째 값을 그 레이어의 숫자가 됩니다.


즉 여러개의 레이어를 만들면서 그 결과를 통해 또 다른 레이어를 만들면서 위와 같은 Convolution layers를 만들 수 있습니다.


블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요. 문범우입니다.

이번 포스팅에서는 dropout과 model ensemble에 대해서 살펴보도록 하겠습니다.



1. Dropout


우리가 dropout을 하는 이유는 바로 아래와 같은 overfitting 때문입니다.



우리가 과거에 알아봤던 것처럼, 훈련 data에 있어서는 100%의 accuracy를 내지만, 실제로 test data에 있어서는 높은 예측율을 내지 못하게 되는 현상이죠.



위와 같이, 파란색 그래프, training 에서는 에러율이 점점 낮아지지만, 실제로 빨간색 그래프처럼 test data를 통해 확인해보니 어느 시점부터 에러율이 더 증가하게 됩니다.


이러한 overfitting은 우리가 더 깊게 만들수록 일어날 확률이 커집니다.

왜냐하면 더 깊어질수록 더 많은 변수가 생기기 때문입니다.


그럼 이를 해결하기 위해서는 무슨 방법이 있을까요?


첫번째로는, 더 많은 데이터를 훈련시키는 것입니다.

또는 feature를 줄여주는 방법도 있을 것입니다.

그리고 우리가 예전에 간단히 알아봤던, Regularization 이라는 방법이 있습니다.



우리가 예전에 알아봤던 것처럼, 위의 식과 같이 처리함으로써 Regularization을 하는 L2regularization도 있습니다.


그리고 Neural Network에서는 또다른, dropout이라는 방법이 있습니다.

dropout이란 쉽게 말해서, 위 그림에서 왼쪽 그림과 같은 모델에서 몇개의 연결을 끊어서, 즉 몇개의 노드를 죽이고 남은 노드들을 통해서만 훈련을 하는 것입니다.

이때 죽이는, 쉬게하는 노드들을 랜덤하게 선택합니다.




쉽게 말해 각 노드들을 어떤 전문가라고 생각해본다면 랜덤하게 몇명은 쉬게하고 나머지만 일하게 합니다. 

그리고 마지막에는 모든 전문가들을 총 동원해서 예측을 하게 합니다.


이러한 아이디어가 dropout 입니다.


실제로 텐서플로우에서 구현하기에도 어렵지 않게 가능합니다.

우리가 원래 만들었던 layer를 dropout함수에 넣어서, 몇 퍼센트의 노드가 일하게 할 것인지 함께 적어줍니다.

위의 코드를 보면 Train에서는 0.7, 즉 70%의 노드들이 랜덤하게 훈련되게 하였습니다.

그리고 실수하면 안되는 점이 Evaluation 과정에서는 dropout_rate를 1로 함으로써 100%의 노드들을 참가시키도록 해야 합니다.



2. Ensemble



우리가 추후, 학습시킬 수 있는 장비가 많을때 사용할 수 있는 또 하나의 방법도 있습니다.

Ensemble이라고 하는 것인데, 위와 같이 여러개의 독립적인 모델을 만듭니다. 이때 훈련 데이터셋은 별도로 해도 되고, 모두 같은 훈련 데이터셋을 이용해도 상관 없습니다.

이때 각 모델의 초기값이 서로 다르기때문에 결과도 약간씩 다를 것입니다.

그리고 이후에 독립적인 모델들을 모두 합쳐서 한번에 예측을 하게 합니다.

즉, 이것은 전문가 한명에게 어떤 질문을 하는 것이 아니고 서로 독립적인 전문가 다수를 모아두고 질문을 하는 것과 같습니다.


실제로 Ensembel을 이용하면 2%~5%까지도 예측율이 올라간다고 합니다.


블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요. 문범우입니다.

이번에는 지난 포스팅에 이어서 딥러닝을 잘하는 방법 중 weight의 초기값을 설정하는 방법에 대해서 알아보도록 하겠습니다.



1. RBM(Restricted Belief Machine)


우리가 지난 포스팅에서 위의 그림과 같은 Vanishing gradient 문제에 대해서 알아보았습니다.

그리고 이 문제에 대해서는 Hilton 교수님께서는 4가지 이유를 꼬집었습니다.


위의 4가지 항목중 제일 아래에 있는 것은 우리가 지난 포스팅에서 sigmoid함수 대신, ReLU함수를 사용함으로써 해결할 수 있었습니다.

하지만 하이라이트 된 것과 같이 또 다른 문제도 있었습니다.


이전의 테스트에서도 아래와 같이, 같은 ReLU함수를 사용했음해도 불구하고 cost가 초반에 다르게 변화하는 것을 볼 수 있습니다.


이러한 현상이 발생하는 이유는 우리가 테스트를 할때, 초기값을 랜덤하게 지정해서 발생한 현상입니다.


그럼, 이런 초기값에 대해서 좀 더 자세히 살펴보도록 하겠습니다.

단적으로 초기값을 0으로 설정해보면 어떨까요?

그럼, 위와 같은 그림에서 W를 0으로 둔것이고, 이것이 chain rule에서 사용됩니다. 그럼 x = df/dg * W 이므로 x = 0이 되고, 그 앞에 있는 것들도 모두 0이되면서 gradient가 사라져 버립니다.


따라서, 절대로 초기값으로 0을 주면 안된다는 것을 알 수 있습니다.

그럼 초기값을 어떻게 주어져야 할까요?


이에 대해 2006년 Hilton교수님께서 논문을 쓰시면서 RBM(Restricted Boatman Machine)을 사용함으로써 해결하게 됩니다.

그리고 이러한 RBM을 사용한 네트워크를 DBN(Deep Belief Networks)라고 합니다.


어떻게 동작되는 것 일까요?


먼저, 입력을 재생산 해냅니다.


위의 그림과 같이, 입력값을 weight와 곱해서 b값을 얻어냅니다. 또한 b 유닛아래에 있는 것들에 대해서도 같은 방법을 통해서 값을 얻습니다. 이러한 과정을 Forward 라고 합니다.



그리고, Backward 방법으로, 우리가 얻은 값들과 weight를 통해 위의 그림에서의 b 값을 얻습니다.

그럼 우리가 처음에 입력한 값을 x라고 한다면, x와 b의 값의 차이가 존재할텐데 이 차이가 최소가 될 때까지 weight를 조절합니다.


이렇게 해서 weight를 구하는 것을 RBM이라고 합니다.

그리고 위와 같은 방법을 encoder/decoder라고도 합니다.


실제로 이것을 네트워크 상에서 적용시키기 위해서는 아래와 같은 과정을 가집니다.

여러개의 레이어가 있을때, 입력값 측의 레이어부터 시작하여 layer 1과 layer 2를 encoder/decoder를 수행하고, 이후에 layer2 와 layer3에 대해 수행하며 끝까지 나아가는 방법입니다.


이제 이러한 과정을 통해 각 weight를 구할 수 있고, 그것을 학습시킨다, training한다는 표현보다는 fine tunning 이라는 표현을 사용합니다.

학습하는 것보다 훨씬 더 빨리 진행되는 작업이기 때문이죠.

이러한 fine tunning이 끝나게 되면 이후 우리가 학습시키고자 하는 데이터들에 대해서 label을 붙여서 실제로 training을 진행합니다.



2. Xavier initalize




그런데 실제로 이것을 구현하는데 있어서는 복잡한 과정이 있을 수 있습니다.

하지만 좋은 소식은, 2010년에 발표된 논문에서 우리가 굳이 RBM을 쓰지 않아도, 좋은 초기값을 얻을 수 있다는 Xavier initialize라는 알고리즘이 나왔습니다.


이는 입력의 노드의 개수에 비례해서 초기값을 세팅하면 된다는 식의 알고리즘 입니다.


이를 식으로 간단히 살펴보면, 우리가 좋은 값, 좋은 weight를 얻기 위해서 입력값의 개수 fan_in 과 출력 값의 개수 fan_out을 이용하여 초기값을 주는 것입니다. 이러한 식을 통해 어쩌면 RBM보다 더 좋은 결과를 가질 수 있다고 합니다.


블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요. 문범우입니다.

오늘은 ReLU(Rectified Linear Unit)에 대해서 알아보겠습니다.



1. NN for XOR


우리가 지난 시간에 XOR문제를 위와 같은 모델로 하여 풀이를 진행해보았습니다.

실제로 텐서플로우를 이용하여 구현해보기도 하였습니다.

그때 각 유닛의 결과에 우리가 Sigmoid 함수를 붙여서 결과값이 0~1이내로 출력되게 했었습니다.



이러한 Sigmoid함수를 activation function 이라고 합니다.

각 모델들에게 어떤 값을 보내게 될 때 일정값 이상이면 active되게 하고 그렇지 않으면 active하지 않게 하기 때문에 주로 그렇게 불린다고 합니다.


그리고 우리는 아래와 같이 각각의 W, b를 만들고 layer를 이용하여 2단의 네트워크를 만들었습니다.


그럼 3단을 가진 네트워크는 어떻게 할까요?

당연히 2단때와 같이, 쉽게 구현할 수 있습니다.

이때, 제일 처음이 layer를 input layer라고 부르며, 가장 바깥쪽(마지막)에 있는 layer를 output layer라고 부릅니다. 그리고 그 사이에 있는 layer들을 hidden layer라고 합니다.


그럼 더 깊게 한번 만들어볼까요?

hidden layer가 9단이 되게끔 구현해보도록 하겠습니다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
W0 = tf.Variable(tf.random_uniform([2,5], -1.01.0), name = 'weight0')
 
W1 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight1')
W2 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight2')
W3 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight3')
W4 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight4')
W5 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight5')
W6 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight6')
W7 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight7')
W8 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight8')
W9 = tf.Variable(tf.random_uniform([5,5], -1.01.0), name = 'weight9')
 
W10 = tf.Variable(tf.random_uniform([5,1], -1.01.0), name = 'weight10')
 
b0 = tf.Variable(tf.zeros([5]), name = 'bias0')
 
b1 = tf.Variable(tf.zeros([5]), name = 'bias1')
b2 = tf.Variable(tf.zeros([5]), name = 'bias2')
b3 = tf.Variable(tf.zeros([5]), name = 'bias3')
b4 = tf.Variable(tf.zeros([5]), name = 'bias4')
b5 = tf.Variable(tf.zeros([5]), name = 'bias5')
b6 = tf.Variable(tf.zeros([5]), name = 'bias6')
b7 = tf.Variable(tf.zeros([5]), name = 'bias7')
b8 = tf.Variable(tf.zeros([5]), name = 'bias8')
b9 = tf.Variable(tf.zeros([5]), name = 'bias9')
 
b10 = tf.Variable(tf.zeros([5]), name = 'bias10')
 
L1 = tf.sigmoid(tf.matmul(X, W0) + b0)
L2 = tf.sigmoid(tf.matmul(L1, W1) + b1)
L3 = tf.sigmoid(tf.matmul(L2, W2) + b2)
L4 = tf.sigmoid(tf.matmul(L3, W3) + b3)
L5 = tf.sigmoid(tf.matmul(L4, W4) + b4)
L6 = tf.sigmoid(tf.matmul(L5, W5) + b5)
L7 = tf.sigmoid(tf.matmul(L6, W6) + b6)
L8 = tf.sigmoid(tf.matmul(L7, W7) + b7)
L9 = tf.sigmoid(tf.matmul(L8, W8) + b8)
L10 = tf.sigmoid(tf.matmul(L9, W9) + b9)
 
hypothesis = tf.sigmoid(tf.matmul(L10, W10) + b10)
cs


위와 같이 hidden layer가 총 9단이 되도록 구현해보았습니다.

그리고 텐서보드를 이용하기 위해서는 추가적으로 name_scope를 사용하면 됩니다.


그리고 이러한 모델을 실제로 훈련시키고 결과를 확인해보면 다음과 같습니다.

Accuracy 가 0.5가 나왔습니다.

왜그럴까요?

우리가 지난번에 했을때보다 더 깊고, 더 넓게 훈련을 시켰는데 오히려 더 좋지 않은 결과가 나와버렸습니다.



2. Vanishing Gradient


우리가 지난 시간에 알아본, backpropagation에 대해서 다시한번 살펴보도록 하겠습니다.


우리가 위와 같은 구조를 공부했었는데, 이때 backpropagation에서 chain rule을 사용한다고 했었습니다.

지난 포스트에서 알아본것에 따르면, 빨간 동그라미, dg/dx = y의 값을 갖게되고 이에 따라 df/dx = df/dg * dg/dx = df/dg * y 가 됩니다.

근데 이때 y가 어떤 값을 가질지 한번 살펴볼까요?

y가 input layer가 아니었다면, 다른 유닛에 통과하고 sigmoid 함수를 통과했을 것입니다. 그럼 우리가 정확한 y의 값을 알지는 못해도 sigmoid 함수의 특성때문에 0~1사이의 값을 갖는다고 생각할 수 있습니다.

그럼 이때 y의 값이 예를 들어 0.01정도라고 생각해보겠습니다.

이렇게 된다면, 다시 올라가서 df/dx = df/dg * 0.01 이 됩니다.


이렇게 되는 것의 단점이 무엇이냐면, 결국에 값들이 sigmoid 함수를 지나게 되면서 그 값이 1보다 작게 되며 경우에 따라서는 굉장히 0에 가까운 값들이 계속 곱해지게 됩니다.

그러면 결국적으로 굉장히 작은 값을 갖게 됩니다.


즉, 그렇게 되면 결과 단에서 점점 깊어질 수록 그 영향을 찾기 힘들다, 예측하기 힘들다라는 결론을 가져오게 됩니다.

이런 현상을 Vanishing gradient 라고 합니다.



3. Rectified Linear Unit, ReLU


그리고 Hilton 교수님은, 이러한 현상에 있어서 sigmoid가 잘못되었다라는 것을 찾게되었습니다.

sigmoid함수 때문에 1보다 큰 값을 가지지 못하게 되었고, 이로 인해 layer가 깊어지면서 오히려 그 값이 작아져 영향을 찾기 힘들어지기 때문입니다.

그리고 새롭게 생각한 함수가 ReLu, Rectified Linear Unit 입니다


ReLU 함수는 단순합니다. 입력값이 0보다 작을 때는 아예 non-activate로 꺼버리고, 0보다 클때에는 그 값을 그대로 반환합니다.


이러한 ReLU를 사용하는 방법도 매우 간단합니다.

단순히 우리가 sigmoid를 사용하던 곳에 대신 ReLU를 사용하면 됩니다.

물론 텐서플로우에서도 위와 같이 매우 간단하게 사용할 수 있습니다.


실제로 우리가 위에서 제대로 값을 얻지못한 9단 hidden layer를 가진 모델에서 sigmoid 대신 ReLU를 사용하면 다음과 같은 cost를 가지게 됩니다.


ReLU를 여러번 돌리면서 약간의 차이는 존재하지만, sigmoid에 비해서는 훨씬 더 올바른 학습을 가지는 것을 볼 수 있습니다.

물론, layer에서 제일 마지막에선 sigmoid함수를 사용하여 결과 값이 0~1 사이로 나오게끔 해야합니다.


오늘 우리가 알아본 ReLU 이외에도 아래와 같이 다양한 activation function이 있습니다.



블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요.

이번 포스팅에서는 우리가 딥러닝 이론에서 배웠던 XOR 문제를 텐서플로우로 해결해보도록 하겠습니다.

이론적인 부분은 아래 글에서 설명드렸기에, 코드에 대한 이야기를 주로 할 것 같습니다. 딥러닝에 대한 기본적인 이론이기에 잘 이해가 안되시는 분들은 아래 글을 참고해주세요.


딥러닝(DeepLearning) #1_ 딥러닝의 시작



1. XOR data set


먼저 XOR이 어떤건지 간단히 살펴보겠습니다.



XOR은 위에서 가운데에 있는 심볼로 나타냅니다. 그리고 우리에게 필요한 데이터, truth table은 그 오른쪽 표와 같이 나와있습니다. 두 개의 input이 입력되고, input값이 서로 같을 때는 0을 출력하고, input값이 서로 다를 때는 1을 출력합니다.


이것을 텐서플로우에서 데이터로 입력해본다면 아래와 같은 코드로 입력됩니다.


1
2
x_data = np.array([[0,0], [0,1], [1,0], [1,1]], dtype=np.float32)
y_data = np.array([[0],   [1],   [1],   [0]], dtype=np.float32)
cs



2. XOR with Logistic Regression

그럼 이제 전체 모델에 대한 코드를 작성해보겠습니다.
이때, 다시 한번 y, 출력 데이터를 살펴보면 단순히 0 또는 1로만 이루어지기 때문에 우리가 굳이 softmax classifier 등과 같은 알고리즘을 사용할 필요 없이 단순히 logistic regression을 이용하면 됩니다.

지난 실습들에서 구현했던 방식과 마찬가지로 구현해본다면 아래와 같이 코드가 구현됩니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
import tensorflow as tf
import numpy as np
 
x_data = np.array([[0,0], [0,1], [1,0], [1,1]], dtype=np.float32)
y_data = np.array([[0],   [1],   [1],   [0]], dtype=np.float32)
 
= tf.placeholder(tf.float32)
= tf.placeholder(tf.float32)
= tf.Variable(tf.random_normal([2,1]), name = "weight")
= tf.Variable(tf.random_normal([1]), name = "bias")
 
# hypothesis: sigmoid(X * W + b)
hypothesis = tf.sigmoid(tf.matmul(X, W) + b)
 
# cost function / minimize cost
cost = -tf.reduce_mean(Y * tf.log(hypothesis) + (1 - Y) * tf.log(1 - hypothesis))
train = tf.train.GradientDescentOptimizer(learning_rate=0.1).minimize(cost)
 
# predicate / accuracy
predicated = tf.cast(hypothesis > 0.5, dtype=tf.float32)
accuracy = tf.reduce_mean(tf.cast(tf.equal(predicated, Y), dtype=tf.float32))
 
#
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for step in range(10001):
        sess.run(train, feed_dict={X: x_data, Y: y_data})
        if step%100 == 0:
            print(step, sess.run(cost, feed_dict={X: x_data, Y: y_data}), sess.run(W))
    h, c, a = sess.run([hypothesis, predicated, accuracy], feed_dict={X: x_data, Y: y_data})
    print("\nHypothesis: ",h,"\nCorrect: ",c,"\nAccuracy: ",a)
 
cs

그리고 이를 실행시켜 결과를 확인해보면 아래와 같은 결과가 나옵니다.



결과에서 무언가 이상함을 느끼셨나요?

Accuracy가 0.5라는 값으로 출력되었습니다.


하지만 이는 이상한 것이 아닙니다.

우리가 이론시간에서 알아보았듯이, 하나의 node로, 그래프에서 생각해본다면 linear한 직선하나로 XOR 문제를 푸는 것은 불가능 하다고 했었죠.


그래서 우리는 layer라는 개념을 통해 여러개의 모델을 사용하고 이를 연결하는 방법을 배웠습니다. 그럼 그러한 방법으로 다시 시도해보도록 하겠습니다.



3. XOR with Neural Network

오히려 텐서플로우에서 layer라는 것을 이용하는 것은 어렵지 않게 느껴집니다.
단순히 우리가 하나로 만들었던 것을 쪼갠다고 생각하시면 됩니다.

전체적인 코드를 보면 아래와 같습니다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
import tensorflow as tf
import numpy as np
 
x_data = np.array([[0,0], [0,1], [1,0], [1,1]], dtype=np.float32)
y_data = np.array([[0],   [1],   [1],   [0]], dtype=np.float32)
 
= tf.placeholder(tf.float32)
= tf.placeholder(tf.float32)
 
# W = tf.Variable(tf.random_normal([2,1]), name = "weight")
# b = tf.Variable(tf.random_normal([1]), name = "bias")
# hypothesis = tf.sigmoid(tf.matmul(X, W) + b)
 
W1 = tf.Variable(tf.random_normal([2,2]), name="weight1")
b1 = tf.Variable(tf.random_normal([2]), name="bias1")
layer1 = tf.sigmoid(tf.matmul(X, W1) + b1)
 
W2 = tf.Variable(tf.random_normal([2,1]), name="weight2")
b2 = tf.Variable(tf.random_normal([1]), name="bias2")
hypothesis = tf.sigmoid(tf.matmul(layer1, W2) + b2)
 
# cost function / minimize cost
cost = -tf.reduce_mean(Y * tf.log(hypothesis) + (1 - Y) * tf.log(1 - hypothesis))
train = tf.train.GradientDescentOptimizer(learning_rate=0.1).minimize(cost)
 
# predicate / accuracy
predicated = tf.cast(hypothesis > 0.5, dtype=tf.float32)
accuracy = tf.reduce_mean(tf.cast(tf.equal(predicated, Y), dtype=tf.float32))
 
#
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for step in range(10001):
        sess.run(train, feed_dict={X: x_data, Y: y_data})
        if step%1000 == 0:
            print(step, sess.run(cost, feed_dict={X: x_data, Y: y_data}), sess.run([W1, W2]))
    h, c, a = sess.run([hypothesis, predicated, accuracy], feed_dict={X: x_data, Y: y_data})
    print("\nHypothesis: ",h,"\nCorrect: ",c,"\nAccuracy: ",a)
 
cs

14~20번 코드를 보시면, 이전에는 하나의 W, b로 hypothesis를 구해내는, 하나의 모델을 이용하는 방법이었는데 이번에는 2개로 나누어서 진행하였습니다.

그리고 결과를 확인해보면 아래와 같습니다.


처음에 나왔던 결과와 다르게, 모델이 제대로 훈련되어 Accuracy 값으로 1이 출력되었습니다.



4. Wide Neural Network

그럼, 우리가 보다 정확하게 예측할수 있는 방법은 무엇이 있을까요?
잠깐, 방금 작성했던 코드를 살펴보겠습니다.


위의 코드에서 빨간색 줄 그어져 있는 부분을 보겠습니다.

처음의 [2,2] 는 x의 입력이 2개이기 때문에 앞의 숫자 2가 나오고, 뒤의 숫자2는 임의로 출력을 2개로 한 것입니다.

그리고 b1에 있는 [2]는 W1에서 출력을 2로 했으므로 같이 맞춰주는 것입니다.


그리고 아래의 [2,1] 에서는 위에서 출력한 2개를 입력으로 받기 때문에 앞의 숫자2가 나오고, 우리가 최종적으로 출력하는 Y는 1개의 출력값을 가지므로 1, 한개로 출력하고 b2도 이와 함께 맞추어 준 것입니다.


즉, 이것을 그림으로 나타내면 아래와 같습니다.



그럼 다시 돌아와서, 우리가 보다 더 정확하게 예측할 수 있는 방법 중에 하나는, 위에 그림에서 두개의 모델 사이의 연결선을 증가시키는 방법입니다.


즉, 그림으로 생각하면 다음과 같이 되겠으며


코드로는 다음과 같이 구현이 되겠습니다.



그리고 이러한 변화를 결과로 확인해보면 다음과 같습니다.



모델을 보다 더 Wide 하기전과 비교해본다면, hypothsis의 작은 값은 더 작게, 큰 값은 더 크게 되는 것을 확인하실 수 있습니다.



5. Deep Neural Network


예측율을 높이는 다른 방법은 layer를 더 깊게 만드는 것입니다.


코드로 보면 아래와 같이, 단순하게 layer를 총 4개 사용하였습니다.



그리고 그 결과는 역시, 처음보다 더 좋은 예측율을 보여줍니다.




블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc



안녕하세요. 문범우입니다.

이번 포스팅에서는 Backpropagation에 대해서 알아보겠습니다.

지난 포스팅에서 XOR문제를 풀어보았는데, 정확하게 W나 b에 대한 값을 구하지는 못하였습니다. 그럼 이런 상황에서 어떻게 W와 b를 구하는지, 정확하게는 backpropagation이 어떻게 사용되는 것인지 알아보도록 하겠습니다.



1. Intro


먼저, 우리가 어떻게 W나 b와 같은 값을 구할 수 있을까요?

우리가 그동안 다루어 보았던 Gradient의 개념을 이용합니다.

우리는 보통 결과로 나오는 Y값을 통해 Cost함수를 정의하였습니다.

그리고 위와 같은 그래프형태로 나타날때, W가 어떤 초기값으로 시작하는지에 상관없이 그 점에서의 기울기를 이용하여 global minimum을 찾을 수 있었습니다.

즉, 이것을 구현하기 위해서는 특정 위치에서의 미분값을 필요로 합니다.


그런데 이것이 Neural Network로 가면서 복잡해지기 시작합니다. 


위와 같이 노드들이 한두개가 아니고, 각 노드에도 우리가 저번에 사용했듯이 sigmoid함수를 사용하는 등의 상황이 있었기 때문입니다.

여기서 미분값을 구한다는 것은 입력값 X이 결과 값 Y에 끼치는 영향을 알아야 한다는 것입니다. 그런데 단순히 입력값 X 뿐아니라, 각각의 노드들에 대해서도 구해야 각 노드들에 대한 W와 b값을 구할 수 있게됩니다.


그리고 이것은 1969년에 Minsky교수님께서 아무도 이것을 구할 수 없다라고 하실만큼 복잡한 과정이 되어버립니다.



2. Backpropagation


그런데 그러한 문제를 Backpropagation으로 해결하게 되었습니다.

Backpropagation은 그 이름에서도 알 수 있듯이, 우리가 forward로 진행하여 얻은 결과값과 실제값을 비교하여 얻은 error, 즉 cost를 통해 다시 뒤로 돌아가는 과정(backward)을 통해 어떻게 무엇을 설정해야 하는지 알아내겠다라는 개념입니다.


그럼 간단한 예제를 통해 실제로 Backpropagation이 어떻게 작동되는지 살펴보도록 하겠습니다.


위와 같이 정의된 f, g가 있습니다.

그리고 이제 여기서 알고자 하는 것은 w가 f에 미치는 영향, x가 f에게 미치는 영향, b가 f에게 미치는 영향입니다.

즉 알고자 하는 것을 그래프에 표시해본다면 아래와 같습니다.



그럼 이제 각각의 값들을 알기 위해 아래와 같은 과정을 진행합니다.


 1. forward(w = -2, x = 5, b = 3)

 2. backward 


1번 과정은 우리가 학습 데이터에서 값을 가져오는 과정이고 그리고 그 후 2번과정을 통해 실제 미분값을 구해보도록 합니다.


1번에서 주어진 데이터를 입력해본다면, g = -10, f = -7의 값을 가지게 됩니다.

그리고 우리가 처음에 정의한 식들을 편미분하여 아래와 같은 결과를 얻을 수 있습니다.

이렇게 정리가 되면 벌써 b가 f에 미치는 영향을 알 수 있게 됩니다.

df/db = 1 이기 때문이죠.


그리고 이어서 나머지 두 값을 얻기 위해, 먼저 g가 f에 미치는 영향을 생각해보면 df/dg = 1 이라는 식이 있기 때문에 이도 쉽게 구할 수 있습니다.


따라서 w가 f에 미치는 영향을 구해봅니다.

df/dw를 구하는 것인데 이때 chain rule을 이용합니다.

즉, df/dw = df/dg * dg/dw 와 같이 생각합니다.

그런데 이렇게 두고보니 df/dg와 dg/dw 두 값모두 알고 있습니다.

df/dg = 1, dg/dw = x = 5 이므로, df/dw = 1 * 5 = 5가 됩니다.


동일한 방식으로, x가 f에 미치는 영향, df/dx를 구해보면 아래의 식과 같습니다.

df/dx = df/dg * dg/dx = 1 * w = 1 * (-2) = -2


이렇게 구할 수 있습니다.


즉, 우리가 지금 간단한 예제로 진행해보았지만 실제로 더 복잡한 모델에서도 위와 같이 뒤에서부터 하나씩 순서대로 계산하면 매우 간단하게 w와 b등과 같은 값을 구할 수 있습니다.


또한 우리가 사용했던 sigmoid도 위와 같은 방법을 적용시킬 수 있습니다.

위의 그래프와 같이 g값을 이용하여 1/x에 대한 미분값을 얻고, 그 값과 +1 자체의 미분값을 구합니다. 그리고 같은 과정을 반복하면서 앞쪽으로 나아가면 됩니다.



이러한 방법을 통해 아래 그림과 같이 매우 복잡한 모델에 대해서도 기계적이고 반복적인 계산을 통해 미분값, 기울기를 구할 수 있습니다.



블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc



안녕하세요. 문범우입니다.

이번 포스팅에서는 XOR문제에 대한 이야기를 해보도록 하겠습니다.


1. XOR 문제의 개요


지난 포스팅에서 딥러닝에 대한 개념과 그 동안의 역사에 대해서 알아보며, XOR문제가 매우 까다로운 문제로 다가왔음을 알아보았습니다.


그럼 그 골치덩이 문제를 어떻게 풀 수 있을까요?


먼저, 그때에 그 문제에 부딪혔던 이유 중 하나는, XOR문제가 단순히 하나의 모델로는 풀이가 불가능하다라는 증명 및 사실들 때문이었습니다.


그렇다면, 하나의 모델이 아닌 2개, 3개, 다수의 모델을 이용하면 어떨까요?


이러한 경우에는 XOR문제에 대해 풀이가 가능하다고 했습니다.


하지만, 또 한번의 문제가 발생했습니다.


여러개의 모델을 사용하는 경우에, 각각의 모델에 대한 학습은 어떻게 할 것이냐가 문제였습니다.

문제가 복잡해지고 어려워질수록 다수의 모델을 사용해야 하는데, 이 때 그러한 모델들을 학습하기 위한 W와 b를 구할 수 있는 해결방안이 없었습니다.



2. XOR using NN


그럼 먼저, Neural Network로 XOR문제를 해결해보도록 하겠습니다.

XOR은 위와 같은 속성을 가지고 있습니다.

x1 과 x2가 서로 다를 때만 그 결과가 1이고 나머지 경우에는 0의 결과값을 가집니다.

그리고 위의 그래프와 같이, 이를 그래프로 표현했을때 결과값 1과 0에 대해서 하나의 직선으로 정확히 나눌 수가 없습니다.


이러한 문제를 우리가 3개의 모델을 가지고 풀어보도록 하겠습니다.


위의 그림과 같은 3개의 모델을 이용합니다.

Model1 과 Model2에는 각각 x1과 x2의 데이터가 입력되고, 이에 대한 결과 값 y1과 y2를 Model3의 입력값으로 하여 최종 y값을 얻습니다.

이때 그림에서 동그라미 S가 있는 것은 sigmoid 함수를 나타낸 것입니다.


sigmoid는 과거에 살펴보았는데 아래와 같은 형태를 띄는 함수 입니다.



그럼 3개의 모델을 이용하는 것을 표로 정리해보면 다음과 같습니다.


X1

X2

Y1

Y2

Y

XOR

0

0




0

0

1




1

1

0




1

1

1




0


이제 이를 토대로 하여 실제 계산을 해보겠습니다.

다만 각 모델에 대한 W값과 b 값이 필요한데, 이를 구하는 방법은 다음 포스팅에서 다루도록 하고 일단은 임의의 값을 대입하여 풀이해보도록 해보겠습니다.



위와 같이 각 모델에 대한 W 와 b 값을 정하여 계산을 진행합니다.



위와 같이 각각의 X1, X2에 따라서 계산해보았습니다.

시그모이드에 관해서는 입력값이 양수이면 1, 음수이면 0으로 단순하게 계산하였습니다.

계산을 통해 얻은 값들을 표에 정리하면 다음과 같습니다.


X1

X2

Y1

Y2

Y

XOR

0

0

0

1

0

0

0

1

0

0

1

1

1

0

0

0

1

1

1

1

1

0

0

0

위의 표와 같이, 3개의 모델을 이용했을 때 최종적인 결과 값인 Y와 XOR의 결과 값이 일치함을 볼 수 있습니다.



즉, 위와 같이 3개의 모델을 이용해서 Neural Network를 구성하면 XOR 문제를 해결할 수 있습니다.

그런데 우리가 임의로 설정했던 W와 b값과 같은 형태말고도 다른 형태의 값들이 존재할까요?

한번 스스로 생각해보고 고민해보시길 바랍니다.


또한, 위와 같은 모델은 우리가 과거에 보았던 Multinomial 을 이용해 아래와 같이 표현할 수도 있습니다.



Model 1과 Model 2를 합친 것인데, 이때 W와 b를 알맞게 수정해줘야 합니다.

그리고 위에서 Model 1+2의 W를 W1, b를 b1이라고 하고 Model3의 W를 W2, b를 b2라고 한다면


K = sigmoid(X*W1 + b1)

Y = sigmoid(K*W2 + b2)


가 될 것이며, 이를 tensorflow 를 이용해 아래와 같이 표현할 수도 있습니다.


그럼, 이제 최종적으로 위와 같은 모델에서 W1, b1, W2, b2를 어떻게 계산해낼 수 있을까요?

이에 대한 것은 다음 포스팅에서 다뤄보도록 하겠습니다.

블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc