TigerCow.Door


안녕하세요. 문범우입니다.

이번 포스팅에서는 TensorFlow에서 CNN을 이용하여 MNIST를 99%로 예측해보도록 하겠습니다.


1. 기본 구조


이번 실습에서 우리가 진행해볼 구조는 위의 그림과 같습니다.

Convolution layer와 pooling layer가 두번 반복된 구조를 통해 나온 결과를 Fully-Connected layer를 통해 10개의 숫자들 중에서 예측합니다.


2. Layer 1


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import tensorflow as tf
import matplotlib.pyplot as plt
import random
from tensorflow.examples.tutorials.mnist import input_data
 
# input, 784개의 값을 가지며 n개의 이미지이다.
= tf.placeholder(tf.float32, [None,784]) 
# input 을 이미지로 인식하기 위해 reshape을 해준다. 28*28의 이미지이며 단일색상, 개수는 n개이므로 -1
X_img = tf.reshape(X, [-1,28,28,1]) 
# output
= tf.placeholder(tf.float32, [None,10]) 
 
# layer 1
# 3*3크기의 필터, 색상은 단일, 총 32개의 필터
W1 = tf.Variable(tf.random_normal([3,3,1,32], stddev=0.1)) 
# conv2d 를 통과해도 28*28 크기를 가짐, 대신 32개의 필터이므로 총 32개의 결과가 생김
L1 = tf.nn.conv2d(X_img, W1, strides=[1,1,1,1], padding='SAME'
L1 = tf.nn.relu(L1)
# max pooling을 하고 나면 스트라이드 및 패딩 설정에 의해 14*14크기의 결과가 나옴
L1 = tf.nn.max_pool(L1, ksize=[1,2,2,1], strides=[1,2,2,1], padding='SAME'
cs


먼저 첫번째 레이어는 위와 같이 구성합니다.

초기에 mnist 데이터를 받아오는 것은 그동안 몇번 실습을 하며 익숙해지셨을 것입니다. 들어오는 input 데이터를 처리하고, 이를 이미지로 인식시킵니다.


그리고 첫번째 레이어를 확인해보면, strid는 1, padding은 SAME으로 설정하여 convolution layer를 통과시키고, 이후 relu를 통과시킨 후에 max pooling을 합니다. 이렇게 첫번째 레이어를 통과하면 그 결과는 14*14의 형태를 가집니다.



3. Layer 2


1
2
3
4
5
6
7
8
9
10
# layer 2
# 이번에는 64개의 필터
W2 = tf.Variable(tf.random_normal([3,3,32,64], stddev = 0.1))
# conv2d layer를 통과시키면, [?,14,14,64] 형태를 가짐
L2 = tf.nn.conv2d(L1, W2, strides=[1,1,1,1], padding='SAME')
L2 = tf.nn.relu(L2)
# max pooling 에서 stride가 2 이므로, 결과는 7 * 7 형태를 가질 
L2 = tf.nn.max_pool(L2, ksize=[1,2,2,1], strides=[1,2,2,1], padding='SAME')
# 이후 쭉 펼친다.
L2 = tf.reshape(L2, [-1,7 * 7 * 64])
cs


이후 두번째 레이어도 위에서와 동일한 방식으로 처리합니다.

그리고 마지막에서 fully-connected layer에 넣기 위해 reshape을 처리합니다.



4. Fully-connected layer


1
2
3
4
5
6
7
# fully-connected layer
W3 = tf.get_variable("W3", shape=[7 * 7 * 6410],initializer = tf.contrib.layers.xavier_initializer())
= tf.Variable(tf.random_normal([10]))
hypothesis = tf.matmul(L2, W3) + b
 
cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=hypothesis, labels=Y))
optimizer = tf.train.AdamOptimizer(learning_rate=0.001).minimize(cost)
cs


그리고 두번째 레이어를 통과한 결과 값을 fully-connected layer에 통과시킵니다.



5. Train & Test


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
# init
sess = tf.Session()
sess.run(tf.global_variables_initializer())
mnist = input_data.read_data_sets("~/deep_learning_zeroToAll/", one_hot=True)
training_epochs = 15
batch_size = 100
 
# train
print('Learning started. It takes sometimes.')
for epoch in range(training_epochs):
    avg_cost = 0
    total_batch = int(mnist.train.num_examples / batch_size)
    for i in range(total_batch):
        batch_xs, batch_ys = mnist.train.next_batch(batch_size)
        feed_dict = {X: batch_xs, Y: batch_ys}
        c, _, = sess.run([cost,optimizer], feed_dict=feed_dict)
        avg_cost += c / total_batch
    print("Epoch:","%04d"%(epoch + 1),"cost =","{:.9f}".format(avg_cost))
print('Learning Finished!')
 
# Test
correct_prediction = tf.equal(tf.argmax(hypothesis, 1), tf.arg_max(Y, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
print('Accuracy:',sess.run(accuracy,feed_dict={X: mnist.test.images, Y:mnist.test.labels}))
cs


이후 그동안 했던 것처럼 train을 하고 test를 실시합니다.


이렇게 하여 전체 코드를 실행시켜 결과를 확인하면 다음과 같습니다.



99% 이상은 아니지만 약 99%에 가까운 정확도가 나왔습니다.

그리고 추가적으로 99%이상의 정확도를 갖기 위해서, 우리가 진행했던 구조에서 convolution layer와 fully-connected layer를 하나씩 추가하면 됩니다.

위에서 진행한 전체코드는 하단에 첨부하겠습니다. 추가적으로 layer를 더해보는 것은 각자 해보시면 좋을 것 같습니다, :)


전체 코드 보기



블로그 이미지

Tigercow.Door

Web Programming / Back-end / Database / AI / Algorithm / DeepLearning / etc