TigerCow.Door

안녕하세요. 문범우입니다.

이번 포스팅에서는 분류나 회귀에서 사용되는 KNN(K - Nearest Neighbors) 알고리즘에 대해서 알아보도록 하겠습니다.



1. KNN(K - Nearest Neighbors)


KNN, K-최근접 이웃 알고리즘은 특정공간내에서 입력과 제일 근접한 k개의 요소를 찾아, 더 많이 일치하는 것으로 분류하는 알고리즘입니다.


말로 이해하는 것보다 아래 그림을 통해 이해하는 것이 훨씬 쉬울 것 입니다.


위의 그림과 같은 좌표공간을 예시로 확인해보겠습니다.

위에서 파란색 점으로 되어 있는 그룹을 A그룹이라고 생각하고, 주황색 점으로 되어 있는 그룹을 B라고 하겠습니다.

이때 우리는 별 모양으로 표시된 입력값이 A그룹에 속하는지, B그룹에 속하는지를 알고 싶습니다.


그리고 이럴때 사용되는 KNN 알고리즘은 다음과 같이 적용됩니다.

우선 k값을 정의해줘야 합니다. 해당 k값에 대한 설명은 조금 밑에서 드리도록 하고, 우선 k를 3이라는 값으로 정했다고 생각해보겠습니다.


그럼 우리는 입력값과 가장 근접한 k개의 요소를 찾습니다. k = 3이므로 3개의 요수를 찾아보면 다음 그림과 같습니다.


별 모양의 점을 기준으로 원을 그려서 확인함으로써, 위의 빨간색 원과 같이 파란색 점 하나와 주황색 점 두개가 선택됨을 알 수 있습니다.

그리고 이를 통해 입력값은 주황색 점의 그룹, 즉 B의 그룹과 더 일치하다는 판단을 내릴 수 있습니다.


추가적으로 생각해보면, KNN 알고리즘은 정의한 k 값에 따라서 입력값의 분류 결과가 달라질 수 있습니다.


만약 우리가 k를 3으로 두지 않고 1로 두었다면, 아래 그림과 같은 원이 그려짐으로써 입력값은 A그룹으로 분류될 수 있습니다.



 KNN 알고리즘을 사용할 때는 적절한 k값을 찾아 설정해주는 것이 중요합니다.


또한, 위와 같이 2개의 그룹에 대해 분류를 할때 만약 k값을 짝수로 한다면 어떻게 될까요?

만약 k = 4 라고 설정했다면 다음과 같은 결과가 나옵니다.


그림에서 확인할 수 있듯이, 파란색 점 2개, 주황색 점 2개가 됨으로써 입력 값이 어떠한 그룹이라는 결론을 내릴 수 없게 됩니다.


그렇다고 무조건 k를 홀수 값으로 설정해야 하는 것은 아닙니다.

위와 같이 2개의 그룹에 대한 분류를 할때는 무조건 홀수 값을 주어야 겠지만, 만약 입력값을 3개의 그룹에 대해 분류를 할때 k = 3으로 둔다면 각각의 그룹의 요소가 하나씩 포함되어 위와 같이 어떠한 그룹이라는 결론을 내지 못하는 상황이 올 수 있습니다.


즉, KNN알고리즘을 사용할때는 분류될 그룹의 종류등을 고려하여 적절한 k값을 설정해주는 것이 중요합니다.



2. 파이썬으로 구현하기


위에서 알아본 KNN 알고리즘을 파이썬으로 구현해 보았습니다.

* 코드는 jupyter notebook에서 실행하였습니다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib nbagg
 
A_x_list = [0,2,4,1,1,4]
A_y_list = [4,1,5,5,2,6]
A_x = np.array(A_x_list)
A_y = np.array(A_y_list)
 
B_x_list = [7,7,5,7,10,9]
B_y_list = [4,0,2,2,3,3]
B_x = np.array(B_x_list)
B_y = np.array(B_y_list)
 
finding_point = [5,4]
 
plt.figure()
plt.scatter(A_x,A_y)
plt.scatter(B_x,B_y)
plt.scatter(finding_point[0],finding_point[1], marker='*')
 
plt.show()
cs


먼저 입력값과 기존에 존재하는 A그룹, B그룹을 좌표상으로 나타내보았습니다.

위의 코드를 통해 나오는 그래프는 아래와 같이, 우리가 위에서 살펴봤던 예제 그림과 같습니다.



그리고 실제로 입력값을 KNN 알고리즘에 적용시켜 분류하는 코드는 다음과 같습니다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
# L리스트에서 c번째 작은 값 찾는 함수
def count_min_value(L,c):
    temp = L.copy()
    temp.sort()
    item = temp[c-1]
    return L.index(item),item
 
# 입력값이 A그룹인지 B그룹인지 찾는 함수::KNN Algorithm 적용
def finding_AorB(k,x,y):
    numA = 0
    numB = 0
    A_xy = []
    B_xy = []
    # x,y 좌표가 따로 있는 것을 하나의 리스트로 통합
    for i in range(len(A_x_list)):
        A_xy.append([A_x_list[i],A_y_list[i]])
    for i in range(len(B_x_list)):
        B_xy.append([B_x_list[i],B_y_list[i]])
 
    A_distance = []
    B_distance = []
    # x,y 좌표에 대해 입력값과의 거리 산출
    for each in A_xy:
        dis = ((each[0- x)**2 + (each[1- y)**2)**(1/2)
        A_distance.append(dis)
    for each in B_xy:
        dis = ((each[0- x)**2 + (each[1- y)**2)**(1/2)
        B_distance.append(dis)
    A_result = []
    B_result = []
    
    A_min_count = 1
    B_min_count = 1
    while(numA + numB < k):
        min_A = 99999
        min_B = 99999
 
        _, min_A = count_min_value(A_distance,A_min_count)
        _, min_B = count_min_value(B_distance,B_min_count)
 
        if min_A < min_B:
            numA += 1
            A_min_count += 1
            A_result.append(A_xy[A_distance.index(min_A)])
            A_distance[A_distance.index(min_A)] = -1
        elif min_A > min_B:
            numB += 1
            B_min_count += 1
            B_result.append(B_xy[B_distance.index(min_B)])
            B_distance[B_distance.index(min_B)] = -1
        elif min_A == min_B:
            numA += 1
            numB += 1
            A_min_count += 1
            B_min_count += 1
            A_result.append(A_xy[A_distance.index(min_A)])
            A_distance[A_distance.index(min_A)] = -1
            B_result.append(B_xy[B_distance.index(min_B)])
            B_distance[B_distance.index(min_B)] = -1
    if numA > numB:
        print("RESULT: The point is A")
    elif numA < numB:
        print("RESULT, The point is B")
    elif numA == numB:
        print("I DON'T KNOW")
    print("A point is",A_result,"\nB point is",B_result,"\n")
            
cs


위의 코드를 통해 k = 1, 2, 3, 4 로 실행 시켜보면 아래와 같은 결과가 나옵니다.




이렇게 하여 KNN 최근접 이웃 알고리즘에 대해서 알아보았습니다.

위에서 구현된 파이썬 코드는 아래 github주소에 있습니다 :)


https://github.com/doorBW/KNN-Algorithm-by-python


오류가 발생하거나 잘못된 점이 있다면 언제든지 피드백 해주시길 바랍니다.

블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요.

이번 포스팅 부터 약 2-3회에 걸쳐 그리디 알고리즘(greedy algorithm)에 대해서 알아보겠습니다.

내용에 대해 궁금한 점이나 피드백은 언제든지 댓글을 남겨주세요 :)


1. 그리디 알고리즘(Greedy algorithm)


우리는 지난 포스팅에서 동적 프로그래밍(Dynamic programming)에 대해서 알아 보았습니다.

단순히 모든 경우에 대해서 반복적으로 재귀호출을 통해서 탐색을 하는 Brute force의 방식보다, 각각의 경우에 대해 테이블을 만들어 필요할 때마다 테이블 값을 이용하는 동적 프로그래밍은 보다 좋은 시간복잡도를 나타냈습니다.

하지만, 어찌되었든 간에 동적 프로그래밍 또한 탐색에 있어서 모든 경우에 대해서 탐색을 진행합니다. 이는 결국 필요하지 않은 케이스조차 검색하는 비효율적인 면을 갖고 있습니다.

헌데 어떤 문제들에서는 더 간단하고 보다 효율적인 알고리즘으로도 탐색을 할 수 있습니다.


일반적으로, 최적화 문제에서는 각 단계마다 여러 가지 경우 중에서 좋은 것을 택해야 합니다. 이러한 최적화 문제에서 동적 프로그래밍을 사용한다면 지나치게 많은 탐색을 하게 될 수 있습니다.

따라서 우리는 탐욕 알고리즘, 그리디 알고리즘을 사용합니다.

그리디 알고리즘(Greedy algorithm)은 각 단계에 있어서 가장 좋은 것을 선택합니다. 그리고 그러한 선택은 전체적으로 최적해로 안내하게 될거라는 바람에서 지속됩니다.

우리는 앞으로 그리디 알고리즘이 최적해를 제공할 수 있는 최적화 문제에 대해 알아볼 것입니다.


그리디 알고리즘이 언제나 최적의 해답을 구하지는 못하지만 많은 문제에 대한 해를 보다 효율적으로 구해낼 수 있습니다.



2. 활동 선택 문제(Activity Selection Problem)


활동 선택 문제란, 예를 들어, 한번에 하나의 활동만 처리할 수 있는 하나의 강의실에서 제안된 활동들 중 가장 많은 활동을 처리할 수 있는 스케줄을 짜는 문제입니다.



영어로 나와있는 바와 같이 문제를 가정하고 진행합니다.

특정 활동 ai가 있으며, si는 활동의 시작시간, fi는 활동이 끝나는 시간입니다. 그리고 ai, aj 활동이 각각 존재할 때, 두 활동의 활동시간이 서로 겹치면 안됩니다.

추가적으로, 주어지는 활동들은 끝나는 시간이 단조 증가하는 형태로 정렬된 상태입니다.


이제 아래의 활동들을 바탕으로 활동 집합을 고려해 보겠습니다.



위의 테이블을 보았을 때, a3, a9, a11은 함께 스케줄로 짤 수 있는, 즉 양립할 수 있는 활동들 입니다.

하지만 a1, a4, a8, a11 이라는 집합도 양립 가능하며 이러한 집합이 크기가 더 크기 때문에 최대 크기의 부분집합은 a1, a4, a8, a11이 됩니다.


이제 이러한 문제를 단계에 거쳐가며 탐색해보도록 하겠습니다.



3. 활동 선택 문제의 최적 부분 구조



활동 ai가 종료한 후에 시작하고, 활동 aj가 시작하기 전에 종료하는 활동들의 집합을 Sij로 나타냅니다.

Sij에 들어 있는 상호 양립 가능한 최대 크기의 집합을 찾기를 원하며, 그러한 최대 크기의 집합은 활동 ak를 포합하는 Aij라고 가정하겠습니다.

최적해 Aij에 ak를 포함하면 결국 두개의 부분 문제가 남게 됩니다. 하나는 Sik이며 다른 하나는 Skj입니다.

그렇다면, Aik = Aij  Sik이고 Akj = Aij  Skj 입니다. 이렇게 하면 Aik는 Aij에서 ak가  시작하기 전에 끝나는 활동들을 포함하고 Akj는 Aij에서 ak가 끝난 후에 시작하는 활동들을 포함하게 됩니다. 따라서 Aij = Aik U {ak} U Akj이고 Sij에 들어 있는 상호 양립 가능한 활동들의 최대 크기 집합 Aij는 |Aij| = |Aik| + |Akj| + 1 개의 활동들로 이루어 집니다.


이런 방식의 최적 부부 구조는 활동 선택 문제를 동적 프로그래밍을 사용해 풀수도 있음을 보여줍니다. 만약 집합 Sij를 위한 최적해의 크기를 c[i,j]로 나타낸다면, 다음과 같은 재귀방정식을 가지게 됩니다.



하지만 앞서 말한바와 같이 이러한 동적 프로그래밍 방식은 모든 부분 문제를 풀어봐야 한다는 단점이 있습니다.



4. 그리디 선택하기


활동 선택 문제에 있어서 그리디 선택을 한다는 것은 무엇을 의미할까요?

아마, 가능한 활동시간 내에서 최대한 많은 활동을 할 수 있도록 활동들의 집합을 고르는 것을 의미할 것 입니다.

위에서 동적 프로그래밍 방식은 모든 부분 문제를 풀어봐야 한다는 단점을 언급하였습니다. 그렇다면 그리디 선택은 어떤 장점을 가질까요? 

그리디 선택은 처음 개요에서 설명드렸듯이, 동적 프로그래밍에서 필요하지 않은 케이스 조차 탐색하는 불필요한 탐색시간을 없애고, 각 단계에서 최적의 선택을 함으로써 시간적으로 효율적인 것을 볼 수 있습니다.


그렇다면 활동 선택 문제에서의 그리디 선택은 어떻게 될까요?

바로, 제일 먼저 종료되는 활동을 선택하고, 해당 활동과 양립할 수 있는 활동들의 subproblem에서 또 다시 제일 먼저 종료되는 활동을 선택합니다. 이런식으로 반복하면 최대한 많은 활동들을 선택할 수 있습니다.

왜 그렇게 될까요? 간단하게 말해서, 제일먼저 끝나는 활동을 선택했을 때, 남은 subproblem에서 최대한 많은 활동을 고를 수 있기 때문입니다.


이러한 그리디 선택은 다음 그림에서 확인할 수 있습니다.




이러한 그리디 알고리즘을 수도 코드로 나타내면 다음과 같습니다.


먼저, 재귀적 그리디 알고리즘 입니다.


주어진 수도코드를 분석해보면, 전체 시간복잡도는 O(n)으로써 동적 프로그래밍에 비해 효율적인 탐색시간을 나타냅니다.


그리고 이번에는 반복 순환 그리디 알고리즘 입니다.


해당 수도코드의 시간복잡도 또한 O(n)입니다.



추가적으로 궁금한 사항이나 내용에 대한 피드백은 언제든지 댓글을 이용해주세요:)

블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요. 이번 포스팅에서는 동적 프로그래밍(Dynamic Programming)에서의 최적 이진 검색 트리(Optimal Binary Search Tree)에 대해서 알아보겠습니다.


1. 최적 이진 검색 트리 (Optimal Binary Search Tree)


최적 이진 검색트리를 보다 쉽게 이해하기 위해서 상황을 가정하며 설명드리겠습니다.

특정 문서에 중복이 허용된 여러개의 영어단어가 존재하는데 이를 한글로 번역해서 저장하는 프로그램을 필요로 한다고 가정합니다. 그렇다면 프로그램은 이를 수행하기 위해서 문서에 있는 각각의 영어단어에 접근하고, 이에 해당하는 한글 단어를 찾아야 합니다. n개의 영어 단어가 존재한다고 했을 때, 어떻게 해야 이를 효율적으로 수행하는 프로그램을 작성할 수 있을까요?


바로 이럴 때 사용될 수 있는 것이 이진 검색 트리입니다.

위의 상황을 생각하면 이때 이진 검색트리에서는 하나의 노드에 영어 단어에 해당하는 key와 그에 해당하는 한글데이터가 존재할 것 입니다. 문서에 있는 하나의 영어 단어 각각에 대해서 트리를 한번 검색해야 하므로 우리는 트리의 높이가 비슷하게 균형잡힌 이진 트리 검색을 이용한다면 단어 하나당 O(lg n)의 검색 시간을 보장할 수 있습니다.

그러나 이것이 과연 최적의 이진 트리일까요?

가정된 상황을 다시 살펴보면 영어 단어는 '중복'될 수 있다고 하였습니다. 즉, 특정 단어에 대해서는 빈번히 검색이 진행될 것이고 다른 단어에서는 검색이 거의 사용되지 않을 것 입니다.

이러한 상황에서 우리는 최적 이진 검색 트리(Optimal Binary Search Tree)를 사용할 수 있습니다.


최적 이진 검색 트리에서는, n개의 서로 다른 키 K = <k1, k2, ... , kn>이 오름차순으로 정렬된 상태로 주어지며 이러한 키를 바탕으로 이진 검색 트리가 구성됩니다. 그리고 각 키 ki에 대해 검색이 일어날 확률 pi또한 함께 존재합니다. 

추가적으로, 우리는 어떤 단어 K에 대해서 탐색이 되지 않을 경우도 고려해야 합니다. 따라서 가상키라는 개념을 통해 이를 해결합니다. 가상키는 이진 검색 트리의 리프 노드로 배치될 것이며 특정 단어 K가 어떤 키 ki를 발견하지 못하면 가상키를 발견하게 될 것이고 이는 단어에 대한 해석을 찾지 못한 것으로 판단할 수 있습니다.

이러한 가상키는 n개의 노드를 가지는 이진 검색 트리의 리프노드들이므로 총 n+1개이며 d0는 k1보다 작은 모든 값을 나타내고 dn은 kn보다 큰 모든 값을 나타냅니다.


아래 사진을 보면 두개의 이진 검색 트리를 확인할 수 있습니다.



그림 아래에 존재하는 표는 각각의 항목이 일어날(검색될) 확률을 의미합니다.

Search Cost의 계산은 각 항목의 탐색시간(방문하는 노드수 = 깊이+1) * 확률의 총합이라고 하겠습니다. 

먼저 첫번째 (a)의 이진 검색 트리를 보면 비슷하게 균형 잡힌 것을 볼 수 있습니다. 이러한 이진검색트리의 Search Cost는 그림에서 나온것과 같이 2.80입니다.

그리고 두번째, (b)의 이진 검색트리의 Search Cost는 2.75로써 (a)보다 작은 것을 볼 수 있습니다.


이렇게, 최적 이진 검색 트리는 단순히 높이를 균형있게 하는 것이 아니라 탐색시간을 최소로 하여 최적의 탐색시간을 갖도록 하는 것입니다.

일반적으로 최적 이진 검색 트리는 다음과 같이 정의됩니다.



위에서 언급한 바와 같이, 모든 탐색에서 방문하는 노드들의 회수의 최소를 갖도록 하는 것입니다.



2. 최적 이진 검색 트리의 최적 부분 구조



최적 이진 검색 트리의 최적 부분 구조를 찾기 위하여 부분 구조를 살펴보겠습니다.

어떤 이진 검색 트리의 서브 트리를 고려하면, 그 부분 구조는 1<= i <= j <= n에 대해 연속하는 범위 ki, ... , kj에 해당하는 키를 포함해야 합니다. 그리고 키 ki, ... , kj를 포함하는 서브트리는 그 해당 가상키 di-1, ... , dj도 포함해야 합니다.


이제 최적 이진 검색트리의 최적 부분 구조에 대해서 알아보겠습니다.

최적 이진 검색 트리 T가 있을 때, 키 ki, ... , kj를 포함하는 서브 트리 T'을 가진다면 이 서브 트리 T'은 키 ki, ... , kj와 가상 키 di-1, ... , dj를 가지는 부분 문제에 대해서도 최적이어야 합니다.

이러한 주장을 증명하기 위해서 cut&paste 방법을 적용합니다. T'보다 기댓값이 작은 서브 트리 T''이 존재한다고 가정합니다. 이때 T'을 잘라내고 그 자리에 T''을 붙여 넣으면 T보다 기댓값이 작은 이진 검색 트리가 나타나게 되고 이것은 T가 최적이라는 가정에 모순입니다.



그럼 이제 이러한 최적 부분 구조를 사용해서, 부분 문제에 대한 최적해를 구함으로써 주어진 문제에 대한 최적해를 구할 수 있음을 보여야 합니다.



위의 그림처럼 루트가 kr이고 키 ki, ... , kj를 갖는 최적 서브 트리가 있다고 합시다.(i <= r <= j)

그렇다면 아래 그림과 같이, 루트 kr의 왼쪽 서브 트리키는 ki, ... kr-1과 가상키 di-1, ... , dr-1를 포함할 것이며 오른쪽 서브 트리는 키 kr+1, ... , kj와 가상키 dr, ... , dj를 포함합니다. 이때 루트 kr에 대해 i부터 j까지의 모든 후보 루트 ki, ... , kj를 고려하면서 왼쪽 서브 트리로 ki, ... , kr-1를 포함하며 오른쪽 서브 트리로 kr, ... , kj를 포함하는 모든 최적 이진 검색트리를 검색하면 최적의 이진 검색 트리를 발견할 수 있습니다.



이때 만약 서브 트리의 루트를 ki로 선택한다면 왼쪽 서브 트리는 ki, ... ki-1을 포함합니다. 즉, 왼쪽 서브 트리는 어떤 키도 갖지 않는 빈 서브 트리가 됩니다. 그러나 왼쪽 서브 트리가 아무것도 갖지 않는 것은 아닙니다. 바로 가상키를 갖기 때문이죠. 왼쪽 서브 트리는 di-1, ... dr-1 의 가상키를 갖는다고 했으니, 루트가 ki인 서브 트리의 왼쪽 서브 트리는 di-1이라는 하나의 가상키만을 갖게 됩니다. 이것은 kj를 서브 트리의 루트로 잡았을때 오른쪽 서브트리에서 갖은 상황이 발생합니다.



3. 재귀해


이제 재귀적으로 최적해의 값을 찾을 준비가 되었습니다.

i >= 1, j <= n, j >= i-1 인 키 ki, ... , kj를 포함하는 최적 이진 검색 트리를 찾는 것으로 부분 문제의 범위를 정합니다.

위에서 언급한 바와 같이 j=i-1 일때는 실제키가 없고 가상키 di-1만 가지게 됩니다.

그리고 키 ki, ... , kj를 포함하는 최적 이진 검색 트리를 찾는 기대비용을 e[i,j]로 정의하도록 하겠습니다.

결국 우리의 목표는 e[i,n]을 찾는 것입니다.


먼저, 우리는 j=i-1에 대해서 값을 쉽게 찾을 수 있습니다. 가상키 di-1만 존재하므로 기대 검색 비용, e[i,i-1] = qi-1 입니다.

이제 j >= i 일 때에 대해서 생각합니다. ki, ... , kj 중에서 루트 kr을 선택해야 하며 왼쪽 서브 트리가 최적 이진 검색트리가 되어야 하며 오른쪽 서브 트리 또한 최적 이진 검색트리가 되어야 합니다. 

이때 고려할 점이 있습니다. 만약 트리 T가 존재할 때 이 트리가 어떤 루트 N에 대해서 서브 트리가 된다면 T라는 트리의 검색비용에는 무슨 일이 벌어질까요? T 트리에 있는 모드의 깊이가 모드 1씩 증가하므로 T 트리의 검색 비용은 모든 노드들이 검색될 확률의 총합만큼 증가하게 됩니다.

그럼 점화식을 한번 알아보도록 하겠습니다. 



먼저 위의 그림에서,



이것은, ki, ... ,kj 의 키를 가진 서브 트리의 모든 확률의 합을 나타냅니다.

이를 통해 점화 식을 한번 세워보면, 위의 그림의 첫번째 식인,

e[i,j] = pr + (e[i,r-1] + w(i,r-1)) + (e[r+1,j] + w(r+1,j)) 이 나오게 됩니다.

식에서 의미하는 바를 그림으로 알아보겠습니다.



먼저 식에서 첫번째 인자인 pr은 위의 그림에 있는 트리의 루트가 검색될 확률을 의미합니다.

루트의 깊이는 0이므로 검색이 실행될때 pr*1만큼의 검색비용이 필요합니다.

그리고 e[i,r-1]은 왼쪽 서브트리, 그림에서 초록색을 가진 서브트리에 대한 검색비용을 의미합니다.

w(i,r-1)은 왼쪽 서브트리의 깊이가 1만큼 증가했으므로 그에 대해 왼쪽 서브트리의 모든 노드들의 확률의 합을 의미합니다. 그림에서는 빨간색 선으로 생각하시면 되겠습니다.

마찬가지로, e[r+1,j]는 그림에서 주황색테두리를 가진 서브트리를 의미하며, w(r+1,j)는 그림에서 파란색 선을 의미합니다.


위의 점화식을 보다 간단하게 하기 위해

w(i,j) = w(i,r-1) + pr + w(r+1,j)

라는 사실을 이용합니다.

그러면 위의 점화식은

e[i,j] = e[i,r-1] + e[r+1,j] + w(i,j)

가 됩니다.


그리고 r을 범위내 모든 값에 대해 탐색을 진행하고 그 중 최소의 검색 비용을 갖는 r을 찾아야 하므로 최종적인 점화식은 아래와 같습니다.




4. 알고리즘


먼저 Optimal BST를 구하기 위한 수도코드는 아래와 같습니다.



동적 프로그래밍을 이용하여 보다 효율적으로 탐색을 진행하기 위해 수도코드에서는 총 3개의 테이블을 사용합니다.

그리고 앞에서 이야기 했던 것처럼 e값을 재귀적으로 도출하면서 최종적인 목표에 도달하게 됩니다.


글의 서두에서 보여드렸던 키들을 이용하여 Optimal BST으로 계산하면 아래와 같은 테이블이 생성됩니다.


이러한 Optimal BST의 총 시간 복잡도는 O(n^3)입니다.


이렇게 하여 최적 이진 검색 트리(Optimal Binary Search Tree)에 대해서 알아보았습니다.

추가적인 궁금사항이나 내용에 대한 피드백은 댓글을 이용해주세요 :)



블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요.

이번 포스팅에서는 최장 공통 부분 수열(LCS: Longest Common Subsequence)에 대해서 알아보도록 하겠습니다.

궁금하신 점이나 내용에 대한 피드백은 댓글을 이용해주세요 :)


1. 최장 공통 부분 수열

(LCS: Longest Common Subsequence)


먼저 최장 공통 부분 수열이 어떠한 것인지 알아보도록 하겠습니다.

문제를 이해하기 위해 다음을 가정합니다.


X = <AABCDDADABBCDCC>

Y = <ADABCCDCC>


이러한 두 수열 X, Y가 있습니다. 이때, <ABD>는 X와 Y의 공통 부분 수열입니다.

X = <AABCDDADABBCDCC>

Y = <ADABCCDCC>

위에서 X 수열과 Y 수열에 밑줄을 쳐놓은 부분을 통해 <ABD>는 X와 Y의 공통 부분 수열이라는 것을 알 수 있습니다.
꼭 연결되어 있어야 하는 것이 아니며, 단지 단조 증가하는 수열로써 존재하면 되는 것이죠.
그렇다면 최장 공통 부분 수열이란 무엇일까요?
바로 위에서 알아본 <ABD>와 같은 공통 부분 수열들 중에서, 가장 길이가 긴 것을 말합니다.
X, Y수열을 살펴보면 <ABD>를 제외하고도 <ABCD>와 같은 공통 부분 수열도 있습니다.
물론 하나의 공통부분 수열만 존재할 수도 있지만 2개 이상의 공통 부분 수열을 가질 수도 있습니다.
그러한 공통 부분 수열들 중에서 가장 길이가 긴 것을 우리는 최장 공통 부분 수열(LCS)라고 말합니다.
위의 X, Y수열에서는 아래 밑줄 친 것과 같이 <ADABCDCC> 가 가장 긴 공통 부분 수열, 최장 공통 부분 수열 입니다.

X = <AABCDDADABBCDCC>

Y = <ADABCCDCC>



2. 최장 공통 부분 수열의 최적 구조


우리는 앞에서 동적 프로그래밍의 최적 구조를 살펴보았습니다.

그럼 지금 알아보고 있는 LCS의 최적 구조는 어떻게 될까요? 바로 다음과 같습니다.




3. 최장 공통 부분 수열의 길이 구하기


그럼 이제 본격적으로, 최장 공통 부분 수열의 문제를 풀어보도록 합니다.

우리가 최종적으로 구해낼 것은 두 수열 X, Y가 있을 때 두 수열의 최장 공통 부분 수열의 길이입니다.


먼저 X의 i번째 문자열과 Y의 j번째 문자열까지의 최장 공통 부분 수열의 길이를 c[i,j]라고 가정합니다.



위의 내용을 하나씩 확인해보도록 하겠습니다.


3-1. i=0 or j=0

두 수열 중 하나의 수열의 길이가 0 이라면, 최장 공통 부분 수열의 길이도 0입니다. 서로 일치하는 문자가 전혀 존재할 수 없기 때문이죠.


3-2. i,j>0 and Xi = Yi

i,j가 양수인 것은 당연합니다. 문자열을 거꾸로 확인하지는 않을테니까요.

양수인 i,j에 대해서 Xi와 Yj가 서로 일치한다면 해당 문자는 최장 공통 부분 수열에 포함되는 문자일 것 입니다.

따라서 해당 문자를 제외한 나머지 문자열에서 LCS를 탐색하게 되고, 최종적으로 반환이 될때는 제외한 문자가 최장 공통 부분 수열에 포함되므로 +1을 합니다.


3-3. i,j>0 and Xi != Yi

양수인 i,j에 대해서 Xi와 Yj가 서로 일치하지 않다면, 각각의 수열에서 하나씩 제거해서 LCS를 탐색합니다.

Xi와 Yj가 서로 일치하지 않을 때는 각각의 수열에서 마지막 문자를 제거한, c[i,j-1] 또는 c[i-1,j] 둘 중 하나가 최장 공통 부분 수열을 포함하고 있을 것입니다. 



4. 테이블 그리기


그럼 위에서 알아본 방법으로 LCS를 어떻게 구할까요?

바로 아래와 같은 테이블을 통해서 LCS를 구합니다.


 

j

0

1

2

3

4

5

6

i

 

Yi

B

D

C

A

B

A

0

Xi

0

0

0

0

0

0

0

1

A

0

 

 

 

 

 

 

2

B

0

 

 

 

 

 

 

3

C

0

 

 

 

 

 

 

4

B

0

 

 

 

 

 

 

5

D

0

 

 

 

 

 

 

6

A

0

 

 

 

 

 

 

7

B

0

 

 

 

 

 

 



먼저 X수열은 <ABCBDAB>이며 Y수열은 <BDCABA>라고 가정합니다.

테이블의 첫번째 열과 첫번째 행은 i또는 j가 0이므로 모두 0으로 채우도록합니다.

그리고 하나의 칸씩 채워보도록 하는데 이후 LCS의 길이뿐 아니라 그 수열까지 함께 구할 수 있도록 화살표를 함께 사용합니다.


각각에 대해서 탐색을 할때는 다음과 같은 방법을 이용합니다.

ㄱ) 두 문자가 같을 때, 좌측위에 있는 숫자에 1을 더한 값을 가지며 화살표는 좌측위를 가리킵니다.

ㄴ) 두 문자가 다를 때, 좌측이나 위에 있는 숫자중 큰 값을 가리키며 같은 값을 가집니다. 동일한 값일 때는 위의 값에 대해 행동합니다.


먼저, i가 1일때 1부터 6까지의 j에 대해 확인합니다.

X1는 A이며 Y1은 B이기 때문에 두 문자가 서로 다르고, 좌측과 위에 있는 숫자가 같은 값을 가지기에 그 값을 가지며 위를 가리킵니다.

X1과 Y2도 같은 방식이고, X1과 Y3 또한 같은 방식입니다.

X1과 Y4를 보시면 서로 같은 문자, A를 가지고 있습니다. 따라서 대각(좌측상단) 방향의 값보다 1큰 값인 1을 값으로 가지며 대각을 화살표로 가리킵니다.

이러한 방법으로 모든 칸을 채우면 아래와 같이 채워지게 됩니다.




따라서 LCS의 길이는 4이며 LCS수열을 구하고 싶다면 제일 좌측 하단에서부터 시작해 화살표 방향으로 따라가며 대각선방향을 가리키는 부분의 문자를 나열하면 됩니다.


이렇게 해서 최장 공통 부분 수열(LCS: Longest Common Subsequence)에 대해서 알아보았습니다.

추후 시간이 된다면 LCS알고리즘을 파이썬으로 직접 구현하여 테스트 해보도록 하겠습니다.


블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


안녕하세요.

우리는 지난 포스팅들을 통해서 동적 프로그래밍(Dynamic programming)의 3가지 예시에 대해 살펴보았습니다.

이번 포스팅에서는 예시들과 같은 최적화 문제에 동적 프로그래밍을 적용하기 위해 가져야 하는 두 가지 중요한 구성요소,

최적 부분 구조와 중복되는 부분 문제에 대해 살펴보도록 하겠습니다.


어떤 문제에 대해서 동적 프로그래밍을 적용하기 위해서 해당 문제가 가져야 할 두 가지 구성요소는,

최적 부분구조와 중복되는 부분 문제입니다. 하나씩 자세히 살펴보도록 하겠습니다.


1. 최적 부분 구조(Optimal substructure)


동적 프로그래밍을 적용하기 위해 가장 먼저 확인해야 할 것은 최적해의 구조의 특징입니다.

기본 문제의 최적해가 부분 문제의 최적해를 포함하고 있을 때, 우리는 그 문제가 최적 부분 구조를 가졌다고 할 수 있습니다.

어떤 문제가 최적 부분 구조를 가진다는 것은 동적 프로그래밍이 적용될 수 있다는 좋은 단서가 됩니다.

앞에서 알아보았던 것처럼, 동적 프로그래밍은 부분 문제의 최적해로부터 전체 문제의 최적해를 구하기 때문입니다.

우리는 아래와 같은 보편적인 방법을 통해 최적 부분 구조를 스스로 찾아볼 수 있습니다.


ㄱ. 문제에 대한 해는 선택하는 과정으로 만들어짐을 보여야 한다. 예를 들어, 막대에서 맨 처음 자르는 곳을 선택하거나 행렬 체인을 나눌 위치를 선택하는 과정을 포함하고 있다. 이런 선택을 하는 과정은 한 개 또는 그 이상의 풀어야 할 부분 문제를 남긴다. 즉, 선택을 통해서 한개 이상의 부분 문제를 만들어 낸다.


ㄴ. 주어진 문제에 대해서 최적해에 이를 수 있는 선택이 주어졌다고 가정한다. 이런 선택을 어떻게 결정하느냐는 아직 걱정하지 않는다. 단지 그 선택이 주어졌다고 가정한다.


ㄷ. 주어진 이 선택에 대해서 발생하는 부분 문제가 어떤 것인지를 정하고 그 부분 문제들의 범위를 가장 잘 표현할 수 있는 방법을 전한다.


ㄹ. 한 개의 최적해에 사용된 부분 문제들의 해가 최적이어야 함을 "잘라붙이기(cut and paste)" 방법을 이용해 보인다. 이것은 각 부분 문제들의 해가 최적이 아니라고 가정하고 모순임을 보이면 된다. 특히, 각 부분 문제들의 최적해가 아닌 부분을 "잘라내고(cutting)" 거기에 최적해를 "붙이면(paste)", 원래의 해보다 좋은 해를 얻게 된다. 따라서 잘라 붙이기 이전의 해가 최적해라는 가정에 모순이 되는 결론에 도달한다. 최적해에서 발생하는 부분 문제가 하나 이상이면 그 부분 문제들은 일반적으로 모두 비슷하므로 하나에 대해 적용한 잘라 붙이기 방법을 다른 부분 문제에도 쉽게 수정해 사용할 수 있다.


쉽게 말해서, 최적 부분 구조를 가진다는 것은 전체 문제의 최적해가 부분 문제의 최적해들로써 구성된다는 것입니다.

예를 들어, A라는 문제의 부분 문제 a,b가 있을 때, a,b의 최적해는 a',b'라고 가정한다면 A의 최적해는 a'와 b'로써 구성됩니다. 다시 말해, A라는 문제가 최적 부분 구조를 가지고 있는데 방금과 같은 조건에서 A의 최적해는 a'와 b'로 구성되는 것을 증명한다면, 최적 부분 구조를 가진다는 것을 언급하며 이로 인해 A의 최적해가 a'와 b'가 아닌 a'와 c'으로 구성된다고 가정한다면 b의 최적해는 c'이어야 하는데 b의 최적해는 b'이기 때문에 가정이 모순임을 보여 증명할 수 있습니다.



이때 문제가 최적 부분 구조를 가지고 있지 않음에도 최적 부분구조를 가지고 있다고 가정하지 않도록 주의해야 합니다.

예시를 통해 바로 확인해보도록 하겠습니다.



위의 그림에 대해 확인하기 앞서 아래 두가지 개념에 대해서 잠깐 설명드리겠습니다.

그래프에서 두 정점 a, b에 대해서,

(비가중)최단 경로: a에서 b까지 연결되는 가장 적은 개수의 간선들로 이루어 지는 경로입니다.

(비가중)최장 경로: a에서 b까지 연결되는 가장 많은 개수의 간선들로 이루어 지는 경로입니다.

또한 각각의 경로는 경로 내에서 순환이 포함되지 않는 단순(simple) 조건을 가지고 있으며 각 간선에 대해서는 가중치가 존재하지 않습니다.


그렇다면 위의 그래프를 보았을 때, q와 t사이의 최단 경로는 무엇일까요?

q -> r -> t 또는 q -> s -> t 입니다.

각각을 부분 문제로 나누어 보았을 때의 최적해는 어떻게 될까요?

q 와 r 사이의 최단경로는 q -> r 이며, r과 t사이의 최단경로는 r -> t 입니다.

이러한 것을 보아 최적 부분 구조를 가지고 있다고 알 수 있습니다.


하지만, 최장 경로에 대해서는 어떨까요?

q와 t사이의 최장 경로 또한 위와 같이 q -> r -> t 입니다.

그런데 그 부분 문제, q와 r사이의 최장 경로는 어떨까요?

q -> r이 아닌, q -> s -> t -> r 이 됩니다.


이러한 예는 최장 단순 경로를 찾는 문제가 최적 부분 구조를 가지지 않을 뿐만 아니라 부분 문제들의 최적해로부터 전체 문제의 조건에 맞는 해를 언제나 만들어 낼 수 있는 것은 아니라는 사실을 보여줍니다.


그렇다면, 최장 단순 경로의 부분 구조와 최단 경로의 부분 구조는 왜 다른 것일까요?

바로, 최장 경로를 찾는 문제의 부분 문제는 독립적(Independence)이지 않기 때문입니다.

여기서, 부분문제가 독립적이다라는 것은 어떤 것을 의미할까요?

독립적이다라는 것의 의미는, 동일한 문제에서 부분 문제 하나의 해가 다른 부분 문제의 해에 영향을 주지 못함입니다.

다시 말해, 위의 최장 단순 경로에서는 하나의 부분 문제를 풀기 위해 사용된 자원이 또 다른 부분 문제에서 사용되기 때문에 독립적이다라고 볼 수 있습니다. 그렇기에 최적 부분 구조 또한 아닙니다.


즉, 최적 부분 구조를 가지기 위해 부분 문제들은 독립성을 가져야합니다.



2. 중복되는 부분 문제(Overlapping subproblems)


동적 프로그래밍을 적용하기 위해 기본 문제가 가져야 할 구성요소 중 두번째입니다.

만약 재귀 알고리즘이 같은 문제를 계속해서 풀게 되는 경우 우리는 그 최적화 문제가 중복되는 부분 문제를 가진다고 말합니다. 반대로, 분학정복 기법을 사용하기에 적합한 문제는 보통 재귀적으로 호출하는 각 문제들이 새로운 것입니다.

동적 프로그래밍 알고리즘은 중복되는 부분 문제를 이용하는데, 각 부분 문제에 대해서 한 번만 계산하고 그 해를 테이블에 저장합니다. 그리고 그 부분 문제가 중복되어 나올 때 마다 상수 시간동안 테이블을 확인하여 해를 반환합니다.


이러한 해결방식 중에서 대표적인 것은 메모하기(memoize)입니다.

기본적인 아이디어는 자연스러우나 계속 되는 호출로 인해 비효율적인 재귀 알고리즘을 메모하는 방법으로써, 각 부분 문제들의 해를 저장하는 테이블을 가집니다. 맨 처음에 테이블의 각 엔트리들은 그 테이블이 아직 채워지지 않았다는 것을 나타내는 특정한 값을 가지고 있다가, 재귀 알고리즘을 수행하는 동안 부분 문제가 처음으로 호출되면 그 문제의 해를 계산하고 그 값을 테이블에 저장합니다. 그리고 이후 동일한 부분 문제가 호출되면 테이블에서 저장된 해를 반환합니다.



이렇게 해서 간단하게, 동적 프로그래밍의 요소 두 가지를 알아보았습니다.

블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


이번 포스팅에서는 동적 프로그래밍의 세번째 예제인 행렬 체인 곱셈(Matrix-chain Multiplication)에 대해서 알아보도록 하겠습니다.


1. 행렬 체인 곱셈(Matrix-chain Multiplication)


이번 세번째 예제인 행렬 체인 곱셈(Matrix-chain Multiplication)문제는 n개의 행렬을 곱하는 것에 대한 문제입니다.

먼저 행렬의 곱은 아래의 수도코드와 같은 방식으로 진행됩니다.



위의 수도코드를 보면 A행렬이 p*q이고 B행렬이 q*r일때, 이 두 행렬의 곱을 통한 새로운 행렬 C를 계산하는데 걸리는 시간은 수도코드의 8행에 따른 곱셈의 횟수, pqr번에 의해서 결정됩니다.

예를들어, 아래와 같은 세개의 행렬이 있을 때, 두가지 방법의 곱셈이 가능할 것입니다.



A1와 A2를 먼저 계산한다면 총 840번의 곱을 수행해야 합니다.

하지만 A2와 A3를 먼저 계산한다면 총 460번의 곱을 수행하면 됩니다.


따라서 행렬 체인 곱셈 문제에서는 행렬을 곱할 때 비용이 가장 적은 순서를 찾아내는 것이 목표입니다.



2. Brute-force 방식


지난 두 예제에서 알아본 것과 같이, 동적 프로그래밍을 적용한 해결 방법을 살펴보기전에 모든 경우의 수를 조사하는 brute-force방식을 살펴보도록 하겠습니다.

n개의 행렬을 괄호로 묶는 서로 다른 방법의 수를 P(n)이라고 함ㄴ다면, n이 1일 때에는 행렬이 한 개뿐인 것이므로 괄호를 묶는 방법은 단 한가지 입니다. n이 2보다 크거나 같을 때, 행렬 전체를 완전하게 괄호로 묶는 방법의 수는 두개의 완전하게 괄호로 묶인 두 부분 곱들의 곱이고, 두 개의 부분 곱 사이를 나누는 것은 1과 n-1의 값, k번째와 k+1번째 행렬의 사이가 됩니다. 이를 통해 아래의 점화식을 얻을 수 있습니다.



위의 식을 분석해보면 점화식의 해가 대략 개를 가지는 것을 알 수 있습니다.



3. 동적 프로그래밍으로 행렬 체인 곱셈 문제 해결하기


먼저 행렬 체인 곱셈 문제의 최적 부분 구조를 생각해보면 다음과 같습니다.

를 괄호로 최적으로 묶기 위해 와 의 사이에서 나눈다고 생각해보겠습니다. 그렇다면 앞의 부분 곱, 을 확인하였을 때, 의 괄호 묶는 방법은 의 최적의 괄호 묶는 방법으로 되어야 할 것 입니다.


즉, 최적의 괄호를 묶기 위해서 부분 곱에서 또한 같은 특징이 성립되어 부분 곱도 괄호 묶기에 대해 서로 최적이어야 합니다.


따라서 m[i,j]는 다음과 같이 정의됩니다.



그리고 m[i,j]는 다음과 같은 점화식을 통해 값이 구성됩니다.



이렇게 구한 m은 행렬 곱셈을 계산하는데 필요한 최적의 계산 수를 저장합니다.

하지만 행렬을 곱하는 방법을 제공하지는 않기에 우리는 s라는 배열을 사용하여 필요한 정보를 저장합니다.


s[i,j] 에는 Ai행렬부터 Aj까지의 행렬을 곱할 때 마지막으로 괄호 묶기가 되는 와  의 k값을 저장합니다.


이러한 테이블과 점화식을 토대로 행렬 체인 곱셈문제를 해결하는 알고리즘은 다음과 같습니다.




위의 수도코드에서 4번라인까지는 테이블 m을 초기화하는 과정입니다.(길이가 1인 행렬 곱셈에 대한 최소비용은 0이므로)

이후 5번 라인에서 반복문이 시작되며 처음엔, i가 1부터 n-1까지 증가하는 동안 길이가 2인 행렬에 대한 최소 비용을 구하며, 두번째 반복에서는 i가 1부터 n-2까지 증가하는 동안 길이가 3인 행렬에 대한 최소비용을 구합니다. 이런식으로 반복문이 진행되고 이를 통해 수도코드의 총 시간복잡도는 이며, 테이블 m과 s를 저장하기 위해 필요한 공간 복잡도는 입니다.


A1부터 A6행렬까지 있는 곱셈을 계산하였을때 작성되는 테이블 m과 s는 아래와 같으며 중간 계산 중 일부가 아래에 나와 있으니 확인하시고 확실히 이해 하시길 바랍니다.




이렇게 해서 동적 프로그래밍의 세번째 예제, 행렬 체인 곱셈(Matrix-chain Multiplication)에 대해서도 알아보았습니다.

특히나 저는 행렬 체인 곱셈이 많이 헷갈리고 어려웠기에 추가적으로 확인하면서 더 간단하게 설명이 되는 부분은 수정하도록 하겠습니다.

이해가 잘 안되거나 궁금한 점은 언제든 댓글을 남겨주세요 :)


블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc

안녕하세요.

이번 포스팅에서는 동적 프로그래밍(Dynamic Programming)의 예제인 Assembly Line Scheduling과 Matrix-chain Multiplication에 대해서 알아보도록 하겠습니다. 동적 프로그래밍과 막대자르기(Rod-Cutting)예제에 대한 내용은 지난포스트를 확인해주시길 바랍니다.


1. Assembly Line Scheduling


먼저 Assembly Line Scheduling 예제에 대한 설명을 하겠습니다.



위와 같은 사진을 참고하여 어느 특정 공장에 두 개의 라인이 있습니다.

그림에서는 위의 라인이 S1, 아래의 라인이 S2입니다.

그리고 각각의 라인에서 진행되는 1부터 n까지의 공정이 있습니다.

이때 같은 열에 있는 공정은 같은 공정이지만 라인에 따른 시간차이가 있습니다.

또한, 위 또는 아래의 라인에서 다른 라인으로 넘어 가는데 소요되는 시간 t가 존재합니다.

이때, 같은 라인에서 넘어가는 시간은 0이라고 가정합니다.

즉, S1,1에서 S2,2로 넘어가는 시간은 t1,2 입니다. 또한 S1,1에서 S1,2로 넘어가는 시간은 0입니다.


각각의 기호에 대한 개념을 정리하면 아래와 같습니다.

 : i라인에서의 j번쨰 공정(j-th station on line i)

 : 에서 공정에 소요되는 시간(assembly time required at station )

 : i 라인으로 들어가는데 소요되는 시간(time to enter line i)

 : i 라인에서 나오는데 소요되는 시간(time to exit line i)

 : j 번째 공정을 하고 i 라인에서 다른 라인으로 교체되는 시간(time to transfer from line i after station j)



예들 들어 보겠습니다.

먼저, 위의 라인으로 들어가는 시간 e1은 0.5초, 아래의 라인으로 들어가는 시간 e2는 1초로 가정합니다.

그리고 위의 라인에서 진행되는 첫번째 공정은 S1,1로 표현하며 여기서 진행되는 공정 a1,1는 1초가 걸린다고 가정하겠습니다.

그리고 아래의 라인에서 진행되는 첫번째 공정은 S2,1로 표현하며 여기서 진행되는 공정 a2,1는 2초가 걸린다고 가정하겠습니다.

같은 방식으로 a1,2는 4초, a2,2는 3초가 걸린다고 가정하겠습니다. 또한 t1,2는 0.5초이며 t2,2는 3초라고 가정하겠습니다.

정리해보면 아래와 같습니다.

e1 = 0.5s

e2 = 1s

a1,1 = 1s

a2,1 = 2s

a1,2 = 4s

a2,2 = 3s

t1,2 = 0.5s

t2,2 = 3s

위와 같은 조건이 있을때 두번째 공정까지 진행하는 최단시간과 그 과정은 어떻게 될까요?

이러한 문제를 해결하는 것이, Assembly Line Scheduling 입니다.


위의 예제를 하나씩 확인해보겠습니다.

먼저 첫번째 공정을 마무리하는 시점을 생각해보면 S1,1 는 e1+a1,1 = 1.5s 이며 S2,1는 e2+a2,1 = 3s 입니다.

그리고 두번째 공정에 대해서 생각해보겠습니다.

만약 S1,2에서 공정을 진행한다고 가정하면, e1+a1,1+a1,2 = 5.5s 또는 e2+a2,1+t2,2+a1,2 = 10s 입니다.

그리고 S2,2에서 공정을 진행한다고 가정하면, e1+a1,1+t1,2+a2,2 = 5s 또는 e2+a2,1+a2,2 = 6s 입니다.

가장 최단시간이 걸리는 것은 5초의 과정을 가진 e1 + a1,1 + t1,2 + a2,2 입니다.



2. Brute-force


Assembly Line Scheduling에 대한 알고리즘을 고민해봅시다.

최적의 답을 찾기 위해서 전체의 경우의 수를 고려해보면 어떨까요?

n개의 공정이 존재할 때, 2개의 라인이 존재하므로 총 개의 경우의 수를 고려해야 합니다.

쉽게 말해서, S1,4의 공정을 수행하는데 오는 경로는 S1,3과 S2,3이 있는 것을 통해 특정 위치의 공정을 위한 경로를 확인하면 2개씩 존재하고, 공정의 개수는 총 n개이므로 총 개를 확인해야 하는 것 입니다.

즉, 이러한 모든 경우의 수를 탐색하는 Brute-force Approach로는 다음과 같은 시간복잡도를 가집니다.


In Brute-force Approach, 


이러한 Brute-force 방식은 상당히 많은 소요시간을 가지는 것을 지난 막대자르기 예제에서 확인 할 수 있었습니다.

뒤에서 수도코드를 확인하면서 설명드리겠지만,

동적 프로그래밍을 통해 해당 Assembly Line Scheduling 문제를 선형시간에 탐색할 수 있습니다.

따라서 동적 프로그래밍으로 알고리즘을 구현해보도록 합니다.



3. 동적 프로그래밍에 의한 Assembly Line Scheduling 해결


지난 포스팅에서 이야기 했던 것 처럼, 동적 프로그래밍의 기본 핵심은 테이블을 사용하는 것 입니다.

따라서 우리는 모든 경우에 수에 대해 탐색하는 것이 아니라, 탐색한 경우에 대해서는 테이블에 저장하여 필요할 때 값을 참조하도록 합니다.



위의 사진에 나와있듯이, 사용하는 테이블 의 의미는, i라인에서 진행하는 j 공정(=Si,j)을 시작지점으로 했을 때 가장 빠른 시간입니다.

즉 우리는 다룬 위의 예제에서는 2개의 라인을 이용하므로 f1과 f2가 테이블로 존재할 것입니다.

그리고 f*는 최종적으로 가장 빠른 시간을 저장하는 변수 입니다.

이때 f*는 다음과 같은 식으로 결정 됩니다.



그리고 각각의 테이블을 구성하는 방법은 다음과 같습니다.



또한 이후 수도코드에서 보게될 L테이블이 있습니다.

이는 최종적으로 Assembly Line Scheduling의 과정을 보여주기 위한 테이블입니다.

즉, l1[3]에 입력되는 값은, S1,3에 오는데 어떠한 라인에서 오는 것이 최적인지를 구분한 라인의 번호입니다.


이를 통해 최종적으로 구성되는 수도코드는 아래와 같습니다.



위의 수도코드를 확인해보면,

f1[1]과 f2[1]에 enter하는데 필요한 소요시간과 1번 공정을 하는데 소요되는 시간을 더해서 입력합니다.

이후, 2번 공정부터 n번째 공정까지 f1과 f2의 테이블에 적절한 값을 입력할 수 있도록 if문을 통한 처리를 진행합니다.

내부에서는 추가적인 반복문 없이 진행됩니다.

그리고 최종적으로 n번째 공정까지 마무리가 되면 라인에서 빠져나오는 시간을 고려하여 가장 소요시간이 적은 값을 f*에 저장합니다.

이를 통해서 해당 수도코드의 시간 복잡도는 선형시간을 가진다는 것을 알 수 있습니다.

 

또한 최종 과정을 보기위한 출력함수는 아래와 같습니다.



위의 수도코드들을 통해 아래 사진을 보고 그 과정을 하나씩 확인해보시면 이해가 빠를 것 입니다.




이렇게 해서 동적 프로그래밍, 동적 계획법의 두번째 예제인 Assembly Line Scheduling에 대해서 알아보았습니다.

다음 포스팅에서는 동적 프로그래밍의 세번째 예제인 Matrix-chain Multiplication에 대해서 알아보도록 하겠습니다.

블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc


지난 포스팅에서 동적 프로그래밍(Dynamic Programming)에 대해서 알아보고 그에 대한 예제로 막대자르기(Rod Cut)에 대해서 공부하였습니다.

이번 포스트에서는 막대자르기 예제에서 단순 하향식 재귀표현법과 상향식 방법을 실제로 python코드로 작성해보고 시간을 비교해보도록 하겠습니다.


1. 개요


먼저 이번 포스팅에서 진행할 막대자르기문제에 대한 몇 가지 조건은 아래와 같습니다.


ㄱ. P-table(price table)의 값은 임의의 단조증가 형태

ㄴ. Rod의 길이 값을 4부터 N으로 변화시키면서 Brute-force방법(하향식 재귀 표현)과 DP방법(상향식 방법)으로 최적의 값과 해결 소요 시간을 비교

ㄷ. 소요 시간 비교는 최종적으로 표와 그래프를 이용하여 시각적으로 표현


위의 조건들을 가지고 코드를 작성하는데, 이때 참고하는 수도코드는 각각 아래와 같습니다.


#Brute-force(하향식 재귀 표현)


#DP(상향식 방법)




2. Price table 구성


먼저 조건 ㄱ을 구현하기 위해 P-table(Price table)을 구성하는 함수를 작성합니다.

P-table은 임의의 단조증가 형태를 띄어야 합니다.

먼저 P-table를 알맞게 구성하는 Initprice()라는 함수를 작성하여 값을 price_table.txt 파일로 저장한 다음 이후 해당 파일을 읽어서 사용할 수 있도록 readPriceTable()함수를 구현하겠습니다.


2-1. Initprice()


단조증가 형태를 띄는 P-table은 아래 코드를 통해 구성됩니다.




위의 코드를 통해 생성된 price_table.txt 파일의 일부는 아래와 같습니다.




2-2. readPriceTable()


위에서 작성한 price_table.txt를 이후 코드에서 사용하기 위해 해당 파일을 읽어서 배열로써 반환하는 함수는 아래와 같습니다.




3. Brute-force, 하향식 재귀 표현


위와 같은 수도코드를 통해 Cut-Rod 방법을 구현한 함수는 아래와 같습니다.




위의 코드는 이론상으로 의 시간복잡도를 가집니다.




4. DP, 상향식 방법



위와 같은 수도코드를 통해 Bottom-UP 방법을 구현한 함수는 아래와 같습니다.



위의 코드는 이론상으로 의 시간복잡도를 가집니다.



5. 결과 출력


먼저 위에서 구현한 하향식 재귀 방법과 상향식 방법을 동시에 실행시키면서 각각을 통한 최적의 값과 실행 소요시간을 출력하는 함수를 작성하여 결과를 한눈에 보기 편하도록 하겠습니다.

check(n,price)함수를 구현하였고 매개변수 n은 최대 수익 값을 구하고자 하는 막대의 길이이며 price는 P-table입니다.

또한, n이 값이 증가하였을때 하샹식 재귀방법은 이론적으로 큰 시간 소요를 가질 것으로 예상 되므로 n이 커질때 상향식 방법만 확인하기 위한 checkBtUP(n,price) 함수를 구현하였습니다.

각각의 코드는 아래와 같습니다.



위와 같은 코드를 통해 최종적으로 아래 코드를 실행시킵니다.



이에 따른 결과의 일부는 아래 사진과  같습니다.






6. 시간비교


각각의 값을 txt파일로 기록하여 이를 excel에 옮겨서 표를 구성한 사진과 이를 그래프로 나타낸 결과는 아래 사진들과 같습니다.



위의 표는 n이 4부터 30까지의 대한 각각의 값을 나타냅니다.

두가지 알고리즘에 의한 최적의 값을 비교했을 때, 두 알고리즘 모두 같은 값을 도출하였습니다.

또한 각각의 값은 자르지 않았을 때의 값보다 크거나 같습니다.

아래 첫번째 그래프는 하향식 재귀표현 알고리즘과 상향식 방법 알고리즘에 대한 시간비교를 진행한 것 입니다. 파란색 선은 하향식 재귀 방법의 소요시간을 나타내며 주황색 선은 상향식 방법의 소요시간을 나타냅니다.

이론에서 배운 것과 같이 하향식 재귀 방법이 상향식 방법보다 n이 커질수록 큰 소요시간을 가지는 것을 확인할 수 있습니다.

그 아래 두번째 그래프는 n이 31부터 1000까지의 상향식 방법의 소요시간을 측정한 그래프 입니다.

n이 커질수록 소요시간이 증가되는 것을 볼 수 있습니다.




실습에서 진행되었던 코드 전문은 아래와 같습니다.

코드 전문 보기





이렇게 해서 파이썬을 통한 막대자르기(Rod Cut) 문제의 알고리즘 시간비교를 진행하였습니다.

궁금한 점이나 내용에 대한 피드백은 언제든지 댓글을 이용해주세요 :)

블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc



안녕하세요. 문범우입니다.

이번 포스팅부터 Introduction to Algorithm (3rd Edition) 책의 15장. 동적 프로그래밍(ch15, dynamic programming)에 대해서 이야기하려 합니다.

매주 1~2번 정도 포스팅 될 예정이며, 공부를 하면서 내용을 정리해서 올리기 때문에 잘못된 정보나 지식이 포함되어 있을 수 있으니 참고용으로 확인해주시고, 잘못된 내용에 대해서는 피드백 주시면 감사하겠습니다.

오늘은 동적 프로그래밍에 대한 개요와 동적 프로그래밍의 막대 자르기(Rod Cut)에 대해서 알아보겠습니다.


1. 동적 프로그래밍(Dynamic programming)


동적 프로그래밍은 분할정복 기법과 같이 부분 문제의 해를 결합하여 문제를 해결합니다.

이때, 프로그래밍이란 것은 코딩을 하는 것이 아니라 테이블을 이용하여 문제를 해결하는 방법을 말합니다.

동적 프로그래밍은, 동적 계획법, Dynamic programming, DP 등으로 부르기도 합니다.


분할정복 알고리즘은 기본적으로, 하나의 문제를 겹치지 않는 부분 문제들로 분할(divide)하여 해당 부분 문제들을 재귀적으로 해결한 후, 각각의 결과를 다시 결합하여 원래의 문제를 해결합니다.

반면, 동적 프로그래밍에서는 부분 문제가 서로 중복될 떄, 즉 부분 문제가 다시 부분 문제를 공유할 때 적용됩니다.

동적 프로그래밍 알고리즘을 이용하여 부분 문제를 한번만 해결하고 그 해를 테이블에 저장함으로써 각 부분 문제를 풀 때마다 다시 계산하는 일을 피할 수 있습니다.


일반적으로 최적화 문제(Optimization problem)에서 동적 프로그래밍을 적용합니다.

최적화 문제에서는 대체적으로 다양한 해를 가질 수 있는데 우리는 다양한 해들 중에서 최적(최소 또는 최대)의 해를 찾기를 원합니다. 이러한 해를 그 문제에 대한 유일한 최적해라고 하지 않고, 한 개의 최적해라 합니다. 최적의 값을 가지는 해가 여러개 존재할 수 있기 때문이죠.

동적 프로그래밍 알고리즘을 개발할 때는 아래의 4단계를 따릅니다.


1. 최적해의 구조의 특징을 찾는다.

2. 최적해의 값을 재귀적으로 정의한다.

3. 최적해의 값을 일반적으로 상향식(bottom-up) 방법으로 계산한다.

4. 계산된 정보들로부터 최적해를 구성한다.


1~3 단계는 주어진 문제에 대한 동적 프로그래밍 해의 기초가 됩니다.

이어서 4 단계에서는 최적해의 값만 필요한 것이 아니라 최적해 자체가 필요할 때 수행하는 것으로써 값만 필요할때에는 생략할 수 있습니다.


2. 막대 자르기


막대 자르기 문제는 다음과 같습니다.

길이가 n인 막대와 i = 1,2,3,...,n에 대한 가격 p_i의 표가 주어지면 해당 막대를 잘라서 판매했을떄 얻을 수 있는 최대수익 r_n을 결정하는 것 입니다. 길이가 n인 막대의 가격 p_n이 충분히 비싸면 최적해는 자르지 않은 것일 수도 있습니다.


아래 표와 그림을 통해 확인해보겠습니다.


표에는 막대의 길이가 얼마일 때, 얼마의 가격인지가 나와 있습니다.

그리고 아래 그림에서 막대를 다양한 방법으로 잘라, 그 가격을 나타내고 있습니다.

(a) ~ (h)를 봤을 때 어떤 경우가 최적의 해 인가요?

막대를 2의 길이, 두 개로 자른 (c)의 경우의 수익이 10으로써 가장 최적의 해를 나타내고 있습니다.


위와 같이, 길이가 n인 막대는 개의 다른 방법으로 자를 수 있습니다.

제일 좌측에서 부터 i = 1,2,3,...,n-1 에 대한 모든 i길이마다 자르거나 자르지 않거나 하는 독립적인 선택이 가능하기 때문입니다.

만약 최적해가 막대를 에 대해 k의 조각으로 나누면,

막대를 조각 길이 로 나누는 다음의 최적의 분해는

 이며,

다음과 같은 최대의 해당 수익을 제공합니다.


좀 더 일반적으로 말하면, 에 대한  값을 더 작은 막대로부터의 최대 수익을 이용해 나타낼 수 있습니다.



첫 번째 인자 은 자르지 않고 길이가 n인 막대를 그대로 파는 것에 해당합니다.()

max 함수에 대한 다른 인자는 막대를 처음에 i와 n-i의 길이가 되도록 둘로 나누고 두 조각을 더 최적으로 잘라서 두 조각으로부터 최적의 이익을 얻습니다. 그런데 어떤 i의 값이 최대의 수익을 가져오는지 미리 알 수 없기 때문에 i에 대한 모든 가능한 값을 고려해야 합니다.


다시말해서, 크기가 n인 원래 문제를 풀기 위해서 종류가 같은 더 작은 크기의 문제를 풉니다.

처음에 자르기를 진행하여 도출된 두 가지의 문제는 서로 독립적인 예로 생각해도 됩니다.

전체적인 최적해는 두 부분 문제의 각각에 대해 수익을 최대화하는 해를 이용합니다.

이에 따라 막대 자르기 문제는 최적 부분구조(Optimal substructure)를 가졌다고 말합니다.

따라서 길이가 n인 막대의 모든 분해를 첫 번째 조각과 나머지 조각의 어떤 분해로 볼 수 있습니다. 그렇게 할 때는 막대를 전혀 자르지 않는 방법의 해를 포함하여 좀 더 간단한, 아래와 같은 식을 얻을 수 있습니다.



우리는 위의 식을 토대로 몇 가지 알고리즘을 구현해보도록 하겠습니다.


2-1. 하향식 재귀의 표현


알고리즘의 의사코드는 아래와 같습니다.



위의 CUT-ROD 의사코드에 대해 간략히 확인해볼까요?

길이 n이 0인 막대기는 당연히 0을 반환합니다.

그리고 그것이 아닐때에, 최대 수익 q를 음의 무한대로 초기화를 진행하고 i가 1부터 n까지 값으로 재귀 함수를 호출합니다.

이러한 알고리즘의 총 수행시간은,

   

입니다.


CUT-ROD 알고리즘이 위와 같은 수행시간을 보이듯, 비효율적인 이유는 무엇일까요?

그것은 CUT-ROD 알고리즘이 같은 인자를 똑같이 반복해서 계산하려고 하기 때문입니다.

아래의 트리를 보면 이해하기 쉬울 것 입니다.

n=4 일때를 보여주는 위의 트리에서, 재귀적으로 호출되는 함수 때문에 n=1 일때, n=2일때의 경우가 반복되서 호출되고 있습니다. 

즉 CUT-ROD 함수에서는 길이가 n인 막대를 자르는 데 가능한 개의 경우의 수를 모두 고려하고 있는 것 입니다.



3. 동적 프로그래밍을 이용한 최적의 막대 자르기


이제 1에서 알아보았던 동적 프로그래밍을 이용하여 막대 자르기 문제를 효율적으로 해결해보록 하겠습니다.

동적 프로그래밍은 위에서 알아본 바와 같이, 각 부분 문제를 단 한번만 풀고 그 해를 저장하도록 처리합니다.

그렇게 함으로써 반복되는 부분 문제의 해를 구할 떄 다시 계산하지 않고 저장된 값을 참조만 함으로써 시간소요를 줄일 수 있습니다. 하지만 이렇게 동적 프로그래밍은 시간을 절약하기 위해 부가적인 메모리를 사용합니다.

이것은 시간-메모리 트레이드 오프(Time-memory trade-off)의 한가지 예로써 작용합니다.


막대자르기 문제를 동적 프로그래밍 방법으로 해결하는데 있어서 크게 두 가지 방법이 존재합니다.

하나는 메모하기를 이용한 하향식 방법, 다른 하나는 상향식 방법입니다.



3-1. 메모하기를 이용한 하향식


메모하기를 이용한 하향식의 기본 개념은 2-1에서 진행한 하향식 재귀와 비슷합니다.

하지만 특정 부분 문제를 해결하였을때 해당 부분 문제의 해를 배열이나 해시 테이블에 저장해놓도록 수정하여 이후 같은 부분 문제가 반복되었을때 다시 계산하지 않고 배열이나 해시 테이블을 참조하여 이용할 수 있도록 함으로써 시간을 절약합니다.

아래는 메모하기가 더해진 하향식 CUT-ROD 의 의사코드입니다.

메인 알고리즘, MEMOIZED-CUT-ROD는 새로운 배열 r[]을 선언하고 음의 무한대로 초기화 합니다.

배열 r의 구성은, 특정 길이 n'에 대한 최적의 해를 r[n']에 저장합니다.

그리고 길이 n에 대해서 MEMOIZED-CUT-ROD-AUX 함수가 호출이 됩니다.

그리고 1행에서 길이 n에 대한 최적의 해가 존재하다면 그것을 리턴하게 됩니다.

(초기에 배열 r[]을 음의 무한대로 초기화 하였으니 특정 길이 n'에 대하여 r[n']의 값이 0보다 크거나 같다면 길이 n'에 대한 최적의 해가 저장되어 있다는 것을 알 수 있습니다.)

계산되어 있지 않다면 이후 3행부터는 2-1에서 진행한 하향식 재귀함수와 동일합니다.



3-2. 상향식 방법


상향식 방법은 보다 간단합니다.

상향식 방법에서는 동적 프로그래밍 방법에서 부분 문제의 자연스러운 순서를 사용합니다.

만약 i > j 이라면 크기 i의 부분 문제는 크기 j 의 부분 문제보다 작습니다. 그러므로 해당 상향식 방법에서는 크기가 0부터 n으로 커지는 부분 문제의 크기 순으로 해결합니다.


수도코드의 1행에서 배열 r[]에 대해서 선언하고 이후 우리는 r[] 배열에 부분 문제의 결과를 저장할 것 입니다.

그리고 길이가 0인 막대에 대한 최대 수익은 0 이므로 2행에서 r[0]=0 으로 저장합니다.

3행에서부터는 길이가 1부터 j까지 하나씩 증가하는 각 부분 문제를 해결하여 값을 구하고 그것의 값을 7행에서 배열 r[]에 저장합니다.

마지막 8행에서 우리가 얻고자 하는 길이 n에 대한 최대 수익값을 리턴하게 됩니다.

이러한 상향식 방법의 수행시간은 을 가집니다.



3-3. 해의 재구성


우리가 위에서 공부한 두가지 알고리즘에서는 최적 해의 대한 값만 도출합니다.

즉, 길이가 n에 대한 막대를 통해 얻을 수 있는 최대 수익만을 반환할 뿐이지 해당 막대를 어떻게 잘라야 하는지는 리턴하지 않습니다.

이러한 동적 프로그래밍 방법을 각각의 부분 문제에 대한 계산된 최적 값 뿐만 아니라, 그 최적 값에 이르는 선택도 기록하도록 확장할 수 있습니다. 즉 이러한 정보와 함께 최적 값 뿐 아니라 최적해 자체를 쉽게 출력할 수 있습니다.



위의 수도코드에서는 그 전과 다르게 1행에서 배열 s[]를 선언합니다. 그리고 8행을 확인하시면 잘라내는 첫번째 조각의 최적크기 i를 보관하는 것을 알 수 있습니다.

그리고 최적 해를 가지는 r과 최적의 첫 번째 막대 크기들의 배열 s[]을 반환합니다.

아래 수도코드는 길이 n의 막대의 최적 분할에서의 모든 조각 크기의 리스트를 함께 출력합니다.





이렇게 해서 동적프로그래밍에 대한 개요와 하나의 예제인 막대 자르기(Rod-cutting) 에 대해서 공부해보았습니다.

추가적으로 궁금하신 점이나 피드백해주실 점은 댓글 또는 이메일(doorbw@outlook.com)을 이용해주세요 :)



블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc

안녕하세요.

이번에는 python을 이용한 CSP algorithm 중 하나인 Einstein's puzzle(아인슈타인 퍼즐) 해결 코드를 작성해 보겠습니다.



먼저 아인슈타인 퍼즐에 대해 소개해 드릴게요.

아인슈타인의 퍼즐은 아래와 같은 문제입니다.


* 문제의 배경

1. 색깔이 서로 다른 5채의 집이 일렬로 지어져 있다.

2. 각 집에는 서로 다른 국적의 사람이 살고 있다.

3. 다섯 사람은 서로 다른 음료를 마시고, 서로 다른 담배를 피며, 서로 다른 동물을 기른다.


* 15개의 정보

1. 영국인은 빨간 집에서 산다.

2. 스웨덴인은 개를 기른다.

3. 덴마크인은 차를 마신다.

4. 초록집은 하얀집의 왼쪽 집이다.

5. 초록집에 사는 사람은 커피를 마신다.

6. 펠몰 담배를 피는 사람은 새를 기른다.

7. 노란집에 사는 사람은 던힐 담배를 피운다.

8. 한 가운데 집에 사는 사람은 우유를 마신다.

9. 노르웨이 인은 첫번째 집에 산다.

10. 블렌드 담배를 피우는 사람은 고양이를 기르는 사람 옆 집에 산다.

11. 말을 기르른 사람은 던힐 담배를 피우는 사람 옆 집에 산다.

12. 블루매스터 담배를 피는 사람은 맥주를 마신다.

13. 독일인은 프린스 담배를 피운다.

14. 노르웨이인은 파란 집 옆 집에 산다.

15. 블렌드 담배를 피우는 사람은 생수를 마시는 사람과 이웃이다.


위의 문제 배경과 15개의 정보가 있을때, '물고기를 기르는 사람의 국적은 무엇인가'?

(문제 출처: https://web.stanford.edu/~laurik/fsmbook/examples/Einstein%27sPuzzle.html)



이론적인 문제 풀이 방식은 아래와 같은 순서로 풀이가 가능합니다.

먼저 15개의 정보 중에서 확실히 알 수 있는 사실들을 이용한다. 15개의 정보 중에서 8, 9, 14번의 정보는 순서대로 하여 확실히 특정 사실을 알 수 있는 정보이다. 세가지 정보를 이용하면 위의 표와 같이 알 수 있다.


두번째로는 특정 조건들을 결합하여 이용한다. 먼저 4번 정보와 5번 정보를 이용하였다. 4번 정보를 통해 초록집은 하얀 집의 왼쪽 집임을 만족시켜야 한다. 4번 정보를 다르게 해석하면, 초록집의 오른쪽 집은 하얀 집이다. , 1, 2, 5번은 초록집이 될 수 없다. 그리고 5번 정보를 이용하면 초록 집은 3번이 될 수 없다. 따라서 남은 것은 4번뿐이므로 초록집은 4번이다. 또한 4번 집사람은 커피를 마시고 5번집은 하얀집이다. 다음 1번 정보를 확인하면, 2,4,5번 집은 이미 색이 있으므로 빨간집이 아니며 1번집은 노르웨이사람이 살고 있으므로 1번도 아니다. 3번 집이 빨간집이며 영국사람이 산다. 이어서 남은 1번은 자연스럽게 노란색 집이되며 7번 정보를 통해 1번집 사람은 던힐담배를 피운다. 또한 11번 정보를 통해 2번 집 사람은 말을 기른다.



이제 주어진 조건들을 응용하여 추리한다. 3번 정보와 12번 정보를 해석한다. 현재 남은 음료는 생수, , 맥주이다. 3번 정보에서 덴마크인이 차를 마신다고 하였으므로 노르웨이인은 생수 또는 맥주를 마실 것이다. 12번 정보에서 블루매스터 담배를 피우는 사람은 맥주를 마신다고 하였는데, 노르웨이인은 던힐 담배를 피우므로 맥주를 마시지 않는다. 즉 노르웨이인은 생수를 마신다. 또한 15번 정보를 통해서 2번 집 사람은 블렌드 담배를 피운다.

다시 12번 정보를 확인한다. 2번 집 사람은 차 또는 맥주를 마실 텐데 12번 정보에서 블루매스터 담배를 피는 사람이 맥주를 마신다고 하였다. 2번 집 사람은 블렌드 담배를 피우므로 맥주를 마시지 않고 차를 마신다. 그리고 남은 맥주는 당연히 5번 집 사람이 마시고, 5번 집 사람은 블루매스터 담배를 핀다. 이어서 3번 정보를 통해 차를 마시는 2번 집 사람은 덴마크인이다. 




마지막으로 남은 조건들로 추리를 완성한다. 먼저 13번 정보를 확인한다. 독일인은 4번 또는 5번집에 살텐데 5번 집 사람은 블루매스터 담배를 핀다. 따라서 13번 정보를 통해 독일인은 4번집에 살며 프린스 담배를 피운다. 이어서 5번집 사람은 스웨덴인이며, 3번집 사람은 펠몰담배를 핀다.

다음 6번 정보를 통해 펠몰담배를 피는 3번집 사람은 새를 기른다. 또한 2번 정보를 통해 5번 집에 사는 스웨덴인은 개를 기른다.

마지막으로 10번 정보를 통해서 3번 집사람은 이미 새를 키우는 것을 알았으므로 1번집 사람이 고양이를 기른다. 최종적으로 남은 4번집 사람은 물고기를 기른다.




이렇게 해서 아인슈타인의 퍼즐을 해결할 수 있습니다.

이러한 문제를 CSP(Constraint Satisfaction Problems: 제약조건 만족문제)라고 합니다.


아인슈타인 퍼즐을 해결하기 위해 2가지 정도의 알고리즘을 생각해볼 수 있습니다.

첫번째로는, 모든 경우의 수(5^25 or (5!)^5 둘 다 매우 큰 수 입니다...)를 고려하여 그 중 하나를 꺼내 정보와 비교하는 방법.

해당 방법은, 모든 경우의 수를 (5!)^5 으로 고려했을때 경우의 수가 약 240억개 입니다.

우리들의 컴퓨터로는 해결하기가 매우 힘들 수 있죠..


그래서 생각한 것이 두번째 알고리즘 입니다.

두번째 알고리즘은 각각을 카테고리 또는 조건으로 나누어 해결하는 방법입니다.

즉, A라는 조건을 다수의 배열 중 만족하는 배열을 찾아내는 것이 아니라 다수의 배열을 선언하기 전에 A라는 조건을 먼저 대입하고

이를 만족하는 배열 a가 있다면 a를 다음 조건, B에 대입하여 확인해나갑니다.

이렇게 해결을 진행하면 결국 DFS 방법으로 해결방법을 찾아나간다는 것을 아실 수 있습니다.


python으로 코드를 작성하기 위해 검색하던 중, python에서 제공하는 강력한 함수를 찾았습니다.

바로, python-constraint 함수 입니다.

함수에 대한 추가적인 사항은 아래 링크를 참고하시면 좋을 것 같습니다.

https://labix.org/python-constraint

https://pypi.python.org/pypi/python-constraint


python-constraint 함수를 통해, 직접 변수를 설정하고 제약조건을 추가하여 문제를 해결할 수 있습니다.

생각보다 code가 매우 간단해질 수 있어서 꼭 한번 다시 공부해보고 싶은 함수입니다.

추가적인 질문 이나 궁금사항은 댓글로 달아주시거나 이메일 주세요!


전체적인 python code와 실행결과는 아래와 같습니다.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
# Houses
# 1 2 3 4 5
 
from constraint import *
problem = Problem()
 
nationality = ["영국""스웨덴""독일""노르웨이""덴마크"]
pet = ["개""고양이""새""말""물고기"]
cigarette = ["던힐""블렌드"
"펠몰""프린스""블루매스터"]
colour = ["빨강""초록""노랑""파랑""하양"]
beverage = ["커피""우유""맥주""생수""차"]
 
criteria = nationality + pet + cigarette + colour + beverage
problem.addVariables(criteria,[1,2,3,4,5])
 
problem.addConstraint(AllDifferentConstraint(), nationality)
problem.addConstraint(AllDifferentConstraint(), pet)
problem.addConstraint(AllDifferentConstraint(), cigarette)
problem.addConstraint(AllDifferentConstraint(), colour)
problem.addConstraint(AllDifferentConstraint(), beverage)
 
problem.addConstraint(lambda e, r: e == r, ["영국","빨강"])#1
problem.addConstraint(lambda s, d: s == d, ("스웨덴","개"))#2
problem.addConstraint(lambda c, g: c == g, ("커피","초록"))#5
problem.addConstraint(lambda u, t: u == t, ("덴마크","차"))#3
problem.addConstraint(lambda g, i: g-== 1, ("하양","초록"))#4
problem.addConstraint(lambda o, s: o == s, ("펠몰","새"))#6
problem.addConstraint(lambda k, y: k == y, ("던힐","노랑"))#7
problem.addConstraint(InSetConstraint([3]), ["우유"])#8
problem.addConstraint(InSetConstraint([1]), ["노르웨이"])#9
problem.addConstraint(lambda c, f: abs(c-f) == 1, ("블렌드","고양이"))#10
problem.addConstraint(lambda k, h: abs(k-h) == 1, ("던힐","말"))#11
problem.addConstraint(lambda l, o: l == o, ["블루매스터","맥주"])#12
problem.addConstraint(lambda j, p: j == p, ["독일","프린스"])#13
problem.addConstraint(lambda k, h: abs(k-h) == 1, ("노르웨이","파랑"))#14
 
solution = problem.getSolutions()[0]
 
for i in range(1,6):
  for x in solution:
    if solution[x] == i:
      print (str(i), x)
cs



블로그 이미지

Tigercow.Door

Data-Analysis / AI / back-end / Algorithm / DeepLearning / etc