summerlight: 2009

2009년 11월 11일 수요일

volatile과 메모리 배리어

이전 글에서 volatile 키워드에 대해 간단하게 언급했는데, 핵심은 간단하다. volatile 속성을 가진 변수는 프로그램 밖의 다른 문맥들에 의해서도 비동기적으로 접근될 수 있다. 따라서 특정 쓰레드가 해당 변수에 하는 작업들은 다른 모든 문맥들 역시 볼 수 있어야 한다는 것이다. 하드웨어를 직접 제어하기 위해 Memory-mapped I/O를 하는 경우가 가장 대표적인 예이다.[footnote]사실 Memory-mapped I/O 때문에 volatile 키워드가 생긴 것이라고 봐도 과언이 아니다.[/footnote] 고로, 프로그램 문맥 상에서는 레지스터만을 이용해서 똑같은 일을 할 수 있는 경우라 해도 가시성의 확보를 위해 컴파일러는 해당 작업을 메모리에도 저장하도록 코드를 만든다.

volatile 속성을 가진 변수는 그 정의대로 동작하기 위해 컴파일러 최적화 기법 중 하나인 명령어 재배치(instruction reordering)의 대상에서 제외된다. 명령어 재배치란 빠른 연산을 위해 일부 연산의 순서를 바꾸어 파이프라인을 최대한 활용하는 최적화 기법인데, 프로그램 밖의 다른 문맥들이 접근할 때 연산의 순서가 뒤바뀐 상태라면 큰 문제가 될 수 있으므로 이러한 조치를 취하는 것이다. 명령어 재배치로 인해 프로그램이 오동작할 수 있는 유명한 예로는 double-checked locking pattern이 있다.

[code cpp]Singleton* getInstance() { if (instance == NULL) { lock.lock(); if (instance == NULL) { instance = new Singleton; } lock.unlock(); } return instance; }[/code]

DCLP는 프로그램 전체에서 한 번만 이루어지는 생성자 호출을 위해 객체가 생성이 된 이후에도 매 번 불필요하게 락을 얻는 오버헤드를 줄이려는 의도에서 나온 패턴이다. 이는 우선 instance가 비어 있는가부터 체크한 뒤 락을 얻어 객체가 생성되는 순간에만 락을 얻는다. 이를 제시된 코드의 흐름대로만 보면 아무런 문제가 없다. 그러나 여기에서 명령어가 재배치되기 시작하는 순간 문제가 꼬여버리게 된다. 6번째 줄을 더 잘게 쪼개어 본다면

메모리를 할당한 뒤
생성자의 논리에 따라 할당된 메모리를 초기화하고
해당 메모리 주소를 instance에 대입한다.

이런 순서가 될 것이다. 그런데 2번과 3번 사이에는 의존성이 없으므로 이 둘을 서로 뒤집어도 단일 프로그램 문맥 상으로는 아무런 문제가 없다. 컴파일러에 따라서는 이 둘의 순서를 뒤집는게 성능 상 더 낫다고 판단, 명령어 재배치를 하자는 결론을 내릴 수도 있다. 이렇게 되면 멀티 쓰레드 환경에서는 아래와 같은 비극이 발생할 가능성도 있다.

쓰레드 A가 진입하여 메모리를 할당 받고 이를 instance에 대입한다.
그 뒤 생성자를 통해 메모리를 초기화하기 시작한다.
그런데 쓰레드 B가 들어와 2번째 줄을 검사한다. 이 때 instance는 NULL이 아니다.
초기화가 완료되지 않은 객체가 쓰레드 B에 의해 사용된다.

이를 막으려면 명령어가 재배치되지 않도록 해야 한다. 이를 위해 instance에 volatile 속성을 넣으면 컴파일러에 의한 재배치는 막을 수 있을 것 같다. 그러면 이걸로 모든게 완벽하게 해결된 것일까? 안타깝게도 그런 것 같지는 않다. 명령어를 재배치하는 것은 컴파일러만이 아니라 CPU 레벨에서도 이루어지기 때문이다. 현대 CPU 중 상당수는 파이프라인 및 명령어 단위 병렬성 등을 최대한으로 활용하기 위해 명령어 간 의존성을 동적으로 분석, 수행 순서를 임의로 바꾸는 비순차 실행(Out of order execution) 기법을 적극 활용한다. 이는 컴파일과는 무관하게 런타임에 이루어지는 것으로, 단순히 생성되는 코드의 순서와 메모리 접근 여부에만 영향을 줄 수 있는 volatile 키워드로는 해결할 수 없는 문제이다.

사실 따지고 보면 컴파일러에 의한 것이건 CPU에 의한 것이건 비순차적 실행이 문제가 될 수 있는 경우는 어렵지 않게 상상해 볼 수 있다. 이를테면 아래와 같은 코드를 생각해보자.

[code cpp]lock.lock(); a++; lock.unlock(); [/code]

위는 동기화 객체를 사용하는 전형적인 예이다. 그런데 만에 하나라도 비순차 실행에 의해 1번째 줄과 2번째 줄의 코드 수행 순서가 뒤바뀐다고 가정해보자.[footnote]물론 제대로 된 동기화 객체라면 이럴 일은 절대 없다.[/footnote] 우리가 이 코드를 믿고 쓸 수 있을까? 메모리 접근 순서가 제대로 보장되지 않는다면 이런 간단한 코드조차 사용할 수 없게 된다.

크리티컬 섹션과 같은 동기화 객체에서 중요한 것은 동기화 객체에 의해 보호되는 코드 혹은 객체는 무슨 일이 있어도 동시에 한 쓰레드만이 사용할 수 있어야 한다는 것이다. 이러한 목적을 달성하려면 동기화 객체 사용 이전과 이후를 기준으로 메모리 읽기/쓰기가 구분되어야 한다. 이를 위해 프로세서 내부의 메모리 읽기/쓰기의 순서를 코드에 명시된 순서대로 하도록 제약하는 메모리 배리어(Memory barrier)라는 개념이 도입된다. 메모리 배리어의 종류에도 몇 가지가 있으나, 위와 같은 목적으로는 특정 시점을 기준으로 이전의 모든 읽기/쓰기를 완료한 뒤 이후의 읽기/쓰기를 재개하는 풀 메모리 배리어가 사용된다.

MSDN에 나온 바에 따르면 Win32 API에서는 각종 동기화 객체와 연관된 함수, 원자적인 연산인 Interlocked 계열 함수, 쓰레드를 블럭시키는 함수에서 메모리 배리어가 사용되며, POSIX쪽의 메모리 배리어에 대해서는 알아보진 않았지만 아마 상식적으로 볼 때 비슷할 것이다. 거기에 C++0x에서는 메모리 배리어가 강제되는 원자적인 연산 관련 함수들이 추가된다. VS2005 이후의 VC++에서는 volatile 키워드에 메모리 배리어를 추가했다지만,[footnote]http://msdn.microsoft.com/en-us/library/ms686355(VS.85).aspx[/footnote] 표준 구현이 아니니 volatile을 동기화 목적으로는 사용하지 않는게 좋을 것 같다.

멀티 쓰레드 프로그래밍이 어려운 까닭은 다른게 아니라 이런 로우 레벨의 개념들이 제대로 추상화가 되지 않은 상황이라 이들을 모르고 사용하면 쉽게 잡아내기 어려운 버그가 속출할 수도 있다는 것이다. 게다가 이를 부정확하게 알고서 동기화에 volatile을 함부로 쓴다거나 하는 경우 퍼포먼스가 낮아지는 것은 둘째치고 잡아낼 수 없는 버그가 속출할 가능성이 무척 높다. 자기가 잘 모르는 내용은 아예 쓰지 말도록 하자. 지금 이 말 쓰면서 스스로가 찔리긴 하지만 ;

- 결론

volatile considered harmful - 동기화에는 명시적으로 동기화 객체나 atomic operation만 쓰자.
컴파일러와 프로세서에 의한 명령어 재배치는 엄연히 다른 개념이니 구분하자.

2009년 11월 7일 토요일

C/C++의 몇 가지 키워드들

C++에서는 의외로 사람들이 잘 모르는 키워드가 많다. 이를테면 auto나 register 같이 존재 의미부터가 희미한 키워드부터[footnote]이 중 auto는 C++의 다음 표준인 C++0x에서 다른 용도로 사용되는 것으로 결정되었다. 참고로 x는 16진수 A임이 유력하다.[/footnote] mutable 같이 잘만 쓰면 유용할 수도 있는 키워드, volatile 같이 알려지긴 했지만 사람들이 잘못 이해하고 있는 경우가 많은 키워드, export 같이 컴파일러들에게 외면 당한 키워드 등등 알아보면 C++의 세계는 ~~크고 아름답다~~무궁무진하다. 그래서 세상에서 제일 익히기 어려운 프로그래밍 언어 타이틀을 땄다.

C/C++에서는 변수를 선언할 때 보통 자료형 이름 앞에 해당 변수의 유효 기간과 가시 영역에 영향을 주는 storage class specifier와 변수의 상수성, 일시성을 지정하는 cv-qualifier, 이 두 분류의 속성들이 붙을 수 있다. 그 외에도 class, struct, enum 등의 키워드를 이용, 즉석에서 자료형을 정의하고 사용하는 것도 가능하지만 자료형 선언과 변수 선언은 서로 분리시키는 것이 보통이므로 변수가 가질 수 있는 속성은 실질적으로 위 두 가지가 전부라고 볼 수 있다.

현재 C/C++ storage class specifier에는 auto, register, static, extern 네 종류가 있고, 멤버 변수에 한해서 mutable이 있다. 대부분의 프로그래머들은 static과 extern 키워드가 무슨 역할을 하는지 잘 알고 있으나 auto와 register는 사실상 사장된 키워드들이라 모르는 경우가 많다.

우선 auto 키워드는 해당 변수의 가시 영역을 변수가 초기화되는 지점의 scope로 한정시키는 역할을 한다. 즉, 지역 변수를 선언하는데 사용되는 키워드이다. 그러나 C++ 컴파일러는 storage class specifier가 지정되지 않은 모든 변수에는 암시적으로 auto 키워드를 붙여 지역 변수로 분류하기 때문에 이를 명시적으로 사용할 이유는 전혀 없다. 그렇기 때문에 C++0x에서는 가능한 경우에 한해 컴파일러가 타입을 자동으로 유추하는데에 사용하는 키워드로 그 목적이 바뀌었다.

register 키워드는 해당 변수가 굳이 메모리에 기록될 필요가 없을 때 속도 향상을 위해 가급적 레지스터에만 쓰도록 권유하는 키워드이다. 그러나 대부분의 컴파일러들은 충분히 똑똑하기 때문에 이러한 키워드를 쓰지 않아도 레지스터를 최대한 활용하도록 알아서 최적화를 해준다. 그런 이유로 register는 사실상 거의 쓰이지 않는 키워드이고, 상당수의 컴파일러에서는 이 키워드 자체를 그냥 무시한다.

static 키워드는 익히 알려진 대로 정적 변수를 선언하는데 쓰이나 예외적인 용법이 있다. 전역 변수에 static을 붙일 경우 해당 변수는 속한 번역 단위[footnote]번역 단위란 #include, #ifdef 등 전처리 과정이 끝난 cpp 파일 하나를 의미한다.[/footnote] 밖으로 변수가 노출되지 않도록 보장한다. 허나 C++의 익명 네임스페이스 역시 똑같은 기능을 제공하므로 C++을 사용한다면 이를 굳이 사용할 필요는 없을 것이다.

mutable 키워드는 상수 객체에서도 변경할 수 있는 멤버 변수를 지정하는데 사용되는 키워드이다. 이 속성이 지정된 변수는 해당 객체가 상수 객체이거나 상수 멤버 함수에서도 수정이 가능해진다. 이 키워드는 대개 객체의 실제 상태와는 직접적인 연관이 없는 변수에 사용한다. (그다지 좋은 예는 아니라 생각하지만) 이를테면 그래프 객체를 만든다 할 때 현재 객체가 가리키고 있는 노드를 mutable 속성을 지닌 내부 변수로 지정한면 iterator가 따로 없더라도 상수 멤버 함수들을 통해 상수 그래프 객체의 순회를 쉽게 구현할 수 있게 된다.

cv-qualifier에는 const와 volatile이 있는데, const는 익히 알려진대로 변수에 상수성을 추가하는 키워드이다. 이는 아주 널리 쓰이고 있으므로 별다른 추가적인 설명은 필요 없을 것이다. 그러나 volatile은 많은 사람들이 그 기능에 대해 오해를 하고 있다.

큰 오해 중 하나가 "volatile은 해당 객체의 최적화를 막는 키워드"라는 것이다. 결과적으로 본다면 맞는 말이지만, 이는 키워드의 본래 목적을 왜곡할 수 있다. 기본적으로 volatile은 프로그램 문맥 외의 요인으로 인해 해당 객체가 비동기적으로 변경될 가능성이 있음을 컴파일러에게 알려주는 키워드이다. 따라서 컴파일러는 이를 참조하여 해당 객체에 대한 접근을 할 때 매 번 레지스터가 아니라 메모리에서 읽고 쓰도록 바이너리를 작성하며, 또한 병렬성 극대화를 위해 명령들의 수행 순서를 바꾼다거나 하는 공격적인 최적화를 하지 않는다.[footnote]물론 이는 하드웨어 레벨에서 이루어지는 비순차 실행까지 막지는 못한다.[/footnote] 그러나 프로그램의 흐름을 바꾸지 않는 최적화까지 막는 것은 아니다. 이를테면

[code cpp]volatile int a = 1; a = a * 4; // Equivalent to a = a << 2;[/code]

이러한 코드가 있을 때 곱하기보다는 쉬프트 연산이 훨씬 저렴하므로 가능한 경우 곱하기를 쉬프트 연산으로 최적화하는데, 이렇게 프로그램의 흐름을 바꾸지 않는 정도에 한해서는 최적화가 이루어질 수도 있다. 물론 이는 컴파일러 의존적이므로 반드시 이렇다고 단언할 수는 없다.

또 한 가지의 오해 중 하나는 "멀티 쓰레드 프로그래밍에서 동기화 용도로 사용될 수 있다는 것"이다. 물론 바쁜 대기(busy-waiting) 등에서 CPU 레지스터와 실제 메모리 사이에서 생긴 괴리로 인한 문제 정도라면 volatile을 사용하여 해결할 수도 있으나 이 역시 CPU의 명령어 비순차 실행으로 인한 오류 가능성을 고려해보면 좋은 선택은 아니다. 게다가 data race 등의 문제를 volatile로 해결할 수 있는 방법은 없으며, 이는 atomic operation이나 동기화 객체를 사용하여 해결하는 수 밖에 없다. 예외는 있으나[footnote]Java나 C#, 혹은 VC++과 같이 volatile 키워드를 사용하면 메모리 배리어가 보장되는 메모리 모델에서는 부분적으로 사용 가능하다. 그런데 VC++은 메모리 배리어가 보장되는게 맞는지 좀 모호하다.[/footnote] 대부분의 경우 멀티 쓰레드 프로그래밍과 volatile은 아무 상관 없다고 생각하는 것이 속 편하다.

그 외에 캐시를 사용하지 않게 만든다거나 하는 등의 오해도 있지만, 이는 컴퓨터 구조에 대한 기본적인 지식만 있어도 풀릴 오해이다. 캐시를 사용하고 말고는 프로그램 레벨에서 결정되는 것이 아니라 하드웨어 레벨에서 결정되는 문제이며, 응용 프로그램 수준에서 이를 바꾸려면 특별한 인스트럭션을 써야 하지만 이는 volatile 키워드의 목적을 달성하는데 있어서는 아무런 의미도 없는 일이기 때문이다.

export 키워드는 템플릿을 사용했을 때 클래스 선언과 구현을 분리할 수 있도록 도와주는 키워드이다. 이 키워드를 쓴 템플릿 함수는 다른 번역 단위들에 노출이 되어 다른 번역 단위에서도 사용할 수 있게 된다... 는 것이 당시 표준에 export 키워드를 넣은 목적이었다.

그러나 안타깝게도 이는 현재 C++의 컴파일 방식에 정면으로 배치되기 때문에 컴파일러 입장에서는 구현하기가 무척 어렵다. C++은 각각의 번역 단위를 따로 목적 코드로 컴파일한 뒤 목적 코드끼리 서로 링크하여 최종적인 실행 파일을 생성해낸다. 그런데 템플릿 함수나 클래스는 구체화를 하기 전까지는 목적 코드를 생성할 수 없고, 구체화는 링크 단계가 아니라 컴파일 초기 단계에서 이루어진다. 다시 말해 링크 단계가 아니라 컴파일 단계에서 모든 번역 단위에게 템플릿의 정의를 알려야 하는데 이는 무척 비효율적일 뿐만 아니라 기존 컴파일러의 구조와도 정면으로 배치되기 때문에 메이저 컴파일러들은 전부 export의 구현을 포기했다. 대부분의 컴파일러가 지원하지 않는 기능이기에 사실상 용도 폐기된 셈이다.

이외에도 C++에는 다양한 키워드가 있는데, 이 정도가 사람들이 잘 모르거나 잘못 알고 있는 키워드가 아닌가 싶다. 나 역시 얼마 전까지는 이 중 상당수를 잘못 알고 있었다. 이러한 키워드가 많다는 것은 C++이 무척 어려운 언어라는 것을 반증하는 것이 아닌가 싶은데, 이도 모자라 내년에는 C++ 확장팩 C++0x가 발매될 예정이라고 한다. 과연 따라갈 수 있을까?

2009년 11월 1일 일요일

Local search

내용 보기

1. A*의 한계

앞에서 언급한 A* 알고리즘은 68년에 나왔지만 optimality와 completeness를 모두 만족하는 특성과 더불어 휴리스틱 함수를 잘 정하는 경우 무척 빠른 속도로 답을 구할 수 있다는 특성으로 인해 아직까지도 널리 쓰이는 알고리즘이다. 그러나 이 알고리즘 역시 시간 복잡도가 지수적으로 증가하는 모양새를 하고 있기 때문에 문제의 크기가 커질수록 문제를 푸는데 드는 시간은 기하급수적으로 늘어난다.

이를테면 스타크래프트에서 A*를 이용해 길을 찾는다고 해보자. 제일 작은 크기의 맵인 64x64만 하더라도 기본 단위의 타일 숫자만 4096개이며, 실제 길 찾기에 사용되는 더 정교한 path map으로 치자면 훨씬 더 커진다. 맵 끝에서 맵 끝으로 마린 한 부대가 이동한다 해보자. 그냥 아무 생각 없이 마린 전부에게 A* 알고리즘을 그대로 적용해서 길을 찾으려 한다면, 스타크래프트는 아마 실시간 RTS 딱지를 붙이고 나오기는 어려웠을 것이다. (여담이지만, 스타크래프트 등의 RTS에서는 길찾기를 위해 A* 알고리즘을 사용하되, 효율성을 위해 타일의 크기를 몇 단계로 나누거나 최대 탐색 깊이를 제한하는 등의 방법을 이용하여 길을 찾는 것으로 알고 있다)

물론 이는 휴리스틱 함수를 잘 정하면 상당 부분 해결될 수 있는 문제이다. 하지만 좋은 휴리스틱 함수를 정하는 것은 무척이나 어려운 일이다. 길 찾기는 직관적으로 유클리드 거리를 휴리스틱 함수로 사용할 수 있기 때문에 쉬운 편이나 STRIPS로 정의된 행동과 조건, 목표, 그에 따른 행동 순서를 정하는 계획(Planning) 문제와 같이 직관적으로 휴리스틱 함수를 정하기 어려운 문제가 훨씬 더 많다. 즉, 쉽게 개선할 수 있는 문제가 아니라는 것이다.

이러한 한계는 가능한 모든 경우의 수를 전부 탐색하는 A* 알고리즘의 특성에서 온다. 모든 경우의 수를 탐색하는 방법에 기반해서는 문제가 커질 때 탐색해야 하는 상태의 수가 기하급수적으로 늘어나는 것을 피할 수 없다는 의미이다. 하지만 이를 다르게 본다면 최적 해답을 포기하고 가능한 모든 경우를 전부 확인하지 않는다면 훨씬 빠른 탐색이 가능하다는 의미이기도 하다. 이 아이디어에 따라 모든 경우를 전부 탐색하지 않고 주변 노드만을 탐색하면서 해답을 찾아 나가는 방법을 Local search라 하며 (이 역시 Informed search의 일부이다), 이러한 접근법을 사용한 방법으로는 Hill climbing, Simulated annealing, Genetic algorithm 등이 있다.

2. Local search

우선 Local search를 이해하기 위해서 현 상태 x를 평가하는데 사용할 함수를 하나 정의하고 이를 목적 함수(Objective function) f(x)라 두자. 이를테면 길 찾기 알고리즘이라면 목표 지점까지 가는 경로 x의 길이가 될 수 있고, n-queen 문제라면 서로를 바로 공격할 수 있는 여왕의 갯수가 될 수 있다. TSP 문제에서는 경로의 길이 합이 될 것이다. f(x)의 정의역은 가능한 상태 공간(State space) 전체가 될 것이며, 이에 대응하는 f(x)의 공역은 여러 모양을 취할 수 있으나, 대개 대소 관계가 명확한 정수 혹은 실수 꼴일 것이다.

문제에 따라 천차 만별일 것이나, 만일 f(x)의 모양을 시각화하면 대부분의 문제에 있어서 특정 상태(state) x와 y가 서로 이웃하고 있는 경우 f(x)와 f(y)의 차이 역시 비교적 작을 것이므로 그 모양에 있어서 어느 정도 미분 가능한 함수와 비슷한 꼴을 가지는, 부드러운 형태의 그래프가 나올 것이다. f(x)의 이러한 특성을 생각해보면 임의의 한 상태를 택한 뒤 f(x')가 커지는 방향으로 이웃 상태 x'를 택해 나간다면 f(x)의 최대값은 몰라도 적어도 극대값은 구할 수 있지 않을까 하는 것이 Local search의 기본 아이디어이다. 이렇게 현재의 답을 개선해나간다는 특성 상 이는 최적화 문제를 푸는 알고리즘으로 분류된다.

윗 문단에서 두 상태가 이웃한다는 이야기를 꺼냈는데, 이 역시 Local search에서 중요한 개념 중 하나이다. 서로 이웃한다는 것은 문제에 따라 달라질 수 있는 개념이기 때문에 이를 일반화하여 정의하기는 어려우나, 두 상태가 가진 특성 대부분이 유사한 경우를 보통 서로 이웃한다고 본다. 이웃의 개념을 잘 정의하느냐에 따라 문제의 구조가 완전히 달라질 수 있기 때문에 이 역시 문제를 효율적으로 푸는데 있어 중요한 개념이다.

이러한 추상적인 설명만 가지고는 개념을 이해하기 어려울 수도 있으니 예를 한가지 들어보자. 서울, 대전, 광주, 대구, 부산, 인천의 TSP 문제에서 임의의 상태는 모든 도시를 연결하는 경로, 즉 가능한 해답 중 하나이다. 이는 (서울 - 대전 - 광주 - 대구 - 부산 - 인천 - 서울)이 될 수도 있고, (대전 - 대구 - 인천 - 부산 - 서울 - 광주 - 대전)이 될 수도 있다. 이웃을 정의하는 데에는 다양한 방법이 있을 수 있으나 도시 순서에서 두 도시를 서로 바꿔치는게 가장 직관적이다. 이를테면 (서울 - 대전 - 광주 - 대구 - 부산 - 인천 - 서울)의 이웃 중 하나로는 대전과 부산의 위치를 바꾼 (서울 - 부산 - 광주 - 대구 - 대전 - 인천 - 서울)이 있는 것이다.

3. Hill-climbing search

Local search에서 가장 간단한 알고리즘은 Hill-climbing search인데, 이 알고리즘의 동작은 무척 간단하다. 우선 목적 함수와 이웃 구조가 모두 정의된 문제가 있다고 하자. 이 때 임의의 상태 하나를 선택한다. 그 뒤 그 상태의 이웃들을 탐색한 뒤 그 중 목적 함수의 값이 가장 큰, 다시 말해 평가가 좋은 상태를 택한다. 만약 이 상태가 현 상태보다 좋다고 판단되는 상태라면 해당 상태로 이동하고, 아니라면 현 상태를 해답으로 반환하고 알고리즘을 종료시킨다.

오로지 현재 상태와 이웃 상태만을 고려하여 그 때 그 때 최선의 선택을 취하는 특성으로 인해 greedy local search로 분류되며, Hill-climbing이라는 이름 역시 한치 앞도 안 보이는, 안개가 낀 산을 타고 올라가는 듯한 특성으로 인해 붙여진 이름이다. 임의의 상태 중 하나를 골라 이를 개선시켜 나가는 특성으로 인해 해답 자체를 구하는 것이 목적인 경우보다는 보통 해답 자체를 구하기는 아주 쉬우나 어느 정도 괜찮은 해답을 구해야 할 필요가 있는 경우에 자주 사용된다.

위에서 안개가 낀 산을 탄다는 표현을 했는데, 한 치 앞도 안 보이는 이런 상황에서는 산 봉우리에 올라섰다고 해도 주변 지리를 모르면 여기가 제일 높은 봉우리인지 아닌지 알 방도가 없다. 재수가 없으면 산 입구에 위치한 바위 꼭대기에 올라선 것일 수도 있는 것이다. 제일 높은 봉우리가 최대값(global maximum), 바위 꼭대기가 극대값(local maximum)이라고 해보자. 이 예시는 탐색이 끝나더라도 찾은 해답의 목적 함수 값이 최대값인지 극대값인지를 구분하지 않고 그냥 반환해버리는 이 알고리즘의 특성과 정확하게 일치한다. 다시 말해 이 알고리즘은 답의 optimality를 보장하지 못한다.

그렇다면 이렇게 찾아낸 해답의 품질은 어떨까? 문제에 따라 상당히 다르지만, 알고리즘이 간단하니만큼 전반적으로 그다지 좋은 편은 되지 못한다. 물론 임의로 찾아낸 해답에 비한다면야 나은 것은 사실이지만, 최적 해답에 비한다면 그다지 좋지 못한 편이라는 것이다. 가장 큰 문제는 임의로 선택된 초기 상태에 따라 나오는 해답의 품질이 무척 들쑥날쑥하다는 것으로, Hill climbing 자체만으로는 신뢰성이 그다지 높지 않다.

그러나 알고리즘 자체가 간단하고 계산의 부하가 매우 적기 때문에 문제점을 해결하기 위한 변형이 몇 가지 나왔는데, 그 중 하나가 Stochastic hill climbing이다. 이는 매 번 최적의 이웃을 택하지 않고, 현 상태보다 나은 이웃 중 하나를 임의로 택하여 이동하는 방식을 통해 이동할 수 있는 상태의 범위를 넓힌다. 이 경우 단순한 Hill climbing보다는 비효율적이지만 결과 자체는 더 나은 경우가 있다. 그 외에 이웃 노드를 반복적으로 생성하다 그 중 현 상태보다 조금이라도 나은 상태가 나오면 바로 그 상태를 택하여 연산의 부하를 줄이는 First-choice hill climbing도 있다(보통 이웃 노드의 수가 수천 수만개가 나오는 경우 사용한다). 이러한 Hill climbing 알고리즘들을 여러 번 반복하여 그 중 가장 좋은 해답을 택하는 Random-restart hill climbing 알고리즘도 존재하는데, 대부분의 경우 높은 확률로 상당히 괜찮은 해답을 내놓는다고 한다.

4. Simulated annealing

위에서 알아본 Hill climbing 알고리즘의 단점은 극대값을 가진 상태에 빠질 가능성이 높다는 것이다. 이러한 문제는 근본적으로 올라가는 길만 있을 뿐, 내려가는 길이 전혀 없다는 점에 기인한다. 즉, 주어진 시작 상태에 따라 수렴하게 되는 해답이 오르막길을 통해서 갈 수 있는 극히 일부로 제한되고, 그로 인해 최대값을 찾을 수 있는 초기 상태 역시 극히 일부로 한정되기 때문이다. 이는 산에서 제일 높은 봉우리로 가는 길 위가 아닌 곳에서는 오르막길만 타선 대개 제일 높은 봉우리로 가지 못하는 것에 비유될 수 있다.

이를 해결하는 방법으로는 Random-restart hill climbing 알고리즘과 같이 여러 번 반복한 결과 중 최선을 택하는 방법도 있지만, 다른 한 편으로는 알고리즘을 수행하는 과정에서 내리막길의 선택을 제한적으로 허용하는 방법이 있다. Simulated annealing은 이러한 방식을 택한 알고리즘이다. 흥미로운 것은 이렇게 제약을 살짝 푸는 것 만으로도 수렴할 수 있는 영역의 범위에 최대값이 포함될 수 있다는 것인데, 이는 아래에서 이야기한다.

Simulated annealing의 뜻은 금속 공학에서의 풀림(annealing)을 따라한다는 의미이다. 안정적인(에너지 상태가 낮은) 금속 하나를 가열한다 치자. 이 떄 온도가 높아질수록 원자들간의 결합은 약해지고 운동 에너지는 커져 여러 곳을 떠돌게 되는데, 이 상태에서 온도를 천천히 낮추면 도리어 초기보다 더 낮은 에너지를 가지는 결정(Crystal)의 형태로 원자들이 결합할 확률이 커진다. 금속은 대개 일반적으로 안정적인 상태이기 때문에 더 안정적인 상태로 변환하기가 어려우나, 이를 가열하여 불안정한 상태로 만들면 전혀 다른 구조의 더 안정적인 상태로 이동할 확률이 생기게 되는 것이다. 이 과정은 초기의 극대값 상태(초기 결합 구조)를 빠져나와 오히려 더 안 좋은 상태(운동 에너지의 상승)로 빠지지만, 온도가 낮아질수록 최대값 상태(가장 낮은 에너지를 가지는 결합 구조)가 될 확률이 높아지는 것으로 해석할 수 있다.

풀림의 이러한 모습은 최적화 문제로 분류되는 local search에도 적용될 여지가 상당히 큰데, 이러한 아이디어를 local search에 적용하기 위해서는 몇 가지 대응되는 개념부터 정의해야 한다. Simulated annealing에서 내리막길, 즉 더 안 좋은 상태를 선택하는 것은 운동 에너지가 높은 것, 즉 온도가 높은 것에 대응시킬 수 있다. 그렇다면 온도라는 개념을 도입하고, 온도가 높을 때에는 안 좋은 상태를 선택하더라도 높은 확률로 이를 허용하고, 온도가 천천히 낮아짐에 따라 이 확률을 낮추면 되지 않을까?

설명에 비해 실제 알고리즘의 동작은 생각보다 간단하다. 우선 이웃한 상태 중 임의로 상태 하나를 택한다. 그 뒤 해당 상태가 현 상태보다 낫다면 바로 전이하고, 더 안 좋다면 '온도'와 안 좋아지는 정도에 의해 결정되는 확률에 따라 전이할지 말지의 여부를 결정한다. 이 것이 가장 기본적인 아이디어인데, 구체적인 식으로 표현한다면 온도가 T, 안 좋아지는 정도가 df(x)라 한다면 이 확률은 보통 e^(-df(x)/T)로 결정된다. 여기에서 온도는 시간에 따라 낮아지는 방향으로 변하게 되는데, 온도가 변하는 스케쥴(annealing schedule)은 알고리즘을 사용하는 사람이 결정할 파라메터이다.

그렇다면 이 알고리즘은 optimal할까? 흥미롭게도 온도가 충분히 느리게 낮아진다면 optimal하다는 것이 증명되어 있다. 그러나 이는 실제로 사용하기엔 너무 느린 속도라고 하며, 문제마다 '충분히 느리게 낮아지는 스케쥴을' 따로 구하는 일도 쉽지 않기 때문에 대개 문제에 직접 적용해보며 온도-시간 함수를 조절하여 사용한다. 이 때 온도가 빠르게 낮아지면 찾아낸 해답의 평균적인 퀄리티가 낮으며, 천천히 낮아지면 그 퀄리티가 올라가는 경향이 있다. 그래서 이 알고리즘은 대부분 반드시 최적해를 구해야 할 때보다는 어느 정도 수준이 보장되는 해답을 구해야 할 필요가 있을 때 많이 사용된다.

5. Genetic algorithm

Simulated annealing과 유사하게 유전자 알고리즘 역시 자연계의 현상을 관찰하여 이를 계산에 적용한 것이다. 자연계에서 각 종들이 진화하고 도태하는 과정을 살펴보면 각 세대마다 유전자가 섞여 자식이 나오는데, 그 중 생존에 유리한 유전자가 주로 남고 불리한 유전자가 도태되는 것을 알 수 있다. 또한 이 과정에서 돌연변이가 생기는 등의 변인이 개입되면서 진화가 이루어지는데, 인류의 경우 불과 수천 세대만에 현재의 위치까지 온 것을 보면 이는 대단히 효율적인 알고리즘이라고 볼 수 있을 것이다.

이 역시 실제 현상에 대응되는 개념들을 정의하고 이를 통해 알고리즘을 만든다. 우선 유전자, 혹은 각 개체는 상태(state)라고 볼 수 있으며, 실제 존재하는 개체들의 집합, 즉 개체군은 문제에서 임의로 생성한 상태들의 집합에 대응된다. 유전자가 섞이는 것은 두 상태의 파라미터들이 임의로 섞이는 것으로 볼 수 있다. 일반적으로 이 과정은 각 상태를 이진수로 표현되는 문자열로 인코딩한 뒤 문자열의 일부를 서로 치환하는 방법을 사용하지만, 다른 인코딩도 별 상관은 없다. 생존에 유리한 정도는 문제에 따라 다르게 정의되는 적합도 함수로 표현하며, 이는 목적 함수와도 관련이 깊다.

실제 알고리즘이 돌아가는 과정은 아래와 같다.

주어진 개체군에 대하여 적합도를 계산, 각 개체들이 선택될 확률을 계산한다.
해당 확률에 맞게 개체들을 다수 선택한다.
선택된 개체들의 유전자를 섞어 다음 세대의 개체군을 만든다.
다음 세대의 개체군에서 일부 개체의 유전자를 임의로 바꾼다. (돌연변이)
원하는 수준의 해답이 나올 때까지 이를 계속 반복한다.

위의 알고리즘에 따르면 적합도가 높을수록 다음 세대를 만드는 개체에 선택될 확률이 높아지므로 자신의 상태를 다음 세대로 넘길 확률이 높아질 것이다. 이런 식으로 적합도가 높은 개체들을 교배하여 만든 다음 세대의 개체 역시 적합도가 높을 것이라는 기대가 유전자 알고리즘의 근간을 이루고 있다. 이 때 돌연변이의 개념이 도입된 것은 극대값에 빠질 가능성을 낮추기 위함이다. 물론 유전자 알고리즘 자체가 어느 정도는 무작위성에 기대고 있기 때문에 Hill-climbing에 비해서는 극대값에 빠질 확률이 적긴 하지만, 이 역시 어느 정도 예측 가능한 무작위성이기에 이를 보정하기 위해 돌연변이의 개념이 도입된다. (실제로 돌연변이가 있는 경우와 없는 경우 최적의 해답을 찾는데 걸리는 시간은 크게 차이 난다고 알려져 있다.)

유전자 알고리즘을 적용할 때 중요한 것은 각 상태를 표현할 유전자적 표현법(Genetic representation)을 찾는 것이다. 위에서는 이진수로 표현되는 문자열이라 했는데, 굳이 이진수일 필요는 없으나 진화적인 관점에서 볼 때 어느 정도 납득이 가능한 변환이어야 한다. 이를테면 적합도가 높은 두 개체를 인코딩한 뒤 이 둘을 서로 치환했을 때 대개 적합도가 높은 개체가 나타난다면 이는 괜찮은 변환이다. 하지만 이러한 경향성이 없는 경우라면 사실상 무작위로 새로운 개체들을 만드는 것과 다를 바가 없어지는 것이다. 실제로 이러한 표현법을 찾는 것은 쉬운 일이 아니며, 유전자 알고리즘 뿐 아니라 진화적 알고리즘 대부분에서 중요하게 여겨진다고 한다.

알려진 바에 따르면 유전자 알고리즘은 Simulated annealing과 유사하게 최대값을 찾는데에는 그다지 효율적이지 못하나 해답을 알고 있는 경우 이를 최적화하여 어느 정도 괜찮은 수준의 해답을 찾는데에는 대단히 효율적이다. 그러나 모든 문제에 대해 무조건적으로 적용할 수 있는 만능의 알고리즘은 아니므로 가급적 local search에 맞도록 문제를 변형하여 풀도록 해야 한다.

2009년 10월 22일 목요일

Informed search

내용 보기

1. Informed search란?

Uninformed search는 넓은 범위의 문제에 곧바로 적용할 수 있는 방법이나, 문제의 크기가 조금만 커져도 체크해야 하는 상태와 해답에 대한 경우의 수가 기하급수적으로 늘어나는 치명적인 단점이 있다. 이를테면 이전에 알아보았던 청소기 문제에서 2x1 크기에서 가능한 상태의 수는 8개이지만 이 것이 2x2로 늘어나면 64, 3x3으로 늘어나면 4608, 4x4로 늘어나면 1048576개에, 가능한 경로의 수는 헤아리기 어려울 정도이다. 이는 해당 문제에 대한 정보가 전혀 없기 때문에 가능한 모든 경우의 수를 고려해야 하기 때문에 발생하는 일로, 이는 마치 캄캄한 미로에서 출구를 찾는 것에 비유할 수 있다.

하지만 만약 미로의 지도를 주고, 그 지도에서 출구까지의 경로를 찾는 문제라면 이는 훨씬 쉬운 문제가 된다. 미로에 대한 정보가 주어진 상태이기 때문이다. 이처럼 모든 문제에 있어서 아무런 정보가 주어지지 않는 것은 아니다. 이를테면 주어진 지도에 대해 최적 경로를 찾아야 한다고 가정해보자. 이 경우 아주 특수한 경우가 아닌 이상 서울에서 대전까지 가는데 부산을 경유하는 경로를 고려해야 할 까닭은 없다. 직관적으로 볼 때 이는 서울에서 대전까지 가는 거리에 비해 서울에서 부산까지 가는 직선 경로가 훨씬 길기 때문에 애초에 경로를 탐색할 때 초반부터 고려 대상에서 제외할 수 있는 것이다.

이 때 서울에서 부산까지의 직선 거리는 실제 거리와는 좀 차이가 있겠지만 실제 거리와 밀접한 상관 관계를 가지므로 적절하게 활용하면 최적 해답을 찾는데 큰 도움이 될 수 있다. 거리에 대한 예상 정보는 컴퓨터 스스로 논리적인 절차를 통해 알아낸 정보가 아니라 사람에 의해 따로 '발견된' 정보이므로 휴리스틱 함수라 한다. 휴리스틱 함수는 보통 특정 상태와 목표 상태 사이의 예상 비용을 계산하는 함수로, 엄밀하게 수학적, 논리적인 절차를 통해 구해낸 함수일 수도 있고 경험과 실험을 통해 얻어낸 함수일 수도 있다. (단, 뒤에서 언급하겠지만 후자의 경우는 최적의 해답을 찾지 못할 가능성도 있다.)

적절한 휴리스틱 함수가 주어진다면 (혹은 구한다면) 문제를 훨씬 빠르게 풀 수 있다. Uninformed search를 하면서 불필요하게 탐색 대상으로 오르는 상태들을 제거하기만 해도 지수적으로 증가하는 시간 복잡도에서 밑 값이 크게 줄어들기 때문이다.

2. Best-first search

앞에서도 말했지만 휴리스틱 함수는 실제 해답의 비용과 밀접한 연관 관계를 맺는 경우가 대부분이다. 따라서 이 함수를 이용하면 주어진 여러 개의 상태(state) 중 어느 경우가 가장 목표에 가까울지를 예측해 볼 수 있다. (아래부터 우리가 다루는 것은 결과적으로 트리 탐색, 혹은 그래프 탐색과 같으며, 이 때 각 상태는 선택한 행동에 따라 추가되는 노드로 볼 수 있으므로 편의상 노드라 하자.)

우리가 원하는 것은 목표에 최적의 경로로 접근하는, 즉 최적의 해답을 구하는 것이다. 여지까지 알아본 탐색 알고리즘들에서 다음 번에 확인할 노드를 고르는 기준은 LIFO(DFS), FIFO(BFS), 행동(Uniform-cost search)의 비용 세 가지 뿐 이었다. 만약 이 기준에 휴리스틱 함수를 활용한다면 어떨까? 직관적으로 볼 때, 목표 지점까지 최대한 가까운 경로로 이동하기 위해서는 현 상태에서 '목표에 가장 가까워 보이는 노드'로 전이하는 방법은 충분히 설득력이 있어 보인다. 이러한 아이디어에서 나온 것이 바로 Best-first search이다.

이 때 휴리스틱 함수 h(n)을 특정 노드 n에서 목표까지 경로의 예상 비용이라 두자. 위에서 언급한 길 찾기 문제라면 h(n)은 현재 위치와 목표 위치 사이의 유클리드 거리로 표현할 수 있을 것이다. 이 경우 기존의 Uninformed search에서 다음 번 노드를 고르는 기준은 h(n)이 최소값인 경우로, 기존 알고리즘에서 h(n)을 키 값으로 하여 다음 번 노드를 우선 순위 큐에 넣는 방법으로 쉽게 구현할 수 있다. 이는 현 상태의 정보만을 토대로 최적의 행동을 수행하기 때문에 Greedy 알고리즘으로 분류된다.

그러나 이 알고리즘에는 문제가 있다. 앞서 탐색 방법을 평가하는 기준으로 completeness, optimality를 들었는데, 둘 다 성립하지 않는다. 우선 문제에 따라서는 무한 루프에 빠질 우려가 있기 때문에 complete하지 않다. 예를 들어 특정 그래프가 있는데, 휴리스틱 함수에 따르면 노드 a는 목표 지점까지 10의 거리를 가지고 있고, b는 20의 거리, c는 30의 거리를 가지고 있으며 a - b - c - (그래프) - 목표와 같이 연결되어 있다고 치자. (⊃꼴을 상상하면 될 것이다.) 여기에 길찾기를 위해 Best-first search를 적용해보자. b가 시작 지점인 경우, a와 c 중 가장 작은 휴리스틱 값을 가진 a로 이동하며, a로 이동한 뒤에는 이동할 수 있는 노드가 b 밖에 존재하지 않으므로 다시 b로 이동할 것이다. 이런 식으로 무한 루프가 발생할 수 있기 때문에 답을 얻을 수 없는 경우가 존재한다. 또한 Greedy 알고리즘의 특성 상 최적 해답 역시 보장되지 않는다.

3. A* search

- 소개

위와 같은 이유로 Best-first search는 실제 활용되기 어렵다. 이 때 문제의 가장 큰 원인은 아이러니하게도 다음 번에 전이할 노드를 선택하는 기준이 휴리스틱 함수 뿐이라는 것이다. Greedy한 알고리즘의 특성 상 다음 번 노드를 택하는 기준으로 휴리스틱 함수 자체는 괜찮은 선택일지언정 전체 경로를 찾는데에는 부적합하다. 해답을 찾아내는 과정에 실제 거쳐온 경로의 거리가 전혀 반영되지 않기 때문이다.

그렇다면 다음번 노드를 택할 때 uniform-cost search와 같이 현재 노드까지 오는데 소모된 비용도 같이 반영하는 것은 어떨까? 이러한 아이디어에서 나온 방법이 바로 A* search이다. 우선 다음번 노드를 택할 때 사용할 평가 함수를 아래와 같이 정의하자.

g(n) : 노드 n까지 도착하는데 소요된 비용
h(n) : 노드 n에서 목표까지 가는데 소모될 것으로 예상되는 비용
f(n) : 노드 n을 거치는 경로에서 목표까지 가는데 소모될 것으로 예상되는 비용

이 때 f(n) = g(n) + h(n)이다. 직관적으로 봐도 이렇게 예상되는 전체 경로의 거리를 토대로 다음 노드를 택하는 것이 '목표에 가장 가까워 보이는 노드'를 택하는 것보다는 합리적이다. 또한 Best-first search를 이용하는 경우에 발생하는 무한 루프 역시 이 경우 실제 비용이 반영되므로 자연스레 도태되어 completeness 역시 보장된다. (단, 목표에 도달하기 위한 노드가 무한히 많은 경우는 예외이다.)

- 성질

그렇다면 optimality는 어떨까? A* 알고리즘은 이론적으로 최적의 해답을 도출할 수 있는데, 이 때 전제 조건이 있다. 휴리스틱 함수 h(n)이 용납될 수 있어야(admissible) 하는 것이다. 이 조건을 구체적으로 설명하자면, h*(n)이 n에서 목표까지의 실제 거리의 함수라면 h(n) ≤ h*(n)일 것이다. 이 경우 용납될 수 있는 휴리스틱 함수(admssible heuristic function)이라 하며, h(n)은 실제 비용을 과대평가(overestimate)하지 않는다 표현한다.

어째서 optimality가 보장되는 지에 대해 생각해보자. 목표까지 가는 경로 중에는 최적의 경로 G1과 최적이 아닌 노드 G2가 존재할 것이다. 이 때 최단 경로 위에 존재하는 경로 중 임의의 하나를 잡아 n이라 하자. 이 때 G2는 목표에 도달했으므로 h(G2) = 0, 따라서 f(G2) = g(G2)이며, G2는 최적 경로가 아니므로 g(G2) ≥ g(G1)이다. g(G1) = g(n) + h*(n) ≥ g(n) + h(n) = f(n) 이므로 f(G2) > f(G1) ≥ f(n)이며, 따라서 n을 선택하기 이전에는 G2가 다음 노드로 선택될 일은 없다. 고로 optimality가 보장되는 것이다.

휴리스틱 함수의 조건 중 하나로는 일관성(consistency)이 있다. 노드 n과 그 다음 노드 n'가 있다 할 때 h(n) ≤ d(n, n') + h(n')인 경우 일관성을 만족한다고 하는데, 이를 만족하는 경우 f(n') ≥ f(n)이 되어 f(n)은 값이 감소하지 않는 함수가 된다. 일관성은 용납 가능함에 비해 더 엄격한 조건으로, 이런 함수를 휴리스틱으로 사용하는 경우 f는 절대 감소하지 않으므로 동일한 경로를 두 번 이상 계산할 여지가 사라져 더욱 효율적인 계산이 가능하게 된다. (사실 대부분의 용납 가능한 함수는 일관성 역시 만족한다.) 또한 일관성은 그래프 탐색을 이용한 A* 알고리즘에서 더더욱 중요해지는데, 그래프 탐색을 이용하는 경우 일관성을 만족하는 경우 optimality를 만족하기 때문이다.

- 휴리스틱 함수

A* 알고리즘을 적용하는 데에 있어 중요한 것은 휴리스틱 함수를 구하는 것이다. 최적 해답을 구하기 위해서는 휴리스틱 함수는 용납 가능해야 한다. 그러나 단순히 용납 가능하기만 해서는 A* 알고리즘을 적용하는 의미가 없다. 이를테면 h(n) = 0 인 경우도 용납 가능한 휴리스틱 함수이지만, 실상을 알고 보면 Uniform-cost search와 똑같다. 즉, h(n)을 얼마나 잘 만드느냐에 따라 최적 해답을 구하기 위한 비용이 결정되는 것이다.

물론 가장 이상적인 경우라면 휴리스틱 함수와 실제 비용이 똑같은 경우겠지만, 이를 쉽게 구할 수 있었다면 Search 알고리즘을 적용할 까닭이 없었을 것이다. 휴리스틱 함수를 정하는 것은 생각보다 쉽지 않은 일로, A* 알고리즘 자체를 구현하는 것 보다 휴리스틱 함수를 정하는 것이 더 어려운 경우가 대부분이다.

이 때 휴리스틱 함수를 정하는 테크닉 중 하나로는 문제의 조건 중에서 일부를 삭제한 뒤 변경된 문제에서의 비용을 구하는 것이다. 설명이 좀 추상적인데, 길 찾기 문제를 예로 들자면 이는 문제의 조건에서 특정 경로를 따라간다는 조건을 삭제하고 직선 거리로 이동하는 것을 허용한 뒤 유클리드 거리를 계산하는 방식으로 비용을 구하였다.

어떤 경우에는 최적 해답을 구하는 것 보다는 해답 자체를 빠르게 구하는 게 더 중요할 수 있는데, 이 경우는 h(n)이 용납 가능하지 않아도 된다. 일반적으로 h(n)이 클수록 A*에서 답을 찾아내는 속도가 빨라지는 경향이 있는데, 이를 토대로 이미 사용하고 있는 h(n)의 값에 1보다 큰 상수를 곱하여 더 빠르게 답을 구하는 것도 가능하다. 이 때 h(n) + c ≤ h*(n), 최적 해답의 비용을 f(G1) 구한 해답의 비용을 f(G2)라 할 때 f(G2) ≤ f(G1) + c임이 보장된다.

2009년 10월 21일 수요일

Uninformed search

내용 보기

1. Search란 무엇인가?

무언가 문제를 풀 때, 보통 필요한 것은 초기 조건, 목표, 제약 조건, 그리고 해당 문제를 푸는 방법이다. 그리고 그 결과로 문제를 푸는 과정, 즉 해답을 얻을 수 있다. 이를 컴퓨터를 이용하여 문제를 푸는 것에 비교해보면 각각 초기 상태(initial state), 목표 상태(goal state), 사용 가능한 연산자(operator), 알고리즘 정도로 볼 수 있으며, 그 해답은 연산자의 순서로 표현될 수 있다. 이 때 연산자란 특정 상태에서 다른 상태로 전이(transition)하는 행동(action)을 표현하는 개념이라 해두자.

이렇게만 표현하면 너무 추상적이니 책에서도 나오는 조금 더 구체적인 예를 들어보자. 두 개의 방 A, B가 있고, 이 두 방은 깨끗한 상태와 더러운 상태로 나뉜다. 그리고 청소 로봇이 이 두 방을 청소하려고 한다면 초기 상태는 청소 로봇의 위치와 두 방의 상태가 될 것이고, 목표 상태는 두 방이 모두 깨끗해지는 것이다. 여기에서 로봇이 택할 수 있는 행동, 즉 연산자는 A로 이동, B로 이동, 청소 세 가지이며, 이 행동을 하면 그에 맞게 전체 상태가 변한다. 두 방을 깨끗하게 청소하기 위해 로봇은 어떤 행동을 할지를 결정해야 하는데, 그 행동 패턴을 결정하기 위해서는 적절한 알고리즘이 필요하다. 그리고 해당 알고리즘이 적합하다면 그 결과로 두 방을 깨끗히 하기 위한 행동 순서, 즉 해답을 구할 수 있을 것이다.

이 때, 답을 구하는 방식은 문제에 따라 여러 가지가 있을 수 있고, 특수한 경우는 매우 효율적으로 풀 수 있다. 그러나 특정한 제약 조건에 의존하지 않고 일반적인 모든 경우에 대해 적용할 수 있는 해법은 사실상 가능한 조합들을 하나 하나 테스트 해보는 것 뿐이다. 이는 문제를 푼다기보다는 해답을 찾아 나가는 것에 가깝기 때문에 이를 탐색(search)라 부르며, 가능한 모든 해답의 집합을 Search space라 한다.

이 때 search는 크게 두 가지로 나뉘는데, 그 중 하나는 Uninformed search다. 이는 문제에 대해 아무런 정보가 주어지지 않은 상태에서 무식하게 해답을 찾아나가는 방법으로, 일반적으로 brute-force algorithm으로 더 잘 알려져 있다. 나머지 하나는 Informed search이다. 이는 문제의 제약 조건에 의해 생기는 search space의 구조를 알고 있는 경우 그에 기반한 휴리스틱 함수를 만들어 검색에 적용, 좀 더 효율적으로 해답을 찾아 나가는 방법이다.

2. Uninformed search

Uninformed search는 말 그대로 아무런 정보가 없는 상태에서 해답을 찾는 것으로, 무식하게 해답을 찾아 나간다는 그 성격 상 지극히 비효율적이나 문제에 대한 정보가 없는 상황에서도 적용될 수 있는 방법이라는 점과 더불어 현대 프로세서 연산 능력의 눈부신 발달에 힘 입어 여전히 널리 쓰이고 있다.

선험적인 정보가 필요 없는 Uninformed search라고 해도 기본적으로 틀은 필요하다. 일단 문제를 공식화하자면 아래의 네 요소와 그에 따른 해답으로 정의될 수 있다.

초기 상태 - 문제에서 주어진 제일 처음의 상태
연산자 - 상태 간 전이를 표현하는 함수
목표 상태 평가 - 현재 상태가 목표 상태인가를 평가하는 함수
경로 비용 - 초기 상태에서 특정 상태에 다다르기까지 소모된 비용의 정의
해답 - 초기 상태에서 목표 상태에 다다르기 위한 연산자의 순서

이 외에도 문제에 따라 다양한 유형이 존재한다. 이는 비단 uninformed search에만 적용되는 것이 아니라 "지능"적으로 해결하려는 모든 문제에 적용 가능한 분류인데, 이 역시 한번 간단하게 알아보자. 예를 들자면 문제에 주어진 제약 조건이 모든 상태(state)를 관찰할 수 있는 경우일 수도 있고, 아닐 수도 있다. 혹은 연산자, 혹은 행동에 의한 결과가 예측 가능한 경우가 있으며 아닌 경우도 있을 수 있다. 이를 표로 표현하자면 아래와 같다.

observable?	fully-observable	partially-observable
deterministic?	deterministic	strategic	non-deterministic
episodic?	episodic	sequential
static?	static	semi-dynamic	dynamic
discrete?	discrete	continuous
single agent?	single-agent	multi-agent

observable은 현 상태(state)를 완전하게 관측할 수 있느냐 아니면 부분적으로만 알 수 있느냐의 여부이다. 이는 스타크래프트에서 컴퓨터가 맵핵을 쓰느냐 마느냐라고 생각하면 된다. deterministic은 연산자(operator) 혹은 행동(action)이 가져오는 결과가 완전히 결정론적인가 아닌가, 즉 완벽하게 예측 가능한가 아닌가의 여부이다. 이를테면 스타크래프트의 경우는 모든 데미지가 완전히 고정되어 있으므로 deterministic이라 볼 수 있지만, 워크래프트3는 각 공격의 데미지를 주사위를 굴려서 결정하므로 non-deterministic이다. 이 때 strategic은 행동 자체는 결정론적이지만 마찬가지로 최적의 결과를 내기 위해 움직이는 또 다른 개체의 행동은 예측할 수 없을 때이다.

episodic은 해당 문제가 여러 번 계속 된다 할 때 각각이 독립적인가, 혹은 이전 문제를 푸는 것이 현 문제에도 영향을 주는가의 여부이다. 이를테면 한판 한판이 분명하게 구분되어 있는 카드 게임에서 각 판을 승리하는 것이 목표라면 episodic이라 할 수 있지만, 여기에 판돈이 걸려 최대 이득을 얻는 것이 목표가 된다면 sequential이 된다고 볼 수 있다. static은 문제를 푸는 사이에 상태가 동적으로 변하느냐의 여부로, 실시간 게임인 경우라면 dynamic, 턴제 게임이라면 static이라고 볼 수 있다. discrete는 문제 자체가 이산적으로 명확하게 구분되는 행동과 입력, 변수들로 구분될 수 있는가의 여부이다. 이를테면 길을 찾으려 할 때 타일 간의 경계가 명확하게 구분되어 이동 방향과 거리에 대한 경우의 수가 유한하게 제한된 환경이라면 discrete라 볼 수 있으며, 360도 어느 방향을 어느 속도로라도 이동 가능한 경우라면 continuous한 문제이다. 그 외에 agent는 문제를 해결하려는 개체가 나 하나인가 혹은 여럿이 경쟁하는가의 여부이다.

이야기가 딴 길로 샜는데, 이렇게 문제를 정의하는 까닭은 풀고자 하는 실세계의 문제는 대개 지나치게 복잡하여 일반적으로 적용할만한 해법을 찾기 어렵기 때문이다. 따라서 어느 정도의 추상화를 통해 문제를 공식화하여 조금 더 풀기 쉬운 형태로 바꾸는 것이 그 목표라 할 수 있겠다. 이러한 추상화는 보통 실세계의 상태를 문제에서 정의된 형식의 상태(state)로 적절하게 맵핑시키고, 각 상태 간의 전이를 행동(action)으로 추상화하는 방식으로 이루어진다. 일단 uninformed search를 적용할 문제에 대해서는 문제가 discrete, fully-observable, deterministic하다 가정하자.

그런데 이를 조금 더 유심하게 관찰해보면 자료 구조에서 배운 그래프 문제와 유사성을 쉽게 발견할 수 있다. vertex는 상태(state), edge는 행동(action), edge cost는 행동에 따르는 비용, start vertex는 시작 상태, goal vertex는 목표 상태, start vertex에서 goal vertex까지의 최단 경로는 목표 상태를 이루기 위한 최적의 해답이라고 본다면 이는 명백하게 그래프 탐색 문제로 치환된다. 따라서 BFS, DFS 등 기본적인 그래프 탐색 알고리즘은 uninformed search 알고리즘이라고도 볼 수 있다.

3. Uninformed search 알고리즘의 종류 및 특징

Uninformed search 알고리즘의 종류를 알아보기 이전에 우선 이들을 평가할 요소부터 생각해보자. 탐색 알고리즘을 평가하기 위한 중요한 기준은 여러 가지가 있는데 이는 아래와 같다.

completeness : 답이 존재하는 경우 그 답을 항상 찾아낼 수 있는가?
optimality : 찾아낸 답이 최소의 비용을 가지는가, 다시 말해 최적 해답인가?
time complexity : 답을 찾아내는 알고리즘의 시간 복잡도
space complexity : 답을 찾아내는 알고리즘의 공간 복잡도

이 때 시간과 공간 복잡도는 각 상태에서 전이 가능한 상태의 최대 숫자(b), 그래프 상에서 최적 해답의 까지의 깊이(d), 전체 상태 공간(state space)의 최대 깊이(m)에 따라 달라진다.

가장 일반적인 그래프 탐색 알고리즘으로는 Breadth-first search와 Depth-first search가 있는데, 이 둘 역시 Uninformed search에서 활용될 수 있다. BFS의 경우는 현재 체크 중인 상태에서 전이 가능한 모든 상태를 FIFO queue에 넣은 뒤 queue에서 다음 상태를 꺼내어 체크하는 것을 반복하는 형태로 쉽게 구현할 수 있으며, DFS는 queue 대신 LIFO stack을 이용하면 된다.

이 때 위 네 가지 평가 요소를 따져보자. BFS를 사용한다 가정할 때 특정 상태에서 전이될 수 있는 다른 상태의 수가 유한하다면, 다시 말해 b가 유한하다면 이는 언젠간 반드시 답을 찾을 수 있을 것이다. 따라서 complete하지만 BFS를 통해 처음으로 찾아낸 해답이 optimal하다고는 볼 수 없다. 그래프의 깊이로 따지면 가장 얕은 해답을 찾아내지만 이 깊이가 해답의 비용에 정비례한다고 볼 수는 없기 때문이다. (단, 모든 행동의 비용이 동일한 경우는 정비례하므로 optimal이다.) 그 외에 한 단계 더 깊게 들어갈수록 다음에 체크하기 위해 컨테이너에 삽입하는 상태의 수가 지수적으로 증가하므로 time complexity나 space complexity는 O(b^(d+1))이다. 이러한 특성으로 인해 문제의 크기가 커질수록 메모리 사용량이 폭발적으로 증가하는 관계로 BFS는 실용적으로는 큰 의미를 가지지 못한다.

여기에서 해답의 optimality를 보증하기 위해 나온 방법이 Uniform-cost search이다. 이는 가장 적은 비용을 가지는 상태를 우선적으로 체크하는 방법으로, 컨테이너로 queue나 stack 대신 해당 경로의 행동 비용 합을 키로 가지는 우선 순위 큐, 즉 힙을 사용한다. 다만 행동에 들어가는 비용이 0인 경우는 해당 행동을 무한히 반복하는 것이 최적으로 간주되어 무한 루프가 발생할 여지가 있으므로 각각의 행동에는 최소한 ε만큼의 비용이 들어간다고 가정한다. 이 경우 BFS의 특성에 따라 complete하며, 또한 찾아낸 답 역시 optimal함이 보장된다. 이 때 C*를 최적 해답에서의 비용이라 할 때, time complexity와 space complexity는 O(b(C*/ε))이다.

반면 DFS는 깊이가 무한한 경우 - 이를테면 중간에 동일 상태가 반복된다거나 - 무한 반복에 빠질 가능성이 있기 때문에 반드시 답을 찾아낸다는 보장은 없다. 또한 깊이를 우선하여 탐색하는 특성상 optimal하지 않은 답을 해답으로 내놓을 가능성이 있다. 그 외에 그래프의 가장 깊은 부분까지 탐색을 하므로 time complexity는 O(b^m)이며, 이 때 각 상태마다 최대 b개의 상태를 stack에 추가하므로 space complexity는 O(bm)이다.

DFS의 문제는 무한 루프에 빠질 우려가 있다는 것인데, 이를 해결하는 방법으로는 탐색 깊이에 제한을 두는 방법이 있다. 이는 Depth-limited search라 불리며, l 이상의 깊이는 탐색하지 않는 것이다. 이는 현재 체크 중인 그래프의 깊이가 l인 경우 stack에 다음 상태를 추가하지 않는 것으로 쉽게 구현할 수 있다. 이 경우 깊이가 l 이하인 모든 상태를 전부 확인할 것이므로 해답의 깊이가 l 이하라면 complete하다. 하지만 여전히 깊이 우선이므로 optimal 하지는 않다. DFS에서 m이 l로 바뀐 것이므로 time complexity는 O(b^l), space complexity는 O(bl)이다.

DLS는 optimal한 답을 찾지 못한다는 문제를 가지고 있는데, 이는 l 값을 1부터 꾸준히 증가시키면서 DLS를 반복하여 해결할 수 있다. 이를 Iterative deepening search라 한다. DLS를 반복하는 것이므로 당연히 complete하며, 해답이 최초로 발견되는 순간의 l 값이 최소 깊이이므로 행동들의 비용이 동일하다 가정한다면 optimal한 해답을 얻을 수 있다. (만약 동일하지 않다면 DLS 대신 비용 합의 최대 값을 제한하는 Uniform-cost search를 적용하는 방법으로 optimal한 해답을 얻을 수 있을 것이다.) 이 때 time complexity를 계산하면 O(b^d)이며, space complexity는 O(bd)이다.

아래는 각 알고리즘들을 비교한 표이다.

	BFS	Uniform-cost	DFS	DLS	IDS
completeness	yes	yes	no	yes (l >= d)	yes
time complexity	O(b^(d+1))	O(b^(C*/ε))	O(b^m)	O(b^l)	O(b^d)
space complexity	O(b^(d+1))	O(b^(C*/ε))	O(bm)	O(bl)	O(bd)
optimality	yes (cost is equal)	yes	no	no	yes (cost is equal)

이러한 Uninformed search 알고리즘 전반에 있어서 문제가 되는 것은 탐색에서 반복되는 상태가 나타나는 것이다. DFS에서는 무한 루프의 위험이 존재하며, 기타 탐색 알고리즘들에서도 반복되는 상태를 계속해서 체크하는 것은 무의미한 중복으로 인한 오버헤드를 수반한다. 특히나 이렇게 complexity가 지수적인 형태로 나타날 때 밑 값의 크기가 매우 중요해지는데 무의미한 중복을 제거하는 것은 이 밑 값을 작게 만드므로 중복되는 상태가 계속 나타나는지 역시 검사하는 것이 좋다.

2009년 10월 20일 화요일

중간 고사.

이번 학기에 전공 중 하나로 인공지능을 듣고 있는데, 중간 고사가 코 앞으로 다가왔다.

개인적으로 인공지능이라는 단어에서 풍기는 "인간적으로 생각한다"는 뉘앙스 때문인지 편견을 가지고 있었는데, 그보다는 오히려 "이성적으로 행동한다"는 방향, 즉 문제를 수학적으로 정의하고 그걸 효율적으로 푸는 알고리즘을 가르치는 쪽으로 접근하더라. 역시 편견은 좋지 않다. 그런 것도 있고, 또 교수님의 수업 방향 때문인지는 모르겠으나 인공지능 과목에서 나는 냄새가 고급 알고리즘 과목 같달까, 그런 부분이 마음에 들어 수업은 그대로 나름 열심히 들었다.

고로 한번 훑어보기만 하면 되지 않을까, 그런 안이한 생각으로 다시 수업 자료를 보는데 신세계가 펼쳐지는 것이다. 난 이런 내용을 듣지 못한 것 같은데 수업 자료에는 있고, 그래서 곰곰히 생각해보면 '아 들었었... 나?'라며 애매하게 떠오르는 상황.

일단 준비는 해야 겠는데, 그냥 공부만 하는 것보다는 내 언어로 소화도 시킬 겸, 관련 내용을 글로 정리해보는 것이 더 좋을 것 같아 그간 다룬 내용 중 몇 가지 주요 이슈들을 다음 포스트들에 정리해보기로 했다.

블로그 시작

블로그 시작.

아마도 전공이 전공이니만큼 프로그래밍 관련 이야기들이 주가 되지 않을까 싶군요.