통신의 수학적 이론
소개글
통신
여기서 통신(소통)이라는 낱말은 한 마음이 다른 한 마음에 영향을 미치는 모든 절차들을 포함하는
매우 넓은 의미에서 사용될 것이다.
물론 이것은 문자 언설과 구술 언설을 포함할 뿐 아니라, 음악, 그림, 영화, 발레 그리고 사실상 인간의
모든 행동을 포함한다.
어떤 맥락에서는 통신에 대한 훨씬 더 넓은 규정, 즉 한 메커니즘(예컨대 비행기의 항로를 추적하고
그것의 개연적인 미래 위치들을 계산하는 자동 장치)이 다른 한 메커니즘(예컨대 이 비행기을 추적하는
유도 미사일)에 영향을 미치는 절차들을 포함할 규정을 사용하는 것이 바람직할 것이다.
이 메모의 언어는 흔히 특수하지만 여전히 매우 넓고 중요한, 언설의 통신 분야을 가리키는 듯 보일 것
이다.
그런데 사실상 언급되는 모든 것은 그 어떤 종류의 음악에도, 그리고 텔레비전 속의 정지 영상 또는
동영상에도 마찬가지로 잘 적용된다.
통신 문제의 세 가지 층위
통신이라는 넓은 주제와 관련된 문제들은 세 가지 층위에서 존재하는 듯 보인다.
그러므로 순차적으로 묻는 것이 합당한 듯 보인다.
층위 A. 통신 기호들이 얼마나 정밀하게 전송될 수 있는가? [기술적 문제(The technical problem)]
층위 B. 통신 기호들이 얼마나 정확하게 원하는 의미를 전달하는가? [의미론적 문제(The semantic
problem)]
층위 C: 수신된 의미가 얼마나 효과적으로 원하는 방식대로 행동에 영향을 미치는가? [유효성 문제
(The effectiveness problem)]
기술적 문제는 기호들의 집합(문자 언설), 또는 연속으로 변하는 신호의 집합(목소리 또는 음악의 전화
또는 라디오 전송), 또는 연속으로 변하는 이차원 패턴의 집합(텔레비전) 등을 송신자에서 수신자로
전달하는 것의 정밀도와 관련되어 있다.
수학적으로, 첫 번째 것은 이산적인 기호들의 유한 집합의 전송을 포함하고, 두 번째 것은 시간의 연속
함수 한 개의 전달을 포함하며, 그리고 세 번째 것은 시간의 연속 함수 여러 개의 전달 또는 시간과 두
개의 공간 좌표들의 연속 함수 한 개의 전달을 포함한다.
의미론적 문제는 송신자의 의도된 의미에 대해서 수신자의 의미 해석에 있어서의 동일성, 또는 만족할
만하게 가까운 근사와 관련되어 있다.
언설을 통한 비교적 단순한 통신 문제들만을 다룰 때에도 이것은 매우 깊고 복잡한 상황이다.
Y가 말하는 것을 X씨가 이해하지 못하는 것으로 추측될 때, Y씨가 X씨와 계속해서 말하는 것 외에는
아무것도 할 수 없다면, 어떤 유한한 시간 내에서도 이 상황을 완전히 명확히 하는 것은 이론적으로
가능하지 않다는 진술에 의해 본질적인 복잡성에 대한 일례가 예시된다.
Y씨가 "이제 제 말을 이해합니까?"라고 말하고 X씨가 "확실히 이해합니다"라고 말하더라도 이것이
반드시 이해가 이루어졌다는 것을 보증하는 것은 아니다.
X씨가 그 질문을 이해하지 못했었을 수도 있다. 이것이 터무니없게 들린다면, "Czy pan mnie rozumie?"
라는 질문과 "Hai wakkate imasu"라는 대답으로 다시 시도하자.
나는 이런 기본적인 어려움이 최소한 제한된 언설 통신 분야에서는 (a) 설명되고 있는 관념들에 대한
근사를 결코 넘지 못하는 것으로 추정되지만, (b) 그것들은 이전에 조작적 수단에 의해 합당하게 분명
해진 언어로 서술되기 때문에 이해할 수 있는 "설명들"에 의해 웬만한 크기로 축소된다(그러나 결코
완전히 제거되지는 않는다)고 생각한다.
예를 들면, 조작적으로 이해할 수 있는 그 어떤 언어에서도 "예"에 대한 기호를 만드는 데 오래 걸리지
않는다.
통신 일반에 관해 생각한다면 의미론적 문제는 다양한 파생 문제들을 낳는다.
예를 들면, 어떤 러시아인에 대한 미합중국 뉴스 영화 영상의 의미를 고려하자.
유효성 문제는 수신자에게 전달된 의미가 그에게 바랐던 행위로 이어지는 성공과 관련되어 있다.
언뜻 보기에 그것은 모든 통신의 목적이 수신자의 행위에 영향을 미치는 것이라고 의미하기에는 바람
직하게 않게 협소한 듯 보일 것이다.
그런데 행위에 대한 합당하게 넓은 규정을 취하면, 통신은 행위에 영향을 미치거나, 아니면 그 어떤
식별할 만한 개연적 효과도 전혀 낳지 못한다는 것이 분명하다.
미술의 경우에 유효성 문제는 미학적 고려를 포함한다.
문자 언설과 구술 언설의 경우에는 문체의 단순한 역학에서 선전 이론의 모든 심리학적 및 정서적
측면을 비롯하여 앞 문단에서 언급된 "성공"과 "바랐던"이라는 낱말들에 유용한 의미를 부여하는 데
필요한 가치 판단에 이르기까지 가지각색을 포괄하는 고려들이 포함된다.
유효성 문제는 의미론적 문제와 밀접하게 서로 관련되어 있으며, 꽤 모호한 방식으로 서로 겹친다.
그리고 사실상 상정된 문제들의 범주들은 모두 서로 겹친다.
논평
그것은 그렇다치고, 층위 A는 통신 체계에 대한 훌륭한 설계의 공학적 세부 사항들을 포함하기 떄문에
비교적 피상적인 것으로 생각하는 경향이 있을 것이다.
반면에 층위 B와 C는 통신의 일반적 문제의 철학적 내용을 전부는 아니지만 대부분 포함하는 듯 보인다.
벨 전화연구소의 클로드 섀넌(Claude Shannon)에 의해 주로 개발된 통신의 공학적 측면들에 대한 수학
적 이론은 확실히 무엇보다도 층위 A 문제, 즉 송신자에서 수신자로 전송되는 다양한 유형들의 신호
전달의 정밀도에 대한 기술적 문제에만 적용된다.
그런데 그 이론은 이전 문단이 정말로 부정확하다는 것을 입증하는 깊은 의미를 품고 있다고 나는 생각
한다.
새로운 이론의 의미 가운데 일부는 층위 B와 C는 층위 A에서 분석될 때 가능한 것으로 판명되는 신호
정확성을 사용할 수 있을 뿐이라는 사실에서 비롯된다.
그러므로 층위 A의 이론에서 발견되는 그 어떤 한계점도 층위 B와 C에 필연적으로 적용된다.
그런데 그 의미의 대부분은 층위 A에서의 분석이 소박하게 추측할 수 있는 것 이상으로 이 층위가
나머지 다른 층위들과 겹친다는 점을 드러낸다는 사실에서 비롯된다.
그러므로 층위 A의 이론은 최소한 상당한 정도로 층위 B와 C의 이론이기도 하다.
나는 이 메모의 이어지는 부분들이 바로 앞의 진술들을 예시하고 정당화할 것이라고 희망한다.
정보
Information
이 이론에서 정보라는 낱말은 그것의 통상적인 용법과 혼동하지 말아야 하는 특수한 의미로 사용된다.
특히 정보는 의미와 혼동하지 말아야 한다.
사실상, 현재의 관점에서 바라보면, 정보에 관해서는 많은 의미가 담겨 있는 메시지와 아무 의미도 없는
메시지가 완전히 동등할 수 있다.
"통신의 의미론적 측면들은 공학적 측면들과 무관하다"라고 말할 때 섀넌이 의미하는 것은 틀림없이
바로 이것이다.
그런데 이것이 공학적 측면들이 반드시 의미론적 측면들과 무관하다는 것을 의미하지는 않는다.
확실히, 통신 이론에서 정보라는 이 낱말은 여러분이 정작 말하는 것과 관련되어 있다기보다는 여러분이
말할 수 있는 것과 관련되어 있다.
즉, 정보는 어떤 메시지를 선택할 때의 선택의 자유에 대한 척도이다.
두 개의 대안적인 메시지 가운데 하나를 선택해야 하는 매우 기본적인 상황에 직면했을 때, 이 상황과
관련된 정보는 일이라고 임의적으로 말한다.
이 메시지 아니면 저 메시지가 단위 정보를 전달한다고 말하는 것은 오해를 낳을 소지가 있다(흔히 편리
하지만)는 점을 인식하자.
정보라는 개념은 개별 메시지들에 적용되는 것(의미라는 개념이 그렇듯이)이 아니라 오히려 전체 상황에
적용되는데, 단위 정보는 이 상황에서 메시지를 선택할 때, 표준량 또는 단위량으로 간주하는 것이 편리한,
선택의 자유의 총량이 있다는 것을 가리킨다.
그런 선택지 집합에서 하나를 선택해야 하는 두 메시지는 무엇이든 괜찮다.
하나는 킹 제임스 판본 성경의 텍스트일 수 있고, 나머지 하나는 "Yes"일 수 있다.
송신기는 "0"이 전자 메시지에 대한 신호이고 "1"이 후자 메시지에 대한 신호가 되도록, 또는 닫힌 회로
(전류 흐름)가 전자에 대한 신호이고 열린 회로(전류 흐르지 않음)가 후자에 대한 신호가 되도록 이 두
메시지를 코드화할 수 있을 것이다.
그러므로 단순한 계전기의 닫힌 상태와 열린 상태라는 두 위치가 두 메시지에 대응될 수 있을 것이다.
약간 더 명확히 하면, 가장 단순한 사례들에서 정보량(amount of information)은 가능한 선택지들의
수의 로그값으로 측정될 수 있다고 규정된다.
밑이 10인 상용 로그 또는 브릭스(Briggs) 로그보다 밑이 2인 로그를 사용하는 것이 편리하기 때문에
단 두 개의 선택지가 존재할 때 정보는 2의 밑이 2인 로그값에 비례한다.
그런데 이것은 1이고, 그래서 앞에서 이미 진술했듯이 두 선택지 상황은 단위 정보에 의해 특징지워진다.
이런 단위 정보는 "비트(bit)"라고 불리는데, 존 W. 터키(John W. Turkey)에 의해 최초로 제시된 이
낱말은 "binary digit(이진수)"의 축약어이다.
숫자들이 이진수 체계로 표현될 때에는 두 개의 진수, 즉 0과 1이 있을 뿐이다.
0에서 9까지 포함하는 10개의 진수가 밑으로서 10을 채용하는 십진수 체계에서 사용되는 것과 꼭 마찬
가지이다.
앞에서 지적했듯이, 0과 1은 무엇이든 어떤 두 개의 선택지를 상징적으로 나타내기 위해 취할 수 있다.
그래서 "비트"는 단위 정보를 갖는 두 선택지 상황과 자연스럽게 관련된다.
예컨대, 똑같이 자유롭게 선택할 수 있는 16개의 대안적인 메시지들을 이용할 수 있다면, 16 = 2^4이기
때문에 log_2 16 = 4이고, 그래서 이 상황은 4비트의 정보에 의해 특징지워진다고 말한다.
처음 접했을 때, 정보가 선택지들의 수의 로그값으로 규정된다는 것은 틀림없이 기묘한 듯 보일 것이다.
그런데 이론을 전개함에 따라 로그값 척도가 사실상 자연적 척도라는 것이 더욱 더 명백해진다.
당분간 이것에 대한 단 하나의 징후가 주어질 것이다.
두 위치가 각각 이른바 0과 1로 표시되는 하나의 단순한 온-오프 계전기는 두 개의 메시지 선택지만
존재하는 단위 정보 상황을 다룰 수 있다고 앞에서 언급되었다.
하나의 계전기가 단위 정보를 다룰 수 있다면, 예컨대 세 개의 계전기는 얼마나 많은 정보를 다룰 수
있는가?
세 개의 계전기는 세 단위의 정보를 다룰 수 있을 것이라고 말하고 싶은 것은 매우 합당한 듯 보인다.
그리고 사실상 이것이 정보에 대한 로그값 정의를 사용한다면 산정되는 방식이다.
세 개의 계전기는 2^3, 즉 8개의 선택지에 대응할 수 있기 때문이다.
이 선택지들은 상징적으로 000, 001, 011, 010, 100, 110, 101, 111으로 표현될 수 있을 것인데,
첫 번째 경우에는 세 개의 계전기가 모두 열려 있고, 마지막 경우에는 섹 개의 계전기가 모두 닫혀 있다.
그리고 2^3의 밑이 2인 로그값은 3이고, 그래서 바란 것과 꼭 마찬가지로 로그값 척도는 이 상황에 세
단위의 정보를 할당한다.
마찬가지로, 이용 가능한 시간을 두 배로 늘리면 가능한 메시지들의 수가 제곱이 되며, 로그값은 두 배가
되는데, 그러므로 로그값으로 측정될 때 정보는 두 배가 된다.
여태까지의 진술은 정보원이 몇 가지 명확한 메시지들―일단의 표준적인 생일 축하 전보문들 가운데
하나를 선택하는 경우처럼―사이에서만 자유롭게 선택하는 임의적으로 단순한 상황들과 관련되어 있다.
더 자연적이고 더 중요한 상황은 정보원이 기본 기호들의 어떤 집합에서 일련의 선택을 하고, 선택된
그 배열이 메시지를 구성하는 상황이다.
그러므로 순차적으로 낱말을 선택할 수 있으며, 개별적으로 선택된 이 낱말들이 더해져서 메시지를
구성하게 된다.
이 지점에서 여태까지 배경에 묻혀 있던 중요한 고찰이 전면에 나타나서 주목을 받게 된다.
즉, 메시지의 생성에 있어서 확률이 맡는 역할. 기호들이 순차적으로 선택될 때, 최소한 통신 체계의
관점에서 바라보면, 이런 선택들은 확률에 의해 관장되기 때문이다.
그리고 사실상 독립적인 것이 아니라, 과정의 그 어떤 단계에서도 선행하는 선택들에 의존하는 확률에
의해 관장된다.
그러므로, 영어 언설에 관심이 있다면, 그리고 선택된 마지막 기호가 "the"라면, 그 다음 낱말이 관사,
또는 준동사가 아닌 동사형일 확률은 매우 작다.
이런 확률론적 영향은 사실상 두 개 이상의 낱말에 미친다.
"in the event"라는 세 낱말 뒤에 이어지는 다음 낱말로서 "that"에 대한 확률은 꽤 높지만, 다음 낱말
로서 "elephant"에 대한 확률은 매우 낮다.
영어에 대해 어느 정도의 통제력을 행사하는 확률이 존재한다는 점이, 예를 들면, 영어 사전에 머리
글자 j 다음에 b, c, d, f, g, j, k, l, q, r, t, v, w, x, 또는 z가 이어지는 낱말은 전혀 포함되어 있지 않다는
사실을 생각하면 새삼 명백해진다.
그래서 머리 글자 j 다음에 이런 글자들 가운데 어느 글자가 이어질 확률은 사실상 0이다.
마찬가지로, "Constantinople fishing nasty pink" 같은 낱말들의 배열에 대한 확률은 낮다는 점에 누구나
동의할 것이다.
그런데 확률은 낮지만 0은 아니다.
한 문장이 "Constantinople fishing"으로 끝나고 그 다음 문장이 "Nasty pink"로 시작하는 구절을 생각
하는 것이 전적으로 가능하기 때문이다.
그리고 말이 난 김에, 논의되고 있는 있을 법 하지 않은 네 낱말 배열이 단일한 괜찮은 영어 문장, 즉 앞
문장에서 일어난 적이 있다는 것을 관찰할 수 있을 것이다.
어떤 확률에 따라 기호들(물론, 예컨대, 낱말이 아니라 글자 또는 음표들)의 배열을 만들어내는 체계는
확률 과정(stochastic process)이라고 불리며, 확률이 선행 사건들에 의존하는 확률 과정의 특별한
경우는 마르코프 과정(Markoff process) 또는 마르코프 연쇄(Markoff chain)라고 불린다.
메시지들을 생성할 것으로 여겨질 수 있는 마르코프 과정들 중에는 통신 이론에 대단히 중요한 특수한
집합이 존재하는데, 이런 과정들은 에르고드 과정(ergodic process)이라고 불리는 것이다.
여기서 분석적 세부 내용이 복잡하며 추리 과정이 매우 심오하고 집중을 필요로 하기 떄문에 관련
이론을 만들어내는 데 최고 수학자들의 최선의 노력의 일부가 소요되었지만, 에르고드 과정의 대체적
특성은 이해하기 쉽다.
그것은 여론 조사자의 꿈일 기호들의 배열을 산출하는 과정인데, 적절히 큰 표본이라면 무엇이든 전체
배열을 대표하는 것이 되는 경향이 있기 때문이다.
두 사람이 상이한 방식으로 표본을 선택한다고 가정한 다음에, 표본들이 커짐에 따라 그 표본들의 통계
적 특성들이 어떤 추세를 보여주는지 조사하자.
그 상황이 에르고드적이라면, 그들이 표본을 어떻게 선택했든지 간에, 그 두 사람이 추정한 전체의 특성
들은 일치할 것이다.
다시 말해서, 에르고드 체계들은 특별히 안전하고 안심하게 하는 종류의 통계적 규칙성을 나타낸다.
이제 정보에 관한 관념으로 돌아가자.
이산적인 기호(글자, 낱말, 음표, 어떤 크기를 갖는 점 등)들을 순차적으로 선택함으로써 메시지를 만들어
내고 있는 정보원이 존재하며, 선택 과정의 한 단계에서 다양한 기호들에 대한 선택 확률이 이전 선택에
의존한다면(즉, 마르코프 과정), 이런 절차와 관련된 정보는 어떠한가?
"정보"에 대해 제기되는 자연적 요구 조건들을 고유하게 충족시키는 양은 바로 열역학에서 엔트로피
(entropy)로 알려져 있는 것인 것으로 판명된다.
그것은 관련된 다양한 확률―메시지들을 구성하는 과정에서 어떤 단계에 이르게 될 확률과 그 단계에서
어떤 기호가 다음에 선택될 확률―들로 표현될 수 있다.
게다가 그 공식은 확률들의 로그값을 포함하고, 그래서 앞에서 단순한 사례들과 연관지어 언급된 로그값
척도의 자연적 일반화이다.
물리과학을 공부한 적이 있는 사람들에게 이론에서 엔트로피 같은 표현이 정보의 척도로서 나타난다는
점은 매우 중요하다.
거의 백 년 전에 클라우지우스(Clausius)에 의해 도입되었고, 볼츠만(Boltzmann)이라는 이름과 밀접
하게 관련되어 있으며, 통계역학에 관한 고전적 저작에서 깁스(Gibbs)에 의해 깊은 의미가 부여된
엔트로피는 대단히 기본적이고 만연하는 개념이 되어 버려서 에딩턴(Eddington)은 이렇게 진술한다.
"내 생각에, 엔트로피가 항상 증가한다는 법칙―열역학 제2 법칙―은 자연 법칙들 가운데 최고의 위치를
차지한다."
물리과학에서 어떤 상황과 관련된 엔트로피는 그 상황의 무작위성, 또는 말하자면 "뒤죽박죽성"의
정도에 대한 척도이다.
그리고 물리적 체계들이 더욱 더 해체되는 경향, 더욱 더 완벽하게 뒤죽박죽되는 경향은 매우 기본적인
것이어서 에딩턴은 시간에 화살을 부여하는 것―예를 들면, 물리적 세계에 대한 영화가 앞으로 상영되고
있는지 아니면 거꾸로 상영되고 있는지 드러낼 것이다―은 주로 이런 경향이라고 주장한다.
그러므로 통신 이론에서 엔트로피 개념을 만나면, 약간 흥분할 권리―기본적이고 중요한 것으로 판명될
무언가를 파악하고 있다고 추정되는 권리―가 있다.
통신 이론에서 정보는 메시지들을 구성할 때 갖는 선택의 자유의 총량과 관련되어 있다는 점을 떠올리면,
정보가 엔트로피로 측정될 수 있다는 것은 결국 자연스러운 결과이다.
그러므로, 열역학적 앙상블에 관해 그렇게 말하곤 하는 것과 꼭 마찬가지로, 통신원에 대해 이렇게 말할
수 있다.
"이 상황은 대단히 조직적이고, 무작위성 또는 선택의 거대한 정도에 의해 특징지워지지 않는다.
말하자면, 정보(또는 엔트로피)가 낮다." 나중에 이 문제를 다시 고찰할 것인데, 내가 상당히 잘못 알고
있지 않다면, 그것은 이 이론의 더 일반적인 의미를 지닌 중요한 측면이기 때문이다.
어떤 정보원의 엔트로피(또는 정보, 또는 선택의 자유)를 계산한 다음에, 이것을 이 엔트로피가 가질 수
있는 최대값―그 정보원이 같은 기호들을 계속 채택한다는 조건에만 종속되었을 때의 값―과 비교할 수
있다.
최대 엔트로피에 대한 실제 엔트로피의 비는 정보원의 상대 엔트로피(relative entropy)라고 불린다.
어떤 정보원의 상대 엔트로피가 예컨대 0.8이라면, 이것은 대충 메시지를 구성하기 위해 기호들을 선택
할 때 이 정보원이 이런 같은 기호들을 가지고 연출할 수 있는 상황의 약 80퍼센트만큼 자유롭다는 것을
의미한다.
1에서 상대 엔트로피를 뺀 것은 중복성(redundancy)이라고 불린다.
이것은 송신자의 자유로운 선택이 아니라 오히려 문제가 되는 기호들의 용법을 관장하는 수용된 통계적
규칙들에 의해 결정되는 메시지 구조의 분율이다.
사실상 이런 메시지의 분율은 일상적인 의미에 가까운 의미에서 중복적이기 때문에 중복성이라고 부르는
것은 합리적이다.
말하자면, 그것을 빼더라도 그 메시지는 여전히 본질적으로 완전하거나, 또는 최소한 완전해질 수 있을
것이라는 의미에서 이런 메시지의 분율은 불필요하다(그래서 반복적이거나 중복적이다).
영어의 중복성이 대략 50퍼센트에 불과하고, 그래서 글을 쓰거나 말을 할 때 선택하는 글자 또는 낱말
들의 대략 절반이 자유롭게 선택되며, 대략 절반은 영어의 통계적 구조에 의해 실제로 통제된다(일반적
으로 의식하지 못하지만)는 점을 인식하는 것은 매우 흥미롭다.
최종 논의로 연기할 더 심각한 함축들은 별도로 하고, 만족스러운 십자말 퍼즐을 구성할 수 있으려면 한
언어가 글자 선택에 있어서 최소한 50퍼센트의 실제 자유도(또는 상대 엔트로피)를 가져야만 한다는
점을 인식하는 것은 흥미롭다.
언어가 완전한 자유도를 갖는다면, 글자들의 모든 배열이 십자말 퍼즐이 된다.
그것이 겨우 20퍼센트의 자유도를 갖는다면, 그 게임을 인기 있게 만들 복잡성과 갯수로 십자말 퍼즐을
구성하는 것이 불가능할 것이다.
섀넌은, 영어가 대략 30퍼센트에 불과한 중복성을 갖고 있다면, 삼차원 십자말 퍼즐을 구성하는 것이
가능할 것이라고 추정했다.
정보에 관한 이 절을 끝내기 전에, 층위 A 분석이 정보원의 전체적인 통계적 특성을 규정하며, 그리고
개별 메시지들과 관계가 없는(그리고 개별 메시지들의 의미와는 결코 직접적으로 관련되지 않는) 정보
개념을 다루는 진짜 이유는, 공학적 관점에서 바라볼 때, 통신 체계는 정보원이 만들어낼 수 있는 그
어떤 메시지도 다루어야 하는 문제에 직면해야 한다는 것이다.
모든 것을 완벽하게 다룰 수 있는 체계를 설계하는 것이 가능하지 않거나 실행될 수 없다면, 그 체계는
수행하도록 요청받을 확률이 가장 높은 업무들을 잘 처리하도록 설계되어야 하고, 드문 과업에 대해서는
어쩔 수 없이 덜 효율적이어야 한다.
이런 종류의 고찰은 즉시 어떤 종류의 정보원이 만들어낼 수 있고 만들어낼 메시지들의 전체 앙상블의
통계적 특성을 규정할 필요성에 이르게 된다.
그리고 통신 이론에서 사용되듯이, 정보가 바로 이것을 수행한다.
수학적 세부 내용에 관계하는 것은 결코 이 논문의 목적이 아니지만, 그럼에도 정보를 측정하는 엔트로피
같은 표현에 대해 가능한 한 잘 이해하는 것은 필수적인 듯 보인다.
단순한 사례로서, 선택 확률이 p_1, p_2…p_n인 n개의 독립적인 기호들의 집합, 또는 그 점에 있어서는
n개의 독립적인 완전한 메시지들의 집합에 관여한다면, 정보에 대한 실제 표현은 다음과 같다.
H = -[p_1 log p_1 + p_2 log p_2 + … + p_n log p_n] = - ∑ p_i log p_i .
여기서, 수학에서 일반적으로 그렇듯이, 기호 ∑는 어떤 규정하는 표본으로 쓰여진 전형적인 항 p_i log
p_i와 같은 모든 항들을 더해야 한다는 것을 가리킨다.
이것은 약간 복잡한 듯 보이지만, 몇몇 단순한 사례들의 경우에 이 표현이 어떻게 거동하는지 살펴보자.
우선 첫 번째 메시지에 대한 확률이 p_1이고 두 번째 메시지에 대한
확률 p_2 = 1 - p_1인 두 개의 가능한 메시지들 중에서만 선택한다고
가정하자.
이 경우에 대해 H의 값을 산정한다면, 두 메시지의 확률이 동일할 때,
즉 p_1 = p_2 = 1/2일 때, 말하자면, 두 메시지 사이에서 완전히 자유
롭게 선택할 때, H가 최대값, 즉 1을 갖는 것으로 판명된다.
한 메시지의 확률이 나머지 다른 한 메시지의 확률보다 더 커지게 되자
말자(예컨대, p_1이 p_2보다 더 크다), H의 값은 감소한다.
그리고 한 메시지의 확률이 매우 클 때(예컨대, p_1은 거의 1이고 p_2는 거의 0이다), H의 값은 매우
작다(거의 0이다).
한 확률이 1(확실함)이고 다른 모든 확률이 0(불가능함)인 극단적인 경우에 H는 0이다(불확실성, 선택의
자유, 정보가 전혀 없다).
그러므로 H는 두 확률이 동일할 때(즉, 선택할 때 완전히 자유롭고 공평할 때) 가장 크고, 선택의 자유가
없어질 때 0으로 감소한다.
방금 서술한 상황은 사실상 전형적이다. 두 개가 아니라 많은 선택지가 존재한다면, 다양한 선택지들의
확률들이 환경이 허용하는 만큼 거의 동일할 때, 즉 선택을 할 때 가능한 한 많은 자유가 있어서 자체의
확률 몫 이상을 갖는 어떤 특정한 선택지들을 향해 가능한 한 적게 추동될 때, H가 가장 크다.
다른 한편으로, 하나의 선택지가 1에 가까운 확률을 나타내어 다른 모든 선택지들이 거의 0에 가까운
확률들을 갖는다고 가정하자.
이것은 분명히 하나의 특수한 선택지를 향해 대단히 경사되고, 그래서 선택의 자유가 거의 없는 상황이다.
그리고 그런 경우에 H는 매우 작은 값을 갖는 것으로 추산되는데, 즉 정보(선택의 자유, 불확실성)가 낮다.
사례들의 수가 고정되어 있을 때, 다양한 사례들의 확률들이 거의 같아질수록 정보는 더 커진다는 점을
방금 이해했다.
H를 증가시키는 또 하나의 중요한 방법이 존재하는데, 그것은 사례들의 수를 증가시키는 것이다.
더 정확히 말하자면, 모든 선택지들의 확률이 동일하다면, 선택지들이 더 많이 존재할수록 H는 더 커질
것이다.
25개 표준 메시지들의 집합에서 자유롭게 선택할 때보다도 50개 표준 메시지들의 집합에서 자유롭게
선택할 때 더 많은 "정보"가 존재한다.
통신 채널의 용량
Capacity of a Communication Channel
앞 절에서 이루어진 논의 후에, 채널의 용량은 그것이 전송할 수 있는 기호들의 수가 아니라 오히려
그것이 전송하는 정보의 견지에서 서술될 수 있다는 점은 놀랍지 않다.
또는 더 적절하게 말하자면, 앞 문장의 마지막 구절이 정보라는 낱말을 오해할 소지를 특히 많이 제공
하기 때문에 채널의 용량은 주어진 정보의 원천에서 산출되는 것을 전송할 수 있는 능력의 견지에서
서술될 수 있다.
정보원이 모든 기호들이 동일한 지속 시간을 갖는(예를 들면, 전보의 경우처럼) 단순한 종류의 것이고,
선택된 각 기호가 s비트의 정보(2^s개의 기호들에서 자유롭게 선택되는)를 나타내며, 그리고 채널이
예컨대 초당 n개의 기호를 전송할 수 있다면, 그 채널의 용량 C는 초당 ns비트인 것으로 규정된다.
더 일반적인 경우에 대해서는 다양한 길이를 갖는 다양한 기호들을 고려해야 한다.
그러므로 채널의 용량을 나타내는 일반적인 표현은 어떤 지속 시간를 갖는 기호들의 갯수들에 대한
로그값(물론 정보라는 관념이 도입되며, 앞 문단의 단순한 경우에는 인자 s에 해당한다)을 포함하며,
처리되는 기호들의 수도 포함한다.
그러므로 일반적인 경우에 용량 척도는 초당 전송되는 기호들의 수가 아니라, 오히려 초당 전송되는
정보량이고, 그래서 그것의 단위는 초당 비트 수이다.
코드화
Coding
애초에 전송기는 메시지를 수용하여 그것을 신호라고 불리는 것으로 변환시킨다는 점을 지적했는데,
신호는 실제로 채널을 통과하여 수신기에 이르는 것이다.
전신 같은 경우에 전송기는 도처의 가청 목소리 신호를 분명히 다르지만 분명히 동등한 것(전화선을
타고 흐르는 변화하는 전류)으로 변환시킬 뿐이다.
그런데 전송기는 신호를 산출하기 위해 메시지에 훨씬 더 복잡한 조작을 수행하기도 한다.
예를 들면, 전송기는 문자 메시지를 받은 다음에 어떤 코드를 사용하여 이 메시지를 예컨대 일련의
숫자들로 암호화할 수 있을 것이다.
그 다음에 이 숫자들은 신호로서 채널을 통해 전송된다.
그러므로, 일반적으로, 전송기의 기능은 메시지를 코드화(encode)하는 것이고, 수신기의 기능은 메시
지를 탈코드화(decode)하는 것이다.
매우 정교한 수신기와 송신기들―예를 들면, "메모리"를 갖추고 있는 것들―에 대한 이론이 제공되며,
그 이론에 따라 그것들이 메시지의 어떤 기호를 코드화하는 방식은 이 하나의 기호에 의존할 뿐 아니라
그 메시지의 이전 기호들과 그것들이 코드화된 방식에도 의존한다.
이제 우리는 이 이론에서 산출되는, 이산적 기호들을 전송하는 무소음 채널에 대한 기본 정리를 서술할
지점에 이르렀다.
이 정리는 기호당 H 비트의 엔트로피 원천으로부터 신호를 수용하는, 초당 C 비트의 용량을 갖춘 통신
채널에 관련된 것이다.
이 정리는, 전송기에 대한 적절한 코드화 절차를 고안함으로써 거의 C/H에 이르지만, 코드화가 아무리
영리하게 이루어지더라도 C/H를 결코 능가할 수는 없는 평균 속도로 기호들을 채널을 통해 전송하는
것이 가능하다고 진술한다.
이 정리의 중요성은 조금 뒤에 소음이 존재하는 더 일반적인 경우를 다룰 때 더 유용하게 논의될 것이다.
그렇지만, 당분간, 코드화가 담당하는 중요한 역할을 인식하는 것이 중요하다.
메시지 또는 신호들을 생성하는 과정과 관련된 엔트로피(또는 정보)는 그 과정의 통계적 특질―메시지
상황들에 이르는 것과 그런 상황들에 처했을 때 그 다음 기호들을 선택하는 것에 대한 다양한 확률들―
에 의해 결정된다는 점을 기억하자.
메시지들의 통계적 특질은 원천의 특질에 의해 전적으로 결정된다.
그러나 채널에 의해 실제로 전송되는 신호의 통계적 특질, 즉 채널의 엔트로피는 채널로 공급하려고
하는 것과 더불어 상이한 신호 상황들을 처리할 수 있는 채널의 역량에 의해 결정된다.
예를 들면, 전신의 경우에, 점과 점 사이에, 점과 대시 사이에, 그리고 대시와 대시 사이에 스페이스가
있어야 하는데, 그렇지 않다면 점과 대시를 인식할 수 없을 것이다.
그런데 어떤 채널이 완전한 신호 자유도를 제한하는 이런 종류의 어떤 제약들을 갖고 있을 때, 그 어떤
다른 통계적 신호 구조의 경우보다도 더 큰 신호 엔트로피를 낳는 어떤 통계적 신호 특성이 존재하며,
그리고 이 중요한 경우에는 신호 엔트로피가 채널 용량과 정확히 일치한다.
이런 착상들의 견지에서, 이제 가장 효율적인 종류의 코드화를 정확히 특징짓는 것이 가능하다.
실제로 최선의 전송기는, 신호가 사용할 채널에 가장 적합한 최적의 통계적 특성을 갖는 방식으로, 즉
사실상 신호(또는 채널) 엔트로피를 극대화하여 채널 용량 C와 동일하게 만드는 방식으로 메시지를
코드화하는 것이다.
이런 종류의 코드화는, 위에서 언급한 기본 정리에 의해, 기호들의 전송에 대한 최대 속도 C/H를 낳는다.
그런데 전송 속도의 이런 이득에 대해 대가를 치르게 된다.
약간 삐딱하게도 코드화를 이상적인 것에 더욱 더 가깝게 만들수록 코드화 과정에서 더욱 더 긴 지연이
있을 수 밖에 없기 때문이다.
이런 난제의 일부는 전자 장치에서 "길다"라는 것이 대단히 짧은 시간을 의미할 수도 있다는 사실에 의해
해결되며, 일부는 타협을 하여 전송 속도의 이득과 코드화 시간의 손실을 조화시킨다는 사실에 의해 해결
된다.
클로드 섀넌(Claude E. Shannon) & 워렌 위버(Warren Weaver),
<통신의 수학적 이론(The Mathematical Theory of Communication)>(1963)