|
정보: 매우 짧은 입문(Information: A Very Short Introduction)
네 번째 혁명
The fourth revolution
대단히 간략하게 말하자면, 과학은 우리의 이해를 변화시키는 두 가지 근본적인 방식이 있다.
한 가지는 외향적(extrovert) 방식 또는 세계와 관련된 방식으로,
그리고 나머지 다른 한 가지는 내향적(introvert) 방식 또는 우리 자신과 관련된 방식으로 부를 수 있다.
세 번의 과학혁명은 외향적으로도 내향적으로도 큰 영향을 끼쳤다.
외부 세계에 대한 우리의 이해를 변화시키면서 그것들은 우리가 누구인지에 대한 관념도 수정하였다.
니콜라우스 코페르니쿠스(1473-1543) 이후에 태양중심적 우주론은 지구와 인류의 지위를 우주의
중심에서 끌어내렸다.
찰스 다윈(1809-1882)은 모든 생물종들이 공통 조상에서 자연선택을 통해 시간이 흐름에 따라 진화
했다는 것을 증명했는데, 그 결과 인류를 생물학적 왕국의 중심에서 끌어내렸다.
그리고 지그문트 프로이트(1856-1939)를 좇아서 현재 우리는 마음 역시 무의식적이고 억압에 대한
방어 메커니즘의 지배를 받는다고 인식한다.
그래서 인류는 우주의 중심에 고정되어 있지 않고(코페르니쿠스 혁명), 동물 왕국의 나머지 부분에서
부자연스럽게 분리되어 있는 별개의 영역이 아니며(다윈 혁명), 그리고 예를 들면, 르네 데카르트(1596
1650)가 가정했듯이, 우리는 자신에게 전적으로 투명한 고립된 마음들이 결코 아니다(프로이트 혁명).
이런 고전적 그림의 가치에 대해 쉽게 의문을 제기할 수 있을 것이다.
결국 프로이트가 이런 세 혁명을 인간 본성의 재평가라는 단일한 과정의 일부로 해석한 최초의 인물
이었고, 그의 시각은 노골적으로 자화자찬하는 식이었다.
그런데 프로이트를 인지과학이나 신경과학으로 대체하면, 최근에 인간의 자기 이해에 매우 중요하고
심대한 일이 일어났다는 우리의 직관을 설명하는 데 유용한 틀을 여전히 찾아낼 수 있다.
1950년대 이래로 컴퓨터 과학과 정보통신기술(ICT)은 내향적 및 외향적 영향력을 행사하여 인류와
세계의 상호작용뿐 아니라 인류의 자기 이해도 변화시켰다.
여러 측면에서 우리는 고립된 존재자들이 아니라, 오히려 상호연결된 정보적 유기체 또는 인포그(inforg)
로서 궁극적으로 정보로 이루어진 전지구적 환경, 즉 정보권(infosphere)을 생물학적 행위자들과 제작
된 인공물들과 함께 공유한다.
정보권은 모든 정보적 과정, 서비스 그리고 존재자들로 구성된 정보적 환경인데, 따라서 정보적 행위자
들뿐 아니라 그것들의 특성, 상호작용 그리고 상호관계들을 포함한다.
네 번째 혁명에 대한 대표적인 과학자가 필요하다면, 이것은 분명히 앨런 튜링(1912-1954)이어야 한다.
인포그는 과학소설적 판본의 '사이보그화된' 인류와 혼동하지 말아야 한다.
우리 육체에 블루투스 무선 헤드셋을 이식한 채 돌아다니는 것은 현명한 행동이 아닌 듯 보이는데,
특히 그런 행동은 자체가 나타내고자 하는 사회적 메시지와 모순되기 때문이다.
항상 호출에 대기하고 있는 것은 일종의 노예 상태이고, 그래서 매우 바쁘고 중요한 인물이라면 누구나
그 대신에 개인 비서를 두게 된다.
어떤 종류의 사이보그가 된다는 것은 사람들이 받아들일 것이 아니라 피하려고 노력할 그런 것이다.
인포그라는 관념도 정보적 DNA와 그것의 미래 육화를 담당하는, 유전자적으로 변형된 인류를 향한
한 걸음이 아니다.
이것은 미래에 일어날 수도 있는 것이지만, 이 단계에서 진지하게 논의하기에는 기술적으로도(안전
하게 수행할 수 있는) 그리고 윤리적으로도(도덕적으로 수용할 수 있는) 여전히 너무 멀리 떨어져 있다.
오히려 네 번째 혁명은 인간 행위자들의 본질적인 정보적 본성을 밝히고 있다.
이것은, 개인들이 '데이터 그림자' 또는 디지털 분신, 즉 이메일 주소, 블로그 그리고 홈페이지로 표상
되는 하이드 씨를 갖기 시작했다고 말하는 것을 넘어선다.
이런 명백한 사실들은 디지털 정보통신기술을 역량 향상 기술에 불과한 것으로 오인하도록 부추길
뿐이다.
문제가 되는 것은 행위자라는 것이 무엇을 의미하는지와 이런 새로운 행위자들이 어떤 종류의 환경에
거주하는지에 대한 우리의 관념에서 일어나는 더 조용하고, 덜 선정적이며, 그럼에도 중요하고 심대한
변화이다.
그것은 우리 육체의 어떤 환상적인 교체, 또는 탈인간적 조건에 관한 어떤 과학소설적 추측을 통해서
일어나고 있는 것이 아니라, 훨씬 더 심각하게 그리고 현실적으로 실재와 우리 자신에 대한 이해의
급진적인 변형을 통해서 일어나고 있다.
그것을 설명하는 좋은 방식은 향상(enhancing) 장치와 증강(augmenting) 장치를 구분짓는 것에 기대는
것이다.
맥박 조정기, 안경 또는 인공 수족 같은 향상 장치는 그 장치가 인간공학적으로 사용자의 육체에 부착
될 수 있게 하는 인터페이스를 갖추고 있어야 한다. 그것이 사이보그 발상의 시작이다.
그 대신에 증강 장치는 상이한 가능 세계들 사이에 소통(통신)이 이루어질 수 있게 하는 인터페이스를
갖추고 있다.
예를 들면, 한편으로는 인간 사용자의 일상적 거주지, 외부 세계, 즉 실재가 존재하면서 그것에 거주하고
있는 행위자에 영향을 미친다.
그리고 다른 한편으로는 역동적이고 축축하고 미끈미끈하고 뜨껍고 어두운 설거지 기계의 세계, 마찬
가지로 축축하고 미끈미끈하고 뜨겁고 어두울 뿐 아니라 회전도 하는 세탁기의 세계, 또는 고요하고
냉정하고 건조하고 차갑고 잠재적으로 빛을 내는 냉장고의 세계가 존재한다.
이런 로봇들이 성공적일 수 있는 까닭은 그것들이 자체의 역량 주변에 맞춤형으로 '포장된' 환경을
갖추고 있기 때문이지 그 반대의 상황 때문은 아니다.
이런 이유 때문에 인간 행위자와 정확히 동일한 방식으로 개수대에서 설거지를 하기 위해 <스타워즈>
의 C3PO 같은 드로이드를 제작하려고 하는 것은 어리석은 착상일 것이다.
그런데 정보통신기술은 방금 설명한 의미로 향상하거나 증강하고 있는 것이 아니다.
정보통신기술은 사용자가 (아마도 우호적인) 게이트웨이를 통해서 진입하여 일종의 입회 의식을 경험
할 수 있게 하는 환경을 조장하기 때문에 장치를 급진적으로 변형시키고 있다.
이런 급진적인 형태의 개량을 나타내는 술어는 존재하지 않고, 그래서 매우 급진적인 형태의 개량,
즉 체계(예를 들면, 회사, 기계 또는 어떤 인공물)를 새롭게 설계하고, 구성하거나 조직할 뿐 아니라
그것의 내재적 본성, 즉 존재론을 근본적으로 변형시키는 것을 가리키기 위해 신조어로서 재존재화
(re-ontologizing)를 사용할 수 있을 것이다.
예를 들면, 마우스의 역사를 살펴보면, 인간의 기술이 사용자로서의 인간에 적응했을 뿐 아니라 인간을
교육시켰다는 것을 알게 된다.
(1925년에 태어난) 더글러스 엥겔바트(Douglas Engelbart)는 예전에 내게 자신의 가장 유명한 발명품,
즉 마우스를 다듬고 있었을 때 심지어 그는 사용자의 손을 자유롭게 하기 위해 그것을 책상 아래에
놓고서 발로 조작할 수 있는지 실험했다고 말했다.
인간-컴퓨터 상호작용은 대칭적 관계이다.
앞의 구분짓기로 돌아가면, 설거지 기계 인터페이스는 그 기계를 사용자의 세계와 접속시키는 패널인
반면에, 디지털 인터페이스는 사용자를 사이버공간에 존재할 수 있게 하는 게이트이다.
이런 단순하지만 근본적인 차이가 '가상 공간', '온라인 상에 존재하기', '웹을 서핑하기', '게이트웨이'
등과 같은 다양한 공간적 비유들의 근저에 놓여 있다.
당연히 인류가 일상적 서식지에서 정보권 자체로 이주하는 획기적이고 전례가 없는 현상이 목격되고
있는데, 특히 정보권이 일상적 서식지를 흡수하고 있기 때문이다.
결과적으로 인간들은 정보적 산물들에 더 우호적인 환경에서 작동하고 있는 다른 (아마도 인공적인)
인포그와 행위자들 속에서 살아가는 인포그들이다.
우리 같은 디지털 이민자들이 우리 아이들 같은 디지털 원주민으로 일단 대체되면 e-이주는 완결될
것이고, 미래 세대들은 정보권으로부터 단절될 때마다 물 밖에 나온 고기처럼 박탈감, 배제감, 장애
의식을 점점 더 느끼게 될 것이다.
그러므로 인간들이 현재 경험하고 있는 것은 네 번째 혁명인데, 인간의 근본적인 본성과 우주에서의
지위를 재평가하고 이동시키는 과정에 있다.
우리는 실재의 궁극적 본성에 대한 우리 자신의 일상적 시각, 즉 형이상학을 물리적 객체와 과정들이
중요한 역할을 수행하는 유물론적인 것에서 정보적인 것으로 수정하고 있다.
이런 변화는, 그것들이 기체(基體)에 독립적인 것으로 간주되는 경향이 있다(음악 파일을 생각하자)는
의미에서 객체와 과정들이 탈물리화된다는 것을 의미한다.
어떤 객체의 일례(어떤 음악 파일의 내 사본)가 그것의 전형(내 사본이 일례인 당신의 음악 파일)만큼
훌륭하다는 의미에서 그것들은 전형화된다.
그리고 내 사본과 당신의 원본이 맞바꿀 수 있게 된다는 의미에서 그것들은 기본적으로 완벽하게 복사
될 수 있다고 가정된다.
객체와 과정들의 물리적 본성을 덜 강조한다는 것은 사용 권리가 최소한 소유 권리만큼 중요한 것으로
인식된다는 것을 의미한다.
마지막으로, 현존에 대한 기준―무언가가 현존한다는 것이 의미하는 것―은 더 이상 현실적으로 변경될
수 없다는 것(그리스인들은 변화하지 않는 것만이 완전히 현존한다고 말할 수 있다고 생각했다)이거나,
또는 잠재적으로 지각될 수 있다는 것(근대 철학은 현존하는 것으로서의 자격을 부여하기 위해서는
무언가가 오감을 통해서 경험적으로 지각될 수 있어야 한다고 주장한다)이 아니라,
막연할지라도 잠재적으로 상호작용할 수 있다는 것이다.
상호작용이 간접적인 것에 불과할지라도, 존재한다는 것은 상호작용할 수 있다는 것이다.
다음과 같은 예들을 살펴보자.
최근에 소프트웨어의 취득을 현재 사업 비용이 아니라 투자로 간주하여 시간이 지남에 따라 생산에
반복적으로 사용되는 여타의 자본 투입으로 취급함에 있어서 많은 나라들이 미합중국을 좇았다.
이제 소프트웨어에 지출하는 것은 어김없이 국내 총생산에 기여한다.
그래서 아무튼 무형의 것일지라도 소프트웨어는 (디지털) 재화로 인식된다.
가상 자산 역시 중요한 투자를 나타낸다는 점을 수용하는 것이 너무 어렵지는 않을 것이다.
또는 중국에서 나타난 이른바 '가상 노동 착취 공장(virtual sweatshop)'이라는 현상을 고려하자.
폐쇄 공포증을 유발하는 초만원의 방에서 노동자들은 하루 12시간 동안 <월드 오브 워크래프트(World
of Warcraft)>나 <리니지(Lineage)> 같은 온라인 게임을 하면서 다른 놀이꾼들에게 판매할 수 있는
캐릭터, 장비 또는 게임에서 통용되는 화폐 같은 가상 재화를 창출한다.
글을 쓰고 있는 지금, <월드 오브 워크래프트> 같은 대규모 다중 사용자 온라인 롤플레잉 게임(MMO
RPG)의 최종 사용자 사용권 계약(EULA, 이것은 상업적 소프트웨어의 모든 사용자가 그것을 설치함
으로써 받아들이는 계약이다)은 여전히 가상 자산의 판매을 허용하지 않고 있다.
이것은 소프트웨어를 사용하여 만들어진 디지털 문서의 소유권을 사용자에게 주는 것을 보류하는 MS
워드의 EULA와 비슷할 것이다.
더 많은 사람들이 자신의 아바타와 자산을 구축하는 데 수백 시간 그리고 수천 시간을 투자함에 따라
상황은 변할 것이다.
미래 세대들은 자신이 소유하기를 바랄 디지털 존재자들을 물려받을 것이다.
사실상, 그것은 금지되어 있지만, 이베이에서는 수천 개의 가상 자산이 판매되곤 했다.
소니는 더 적극적으로 '스테이션 교환', 즉 '놀이꾼들에게 SOE의 사용권 계약, 규칙 그리고 지침에 따라
게임 코인, 아이템 그리고 캐릭터들을 사고파는[내 사양에는 달러로] 안전한 방법을 제공하'는 공식
적인 경매 서비스를 제공한다.
가상 자산의 소유권이 일단 법적으로 확립되면, 그 다음 단계는 재산 소송의 출현에 대비하는 것이다.
이것은 이미 일어나고 있다.
2006년 오월에 펜실베니아의 한 변호사가 수만 달러의 가치가 있는 자신의 가상 토지와 다른 재산을
부당하게 압류했다는 혐의로 <세컨트 라이프(Second Life)>의 제작자를 고소했다.
아바타에 대한 위험을 보호하는 보험회사가 나타날 것인데, 이것은 지역 슈퍼마켓에서 구매할 수 있는
애완동물 보험에 비견할 만하다.
또 다시 <월드 오브 워크래프트>가 탁월한 예를 제공한다.
월 사용자가 거의 1200만 명에 이르는 그것은 현재 세계 최대의 MMORPG이며, 인구 수에 따라 정렬
된 221개국과 부속 영토들의 목록에서 71위에 해당할 것이다.
자신의 디지털 자산을 구성하고 불리고 개선하는 데 수십 억 시간을 소요한(소요할) 사용자들은 재산
보험에 가입하기 위해 기꺼이 몇 달러를 지불할 것이다.
정보통신기술은 실제로 미래 세대들이 대부분의 시간 동안 살아갈 새로운 정보적 환경을 창출하고 있다.
예를 들면, 평균적으로 영국인들은 이미 TV를 시청하는 것보다 온라인 상에서 더 많은 시간을 보내고
있으며, 미합중국 성인들은 이미 정보권 내부에서 일 년에 거의 다섯 달에 이르는 시간을 보내고 있다.
그런 인구의 나이는 빠르게 올라가고 있다.
예를 들면, 전미 오락 소프트웨어 협회에 따르면 2008년에 게임 놀이꾼의 평균 나이는 35살이었고 13년
동안 게임을 했으며, 가장 빈번한 게임 구매자의 평균 나이는 40살이었고 50세 이상 미합중국인들의
26%가 비디오 게임을 했는데, 그 비율은 1999년의 9%에서 증가했다.
pp. 8-14.
정보권에서의 삶
Life in the infosphere
몇 가지 중요한 예외(예를 들면, 고대 문명의 항아리와 금속 연장들, 판화들 그리고 구텐베르크 이후의
책들)에도 불구하고, 독특한 객체들의 세계에서 객체 유형들의 세계―모든 것을 서로 동일하게 완벽히
재생산할 수 있고, 그래서 분간할 수 없으며, 그 결과 상호작용들의 허용 범위가 전혀 축소되지 않은 채
교체할 수 있기 때문에 처분할 수 있는―로의 이행을 정말로 특징지었던 것은 산업 혁명이었다.
우리 선조들이 말 한 마리를 구매할 때 그들은 '전형적인' 말이 아니라 이 말 또는 저 말을 구매했다.
오늘날에는 두 대의 자동차가 사실상 동일하고, 그래서 어떤 모형의 개별적 '화신'이 아니라 그 모형을
구매하도록 부추긴다는 점이 명백하다는 것을 알게 된다.
사실상 우리는, 건물 전체에 대해서도, 수리를 교체와 같은 뜻으로 간주하는 객체들의 상업화를 향해
빠르게 움직이고 있다.
이것은 보상 형식으로서 정보적 브랜드화와 재전유라는 우선적 처리 방식을 낳았다.
수천 대의 다른 자동차들과 완벽하게 동일한 자기 자동차의 창에 스티커를 붙이는 사람은 개체성을
지원하는 전투를 벌이고 있는 것이다.
정보 혁명은 이 과정을 더욱 더 악화시켰다.
윈도우 쇼핑이 윈도우즈 쇼핑이 되어서 더 이상 거리를 걷는 것이 아니라 웹을 검색하는 것을 의미하게
되면, 개인적 정체성에 대한 감각 역시 부식되기 시작한다.
독특하고 교체할 수 없는 존재자로서의 개체 대신에 우리는 온라인 상에서 수십 억 명의 다른 유사한
정보적 유기체들에 노출된, 다른 익명의 존재자들과 더불어 살아가는 대량 생산된 익명의 존재자들이
된다. 그래서 우리는 블로그와 페이스북 항목들, 홈페이지, 유튜브 비디오 그리고 플릭크를 사용함으
로써 정보권에서 자신을 브랜드화하고 재전유하게 된다.
<세컨드 라이프(Second Life)>가 모든 종류의 유행 광들에게 낙원이어야 하는 것은 전적으로 합당
한데, 그것은 디자이너와 창의적인 예술가들에게 새롭고 유연한 플랫폼을 제공할 뿐 아니라, 사용자
(아바타)들이 자기 정체성과 개인적 취향에 대한 가시적인 징표들을 획득해야 한다는 압력을 격심하게
느끼는 바로 그런 맥락이다.
마찬가지로, 사생활 권리에 대해 대단히 신경 쓰는 사회와 페이스북 같은 서비스들의 성공 사이에는
모순되는 점이 전혀 존재하지 않는다.
우리는 자신에 관한 정보가 정보적으로 덜 익명적인 것이 되도록 그 정보를 사용하고 노출시킨다.
그것이 다른 사람들이 개별자로 식별할 수 있도록 자신을 구성하기 위해 공적으로 투자될 수 있는
귀중한 자본을 축적하는 거의 유일한 방식인 것처럼 우리는 높은 수준의 정보적 사밀성을 유지하기를
바란다.
내가 방금 묘사한 것들과 같은 과정들은 정보 혁명에 의해 초래된 훨씬 더 심원한 형이상학적인 이동의
일부이다.
대략 지난 십 년 동안 우리는 온라인 상에서의 우리 삶을 디지털 환경에 대한 인간 행위자들의 진화적
적응과 인간들에 의한 디지털 공간의 탈근대적인 신식민지화의 한 형태 사이의 혼합물로 개념화하는
데 익숙해졌다.
그런데 진실은 정보통신기술이 새로운 실재들을 만들어내고 있는 것만큼이나 우리 세계도 바꾸고 있다
는 것이다.
이곳(탄소에 기반을 둔 아날로그적인 오프라인)과 저곳(실리콘에 기반을 둔 디지털적인 온라인)의 경계
는 빠르게 흐릿해지고 있지만, 이것은 전자만큼이나 후자에게도 유리하다.
디지털적인 것이 아날로그적인 것으로 넘쳐 흘러 합병되고 있다.
최근의 이런 현상은 "유비쿼터스 컴퓨팅", "엠비언트 인텔리전스", "사물 인터넷", 또는 "웹 증강 사물"
처럼 다양하게 알려져 있다.
인공물과 전체 (사회적) 환경과 생활 활동의 정보화의 증가는 정보화 이전 시대의 삶의 모습을 이해
하기가 곧 어려워질 것이고(예를 들면, 2000년에 태어난 사람에게 세계는 항상 무선적이었을 것이다),
가까운 미래에 온라인과 오프라인 사이의 구분 자체가 사라질 것이라고 시사한다.
GPS의 지침에 따르면서 자동차를 운전하는 일상적인 경험은 누군가가 온라인 상에 있는지 여부를
묻는 것이 얼마나 무의미하게 되었는지 분명히 보여준다.
그것을 극적으로 서술하면, 정보권이 여타의 공간을 점진적으로 흡수하고 있다.
(빠르게 다가오고 있는) 미래에는, 더욱 더 많은 객체들이 서로 배우고 충고하며 소통할 수 있는 IT
존재자(ITentity)들일 것이다.
좋은 일례(그러나 그것은 한 가지 예일 뿐이다)는 바코드처럼 어떤 객체의 데이터를 저장하고 원격으로
검색하며 그것에 독특한 정체성을 부여할 수 있는 전파 식별(RFID) 태그에 의해 제공된다.
태그는 종이보다 훨씬 더 얇고 0.4 제곱밀리미터의 면적 범위를 측정할 수 있다.
매우 작은 이런 마이크로칩을 인간과 동물을 비롯한 모든 것에 주입하면 IT 존재자가 만들어지게 된다.
이것은 과학소설이 아니다.
기업 인스탯(InStat)의 보고서에 따르면, RFID의 전 세계 생산량은 2005년과 2010년 사이에 25배
이상 증가하혀 330억 개에 이르렀을 것이다.
330억 개의 이런 IT 존재자들을 수억 개의 PC, DVD, 아이포드 그리고 이용할 수 있는 다른 정보통신
기기들과 네트워크로 결합시킨다고 상상하면, 정보권이 더 이상 '저곳'이 아니라 '이곳'이며 거주하는
곳이라는 것을 알게 된다. 나이키 센서와 아이포드는 이미 서로 이야기한다.
현재 노인 세대들은 여전히 정보의 공간을 접속하고 단속하는 것으로 간주한다.
세계에 대한 우리의 견해(형이상학)는 여전히 근대적인 것, 즉 뉴턴주의적인 것인데, 세계는 상호작용
하지 않고, 반응하지 않으며, 소통할 수 없거나 학습할 수 없거나 기억할 수 없는 '죽은' 자동차, 건물,
가구, 옷들로 이루어져 있다.
그런데 선진적인 정보 상회에서는 우리가 여전히 오프라인 상에서 세계로 경험하는 것은 실시간으로
a4a(anywhere for anytime)로 작동하는, 도처에 편재된 무선 a2a(anything to anything) 정보 과정
들로 이루어진 전적으로 상호작용적이고 더 민감한 반응을 나타내는 환경이 될 수밖에 없다.
그런 세계는 우선 그것을 '인공적으로 살아있는' 것으로 이해하도록 부드럽게 요청할 것이다.
세계의 이런 생기화는 역설적으로 우리의 견해를 자연의 모든 측면에 목적론적 힘이 거주한다고 해석한
기술 이전 문화들의 견해와 더 가깝게 만들 것이다.
이것은 정보적 견지에서 형이상학을 재개념화하는 것으로 이어진다.
'실제 현실'이 그곳에 거주하는 기계들의 금속만큼이나 여전히 딱딱한 <매트릭스(Matrix)> 같은 시나
리오에 의해 표현되는 디스토피아적 의미에서가 아니라, <공각기동대(Ghost in the Shell)>의 사이버
네틱스 이후의 허구적 거대도시인 뉴포트 시티 같은 환경에 의해 표상되는 진화적인 혼성적 의미에서
세계를 정보권의 일부로 간주하는 것이 정상적인 일이 될 것이다.
정보권은 진정으로 '물질적인' 배후 세계에 의해 지지되는 가상적 환경이 아니라, 오히려 정보권의
일부로서 점점 더 정보적으로 해석되고 이해될 세계 자체가 될 것이다.
이런 변화가 끝날 무렵에 정보권은 정보의 공간을 가리키는 한 방식에서 실재와 동일시되는 것으로
변환되었을 것이다. 이것은 우리가 점점 더 쉽게 수용할 수 있게 될 그런 종류의 정보적 형이상학이다.
일상적 환경의 그런 변형의 결과로 우리는 점점 더 동시화되고(시간), 탈국소화되며(공간), 서로 관련
될(상호작용) 정보권에서 살게될 것이다.
이전의 혁명들(특히 농업 혁명과 산업 혁명)은 흔히 그다지 예견하지 않은 채 우리의 사회 구조와 건축
환경의 거시적 변형을 초래했다.
정보 혁명도 못지 않게 극적이다.
우리가 미래 세대들이 거주할 새로운 환경을 구성하고 있다는 사실을 진지하게 여기지 않는다면 곤란한
상황에 처할 것이다.
이 책의 말미에서 우리는 예견할 수 있는 문제들을 피하고 싶다면 정보권의 생태학에 관해 연구해야 할
것이라는 점을 알게될 것이다.
불행하게도, 정보권이 모두에게 이익이 되도록 보존될 필요가 있는 공통 공간이라는 것을 깨닫는 데
에는 얼마간의 시간과 전적으로 새로운 교육 및 감성이 필요할 것이다.
한 가지 것은 확실한 듯 보이는데, 디지털 격차는 일종의 단절이 되어서 정보권의 주민이 될 수 있는
사람들과 될 수 없는 사람들 사이에, 내부자들과 외부자들 사이에, 정보가 풍부한 사람들과 정보가
빈약한 사람들 사이에 새로운 형태들의 차별을 생성할 것이다.
격차는 전 세계 사회의 지도를 다시 그릴 것인데, 세대적, 지리적, 사회경제적 그리고 문화적 격차를
생성하거나 넓힐 것이다.
그런데 그 간극은 선진국과 개발도상국 사이의 거리로 환원될 수 없을 것인데, 그것은 사회들을 가로
질러 횡단할 것이기 때문이다.
미래의 디지털 슬럼가들에 대한 기반을 준비하고 있다.
pp. 14-18.
정보-데이터에 기반을 둔 정보에 관한 정의
데이터에 기반을 둔 정보에 관한 정의
The data-based definition of information
지난 수십 년 동안 데이터 + 의미(data + meaning)의 견지에서 정보에 관한 일반적 정의(GDI,
General Definition of Information)를 채택하는 것이 일반화되었다.
GDI는 조작적 표준이 되었는데, 특히 데이터와 정보를 물화된 존재자, 즉 조작될 수 있는 물질(예를
들면, '데이터 마이닝(data mining)'과 '정보 관리' 같은 현재 일반적인 표현들을 생각하자)로 취급하는
분야들에서 그랬다. GDI를 형식화하는 직접적인 방법은 세 갈래로 이루어진 정의로 주어진다.
GDI) 아래의 조건들을 충족시킬 때에만 σ는 의미적 내용으로 이해되는 정보의 일례이다:
GDI.1) σ는 n개의 데이터로 이루어져 있다(n ≥ 1);
GDI.2) 데이터는 잘 구성되어 있다;
GDI.3) 잘 구성된 데이터는 의미가 있다.
(GDI.1)에 따르면, 정보는 데이터로 이루어져 있다.
(GDI.2)에서 '잘 구성된(well formed)'이라는 낱말은, 선택된 체계, 코드, 또는 사용되는 언어를 지배
하는 규칙들(구문론)에 따라 데이터가 올바르게 결합되어 있다는 것을 의미한다.
여기서 구문론은 그저 언어학적으로 이해되는 것이 아니라, 무언가의 형식, 구성, 조성 또는 구조화를
결정하는 것으로 폭넓게 이해되어야 한다.
공학자, 영화 감독, 화가, 체스 경기자 그리고 정원사들은 이런 넓은 의미에서 구문론에 관해 말한다.
예를 들면, 자동차의 조작 지침서는 다른 차의 배터리에 연결하여 시동을 거는 방법에 관한 이차원
그림을 보여준다.
이 그림의 구문론(수렴하는 평행선들로 공간을 표상하는 선형적 원근법을 포함하는)은 사용자에게
잠재적으로 유의미한 삽화를 구성한다.
동일한 예에 여전히 의존하면, 제대로 기능하기 위해서는 실제 배터리가 올바른 방식으로 엔진에 연결될
필요가 있는데, 체계의 올바른 물리적 구조의 견지에서 이것은 여전히 구문론이다.
그리고 물론, 존이 그의 이웃과 나누는 대화는 영어의 문법 규칙들을 따르는데, 이것은 일상적인 언어적
의미에서 구문론이다.
(GDI.3)에 대해서, 이것이 최종적으로 의미론이 발생하는 지점이다.
'의미가 있는'이라는 낱말은 데이터가 선택된 체계, 코드, 또는 문제의 언어의 의미들(의미론)에 따라야
한다는 것을 의미한다.
다시 한 번, 의미론적 정보는 반드시 언어적인 것은 아니다.
예를 들면, 자동차의 조작 지침서의 경우에, 삽화들은 독자에게 시각적으로 의미가 있어야 한다.
데이터가 어떻게 자연 언어 같은 기호 체계(semiotic system)에서 할당된 의미와 기능을 갖게 될 수
있는지라는 문제는 의미론에서 가장 어려운 의문들 가운데 하나인데, 그것은 기호 접지 문제(symbol
grounding problem)로 알려져 있다.
운이 좋게도, 여기서 그 문제는 무시될 수 있다.
분명히 할 가치가 있는 유일한 점은 정보를 구성하는 데이터가 정보 수신자(informee)에 무관하게 의미
가 있을 수 있다는 것이다.
다음과 같은 예를 고려하자. 로제타 석에는 단일한 구문에 대한 세 가지 언어, 즉 이집트 상형 문자,
이집트 민중 문자 그리고 고전 그리스 언어의 번역문이 새겨져 있다.
그것이 발견되기 전에, 그 문자의 의미는 그 어떤 해석자도 파악하지 못했지만 이집트 상형 문자는
이미 정보로 간주되었다.
그리스어와 이집트어 사이의 접면의 발견은 그 상형 문자의 의미론에 영향을 미친 것이 아니라 그것의
이해 가능성에 영향을 미쳤을 뿐이다.
이런 의미에서 우리가 그 어떤 정보 수신자에도 무관하게 정보 전달자(information-carrier)들에 묻어
들어가 있는 유의미한 데이터에 관해 말할 수 있다는 것이 합당하다.
이것은 데이터가 지능을 갖춘 생산자/정보 제공자(producer/informer)에 무관하게 나름의 의미론도
갖추고 있을 수 있다는 더 강한 테제와 매우 다르다.
이것은 환경적 정보(environmental information)로도 알려져 있지만, 그것을 논의하기 전에 데이터의
본성을 더 잘 이해할 필요가 있다.
pp. 20-22.
데이터 이해하기
Understanding data
데이터의 가장 근본적인 본성을 드러내는 좋은 방법은 데이터를 지우고, 훼손하거나 상실하는 것이
무엇을 의미하는지 이해하려고 시도하는 것이다.
우리가 모르는 언어로 쓰여진 어떤 책의 페이지를 상상하자. 데이터는 그림 문자의 형태로 존재한다고
가정하자. 규칙적인 유형들은 어떤 구조적 구문론을 따른다는 것을 시사한다.
우리에게 모든 데이터가 있지만, 우리는 그것들의 의미를 알지 못하고, 그래서 우리는 아직 아무 정보도
갖고 있지 않다.
이제 그림 문자들 가운데 절반을 지우자. 우리가 그 데이터를 반으로 나누었다고도 말할 수 있을 것이다.
이 과정을 계속 진행하여 단 하나의 그림 문자가 남게 되면, 데이터는 어떤 종류의 표상들을 필요로
하거나, 또는 그것들과 동일할 것이라고 말하고 싶어질 것이다.
그런데 이제 그 마지막 그림 문자도 지우자. 하얀 페이지가 남게 되지만, 아직은 전적으로 데이터가
없지는 않다.
하얀 페이지와 그 위에 무언가가 쓰여져 있거나 쓰여질 수 있는 페이지 사이에 차이가 존재하는 한,
하얀 페이지의 존재가 여전히 하나의 데이터이기 때문이다.
이것을 '묵시적 동의'라는 흔한 현상과 비교하자.
이진 체계의 0의 열과 꼭 마찬가지로 침묵, 또는 지각할 수 있는 데이터의 결여는 어떤 소음의 존재
만큼이나 하나의 데이터일 수 있다.
앞의 사례에서 존이 자기 자동차의 엔진에서 아무 소리도 듣지 못했을 때 갖게 되는 우려를 떠올리자.
그런 소음의 결여는 정보를 제공한다.
사실은 모든 데이터의 정말로 완전한 소거는 모든 가능한 차이들을 제거함으로써 이루어질 수 있을
뿐이라는 것이다.
이런 이유 때문에 데이터는 궁극적으로 균일성의 결여(lack of uniformity)로 환원될 수 있다는 것이
분명해진다.
"정보는 차이를 만들어내는 구별짓기이다'라고 적었을 때 도널드 맥크리먼 맥케이(Donald MacCrimmon
MacKay, 1922-1987)는 이 중요한 점을 강조했다.
그의 뒤를 이어 그레고리 베이트슨(Gregory Bateson, 1904-1980)은 덜 정확하지만 더 유명한 슬로건
을 제시했다.
'사실상 정보―정보의 기본 단위―가 의미하는 것은 차이를 만들어내는 차이이다'.
더 형식적으로, 차이적 해석(diaphoric interpretation)[디아포로(diaphora)는 '차이'를 가리키는
그리스어 낱말이다]에 따르면, 하나의 데이터[데이텀(datatum)]에 대한 일반적 정의는 다음과 같다.
하나의 데이터 = y와 구별되는 x. 여기서 x와 y는 두 개의 미해석된 변수들이고 '구별되는 상태'의
관계와 정의역은 후속적인 해석에 열려 있다.
데이터에 대한 이 정의는 세 가지 주요한 방식으로 적용될 수 있다.
첫째, 현실 세계에서 데이터는 균일성의 결여일 수 있다.
그런 '야생의 데이터'를 가리키는 특정한 명칭은 존재하지 않는다.
그런 데이터는 그리스어로 '데이터'를 나타내는 데도메나(dedomena)로 부를 수 있을 것이다('데이터'
라는 낱말은 제목이 <<데도메나>>라는 유클리드 저작의 라틴어 번역본에서 유래되었다는 것을 인식
하자). 데도메나는 뒤에 다루게 될 환경적 정보(environmental information)와 혼동하지 말아야 한다.
데도메나는 순수한 데이터, 즉 해석되거나 인지 절차를 겪기 전의 데이터이다.
데도메나는 직접 체험되는 것이 아니라, 그것의 존재는 체험으로부터 경험적으로 추론되고 체험에
의해 요구되는데, 우리의 정보가 도대체 가능하기 위해서는 데도메나가 세계에 존재해야 하는 것이기
때문이다.
그래서 데도메나, 즉 세계 속 균일성의 결여라면 무엇이든 데이터(우리 같은 정보적 유기체들에 그렇게
보이는 것)의 원천인데, 예를 들면, 어두운 배경에서 빛나는 적색 빛이 있다.
5장에서 나는 이 문제를 다시 다룰 것인데, 정보는 물질적 본성을 지니고 있어야 한다는 테제를 거부
하면서 데이터가 없다면 아무 정보도 있을 수 없다는 테제를 수용할 수 있는 연구자들이 있다는 것을
알게 될 것이다.
둘째, 데이터는 어떤 체계의 최소 두 개의 물리적 상태 또는 신호 사이에 존재하는 균일성의 결여일 수
있다.
예를 들면, 배터리의 더 높은 충전 상태 또는 더 낮은 충전 상태, 전화 통화에서 가변적인 전기 신호,
또는 모스 알파벳의 점과 선이 있다.
마지막으로, 데이터는 두 기호 사이에 존재하는 균일성의 결여일 수 있는데,
예를 들면, 라틴어 알파벳에서 문자 B와 P가 있다.
해석에 따라, (1)의 데도메나는 (2)의 신호와 동일하거나, 아니면 신호를 가능하게 만드는 것이고,
(2)의 신호는 (3)에서 기호의 코드화를 가능하게 하는 것이다.
구문론적으로 잘 구성된 데이터의 발생에 대한 정보의 의존성, 그리고 물리적으로 다양하게 실행될 수
있는 차이 발생에 대한 데이터의 의존성이 정보가 자체의 기체(基體)로부터 매우 쉽게 분리될 수 있는
이유를 설명한다.
데이터 및 정보를 코드화하는 현실적 형태, 매체 그리고 언어는 흔히 무관하고 무시될 수 있다.
특히, 영어로 코드화되든 어떤 다른 언어로 코드화되든, 기호로 표현되든 그림으로 표현되든, 아날로그
이든 디지털이든 간에, 동일한 데이터/정보가 종위 위에 인쇄될 수 있거나 화면에 표시될 수 있다.
아날로그와 디지털 사이의 구별짓기가 가장 중요하고 얼마간 분명히 할 가치가 있다.
pp. 22-25.
아날로그 데이터, 디지털 데이터 그리고 이진 데이터
아날로그 데이터와 그것들을 코드화하거나 저장하거나 처리하거나 전송하는 체계들은 연속적으로
변한다.
예를 들면, LP 레코드판은 기록된 소리에 해당하는 연속적인 기계적 데이터를 저장하기 때문에 아날
로그적이다.
반면에, 디지털 데이터와 관련 체계들은 상이한 상태들, 예를 들면 온/오프 또는 고전압/저전압 사이
에서 이산적으로 변한다.
예를 들면, CD는 소리를 일련의 피트(pit, 우묵한 곳)와 랜드(land, 피트들 사이의 영역)로 변환시킴
으로서 저장하기 때문에 디지털적이다.
CD는 정보를 그저 기록하기보다는 코드화한다.
우주에 대한 우리의 이해는 낱알 같은 이산적인 디지털적 관념들―자연수, 동전의 앞면과 뒷면, 한 주의
날들, 축구팀이 기록한 골 등―뿐 아니라, 다양한 매끈하고 연속적인 아날로그적 관념들―고통 또는
쾌락의 세기, 실수, 연속 함수, 미분 방정식, 파동, 역장, 시간 연속체―에도 확고하게 기반을 두고 있다.
컴퓨터는 일반적으로 디지털, 즉 이산적 정보 체계로 간주된지만, 두 가지 이유 때문에 이것은 전적으로
올바르지는 않다. 튜링 자신이 진술했듯이,
디지털 컴퓨터는 [...] '이산적 상태 기계'에 속하는 것으로 분류될 수 있는데, 이 기계들은 상당히 명확
한 한 상태에서 다른 한 상태로 갑자기 도약하거나 찰깍하며 움직임으로써 이동하는 기계이다.
이런 상태들은 혼동될 가능성이 무시될 수 있을 정도로 충분히 다르다.
엄밀히 말하자면 그런 기계는 전혀 존재하지 않는다.
실제로 모든 것은 연속적으로 움직인다. 그런데 유리하게도 이산적 상태 기계로 간주될 수 있는 다양한
종류의 기계들이 존재한다.
그리고 아날로그 컴퓨터들이 존재한다.
이것들은 해시계 지침판 위의 지시침에 의해 형성되는 그림자, 모래시계에서 모래 또는 물시계에서
물의 거의 규칙적인 흐름, 그리고 수학적으로 일정한 진자의 흔들림 같은 연속적으로 변하는 물리적
현상들의 상호작용을 통해서 계산을 수행한다.
분명히, 어떤 정보 체계를 아날로그 체계로 만드는 것은 특정한 물질을 사용하거나 특정한 물리적
현상에 의존하는 것이 아니라, 그것의 조작들이 고체 물질이 활용되든 액체 물질이 활용되든 기체 물질
이 활용되든 간에 그것의 연속적인 물리적 변환들을 측정함으로써 직접 결정된다는 사실이다.
연속적으로 변하는 전압를 이용하는 아날로그 컴퓨터들이 존재하고, 튜링 기계(개인 컴퓨터들의 논리적
으로 이상화된 모형)는 디지털 컴퓨터이지만 전기적이지 않을 수도 있다.
자체의 물리적 본성을 고려하면, 아날로그 컴퓨터는 실시간(즉, 현실 세계의 시간에 해당하는 시간)으로
작동하고, 그래서 사건이 발생할 때 사건 시각과 계산 시각 사이의 1:1 대응 관계로 그 사건을 추적하고
제어하는 데 사용될 수 있다.
그렇지만, 자체의 본성 때문에 아날로그 컴퓨터는 범용 기계가 될 수 없으며, 필연적으로 전문화된 장치
로서 활용될 수 있을 뿐이다. 그것의 이점은 아날로그 데이터가 매우 강인하다는 것이다.
LP 레코드판은 긁히더라도 거듭해서 들을 수 있다.
디지털 데이터는 이진 데이터로 불리기도 하는데, 그것은 일반적으로 비트(bit, binary digit)라고 불리는
단 두 개의 기호로 이루어진 조합들, 즉 모스 부호에서 점과 대시들에 비견되는 0과 1들의 문자열로
코드화되기 때문이다.
예를 들면, 이진 표기법에서 숫자 3은 11로 표현된다.
이진수에서 어느 위치의 값은 오른쪽에서 왼쪽으로 한 자리씩 이동함에 따라 2의 거듭제곱만큼 증가하기
때문에(즉, ....16, 8, 4, 2, 1) 11은 (1 × 2) + (1 × 1)을 의미하고, 그래서 십진수 체계에서 3이 된다.
마찬가지로, 6을 이진수 체계로 계산한다면, (1 × 4) + (1 × 2) + (0 × 1)과 같고, 그래서 110이 될 수
밖에 없다는 것을 알 수 있다.
비트는 정보의 최소 단위로서 신호의 존재 또는 부재, 0 또는 1에 지나지 않는다.
일련의 8비트는 1바이트(byte, by eight)를 구성하며, 바이트를 조합함으로써 256(2^8)개 문자들의
표를 생성할 수 있다.
데이터의 각 문자는 8비트의 어떤 유형으로 저장될 수 있다.
가장 널리 사용되는 이진 코드는 ASCII(American Standard Code for Information Interchange)
코드로 알려져 있는데, 이 코드는 8비트 중에서 7비트에만 의존하여 128(2^7)개 문자들로 구성되어
있다.
컴퓨터가 'GOD'라는 낱말을 이진 코드로 표현하는 방식은 이렇다. 010001110100111101000100.
이진 체계에 따라 바이트의 양들은 다음과 같이 계산된다.
● 1 킬로바이트(KB, Kilobyte) = 2^{10} = 1,024 바이트
● 1 메가바이트(MB, Megabyte) = 2^{20} = 1,048,576 바이트
● 1 기가바이트(GB, Gigabyte) = 2^{30} = 1,073,741,824 바이트
● 1 테라바이트(TB, Terabyte) = 2^{40} = 1,099,511,627,776 바이트
이런 이유 때문에, 예를 들면, 컴퓨터 RAM의 정확한 크기는 결코 어림수가 아니다.
데이트 코드화의 이진 체계는 최소한 세 가지 이점이 있다.
첫째, 비트는 의미론적으로도(참/거짓을 의미함), 논리수학적으로도(1/0를 나타냄) 그리고 물리적으로
도(트랜지스터 = 온/오프; 스위치 = 열림/닫힘; 전기 회로 = 고전압/저전압; 디스크 또는 테이프 = 자화/
탈자화; CD = 피트의 존재/부재 등) 동등하게 잘 표현될 수 있고, 그래서 의미론, 수리논리학 그리고
회로와 정보 이론의 물리학 및 공학이 수렴할 수 있는 공통 기반을 제공한다.
이것은 비트를 물리적으로 인식하고, 그런 인식에 의거하여 논리적으로 작동하며, 우리가 유의미하다고
알아채는 방식들로 데이터를 조작할 수 있는 기계를 제작할 수 있다는 것(두 번째 이점)을 의미한다.
이것은 중요한 사실이다.
모든 사람이 컴퓨터에 귀속시킬 준비가 되어 있는 지능의 유일한 단서는 틀림없이 이진 데이터를 판별
할 수 있는 컴퓨터 장치와 회로들의 역량에 관한 것이다.
컴퓨터가 도대체 무언가를 지각한다고 말할 수 있다면, 그 이유는 자체 회로들의 작동 프로그램을 구성
하는 고전압과 저전압 사이의 차이이다.
기묘한 것은 아무튼 이것이 생물학적 체계에도 마찬가지로 참일 것이라는 점이다.
마지막으로, 디지털 테이터는 일반적으로 두 가지 상태를 나타낼 뿐이기 때문에 그런 이산적 변이는
컴퓨터가, 흔히 불만족스럽게 또는 부정확하게 수행할 수 있는 아날로그 기계와는 달리, 처리할 필요가
있는 것에 대해 거의 혼동하지 않을 것이라는 점을 의미한다.
무엇보다도, 디지털 기계는 어떤 데이터가 불완전한지 여부를 인식할 수 있고, 그래서 그것이 다루고
있는 비트의 양에 관해 문자 그대로 기묘한 것이 존재한다면 수학적 계산을 통해서 상실되어버린
데이터를 복구할 수 있다.
pp. 25-29.
데이터/정보의 유형
정보는 상이한 유형들의 데이터로 구성될 수 있다. 용어는 아직 표준적이거나 확정되지 않았지만,
꽤 일반적으로 다섯 가지로 분류된다.
그것들은 서로 배타적이지 않으며, 그것들을 견고한 것으로 이해하지 말아야 한다.
환경에 따라, 수행되는 분석의 종류에 따라, 그리고 채택되는 관점에 따라 동일한 데이터가 상이한
분류에 알맞을 수 있을 것이다.
일차 데이터 Primary data
이것들은 데이터베이스에 저장된 주요 데이터로서, 예를 들면, 스프레드시트에 작성된 단순한 숫자
들의 열, 또는 0과 1의 문자열이다.
그것들은 정보 형태로 사용자에게 맨 먼저 전달하도록 정보 관리 체계―자동차의 배터리가 충전될
될요가 있다는 것을 가리키는 것과 같은―가 일반적으로 고안되는 데이터이다.
대체로, 데이터 및 그것들이 나타내는 해당 정보에 관해 말할 때에는 일차 데이터/정보가 문제가 되는
것이라고 암묵적으로 가정된다.
그래서, 기본적으로, 배터리 부족 표시등의 적색 불빛은 스파이를 위한 어떤 은밀한 메시시가 아니라,
일차 정보를 전달하는 일차 데이터의 일례인 것으로 가정된다.
이차 데이터 Secondary data
이것들은 일차 데이터의 반대 데이터로서 일차 데이터의 부재에 의해 구성된다.
존이 처음에 어떻게 배터리가 방전되었는지 추측하게 되었는지 회상하자.
엔진이 아무 소음도 내지 않았고, 그래서 배터리 방전에 관한 이차 정보를 제공했다.
마찬가지로, <<실버 블레이즈(Silver Blaze)>>에서 셜록 홈즈는 다른 모든 것을 빠져나간 것―이례적인
개의 침묵―을 인식함으로써 사건을 해결한다.
분명히, 침묵이 정보를 잘 제공할 수도 있다. 이것이 정보의 특색이다.
정보의 부재가 정보를 제공할 수도 있다.
그럴 경우에 요점은 이차 정보에 관해 말함으로써 강조된다.
메타데이터 Metadata
이것들은 어떤 다른(일반적으로 일차) 데이터의 특질을 가리키는 것이다.
그것들은 위치, 형식, 갱신, 입수 가능성, 용도 제한 등과 같은 특성들을 서술한다.
따라서 메타정보는 정보의 특질에 관한 정보이다.
자동차의 조작 지침서 위에 새겨진 저작권이 간단한 일례이다.
조작적 데이터 Operational data
이것들은 전체 데이터 체계의 조작들과 그 체계의 성능에 대한 데이터이다.
따라서, 조작적 정보는 어떤 정보 체계의 동역학에 관한 정보이다.
그 등이 켜졌을 때 자동차 검사 체계가 오작동하고 있다는 것을 가리키는 노란 등이 자동차에 장착되어
있다고 가정하자.
노란 등이 켜져 있다는 사실은 배터리 부족 표시기(적색 등이 켜짐)가 제대로 작동하지 않는다는 것을
가리킬 수 있고, 그래서 배터리가 방전되었다는 가정의 기반을 약화시킬 수 있다.
파생 데이터 Derivative data
이것들은 데이터에서 추출될 수 있는 데이터인데, 예를 들면, 비교 분석과 정량적 분석을 위해 어떤
데이터 자체가 직접 다루지 않고 있는 것들에 관한 추론적 증거, 유형 또는 단서들을 탐색하는 경우에
그 데이터가 간접적인 원천으로 사용될 때마다 추출될 수 있다.
이 범주는 정확히 규정하기가 어렵기 때문에 친숙한 사례에 의존할 것이다.
신용 카드는 파생 정보의 흔적을 남기는 것으로 악명이 높다.
어떤 특정한 주유소에서 석유를 구매한 것과 관련된 존의 신용 카드 청구서로부터 어떤 주어진 시각에
그의 행방에 관한 파생 정보를 획득할 수 있다.
pp. 29-31
환경적 정보
데이터가 지적인 생산자/정보 제공자에 무관하게 유의미할 수도 있는 가능성을 강조하고 싶을 때
우리는 환경적 정보에 관해 말한다.
환경적 정보에 관한 가장 흔히 인용되는 사례들 가운데 하나는 나무 나이를 추산하는 데 사용될 수 있는,
동체가 절단된 나무에서 볼 수 있는 일련의 동심원들이다.
또한 텔레비전 범죄 연속극 <CSI: 범죄 현장 조사(CSI: Crime Scene Investigation)>의 시청자들은
탄도, 피가 흩어진 유형, 장기 손상, 지문 그리고 다른 비슷한 증거에 매우 친숙할 것이다.
그런데 '환경적' 정보가 자연적일 필요는 없다.
우리 사례로 돌아가면, 존이 시동 키를 돌렸을 때 배터리 부족 표시기의 적색 등이 켜졌다.
이런 인공적 (engineered)신호 역시 환경적 정보의 일례로 해석될 수 있다.
일반적으로 후자는 본래의 데이터 자체에 직접 접근하는 대신에 그것에 의존하는 관찰자(정보적 유기체
또는 정보 수신자)와 관련하여 규정된다.
당연히 환경적 정보는 두 체계를 필요로 하는데, 그것들을 a와 b로 부르자.
여기서 a와 b는 a가 특수한 특징 F를 나타낸다는 사실이 b가 특수한 특징 G를 나타낸다는 사실과 상관
되어 있는 방식으로 연결되어 있고, 그래서 두 특징 사이의 이런 연결이 관찰자에게 b는 G라고 말해
준다. 요약하면,
환경적 정보 = 체계 a가 F(유형 또는 상태)라는 것이 체계 b가 G(유형 또는 상태)라는 것과 상관되어
있는 방식으로 결합되어 있는 두 체계 a와 b. 그러므로 a의 관찰자에 대해 b가 G라는 정보를 운반한다.
위의 상관관계는 어떤 법칙 또는 규칙을 따른다.
자연적 일례는 리트머스에 의해 제공된다.
산성 용액에서는 적색으로 변하고 알칼리성 용액에서는 청색으로 변하기 때문에 이것은 산/알칼리
표시약으로 사용되는 지의류의 생물학적 염료이다.
환경적 정보의 정의에 따르면, 리트머스(a)와 시험 대상 용액(b)가 리트머스가 적색으로 변하는 것(a가
상태 F에 있음)이 그 용액이 산성이라는 것(b가 유형 G임)과 상관되어 있는 식으로 결합되어 있고,
그래서 리트머스(a)의 관찰자에게 그 용액이 산성(b는 G)이라는 정보를 운반한다는 것을 알 수 있다.
우리의 자동차 사례는 인공적 사례를 제공하는데, 배터리 부족 표시기(a)의 점등(F)는 배터리(b)가
방전된 것(G)에 의해 촉발되고, 그래서 방전 사태에 관한 정보를 제공한다.
우리는 배터리 부족 표시기 점등을 배터리가 방전되었다는 정보를 운반하는 것으로 간주하는 데 매우
익숙하여 환경적 정보와 의미론적 정보―적색 등 점등은 배터리가 부족하는 것을 의미한다―를 충분히
명료하게 구별짓기가 어렵다는 것을 알아챌 것이다.
그렇지만 환경적 정보는 그 어떤 의미론도 필요하지 않거나 포함하지 않을 수도 있다는 점을 강조하는
것이 중요하다.
환경적 정보는 그저 물리적 차이로 이해되는 상관된 데이터의 연결망 또는 유형으로 구성될 수 있다.
확실히 식물, 동물 그리고 메커니즘들―예를 들면, 해바라기, 아메바 또는 광세포―는 유의미한 데이터의
의미론적 처리가 전혀 없더라도 환경적 정보를 실제로 잘 이용할 수 있다.
pp. 32-34.
의미론적 내용으로서의 정보
데이터가 잘 구성되어 있고 유의미할 때 그 결과는 의미론적 내용(semantic content)으로도 알려져 있다.
의미론적 내용으로 이해되는 정보는 두 가지 주요한 변양태―지시적(instructional) 정보와 사실적(factual) 정보―로 나타난다. 우리 사례에서 적색 등 점등은 두 가지 의미에서 의미론적 내용으로 번역할 수 있다.
(a) 한 편의 지시적 정보로서 그것은 특정한 행위, 즉 방전된 배터리를 충전하거나 교체하는 것에 대한 필요성을 전달한다.
(b) 한 편의 사실적 정보로서 그것은 배터리가 방전되었다는 사실을 나타낸다.
[...]
지시적 정보는 의미가 요구되는 특징인지 여부에 따라 일종의 환경적 정보 또는 의미론적 내용이 될
수 있다.
예를 들면, 컴퓨터 마더보드의 논리 게이트들은 전위를 전달할 뿐인데, 그때 우리는 그것들을 '만약...
하다면' 같은 지시적 정보(논리적 지시들)의 견지에서 해석할 수 있을 것이다.
이 경우에 게이트의 층위에 관련된 의미론은 전혀 존재하지 않는다.
이와는 대조적으로, 자동차의 조작 지침서는 명령 형식―먼저 이것을 하고, 그 다음에 저것을 하라는
요리법 형식―이거나 아니면 조건부 형식―이렇다면 이것을 행하고, 저렇다면 저것을 행하라는 어떤
추론적 절차 형식―으로 의미론적 지시적 정보를 제공한다.
환경적이든 의미론적이든 간에 지시적 정보는 어떤 상황, 사실 또는 사태 w에 관한 것이 아니고,
그래서 w를 모형화하거나 서술하거나 표상하지 않는다.
오히려 지시적 정보는 w를 초래하도록(초래하는 데 기여하도록) 하는 의도가 담겨 있다.
사실적 의미론적 정보의 일례로서 '주전자의 물이 방금 끓었다'라는 진술과 주전자의 열선을 통과하는
전기 회로를 단락할 만큼 증기가 바이메탈판을 충분히 가열했을 때 증기에 의해 초래된 과정 사이의
차이를 비교하자.
우리 사례에서, 자동차 수리공이 존에게 전화로 자동차의 방전된 배터리를 충전된 배터리에 연결하라는
말을 할 때, 존이 수신하는 정보는 사실적 정보가 아니라 지시적 정보이다. [...]
약정('x의 값을 3으로 하자' 또는 '유전자 조작으로 일각수를 만들었다고 가정하자'), 초청('대학 파티에
충심으로 초대합니다'), 명령('창문을 닫으시오!'), 지시('상자을 열기 위해서는 키를 돌리시오'), 경기
규칙(체스 경기의 시작은'1.e2-e4 c7-c5')이 의미론적 지시적 정보의 형태들로 올바르게 규정될 수
있는 다양한 그럴듯한 맥락들이 존재한다.
악곡의 인쇄된 음표 또는 프로그램의 디지털 파일들도 지시적 정보의 전형적인 사례들로 간주될 수
있을 것이다.
지시적 정보의 그런 의미론적 사례들이 정보로 간주되기 위해서는 최소한 잠재적으로 유의미해야(해석
가능해야) 할 것이다.
마지막으로, 명명하기(예를 들면, '이제 이 배는 HMS The Informer로 불리게 된다') 또는 프로그래밍
(예를 들면, 변수의 유형을 결정할 때처럼)처럼 우리가 말로 무언가를 행하는 수행적 맥락들이 존재한다.
이런 경우들에는 사실적(서술적) 정보는 지시적 가치를 획득한다.
해리 포터(Harry Potter)의 독자들이 추측할 것처럼 마법 주문에서는 두 유형의 의미론적 정보(지시적
및 사실적)가 동반할 것인데, 실생활에서는 틀렸지만 해리 포터의 모험에서는 올바르게도, x의 의미론적
표상들은 x에 대한 어떤 지시적 힘과 통제를 제공하는 것으로 추정될 것이다.
그럼에도, 시험적으로 지시적 정보는 참 아니면 거짓으로 올바르게 규정될 수 없다는 점을 기억해야 한다.
우리 사례에서 '같은 등급의 전압을 갖춘 배터리만 사용하라'는 정보가 참인지 여부를 묻는 것은 어리석을
것이다. 마찬가지로, 약정, 명령, 지시, 경기 규칙 그리고 소프트웨어는 참 또는 거짓이 될 수 없다.
흔히 의미론적 정보는 선언적 정보 또는 사실적 정보로 추정된다.
기차 시간표, 은행 계좌 수지 보고서, 의료 보고서, 내일 도서관이 열리지 않을 것이라는 통지 등과 같은
사실적 정보는 분별 있게 참 아니면 거짓으로 판별될 것이다.
그러므로 사실적 의미론적 정보는 정보를 이해하는 가장 일반적인 방식이자 가장 중요한 것들 가운데
하나인데, 참인 의미론적 내용은 지식에 대한 필요 조건이기 때문이다. [...] 이것을 다루기 전에,
의미도 진리성도 요구하지 않는 정보에 관한 개념들을 철저히 탐구할 필요가 있다. [...]
pp. 34-36.
통신의 수학적 이론(MTC)
정보의 어떤 특징들은 직관적으로 수량화할 수 있다. 광대역 연결망은 초당 최대의 정보량을 전송할
수 있을 뿐이다.
컴퓨터는 유한한 양의 정보만을 포함할 수 있는 하드 디스크를 장착한다.
더 일반적으로, 우리는 물리적 신호처럼 특정한 양으로 코드화되고, 전송되며, 저장되는 정보에 익숙하다.
또한 우리는 정보가 비스킷과 동전처럼 가법적이라고 예상하는데, 내가 정보 a + 정보 b를 제시하면
나는 정보 a + b를 제시한 것이다.
그리고 우리는 정보가 결코 음이 아니라고 이해한다.
확률 및 이자율과 마찬가지로 정보는 영 미만이 될 수 없는데, 이것은 내 은행 계좌나 옥스퍼드의 온도와
다르다. 존이 이웃에게 질문을 했을 때 최악의 시나리오는 그가 아무 대답도 받지 못하거나 틀린 대답을
받는 것일 것인데, 그것은 새로운 정보를 전혀 전달하지 못할 것이다.
이것들과 정보의 다른 양적 특성들은 다양한 성공적인 수학적 접근 방식에 의해 탐구된다.
지금까지 통신의 수학적 이론(MTC)이 가장 중요하고 영향력이 있으며 널리 알려진 접근 방식이다.
확률론의 이 갈래에 대한 이름은 클로드 섀넌(Claude Shannon)의 획기적인 저작에서 비롯된다.
그가 벨 연구소의 다른 연구자와 동료들이 수행한 이전 작업의 중요성을 인정했더라도, 섀넌은 정보에
관한 수학적 연구 분야의 선구자로서 그 분야의 주요한 결과들 가운데 많은 것을 이루었다.
섀넌 이후에 MTC는 정보 이론으로 알려지게 되었다.
오늘날 섀넌은 '정보 이론의 아버지'로 간주되며, 그리고 MTC가 다루는 정보의 종류는 흔히 섀넌 정보
로 불린다.
'정보 이론'이라는 술어는 호소력이 있지만 불행한 명칭인데, 그것은 계속해서 끝없는 오해를 초래한다.
섀넌은 그것의 광범위한 보급을 후회하게 되었고, 그래서 나는 이 맥락에서 그것을 자제할 것이다.
MTC는 데이터 코드화와 전송를 포함하는 현상의 배후에 놓여 있는 이론이다.
자체적으로 그것은 다양한 종류의 정보에 대한 분석에 심대한 영향을 끼쳤는데, 전문적 어휘를 비롯
하여 최소한 초기의 개념적 틀을 제공했다.
최소한 MTC의 주요 골자를 파악하지 않은 채 정보의 본성을 이해하는 것은 불가능할 것이다.
이것이 이 장의 과업이다.
MTC는 정보를 데이터 통신으로 취급하는데, 일차 목표는 데이터를 코드화하고 전달하는 효율적인
방식들을 고안하는 것이다. 그것은 통신 한계에 관한 연구로서 전기공학이라는 분야에서 비롯되었고
정보에 대한 수량적 접근 방식을 개발한다.
그 접근 방식에 대한 직관적 감각을 얻기 위해 우리 사례로 돌아가자.
존이 정비 기사와 전화로 나눈 대화를 상기하자. 그림 8에서 존은 정보 제공자(informer), 정비 기사는
정보 수신자(informee), '배터리가 방전되었다'는 존에 의해 송신된 (의미론적) 메시지(informant)이고,
언어(영어), 통신 채널(전화 체계) 그리고 어떤 가능한 소음(송신되지 않았지만 수신되는 원치 않은
데이터)를 통한 코딩 절차와 디코딩 절차가 존재한다.
정보 제공자와 정보 수신자는 사용 가능한 기호들의 집합체(전문적으로 알파벳으로 알려져 있는데,
이 경우에는 영어이다)에 관한 동일한 배경 지식을 공유한다.
MTC는 그림 8에 나타낸 자원들의 효율적인 사용에 관한 것이다. 존이 정비 기사와 나눈 대화는 꽤
현실적이고, 그래서 단순화된 사례보다 모형화하기가 더 어렵다.
MTC를 소개하기 위해 그 대신에 단 하나의 기호를 산출할 수 있는 매우 지루한 소자를 가정하자.
에드거 앨런 포(Edgar Alan Poe, 1809-1849)는 까마귀 한 마리가 어떤 질문에도 오직'네버모어
(nevermore)'라고 대답할 수 있는 내용을 담은 단편을 적었다.
포의 까마귀는 단항 소자(unary device)라고 불린다. 존이 정비소에 전화를 걸고 포의 까마귀가 응대
한다고 가정하자.
이런 기본적인 층위에서도 섀넌의 단순한 통신 모형은 여전히 적용된다.
그 까마귀(단항 소자)는 영에 해당하는 정보량을 제공하는 것이 분명하다.
단순화했을 때, 존은 그 통신 교환의 결과를 이미 알고 있는데, 그가 무엇을 묻던 간에 그 대답은 항상
'네버모어'이다.
그래서, 예를 들면, '제가 배터리를 충전할 수 있을까요?"라는 질문으로 표현되는 그의 무지는 감소될
수 없다.
그의 정보적 상태가 무엇이든 간에, 그 까마귀에게 적절한 질문들, 예를 들면, '제가 자동차의 시동을
걸 수 있겠습니까?', '자동차를 수리하러 오실 수 있습니까?' 같은 질문들을 묻는 것은 아무 차이도
만들어내지 못한다.
충분히 흥미롭게도, 이것이 <<파이드로스>>에서 글로 쓰여진 텍스트가 제공하는 의미론적 정보의
가치에 반대하는 플라톤의 유명한 논증의 기초라는 점을 인식하자.
[소크라테스]: 파이드로스, 글쓰기에는 뭔가 이런 기이한 점이 있으니, 그것은 사실 그림 그리기와
똑같네. 거기서 생겨난 것들은 살아 있는 생물처럼 보이지만, 자네가 어떤 질문을 던지면 무겁게 침묵
한다네. (글로 쓰인) 말들도 똑같지. 자네에게는 그것들이 마치 무언가 생각을 가지고 말하는 것처럼
보일 수도 있겠지만, 그 글에 담긴 것들 가운데 무언가 배우고 싶은 것이 있어서 질문을 던지면 글은
언제나 똑같이 하나만을 가리킨다네[우리 술어로 그것은 단항 소자이다].
일단 [275e] 글로 쓰이고 나면, 모든 말은 장소를 가리지 않고 그것을 이해하는 사람들 주변과 그 말이
전혀 먹히지 않는 사람들 주변을 똑같이 맴돌면서, 말을 걸어야 할 사람들과 그렇지 않은 사람들을
가려 알지 못하네. 잘못된 대우를 받고 부당하게 비판을 당하면 언제나 아비의 도움을 필요로 하지.
혼자서는 자신을 지킬 수도 없고 자신을 도울 힘도 없기 때문이라네.
[플라톤, <<파이드로스>>(조대호 역, 문예출판사, 2008), pp. 143-4.]
플라톤이 잘 깨닫고 있듯이, 단항 원천은 모든 질문에 침묵 아니면 메시지가 아니라 항상 단 하나의
메시지로 대답하는데, 2장에서 이해했듯이, 침묵도 하나의 메시지로 간주되기 때문이다.
당연히 완전히 침묵하는 원천 역시 단항 원천으로 간주될 수 있다.
그리고 어떤 원천을 침묵시키는 것(검열)이 원천으로 하여금 아무 정보도 제공하지 못하게 하는 메스
꺼운 방법이라면, 늑대가 나타났다고 소리치는 것(환경에 상관없이 동일한 메시지를 항상 반복하는)은
정보를 제공하는 원천이 아무 정보도 제공하지 못하는 단항 소자로 퇴화하는 고전적 사례라는 것이
잘 알려져 있다.
이제 확률이 같은 두 가지 기호, 즉 앞면과 뒷면 {h, t}를 갖는 공평한 동전 A처럼, 또는 '오직 너희 말은
옳다 옳다, 아니라 아니라 하라 이에서 지나는 것은 악으로 좇아나느니라'라는 마태 복음 5:37의 구절이
시사하듯이, 두 가지 메시지를 산출할 수 있는 이항 소자를 고찰하자.
동전을 던지기 전에 정보 수신자(예를 들면, 컴퓨터)는 그 소자가 실제로 어떤 기호를 산출할지 '알지'
못하는데, 그것은 영보다 큰 데이터 부족(data deficit) 상태에 놓여 있다.
섀넌은 '불확실성'이라는 전문 용어를 사용하여 그런 데이터 부족을 가리킨다.
비수학적 맥락에서 이것은 이 용어의 강한 심리학적 함의들 때문에 오해를 불러 일으킬 수 있고, 그래서
그 용어를 자제하기를 바랄 것이다.
정보 수신자가 단순한 기계일 수 있고, 그래서 심리적 또는 심적 상태가 분명히 무관하다는 것을 상기
하자.
일단 동전을 던지고 나면, 그 체계는 가능한 결과―이 경우에는 확률이 같은 두 개의 기호―의 함수이며
그것이 제거하는 데이터 부족에 해당하는 양의 정보를 산출한다. 이것은 일 비트의 정보이다.
이제 두 개의 공평한 동전 A와 B로 이루어진 약간 더 복잡한 체계를 구축하자.
AB 체계는 네 가지 결과, 즉 <h, h>, <h, t>, <t, h>, <t, t>를 산출할 수 있다.
그것은 네 단위의 데이터 부족을 생성하는데, 각 쌍은 원천 알파벳에서 기호 <_,_>로 산정된다.
AB 체계에서 각 기호 <_,_>의 발생은 A 체계에서의 어떤 기호의 발생보다 더 높은 데이터 부족을 제거
한다.
다시 말해서, 각 기호는 더 많은 대안들을 배제함으로써 더 많은 정보를 제공한다.
동전 한 개를 더하면 여덟 단위의 데이터 부족을 제공할 것인데, ABC 체계에서는 각 기호 <_,_,_>에
의해 운반되는 정보량이 더 증가한다. 기타 등등.
기본 착상은 데이터 부족의 감소(섀넌의 '불확실성')라는 견지에서 정보가 수량화될 수 있다는 것이다.
한 개의 동전은 일 비트의 정보를, 두 개의 동전은 이 비트의 정보를, 세 개의 동전은 삼 비트의 정보를
산출한다.
기타 등등. 불행하게도 실제 동전은 항상 편향되어 있다.
그것들이 실제로 얼마나 많은 정보를 산출하는지 계산하기 위해서는 일련의 유한한 동전 던지기에서
나타나는 기호들의 발생 빈도에 의거하거나, 또는 동전 던지기가 무한정 계속된다면 그것들의 확률에
의거해야 한다.
공평한 동전에 비해서 약간 편향된 동전은 일 비트보다 적은 정보를 틀림없이 산출하지만, 여전히 영
비트보다는 크다.
일련의 '네버모어'의 발생은 정보를 제공하지 않기(더 직관적이지만 심리학적인 섀넌의 어휘를 사용하면
놀랍지 않기) 때문에 까마귀는 도대체 아무 정보도 산출하지 않으며, 그런 이유 때문에 '네버모어'의
발생 확률은 최대이고, 그래서 완전히 예측할 수 있다.
마찬가지로, 편향된 동전에 의해 산출되는 정보량은 h 또는 t 발생의 평균 정보성(informativeness)에
의존한다. 결과들 가운데 하나가 발생할 확률이 더 높을수록, 그 결과를 들을 때 우리는 덜 놀랄 것이고,
결국 정보량이 더욱 더 적을 것이다.
동전이 대단히 편향되어 항상 같은 기호를 산출한다면, 그것은 아무 정보도 제공하지 못하고 까마귀나
늑대가 나타났다고 소리치는 소년처럼 거동한다.
방금 묘사한 정량적 접근 방식은 코딩 이론과 암호학 및 데이터 저장과 전송 기술에서 근본적인 역할을
수행한다.
MTC는 주로 데이터를 기록할 수 있고 전송할 수 있는 신호로 효율적으로 암호화할 수 있는 코드와
통신 채널의 특성들에 대한 연구이다.
통신 분석 및 메모리 관리에 있어서 중추적인 역할을 수행하는 두 개념, 즉 중복성(redundancy)과
소음은 매우 중요하여 간략히 설명할 가치가 있다.
pp. 37-42.
중복성과 소음
Redundancy and noise
실생활에서 좋은 코드화는 적당히 중복적이다.
중복성은 어떤 메시지의 물리적 표현과 필요한 비트량만 사용하는 동일한 메시지에 대한 수학적 표현
사이의 차이를 가리킨다.
사진의 디지털 크기를 줄이는 데 사용하는 절차 같은 압축(compression) 절차들은 데이터 중복성을
줄임으로써 작동하지만, 중복성이 항상 나쁘지는 않은데, 그것이 모호성(equivocation, 송신되었지만
결코 수신되지 않은 데이터)과 소음에 대항하는 데 도움을 줄 수 있기 때문이다.
메시지 + 소음은 원래 메시지 자체보다 더 많은 데이터를 포함하지만, 통신 과정의 목표는 데이터
증가가 아니라 충실도(fidelity), 즉 원래 메시지를 송신자에서 수신자로 정확히 전달하는 것이다.
어느 정도의 중복성이 환경과 통신의 물리적 과정에 의해 편입되는 불가피한 소음과 모호성을 상쇄
한다면, 전송 과정이 끝나는 무렵에 메시지를 올바르게 재구성할 확률이 더 높다.
소음은 메시지를 선택함에 있어서 정보 수신자의 선택의 자유를 확대시키지만, 그것은 바람직하지
못한 자유이고 얼마간의 중복성이 그것을 제한하는 데 도움을 줄 수 있다.
그런 이유 때문에 존의 자동차 사용 지침서는 동일한 정보를 (약간 중복되게) 전달하는 언어적 설명과
그림들을 동시에 포함하고 있다.
pp. 42-3.
통신의 수학적 이론에 함축된 몇 가지 개념적 의미들
Some conceptual implications of the mathematical theory of communication
통신의 수학적 이론(MTC)의 경우에 정보는 일단의 가능한 기호들에서 한 기호를 선택하는 것일 뿐
이고, 그래서 MTC가 정보를 어떻게 수량화하는지 파악하는 단순한 방법은 정보원이 무엇을 소통하고
있는지 결정하는 데 필요한 예/아니오 질문들의 수를 고려하는 것이다.
공평한 동전의 결과를 결정하는 데에는 질문 하나면 충분하고, 그해서 일 비트의 정보를 산출한다고
한다.
두 개의 공평한 동전으로 이루어진 체계는 네 개의 질서정연한 출력―<h, h>, <h, t>, <t, h>, <t, t>―을
산출한다는 것을 이해했고, 그래서 최소한 두 가지 질문이 필요한데, 각 출력은 이 비트의 정보를 포함
한다. 기타 등등. 이 분석은 두 가지 요점을 분명히 한다.
첫째, MTC는 정보라는 낱말의 일상적 의미에서 정보에 관한 이론이 아니다.
MTC에서 정보는 전적으로 기술적인 의미를 갖는다.
MTC에 따르면 애초에, 해당하는 질문이 '배터리가 방전되었는가?'이든 '저와 결혼해 주시겠습니까?'이든
간에, 확률이 같은 두 개의 '예' 대답은 동일한 정보량을 포함한다.
이 책이든 브리태니커 대사전 전체이든 간에, 어떤 장치가 동일한 확률로 우리에게 전송할 수 있다는
것을 안다면, 이것 아니면 저것을 수신함으로써 우리는 매우 상이한 양의 데이터를 수신할 것이지만,
정보에 관한 MTC의 의미에서는 사실상 일 비트의 정보를 수신할 뿐이다.
1944년 6월 1일에 BBC 방송은 베르네르(Verlaine)의 <가을의 노래>라는 시의 한 행―'Les sanglots
longs des violons de Autumne'―을 방송했다.
이것은 일 비트 미만의 정보를 포함하는 암호화된 메시지였는데, D-데이 침공이 임박했는지 여부에
관한 질문에 대해 '예'라고 대답할 확률이 점점 더 커졌다.
그 다음에 BBC는 두 번째 행 'Blessent mon coeur d'une longueur monotone'을 방송했다.
또 하나의 거의 무의미한 철자들의 열이지만, 거의 일 비트에 해당하는 다른 한 정보인데, 그것은 침공이
즉시 일어날 것인지 여부에 관한 질문에 대한 대망의 '예'이기 때문이었다.
독일 정보 기관은 그 암호에 관해 알고 있었고, 그 메시지들을 가로챘으며, 베를린에 통보까지 했지만,
최고 사령부는 노르망디에 진주하고 있었던 제7 군단에 경보를 발하지 못했다.
히틀러는 정보에 관한 섀넌의 의미에서 모든 정보를 갖고 있었지만, 그런 작은 비트의 두 데이터의
결정적 중요성을 이해하지 못했다(또는 믿지 못했다).
우리 자신들의 경우에, 정보에 관한 MTC의 의미에서, 정보의 최대량은 각 문자가 균일하게 분포되어
있는 텍스트, 즉 완전히 무작위적인 배열에 의해 산출된다는 결론에 놀라지 말아야 한다.
MTC에 따르면, 무작위적으로 타자기 자판을 누르고 있는 고전적 원숭이가 사실상 수많은 정보를 산출
하고 있다.
둘째, MTC는 (무의미하다는 의미에서가 아니라 아직 유의미하지 않다는 의미에서) 의미를 고려하지
않는 정보 이론이기 때문에, 그리고 [정보 - 의미 = 데이터]이기 때문에 '정보 이론'보다 '데이터 통신의
수학적 이론'이 확률론의 이 갈래에 대한 훨씬 더 적절한 서술이다. 이것은 그저 표식의 문제가 아니다.
의미론적 내용으로서의 정보는 데이터 + 질문들로도 서술될 수 있다.
'지구는 단 하나의 위성이 있다' 같은 한 조각의 정보를 가정하자.
그것을 [지구는 단 하나의 위성이 있는가? + 예] 같은 [질문 + 이진 대답]으로 변환시킴으로써 그것의
거의 모든 의미론적 내용을 양분시키기 쉽다.
'예'―많아야 일 비트의 정보이다―를 제거하면 참 또는 거짓의 표식들이 제거된 의미론적 내용만 남게
된다. 의미론적 내용은 올바른 대답에 의해 아직 포화되지 않은 정보이다.
데이터 '예'는 질문에 포함된 정보를 여는 열쇠로서 작동한다. MTC는 정보를 데이터 열쇠, 즉 정보 수신
자의 불포화 정보를 포화시키는 데 필요한 어떤 신호 또는 메시지 또는 기억 공간 속의 세부 내용의 양
으로 취급함으로써 정보의 코드화와 전송을 연구한다. 위버가 올바르게 진술했듯이,
정보라는 낱말은 여러분이 정작 말하는 것과 관련되어 있다기보다는 여러분이 말할 수 있는 것과 관련
되어 있다. 통신의 수학적 이론은 정보 자체가 아니라 정보의 운반자들, 기호와 신호들을 다룬다. 즉,
정보는 여러분이 어떤 메시지를 선택할 때 갖게 되는 자유도에 대한 척도이다.
MTC는 잘 구성된 신호 열들로 코드화된 미해석 기호들로 이루어진 메시지들을 다룬다.
이것들은 의미론적 정보를 구성하지만 아직은 의미론적 정보가 아닌 데이터일 뿐이다.
그래서 MTC는 일반적으로 구문론적 층위에서의 정보에 관한 연구로 서술된다.
그리고 컴퓨터는 구문론적 장치이기 때문에 MTC가 정보통신 기술(ICT)에서 대단히 성공적으로 적용
될 수 있다.
pp. 43-5.
엔트로피와 무작위성
Entropy and randomness
섀넌의 의미에서 정보는 엔트로피로도 알려져 있다.
이 혼란스러운 표식은 20세기의 가장 뛰어난 과학자들 가운데 한 사람인 존 폰 노이만(John von
Neumann, 1903-1957)에서 기인된 듯 보이는데, 그는 섀넌에게 다음과 같이 그것을 추천했다.
두 가지 이유에서 그것을 엔트로피라고 불러야 합니다. 첫째, 그 함수는 이미 동일한 이름으로 열역학
에서 사용되고 있습니다.
둘째 그리고 더 중요하게도, 대부분의 사람들이 엔트로피가 정말 무엇인지 알지 못하고,
그래서 어떤 논증에서 엔트로피라는 낱말을 사용한다면 매번 승리할 것입니다.
불행하게도 두 가지 점 모두에서 폰 노이만이 옳은 것으로 판명되었다.
무소음 통신 채널이라는 이상적인 경우를 가정할 때 엔트로피는 세 가지 등가적인 양들의 척도이다.
(a) 정보 제공자에 의해 산출되는 기호당 평균 정보량, 또는
(b) 정보 제공자의 출력을 검사하기 전에 정보 수신자가 갖고 있는 상응하는 데이터 부족(섀넌 불확정성)
의 평균량, 또는
(c) 동일한 원천의 상응하는 정보적 잠재성, 즉 정보적 엔트로피(informational entropy).
어떤 특수한 알파벳을 선택함으로써 자동적으로 정보 제공자가 정보 전달자에 의해 다양한 정도로
충족(해소)될 수 있는 정보 수신자의 데이터 부족(불확정성)을 만들어내기 때문에 엔트로피는 동등
하게 (a) 또는 (b)를 가리킬 수 있다.
스무 고개 게임을 떠올리자. 단일한 공평한 동전을 사용하면, 나는 즉시 일 비트의 데이터 부족 상태에
처하게 되는데, 나는 동전이 앞면인지 뒷면인지 알지 못하고, 그래서 알아내기 위해 하나의 질문이
필요하다.
두 개의 공평한 동전을 사용하면 최소한 두 개의 질문이 필요하기 때문에 내 데이터 부족은 두 배가
되지만, 까마귀를 사용하면 내 데이터 부족은 영이 된다.
나의 빈 유리잔(위의 (b))은 그것을 채울 수 있는 여러분의 역량에 대한 정확한 척도(위의 (a))이다.
물론, 확률 분포를 특정할 수 있을 경우에만 정보를 엔트로피에 의해 수량화된 것으로 말하는 것이
의미가 있다.
(c)에 대해서 MTC는 정보를 질량이나 에너지 같은 하나의 물리적 양으로 간주하고, MTC에 의한 정보
분석과 엔트로피 개념에 대한 통계 역학의 형식적 표현 사이의 유사성은 이미 섀넌에 의해 논의되었다.
엔트로피에 관한 정보적 개념과 열역학적 개념은 확률과 무작위성이라는 개념들을 통해 서로 관련된다.
'무작위성'이 '무질서(disorder)'보다 더 나은데, 전자는 구문론적 개념인 반면에 후자는 강한 의미론적
가치를 지니고 있기 때문이다.
다시 말해서, 십 대일 때 내가 양친에게 설명하려고 노력하곤 했던 것처럼, 무질서라는 개념은 쉽게 해석
들과 관련된다.
엔트로피는 에너지 또는 정보를 품고 있는 과정과 체계들에 있어서 '뒤섞임'의 정도에 대한 척도이다.
또한 그것은 가역성의 표식으로 간주될 수 있는데, 엔트로피의 변화가 전혀 없다면 그 과정은 가역적
이다.
고도로 구조화된, 완전히 조직된 메시지는 더 낮은 정도의 엔트로피 또는 무작위성, 섀넌의 의미에서
더 낮은 정보를 포함하고, 그래서 그것은 영에 접근할 수 있는(까마귀를 떠올리자) 더 낮은 데이터 부족
을 초래한다.
이와는 대조적으로, 알파벳 기호들의 잠재적 무작위성이 더 높을수록, 장치에 의해 더욱 더 많은 비트의
정보가 산출될 수 있다.
엔트로피는 균일한 분포를 갖는 극단적인 경우에 최대값을 나타내는데, 말하자면, 얼음 한 덩이가 들어
있는 한 잔의 물이 얼음이 녹아버린 한 잔의 물보다 더 낮은 엔트로피를 포함하고, 편향된 동전이
공평한 동전보다 더 낮은 엔트로피를 갖는다.
열역학에서, 엔트로피가 더 클수록 가용 에너지는 더욱 더 작아진다.
이것은, 높은 엔트로피가 높은 에너지 부족에 대응하지만, MTC에서 엔트로피는 다음과 같다는 것을
의미한다. 엔트로피의 높은 값은 더 큰 양의 데이터 부족에 대응한다. 결국 폰 노이만이 옳았을 것이다.
정보에 관한 정량적 개념들에 대한 탐색은 끝났다.
MTC는 잘 구성된 데이터의 통신과 처리에 대한 수학적 접근 방식의 토대를 제공한다.
데이터가 유의미할 때, 그것들은 의미론적 내용을 구성한다.
의미론적 내용이 참이기도 할 때, 그것은 의미론적 정보로서의 자격을 갖게 된다.
이것이 이 책에서 논의되는 모든 개념들의 여왕이며 다음 장에서 그것에 전념한다.
루치아노 플로리디(Luciano Floridi), 정보: 매우 짧은 입문(Information: A Very Short Introduction),
pp. 45-7.