영원불멸의 자료를 찾아서
[온라인 중앙일보]입력 2015.08.15 00:01
영원불멸의 자료를 찾아서
[뉴스위크]
빈트 서프는 때로 ‘인터넷의 아버지’라 불린다. TCP/IP(인터넷을 위한 통신 규약) 개발에 일조했으며 차후 국제인터넷주소관리기구의 회장이 됐다. 그런 그가 오늘날엔 디지털 암흑 시대를 우려한다. “사람들은 사진이나 지도 같은 것들을 디지털로 만들면 영원히 보존되리라고 생각한다”고 서프는 말했다. “디지털 자료를 구성하는 비트를 읽을 수 있다는 전제조건 하에서만 가능한 일이다.”
[사진 중앙포토DB]
파일을 USB에 저장한다고 해보자. 몇 년 지나면 여러분의 컴퓨터는 그 파일을 어떻게 읽어들이는지 모를 수도 있다. 그 USB 장치를 만든 회사는 영업을 중단하고, 개발자들은 다른 회사로 옮겼거나 죽은 지 오래일지도 모른다. 세계 최고의 우수한 기관에서도 그런 일이 벌어진다. 1975년 미 항공우주국(NASA)은 화성탐사선 바이킹1·2호를 발사했다. NASA 산하 제트추진연구소는 그 두 탐사선의 활동을 당시 최신 기술이던 자기 테이프에 기록했다. 그로부터 10년이 지나자 NASA의 직원 누구도 그 자기 테이프 내용을 불러올 방법을 몰랐다. 그 결과 바이킹1·2호 활동 자료의 20%가 완전 소실됐다.
이 일화는 기술이 약속하는 것들을 의심하라는 교훈을 준다. 구글 드라이브나 드롭박스 같은 서비스들은 이용자의 모든 데이터를 클라우드 저장소에 저장한다. 자못 신비한 소리처럼 들리지만 사실은 여러분의 자료가 구글의 수많은 서버들 가운데 하나에 저장된다는 뜻이다. 만약 USB가 지구상에서 사라지거나 실수로 컴퓨터에 커피를 쏟는다고 해도 구글 드라이브에 접속할 수 있다면 데이터를 불러올 수 있다.
굉장히 안전해 보이지만 그게 영원하다는 보장은 없다. 구글이 영업을 중단하면서 서버를 다른 누군가에게 팔아버리고, 서버를 사들인 사람이 데이터를 모두 삭제하기로 결정할 수도 있다. 만약 구글 드라이브가 중단된다면 운영 업체는 고객에게 데이터를 다른 곳으로 옮기도록 시간을 줄 것이다. 만약 여러분이 그 기간 동안 처리하지 못한다면 어떻게 될까? 그뿐만이 아니다. 여러분이 사망한다고 생각해 보라. 비밀번호로 보호된 여러분의 사진과 파일들은 잊힐 가능성이 크다. 당신이 죽은 뒤에 그 걸 열어볼 사람이 누가 있겠는가?
한마디로 정리하자면 디지털 장비는 찰흙이나 종이에 비해 지속성이 떨어진다는 얘기다. 하드 드라이브, 플래시 드라이브, 플로피 디스크, 시디롬은 모두 수명이 아주 짧다. 서버는 약 5년마다 한 번씩 교체해야 한다. 너무 오래 내버려두면 저장된 데이터는 점차 손실돼 아예 불러올 수 없게 된다. 그 손실 속도는 아날로그 매체보다 훨씬 빠르다.
여러 기관이 데이터 손실이 없는 저장매체 개발에 착수하는 이유다.
사우스햄튼대학 피터 카잔스키와 동료들은
석영유리를 소재로 무한한 저장매체를 개발하고 있다.
카잔스키는 석영을 변형해 만든
석영유리가 “세상에서 가장 안정된 물질”이라고 말한다.
일상적인 조건 하에 이물질은 데이터를 수십억 년 동안 보관할 수 있다.
석영유리는 비싸다. 고작 13㎝ 크기의 석영유리 디스크 가격이 약 500달러다. 이 디스크에 데이터를 기록할 때 사용되는 초고속 레이저 역시 10만 달러나 되는 고가다. 카잔스키는 개발 중인 제품 가격이 상업용 제품 수준으로 떨어지기를 바란다. 그의 말에 따르면 가격은 “대량 생산 시에 10분의 1에서 최대 100분의 1까지 낮아질 수 있다.”
카잔스키는 자신의 발명품이 “국립 자료실, 박물관, 도서관”이나 소장 자료가 많은 사기업에서 이용되길 기대한다. “기업들은 자료를 5년에서 10년마다 한 번씩 백업해야 한다. 하드 드라이브의 수명은 비교적 짧기 때문이다.” 카잔스키 팀이 최근 석영유리에 기록한 성경과 비교해보라. 카잔스키는 그 기록이 “인류가 멸망할 때까지 보존될 것”이라고 예측했다. 일본 히타치도 유리에 디지털 자료를 기록하는 독자적 기술 개발을 시작했다. 히타치 대변인은 자사 제품이 1억 년 동안 데이터를 보존한다고 말했다.
사우스햄턴대학과 히타치가 동시에 겪는 문제는 바로 저장 용량이다. 이들이 개발하는 매커니즘으로는 가로세로 2.5㎝당 40MB의 저장 용량이 구현된다. 같은 면적에 최대 35MB밖에 저장하지 못하는 CD보다는 낫지만, 테라바이트 단위로 저장이 가능한 하드디스크만큼 훌륭하진 못하다.
이 문제를 해결할 실마리 하나는 우리 몸 속에 있다. 우리의 DNA는 크게 확대해서 보면 아데닌, 구아닌, 티민, 시토신의 네 가지 분자로 구성된 이중나선 구조다. 흥미롭게도 이 네 분자를 언어를 표현하는 형태로 재배열할 수 있다. 영어든 중국어든 관계 없다. 심지어 파이선이나 스위프트 같은 프로그래밍 언어나 점과 선으로 구성된 모스 부호로도 가능하다.
이처럼 DNA는 아주 밀도 높은 부호 집합이기 때문에 그 어떤 전통적인 저장 매체보다 우수하다. 1g 당 700TB를 저장할 수 있다. 바이오 아티스트 조 데이비스는 최근 합성생물학 기술을 활용해 위키피디아 내용 전체를 DNA로 부호화해 사과 하나에 이식했다. DNA 부호화 기술을 개발한 화학자 조지 처치는 자신의 저서 ‘리제네시스(Regenesis)’ 700억 권을 이 문장 마지막에 찍힌 마침표 하나보다 작은 합성DNA 한 방울에 저장했다. 조건만 갖춰진다면 이 책들은 70만 년 동안 보존되리라고 처치는 말했다. 최초로 인쇄된 서적인 구텐베르크 성경이 고작 560년 전에 출판됐음을 생각해보면 어마어마한 기간이다.
아직까지 실용화 과정은 너무 느리다. 현재의 DNA시퀀싱 기술로는 기껏해야 하루에 12.5GB 분량밖에 읽지 못한다. 영화 16시간 분량이다. 많다고 생각할지도 모르지만 컴퓨터로 영화 한 편을 다운로드받는 시간을 생각해보면 그렇지도 않다. 게다가 DNA로 부호화된 데이터를 읽고 쓰려면 복잡한 기계들이 필요하다. 이런 설비를 갖춘 곳은 극소수 연구실밖에 없다. NASA의 자기 테이프와 같은 이유로 소실될 수 있는 조건이다.
데이터보존을 연구하는 비영리기구 롱나우는 우리의 정보들이 디지털 묵시록을 극복할 해결책을 가지고 있을지도 모른다. 어쩌면 생존자들이 문명을 재구축하게 도울 수도 있다. 로제타는 1만3000쪽 분량의 언어 정보가 레이저로 새겨진 7.5㎝ 니켈 디스크다. 저장된 정보 대부분은 같은 내용을 서로 다른 언어로 표현한 텍스트다. 예를 들면 로제타엔 창세기 1~3장의 내용이 1만5000개 언어로 기록돼 있다. “우리는 종교 집단이 아니다”고 로제타의 큐레이터 로라 웰처는 말했다. 그들은 가능한 한 다양한 언어로 기록된 글을 필요로 했다. 미래 세대를 위해 아주 광범위한 번역 지침을 만들기 위해서다. 웰처는 “성경 번역에 종사하는 선교사들이 세계 곳곳에 있다”고 말했다. 로제타의 나머지 부분엔 “문명을 유지하거나 재구성하는 데 필수적인 책 3500권이 새겨져 있다.”
현재 이 프로젝트의 각 장은 400미크론 규모다. 머리카락 다섯 개 굵기의 넓이에 해당한다. 작은 듯하지만 DNA에 비하면 거대하다. 우리가 지난 수백 년 간 사용했던 보통 광학현미경으로 읽을 수 있다. 웰처는 “정보를 지금보다 훨씬 더 밀집시켜서 새겨넣을 수도 있었다”고 설명했다. “읽으려면 전자현미경이 필요할 정도로 작게 말이다. 그러나 인류가 그 정도 수준까지 사물을 확대해 보려면 많은 시간이 걸린다.” 다시 말해 설령 지구종말이 오더라도 인류는 로제타를 읽을 수 있다는 의미다
‘이 디스크를 불러올 수 없습니다’ 같은 디지털 ‘암흑’ 역시 롱나우가 해결책을 모색하는 분야 중 하나다. 롱나우는 이를 위해 파일 변환 데이터베이스 롱서버를 개발 중이다. 롱서버 파일 변환기를 이용하면 낡은 PCX 파일들을 JPG 파일로 변환할 수 있다.
서프는 여기서 한 단계 더 나아가고자 한다. 그는 ‘디지털 양피지’ 개발을 제안했다. 디지털 파일을 그 파일을 읽어들이는 데 필요한 코드와 함께 압축·저장하는 기술이다. 만약 여러분이 OS X 10.8.5를 운영체제로 사용하는 애플 컴퓨터에서 마이크로소프트 워드로 문서를 하나 작성하고 이를 디지털 양피지에 저장했다고 해보자. 100년 뒤 여러분이 어떤 기계를 이용하든 이 파일엔 그 기계가 해독에 필요로 하는 모든 정보가 담겨 있다. 그 기계는 여러분이 문서를 작성할 때 사용했던 OS X 10.8.5 운영체제와 마이크로소프트 워드 프로그램을 재구축해 100년 전과 똑같은 형태로 문서를 읽어들일 것이다.
만약 맥 컴퓨터를 이용하면서 부트캠프 같은 프로그램으로 윈도우즈 운영체제를 띄워본 경험이 있다면, 디지털 양피지도 그와 비슷한 시스템이라고 이해하면 된다. 현존하는 타 OS 대신 100년 전의 운영체제를 에뮬레이트하는 셈이다.
한 가지는 확실하다. 성공하려면 빨리 시작해야 한다. 디지털화로 인해 우리는 막대한 양의 데이터를 쏟아내는 환경을 만들어냈다. IBM에 따르면 인간이 만들어낸 데이터의 90%는 지난 2년 간 만들어졌다. 그 정보의 극히 일부만이라도 안전하게 보호한다면 우리는 인류 사상 가장 풍부한 사료를 확보할 수 있다. 반대로 약간이라도 보존에 실패한다면 역사상 가장 혁신적인 시대의 기록은 영영 사라질 것이다.