출처 : techholic
디지털 데이터가 급격하게 증가세를 보이면서 최근 주목받는 게 DNA를 저장장치로 이용해 데이터를 저장하려는 DNA 스토리지(DNA Storage)다. 인터넷에 존재하는 디지털 데이터는 빠르게 늘어나고 있다. 2020년이면 44조GB라는 상상도 못할 수준이 될 것으로 전망된다. 44조GB는 2013년까지 저장한 모든 디지털 데이터보다 10배에 달하는 수준이다. 이렇게 많은 데이터를 데이터센터에 저장하려면 비용이 늘어나게 된다. 이런 이유로 DNA 스토리지가 주목받는 것.
하드디스크와 플래시 메모리의 저장 기간은 10년 이상이지만 DNA는 100년이 넘는다. 또 전력 사용량과 기록 밀도에서도 DNA는 하드디스크나 플래시 메모리보다 뛰어나다. DNA는 뉴클레오티드(nucleotide)라는 물질을 결합할 수 있다. 뉴클레오티드는 염기와 당이 결합된 화합물 염기와 인산이 결합한 것이다. 이런 뉴클레오티드에 포함된 염기 서열 3개는 유전적 특징을 야기하기 때문에 DNA는 생명 설계도라고도 할 수 있다.
인간의 DNA는 사는 데 필요한 유전자 데이터를 탄생 순간부터 계속 저장을 계속하고 있다. 거대한 스토리지라고 할 수 있는 것. 이런 DNA를 과학적으로 합성해 대량 데이터를 저장하려는 연구가 최근 활발하게 진행되고 있는 것이다.
지난 2013년에는 유럽생물정보학연구소가 PDF와 MP3, JPEG, TEXT 등 파일 포맷 4가지로 저장한 데이터를 인코딩, DNA 배열해 저장하는 데 성공했다. 또 올해 4월에는 마이크로소프트가 DNA 스토리지를 연구 중인 트위스트 바이오사이언스(Twist Bioscience)라는 기업에 자금을 투자하기도 했다.
여기에서 궁금한 건 도대체 어떻게 데이터를 DNA에 저장하느냐다. 데이터를 DNA에 저장하려면 인코딩을 해야 한다. 하지만 인코딩 방법은 연구소마다 다르다. 유럽생물정보학연구소는 저장할 때 오류가 발생하기 쉬운 기존 방법 대신 새로운 인코딩 방법을 공개하기도 했다. 이 방식은 텍스트 데이터는 0과 1로 이뤄진 바이너리 코드로 변환하고 변환된 바이너리 코드를 0, 1, 2 3가지로 이뤄진 코드로 변환한다. 아미노산에 지원하는 염기 서열 3개에 맞춰 변환하는 것이다.
이런 0, 1, 2로 이뤄진 코드를 이용해 DNA 나선 구조를 구축하고 마지막으로 100 염기를 DNA 1개에 나선 구조로 몇 개 만들어 25, 50, 75 염기로 구분해 비교한다. 100 염기 DNA의 일부를 중복시켜서 저장해 오류를 발견, 복구할 수 있도록 하는 것이다.
유럽생물정보학연구소가 제안하는 방법을 이용하면 저장할 때 발생하는 오류를 특정하고 복구를 빠르게 할 수 있다. 문제는 인코딩 속도다. 특수 알고리즘을 이용하는 탓에 하드디스크에 몇 초면 저장할 수 있는 데이터라도 DNA에 저장하려면 몇 시간이 걸릴 수 있다. 따라서 DNA를 스토리지로 사용하려면 아직까지 많은 과제가 남은 셈이다. 하지만 유럽생물정보학연구소 측은 데이터 저장과 관련한 새로운 기술이 매년 1∼2개씩 등장하고 있는 만큼 좀더 기다리면 속도 문제도 해결할 수 있을 것으로 기대되고 있다.
http://www.nature.com/news/how-dna-could-store-all-the-world-s-data-1.20496