과학·공학 10가지 도전적 질문 ⑥
생명체의 적응 면역계를 이해하는 AI를 만들 수 있을까?
서울대총동창신문 제552호(2024.03.15)
서울대 국가미래전략원의 ‘과학과 기술의 미래 클러스터’(클러스터장 이정동)에서
최근 ‘그랜드 퀘스트 2024’(포르체)를 펴냈습니다.
이정동 클러스터장은 “도전적 질문 (Grand Quest)이 진정한 혁신의 출발점”이라고 말합니다.
10개의 도전적 질문을 통해 최신 과학∙공학의 이슈도 살펴볼 수 있습니다.
서울대총동창신문에서 10회에 걸쳐 그 내용을 전합니다. -편집자 주
Grand Quests 연재 순서 1. 집적회로기반 양자컴퓨팅 2. 프라이버시 기반 인공지능 3. 효소모방 촉매 4. 추론하는 인공지능 5. 체화 인지구조 인공지능 6. 인공지능 기반 항체설계 7. 노화의 과학 8. 초미세/초저전력 반도체 9. 환경적응적 로봇 10. 초경량 배터리 |
구글 딥마인드의 인공지능(AI) ‘알파폴드2’가 예측한 단백질 구조의 모습. 딥마인드 제공
윤태영 (전기공학94-98) 모교 생명과학부 교수
백민경 (화학09-13) 모교 생명과학부 교수
인류는 아직 적응 면역계의 메커니즘을 정확히 이해하지 못하고 있다.
이 메커니즘을 완전히 이해한다면, 수많은 질병에 대해 맞춤형 신약을 만들 수 있다.
획기적인 규모의 항체 데이터베이스를 구축하고, 이를 학습하는 인공지능 알고리즘을 만들 수 있을까?
이를 통해 인간의 적응 면역계 작동 메커니즘을 새롭게 해석하는 것이 가능할까?
생명과학은 물리학이나 화학과 달리 보편적인 법칙을 찾아 수식으로 표현하기 굉장히 어렵다. 개인의 편차나 환경에 따라 세포의 반응이 상당히 달라지기 때문이다. 그렇기에 그동안의 생명과학은 정량적 모델링이 아니라 주로 정성적인 이해 위주로 연구되어 왔으며, 생명현상을 정량적으로 이해하지 못했기 때문에 생명현상에 대한 예측과 설계도 어려웠다. 그러나 많은 데이터를 조합하여 추론하는 AI의 역량이 빠르게 발전하고, 생명과학 연구에 본격적으로 적용되면서 새로운 돌파구가 나타나기 시작했다.
최근의 사례로, 지난 50여 년간 해결되지 않았던 주어진 단백질 서열로부터 3차원 구조를 예측하는 단백질 구조 접힘 난제를 AI가 해결한 바 있다. 2020년, 수십 년간 쌓여온 단백질 구조에 관한 실험 데이터와 단백질의 진화 정보를 기반으로 구글의 딥마인드와 미국 워싱턴대학교가 각각 알파 폴드(AlphaFold)와 로제타 폴드 (RoseTTAFold)라는 단백질 구조 예측 AI를 개발하면서 단백질 구조 접힘 난제를 해결한 것이다.
단백질 구조 접힘 난제가 해결된 지금, 연구자들의 관심은 단백질 구조를 예측할 수 있는 AI를 넘어 바이러스 단백질이나 외부 침입 물질 등 여러가지 항원에 대한 항체를 설계하는 AI 개발로 옮겨가고 있다. 그러나 기존의 단백질 구조 예측 AI들은 모두 진화 (유전) 정보를 기반으로 하며, 항체로 대표되는 적응 면역은 후천적으로 획득되는 것이라 유전되지 않는다.
따라서 기존의 단백질 구조 예측 AI 로는 생명체의 후천적인 적응 면역계를 이해할 수 없다는 것이 해결되지 않고 있는 난제라 할 수 있다. 즉, 항체로 대표되는 적응 면역계가 면역 반응을 통해 우리 몸을 지켜내는 메커니즘을 정량적으로 이해하고, 이를 기반으로 주어진 항원에 대한 항체를 설계하는 난제를 해결하는 AI 개발이 필요하다.
특정 항원에 대한 항체는 후천적으로 획득하는 비유전 물질이라 항원과 항체 결합에 대한 진화 정보가 존재하지 않는다. 현재까지 개발된 단백질 구조 예측 AI들은 모두 진화 정보로부터 구조에 대한 패턴을 찾아 이를 바탕으로 단백질의 구조를 예측한다. 따라서 진화 정보를 찾을 수 없는 항원-항체 결합에 대해서는 예측이 거의 불가능하다. 알파 폴드, 로제타 폴드와 같은 기존 단백질 구조 예측 AI들은 진화 정보가 없는 경우의 문제는 풀 수 없기 때문에 항체 설계에 큰 도움이 되지 않는다.
이에 더하여 기존의 알파 폴드와 로제타 폴드는 상대적으로 열적 요동에 흔들리지 않는 단단한 구조, 즉 알파 나선 구조와 베타 병풍 구조를 기반으로 하는 결합에 대해서는 예측을 잘하지만, 고리 구조(loop)와 같이 구조 유연성이 높아 결합과정에서 그 구조가 많이 바뀔 수 있는 경우에는 예측 성능이 급격히 떨어진다. 항체의 경우, 항원과의 결합을 바로 이 고리 구조를 위 주로 형성하기 때문에 알파 폴드나 로제타 폴드를 활용한 예측은 더욱 어렵다.
더욱이, 항원-항체 결합 예측이 가능한 인공지능을 만들기 위해서는 항원-항체 결합에 대한 빅데이터가 필요하지만, 항체 신약 개발과 연관된 복잡한 이해관계 때문에 AI 학습에 필요한 공개된 데이터가 아주 제한적이다. 이러한 공개 데이터 부족 문제와 인공지능 학습을 위한 컴퓨터 자원 부족 문제는 난제의 해결을 더욱 어렵게 하고 있다.
이 난제를 해결하기 위하여, 크게 두 가지 접근법이 시도되고 있다. 첫 번째는 기존 단백질 구조 예측 AI에 현재까지 실험을 통해 밝혀진 항체 구조와 항원-항체 결합구조 데이터를 적용하여 추가 학습을 시키는 방향이다. 하지만 적용 가능한 구조 데이터가 수천 개에 지나지 않아 AI로 학습하기엔 턱없이 부족하여 이 접근법으로는 성능 향상이 굉장히 제한적이다. 두 번째 접근 법은 특정 항원에 대해 반응하는 항체를 스크리닝(screening) 하여 항원-항체 상호작용 데이터를 확보하고 이를 기반으로 특정 항원에 더욱 잘 결합하는 항체를 설계하는 AI를 개발하는 방식이다. 이러한 방식은 구조 데이터 부족의 문제는 해결할 수 있지만, 학습에 활용된 특정 항원에 대해서만 항체 결합 예측이 가능하다는 단점이 있다.
항원-항체 결합 구조 예측 난제를 해결하는 가장 직접적이고 효과적인 방법은 항원-항체 결합 구조 실험 데이터를 수십만 개까지 늘리는 것이지만 이는 20년 이상의 시간이 소요될 수 있어 실효성이 떨어진다. 대안으로 최대한 다양한 항원에 대하여 항체의 서열이 변함에 따라 항원과의 결합 관계가 변화하는 것을 정량적으로 관측한 데이터를 AI 학습에 활용하는 초고속 항원-항체 결합 스크리닝 기술이 있다. 이는 결합 구조를 모르더라도 구조로 인한 현상들을 최대한 정량적 데이터로 관찰하여 AI로 구조를 추론하는 접근법이다. 이러한 AI를 만들기 위해서는 데이터 사이언스, 생물학, 물리 화학 등 다양한 분야의 지식이 필요하다.
이렇게 개발된 AI는 정량적인 해석이 가능하여 항체를 기반으로 하는 면역체계에 대한 예측과 설계를 가능하게 할 것이며, 항체 신약과 백신 설계, 면역 항암제, 세포 치료제 등으로 확장 될 수 있어 파급력이 엄청날 것으로 기대된다. 또한, 이중 항체처럼 복잡하고 개발이 어려운 항체 치료제를 설계하는 기본적인 플랫폼이 될 것으로 기대된다. 더욱이 한국 바이오 기업들의 항체 생산능력과 결합된다면 항체 치료제 분야의 새로운 길을 열 수 있을 것으로 기대된다.
항원-항체 결합 예측과 비슷하게 데이터 부족 문제로 어려움을 겪고 있는 단백질-핵산 결합 예측에 대하여서도 추가적인 상호작용 데이터를 활용하는 것이 AI 성능 향상에 도움이 된다는 것이 확인된 바 있다. 정제 없이 미량의 항체만으로도 정량적으로 항원-항체 결합을 기존 대비 20~30배 빠르게 관측할 수 있는 본 연구팀의 기술을 활용하면 해당 난제 해결에 큰 도움이 될 것으로 기대된다.