|
인간 세포에서 가장 큰 분자 기계인 인간 핵공 복합체의 하향식 보기. 크레딧: Agnieszka Obarska-Kosinska
10년 이상 동안 분자 생물학자인 Martin Beck과 그의 동료들은 세계에서 가장 어려운 직소 퍼즐 중 하나인 인간 세포에서 가장 큰 분자 기계의 상세한 모델을 함께 맞추려고 노력해 왔습니다.
핵공 복합체(nuclear pore complex)라고 불리는 이 거대괴수는 게놈이 있는 세포의 핵 안팎으로 분자의 흐름을 제어합니다. 수백 개의 이러한 복합체가 모든 세포에 존재합니다. 각각은 핵막을 통해 구멍 주위에 고리를 형성하는 1,000개 이상의 단백질로 구성됩니다.
이 1,000개의 퍼즐 조각은 무수히 많은 방식으로 얽혀 있는 30개 이상의 단백질 빌딩 블록에서 추출됩니다. 퍼즐을 더욱 어렵게 만드는 실험적으로 결정된 이 빌딩 블록의 3D 모양은 많은 종에서 수집된 구조의 포푸리이므로 항상 잘 맞물리는 것은 아닙니다. 그리고 퍼즐 상자의 그림(핵공 복합체의 저해상도 3D 보기)에는 얼마나 많은 조각이 함께 정확히 맞는지 알기에 충분한 세부 정보가 부족합니다.
2016년 독일 프랑크푸르트에 있는 막스플랑크 생물물리학 연구소(Max Planck Institute of Biophysics, MPIB)에 기반을 둔 Beck이 이끄는 팀은 핵공 복합체의 약 30%와 30개 빌딩 블록의 약 절반을 덮는 모델 1 을 보고했습니다. Nup 단백질이라고 합니다.
그런 다음 지난 7월 Google의 모회사인 Alphabet의 일부인 런던에 기반을 둔 DeepMind 는 AlphaFold 2 라는 인공 지능(AI) 도구를 공개했습니다 . 소프트웨어는 대부분의 경우 정확한 정확도로 유전자 서열에서 단백질의 3D 모양을 예측할 수 있습니다. 이것은 Beck의 작업과 수천 명의 다른 생물학자들의 연구를 변화시켰습니다('AlphaFold 매니아' 참조).
"AlphaFold는 게임을 변화시킵니다."라고 Beck은 말합니다. “이것은 지진과 같습니다. 어디에서나 볼 수 있습니다.”라고 AlphaFold를 사용하여 단백질 상호 작용을 모델링하고 있는 이스라엘 예루살렘 히브리 대학교의 컴퓨터 구조 생물학자인 Ora Schueler-Furman은 말합니다. "7월 전과 후가 있다."
MPIB의 AlphaFold, Beck 등(분자 생물학자인 Agnieszka Obarska-Kosinska와 생화학자 Gerhard Hummer가 이끄는 그룹)과 독일 함부르크의 유럽 분자 생물학 연구소(EMBL)에서 구조 모델러 Jan Kosinski가 이끄는 팀 사용 , Nup 단백질의 인간 버전에 대한 모양을 더 정확하게 예측할 수 있습니다. 그리고 AlphaFold가 단백질이 상호 작용하는 방식을 모델링하는 데 도움이 되는 조정을 활용하여 그들은 복잡한 3 의 60%를 다루는 모델을 지난 10월에 게시할 수 있었습니다 . 그것은 복합체가 어떻게 핵의 구멍을 안정화하는지 보여주고 복합체가 들어오고 나가는 것을 어떻게 제어하는지 암시합니다.
DeepMind의 AI는 방대한 단백질의 구조를 예측합니다.
지난 반년 동안 AlphaFold 열풍은 생명 과학을 사로 잡았습니다. University College London의 컴퓨터 생물학자인 Christine Orengo는 “내가 참석하는 모든 회의에서 사람들은 'AlphaFold를 사용하지 않는 이유는 무엇입니까?'라고 말합니다.
어떤 경우에는 AI가 과학자들의 시간을 절약했습니다. 다른 사람들에게는 이전에는 상상할 수 없었거나 매우 비실용적이었던 연구를 가능하게 했습니다. 그것은 한계가 있으며 일부 과학자들은 그 예측이 그들의 작업에 비해 너무 신뢰할 수 없다는 것을 발견하고 있습니다. 그러나 실험의 속도는 열광적입니다.
소프트웨어를 개발한 사람들조차도 약물 발견 및 단백질 설계에서 복잡한 생명의 기원에 이르기까지 다양한 영역에서 소프트웨어 사용을 따라잡기 위해 고군분투하고 있습니다. DeepMind에서 AlphaFold 팀을 이끄는 John Jumper는 "일어나서 Twitter에 AlphaFold를 입력합니다."라고 말합니다. “모든 것을 보는 것은 꽤 경험입니다.”
놀라운 성공
AlphaFold는 2020년 12월 CASP(Critical Assessment of Protein Structure Prediction)라는 대회에서 우승하면서 센세이션을 일으켰습니다. 2년마다 열리는 이 대회는 생물학의 가장 큰 도전 중 하나인 아미노산 서열만으로 단백질의 3D 모양을 결정하는 과정에서 진행 상황을 측정합니다. 컴퓨터 소프트웨어 항목은 X선 결정학 또는 극저온 전자 현미경(cryo-EM)과 같은 실험 방법을 사용하여 결정된 동일한 단백질의 구조를 기준으로 판단합니다. 모양.
AlphaFold의 2020 버전은 소프트웨어의 두 번째 버전이었습니다. 또한 2018 CASP 에서 우승했지만 초기의 노력은 대부분 실험적으로 결정된 구조를 지지하기에 충분하지 않았다고 Jumper는 말합니다. 그러나 AlphaFold2의 예측은 평균적으로 경험적 구조와 동등했습니다.
DeepMind가 언제 소프트웨어 또는 그 예측을 널리 사용할 수 있게 만들지 명확하지 않았기 때문에 연구원들은 Jumper의 공개 강연 정보와 자체 통찰력을 사용하여 RoseTTAFold 라는 자체 AI 도구를 개발했습니다 .
그런 다음 2021년 7월 15일에 RoseTTAFold 및 AlphaFold2를 설명하는 문서 가 무료로 사용 가능한 오픈 소스 코드 및 전문가가 자체 버전의 도구를 실행하는 데 필요한 기타 정보와 함께 2 , 4 로 나타났습니다. 일주일 후, DeepMind 는 AlphaFold를 사용하여 인간이 만든 거의 모든 단백질의 구조 와 365,000개 이상의 마우스 및 대장균 과 같이 널리 연구된 다른 20개 유기체의 전체 '프로테옴' 을 예측했다고 발표했습니다. 전체 구조('프로테옴에 대해 알려진 것' 참조). DeepMind는 또한 이를 EMBL의 European Bioinformatics Institute에서 유지 관리하는 데이터베이스 에 공개적으로 발표했습니다.(EMBL–EBI), 영국 Hinxton에 있습니다. 그 데이터베이스는 이후 거의 백만 구조로 팽창했습니다.
출처: E. Porta-Pardo et al. 플로스컴퓨팅. 바이올. 18 , e1009818(2022).
올해 DeepMind는 총 1억 개 이상의 구조 예측을 발표할 계획입니다. 이는 알려진 모든 단백질의 거의 절반이며 PDB(Protein Data Bank) 구조 저장소에서 실험적으로 결정된 단백질의 수보다 수백 배 많습니다.
AlphaFold는 데이터의 패턴을 식별하기 위해 뇌의 신경 배선에서 영감을 받은 컴퓨팅 아키텍처인 딥 러닝 신경망을 배포합니다. PDB 및 기타 데이터베이스에서 실험적으로 결정된 수십만 개의 단백질 구조 및 서열에 대해 훈련되었습니다. 새로운 서열에 직면했을 때, 그것은 먼저 함께 진화하는 경향이 있는 아미노산을 식별할 수 있는 데이터베이스에서 관련 서열을 찾아 3D 공간에서 가깝다는 것을 암시합니다. 기존 관련 단백질의 구조는 새로운 서열에서 아미노산 쌍 사이의 거리를 추정하는 또 다른 방법을 제공합니다.
AlphaFold는 아미노산의 3D 위치를 모델링하려고 할 때 이러한 병렬 트랙의 단서를 앞뒤로 반복하여 추정치를 지속적으로 업데이트합니다. 전문가들은 기계 학습 연구에서 새로운 아이디어를 소프트웨어에 적용한 것이 AlphaFold를 매우 훌륭하게 만드는 것 같다고 말합니다. 특히 '주의'라는 AI 메커니즘을 사용하여 어떤 아미노산 연결이 작업에 가장 중요한지 결정하는 것입니다. .
딥마인드의 단백질 구조 AI가 대중화된다
관련 단백질 서열에 대한 정보에 대한 네트워크의 의존도는 AlphaFold에 몇 가지 제한이 있음을 의미합니다. 질병을 유발하는 돌연변이와 같은 돌연변이가 단백질의 형태에 미치는 영향을 예측하도록 설계되지 않았습니다. 또한 다른 상호작용 단백질이나 약물과 같은 분자가 있을 때 단백질의 모양이 어떻게 변하는지 결정하도록 훈련되지도 않았습니다. 그러나 그 모델은 단백질의 각 아미노산 단위에 대한 예측에 대한 네트워크의 신뢰도를 측정하는 점수와 함께 제공되며 연구자들은 기능을 확장하기 위해 AlphaFold의 코드를 수정하고 있습니다.
DeepMind에 따르면 지금까지 400,000명 이상이 EMBL-EBI의 AlphaFold 데이터베이스를 사용했습니다. AlphaFold '고급 사용자'도 있습니다. 자체 서버에 소프트웨어를 설정했거나 AlphaFold의 클라우드 기반 버전으로 전환하여 EMBL-EBI 데이터베이스에 없는 구조를 예측하거나 도구의 새로운 용도를 꿈꾸는 연구원입니다. .
구조 풀기
생물학자들은 구조를 해결하는 AlphaFold의 능력에 이미 깊은 인상을 받았습니다. 덴마크 오르후스 대학의 구조 생물학자인 Thomas Boesen은 "지금까지 내가 본 것을 바탕으로 나는 AlphaFold를 상당히 신뢰합니다."라고 말했습니다. 이 소프트웨어는 Boesen의 센터가 결정했지만 아직 발표되지 않은 단백질의 모양을 성공적으로 예측했습니다. "그것은 제 입장에서 큰 검증입니다."라고 그는 말합니다. 그와 오르후스의 미생물 생태학자 Tina Šantl-Temkiv는 AlphaFold를 사용하여 얼음 형성을 촉진하고 구름 속 얼음의 냉각 효과에 기여할 수 있는 박테리아 단백질의 구조를 모델링하고 있습니다. 실험적으로 구조 5 .
스톡홀름 대학의 단백질 생물정보학자인 Arne Elofsson은 단백질이 하나의 잘 정의된 3D 모양으로 휘어지는 한(모두가 그런 것은 아니지만) AlphaFold의 예측은 이기기 어려울 수 있다고 말합니다. "당신이 얻을 수 있는 최고의 모델을 얻을 수 있는 원클릭 솔루션입니다."
AlphaFold가 덜 자신 있는 경우 Elofsson은 "작동하지 않을 때 알려주는 것이 매우 좋습니다"라고 말합니다. 이러한 경우 예측된 구조는 떠다니는 스파게티 가닥과 유사할 수 있습니다('좋은 것, 나쁜 것, 못생긴 것' 참조). 이것은 종종 최소한 격리된 형태로 정의된 모양이 없는 단백질 영역에 해당합니다. 인간 프로테옴의 약 1/3을 구성하는 이러한 본질적으로 무질서한 영역은 신호 전달 파트너와 같은 다른 분자가 존재할 때만 잘 정의될 수 있습니다.
이미지: JM Thornton et al. 네이처메드. 27 , 1666-1669 (2021).
런던 암 연구소의 컴퓨터 생물학자인 Norman Davey는 장애를 식별하는 AlphaFold의 능력이 이 영역의 특성을 연구하는 그의 작업에서 게임 체인저가 되었다고 말했습니다. "우리 측의 노력 없이 즉시 예측의 품질이 크게 향상되었습니다."라고 그는 말합니다.
AlphaFold의 EMBL-EBI 데이터베이스에 단백질 구조 덤프도 즉시 사용됩니다. Orengo의 팀은 실험적으로 확인하지 않고 새로운 종류의 단백질을 식별하기 위해 단백질을 찾고 있으며 수백, 아마도 수천 개의 잠재적으로 새로운 단백질 패밀리를 발견하여 단백질이 어떻게 생겼고 할 수 있는지에 대한 과학자의 지식을 확장했습니다. 또 다른 노력으로 팀은 새로운 플라스틱을 먹는 효소를 식별하기 위해 바다와 폐수에서 수확한 DNA 염기서열 데이터베이스를 조사하고 있습니다. AlphaFold를 사용하여 수천 개의 단백질 구조를 빠르게 근사화함으로써 연구자들은 효소가 플라스틱을 분해하고 잠재적으로 개선하기 위해 어떻게 진화했는지 더 잘 이해하기를 희망합니다.
모든 단백질 코딩 유전자 서열을 신뢰할 수 있는 구조로 변형시키는 능력은 진화 연구에 특히 강력해야 한다고 매사추세츠주 캠브리지에 있는 하버드 대학의 진화 생물학자인 Sergey Ovchinnikov는 말합니다. 연구자들은 유전자 서열을 비교하여 유기체와 그 유전자가 종에 걸쳐 어떻게 관련되어 있는지를 결정합니다. 멀리 떨어진 관련 유전자의 경우, 서열이 너무 많이 변경되었기 때문에 비교 결과 진화적 친척이 밝혀지지 않을 수 있습니다. 그러나 유전자 서열보다 덜 빠르게 변화하는 경향이 있는 단백질 구조를 비교함으로써 연구자들은 간과된 고대 관계를 밝혀낼 수 있을 것입니다. "이것은 단백질의 진화와 생명의 기원을 연구할 수 있는 놀라운 기회를 열어줍니다."라고 취리히에 있는 스위스 연방 공과 대학의 컴퓨터 생물학자인 Pedro Beltrao는 말합니다.
이 아이디어를 테스트하기 위해 서울대학교의 전산생물학자인 Martin Steinegger와 그의 동료들이 이끄는 팀은 그들이 개발한 도구인 Foldseek를 사용하여 SARS-CoV-2의 RNA 복제 효소의 친척을 찾았습니다. COVID-19를 일으키는 바이러스 — EMBL-EBI의 AlphaFold 데이터베이스 6 . 이 검색은 이전에 확인되지 않은 고대 친척으로 밝혀졌습니다. 진핵생물의 단백질(점액곰팡이 포함)은 유전적 유사성이 거의 없음에도 불구하고 HIV와 같은 바이러스가 RNA를 DNA로 복사하는 데 사용하는 역전사효소라는 효소와 3D 구조가 유사합니다. 시퀀스 수준.
실험 조수
특정 단백질의 상세한 구조를 결정하고자 하는 과학자들에게 AlphaFold 예측이 반드시 즉각적인 해결책은 아닙니다. 오히려 실험을 통해 검증하거나 정제할 수 있는 초기 근사치를 제공하며, 그 자체로 실험 데이터를 이해하는 데 도움이 됩니다. 예를 들어 X선 결정학의 원시 데이터는 회절된 X선 패턴으로 나타납니다. 일반적으로 과학자들은 이러한 패턴을 해석하기 위해 단백질 구조에 대한 초기 추측이 필요합니다. 이전에는 PDB에서 관련 단백질의 정보를 조합하거나 실험적 접근 방식을 사용하는 경우가 많았다고 영국 케임브리지 대학의 구조 생물학자인 Randy Read가 말했습니다. 이제 AlphaFold의 예측은 이러한 접근 방식을 대부분의 X선 패턴에 불필요하게 만들었다고 Read는 말합니다. 그의 연구실은 실험 모델에서 AlphaFold를 더 잘 활용하기 위해 노력하고 있습니다. "우리는 연구에 완전히 다시 집중했습니다."
인공 지능이 단백질 접힘 예측을 강화합니다.
그와 다른 연구원들은 적절한 시작 모델 없이는 해석할 수 없는 X선 데이터에서 결정 구조를 결정하기 위해 AlphaFold를 사용했습니다. Read의 연구실에서 박사 후 연구원으로 일했으며 현재 Cambridge에 있는 분석 회사 SciBite에서 근무하고 있는 Claudia Millán Nebot은 "사람들은 수년 동안 해결되지 않은 구조를 해결하고 있습니다."라고 말합니다. 그녀는 대부분 AlphaFold의 결과로 PDB에 제출된 새로운 단백질 구조의 과잉을 볼 것으로 예상합니다.
급속 냉동 단백질의 사진을 캡처하는 cryo-EM을 전문으로 하는 실험실에서도 마찬가지입니다. 경우에 따라 AlphaFold의 모델은 중요한 약물 표적인 G-단백질 결합 수용체(GPCR)라는 단백질의 고유한 기능을 정확하게 예측했으며 다른 계산 도구가 잘못되었다고 University of the University의 구조 생물학자이자 약리학자인 Bryan Roth가 말했습니다. 채플힐의 노스캐롤라이나. "첫 번째 모델을 생성하는 데 정말 좋은 것 같습니다. 그런 다음 일부 실험 데이터로 수정합니다."라고 그는 말합니다. "그것은 우리에게 시간을 절약해 줍니다."
그러나 Roth는 AlphaFold가 항상 정확하지는 않다고 덧붙입니다. 그의 연구실에서 해결했지만 아직 발표되지 않은 수십 개의 GPCR 구조 중 그는 "약 절반은 AlphaFold 구조가 상당히 좋은 반면 절반은 우리의 목적에 다소 쓸모가 없습니다"라고 말했습니다. 어떤 경우에는 AlphaFold가 높은 신뢰도로 예측에 레이블을 지정하지만 실험 구조는 그것이 틀렸음을 보여줍니다. 소프트웨어가 올바르게 작동하더라도 구조를 실질적으로 변경할 수 있는 약물 또는 기타 소분자(리간드)에 결합될 때 단백질이 어떻게 보이는지 모델링할 수 없습니다. 이러한 경고로 인해 Roth 는 AlphaFold가 약물 발견에 얼마나 유용한 지 궁금해합니다 .
단백질에 결합할 수 있는 일부를 찾기 위해 수십억 개의 작은 분자를 스크리닝하는 컴퓨터 도킹 소프트웨어를 사용하는 약물 발견 노력이 점점 더 일반적입니다. Roth는 현재 샌프란시스코에 있는 캘리포니아 대학의 의약 화학자인 Brian Shoichet과 협력하여 AlphaFold의 예측이 이 실습에서 실험적으로 결정된 구조와 어떻게 비교되는지 확인하고 있습니다.
Shoichet은 AlphaFold의 예측이 실험적 구조와 일치하는 단백질로 작업을 제한하고 있다고 말합니다. 그러나 이러한 경우에도 도킹 소프트웨어는 실험 구조와 AlphaFold의 테이크에 대해 서로 다른 약물 히트를 나타내므로 작은 불일치가 중요할 수 있음을 시사합니다. "그것은 우리가 새로운 리간드를 찾지 않을 것이라는 의미가 아니라 단지 다른 리간드를 찾을 것이라는 의미입니다"라고 Shoichet은 말합니다. 그의 팀은 현재 AlphaFold 구조를 사용하여 식별된 잠재적 약물을 합성하고 실험실에서 활성을 테스트하고 있습니다.
비판적 낙관주의
제약 회사와 생명 공학 회사의 연구원들은 AlphaFold가 신약 개발을 도울 수 있는 잠재력에 대해 흥분하고 있다고 Shoichet은 말합니다. “비판적 낙관주의는 내가 설명하는 방식입니다.” 2021년 11월 DeepMind 는 AlphaFold 및 기타 AI 도구를 신약 개발에 적용하는 것을 목표로 자체 분사 IsoMorphic Labs를 출시했습니다 . 그러나 회사는 계획에 대해 거의 언급하지 않았습니다.
뉴욕에 본사를 두고 화학 시뮬레이션 소프트웨어도 발표하는 신약 개발 회사인 슈뢰딩거(Schrödinger)에서 치료제 개발을 이끄는 카렌 아킨산야(Karen Akinsanya)는 그녀와 그녀의 동료들이 이미 가상 스크린 및 약물 후보를 위한 화합물 디자인. 그녀는 실험 구조와 마찬가지로 개별 수소 원자가 있을 수 있는 아미노산 측쇄 또는 위치의 세부 사항을 파악하기 위해 추가 소프트웨어가 필요하다는 것을 발견했습니다. 이 작업이 완료되면 AlphaFold 구조는 일부 경우에 약물 발견을 안내하기에 충분히 좋은 것으로 입증되었습니다.
“'이것이 만병통치약'이라고 말하기는 어렵습니다. 하나의 구조에 대해 매우 훌륭하게 수행할 수 있기 때문에(놀랍고 흥미롭게도) 모든 구조에 탁월하게 적용할 수 있습니다. 분명히 그렇지 않습니다.”라고 Akinsanya는 말합니다. 그리고 그녀와 그녀의 동료들은 AlphaFold의 정확도 예측이 구조가 나중에 약물 스크리닝에 유용할지 여부를 보여주지 않는다는 것을 발견했습니다. AlphaFold 구조는 약물 발견에서 실험적인 구조를 완전히 대체하지 못할 것이라고 그녀는 말합니다. 그러나 실험 방법을 보완하여 프로세스 속도를 높일 수 있습니다.
AlphaFold에 대해 궁금해 하는 약물 개발자들은 DeepMind가 상업용 응용 프로그램 사용에 대한 주요 제한을 해제한 1월에 좋은 소식을 받았습니다 . 회사가 2021년 7월 AlphaFold의 코드를 발표했을 때 AlphaFold 신경망을 실행하는 데 필요한 매개변수 또는 가중치(수십만 개의 단백질 구조 및 서열에 대한 네트워크 교육의 최종 결과)는 비상업용이라고 규정했습니다. 만 사용하십시오. Akinsanya는 이것이 업계의 일부에게 병목 현상이었으며 DeepMind가 태도를 바꾸었을 때 "흥분의 물결"이 있었다고 말합니다. (RoseTTAFold의 개발자 중 한 명인 Ovchinnikov는 비슷한 제한 사항이 있지만 다음 버전은 완전히 오픈 소스가 될 것이라고 말했습니다.)
AI 도구는 과학자들이 단백질의 모양을 결정하는 방법을 바꾸는 것만이 아닙니다. 일부 연구자들은 완전히 새로운 단백질을 만들기 위해 그것들을 사용하고 있습니다. "딥 러닝은 우리 그룹에서 단백질 설계가 수행되는 방식을 완전히 바꾸고 있습니다."라고 시애틀에 있는 워싱턴 대학의 생화학자이자 단백질 설계 및 구조 예측 분야의 리더인 David Baker는 말합니다. 그의 팀은 전산 화학자 백민경과 함께 RoseTTAFold 개발 작업을 주도했습니다.
Baker의 팀은 AlphaFold와 RoseTTAFold가 새로운 단백질을 "환각"하도록 합니다. 연구원들은 아미노산의 무작위 서열이 주어지면 소프트웨어가 신경망이 단백질로 인식하는 것과 유사해질 때까지 아미노산을 최적화하도록 AI 코드를 변경했습니다('단백질 꿈꾸기' 참조).
이미지: 참조. 7
2021년 12월 Baker와 그의 동료들은 박테리아에서 이러한 환각 단백질 129개를 발현한다고 보고했으며, 그 중 약 5분의 1이 예상되는 모양과 유사한 것으로 접혀 있음을 발견했습니다 7 . "이러한 네트워크를 사용하여 단백질을 설계할 수 있다는 사실을 처음으로 입증한 것입니다."라고 Baker는 말합니다. 그의 팀은 현재 원하는 기능을 담당하는 아미노산을 지정하고 나머지는 AI가 꿈꾸게 함으로써 특정 화학 반응을 촉매하는 것과 같은 유용한 일을 하는 단백질을 설계하기 위해 이 접근 방식을 사용하고 있습니다.
단백질 '환각'의 네 가지 예. 각각의 경우 AlphaFold에는 무작위 아미노산 서열이 제공되고, 구조를 예측하고, 소프트웨어가 잘 정의된 3D 모양을 가진 단백질로 접힐 것이라고 자신 있게 예측할 때까지 서열을 변경합니다. 색상은 예측 신뢰도를 나타냅니다(매우 낮은 신뢰도의 경우 빨간색, 매우 높은 신뢰도의 경우 노란색 및 연한 파란색에서 진한 파란색까지). 명확성을 위해 초기 프레임이 느려졌습니다. 크레딧: Sergey Ovchinnikov
AlphaFold 해킹
DeepMind가 AlphaFold 코드를 출시했을 때 Ovchinnikov는 도구가 어떻게 작동하는지 더 잘 이해하고 싶었습니다. 며칠 만에 그와 스타이네거를 포함한 전산생물학 동료들은 ColabFold라는 웹사이트를 개설 하여 누구나 AlphaFold 또는 RoseTTAFold에 단백질 서열을 제출하고 구조 예측을 얻을 수 있게 되었습니다. Ovchinnikov는 자신과 다른 과학자들이 ColabFold를 사용하여 예를 들어 표적 단백질 서열의 진화적 친척에 대한 잘못된 정보를 제공함으로써 AlphaFold를 '파괴'하려고 할 것이라고 상상했습니다. 이를 통해 Ovchinnikov는 네트워크가 구조를 잘 예측하는 방법을 학습한 방법을 결정할 수 있기를 희망했습니다.
결과적으로 ColabFold를 사용한 대부분의 연구원은 단백질 구조를 얻기를 원했습니다. 그러나 다른 사람들은 이를 플랫폼으로 사용하여 새로운 응용 프로그램을 처리하기 위해 AlphaFold에 대한 입력을 수정했습니다. 점퍼는 “다양한 유형의 해킹 횟수를 예상하지 못했습니다.
지금까지 가장 인기 있는 해킹은 여러 개의 상호 작용하고 종종 얽혀 있는 펩티드 사슬로 구성된 단백질 복합체에 도구를 휘두르는 것이었습니다. 핵공 복합체와 마찬가지로 세포의 많은 단백질은 여러 단백질 소단위와 복합체를 형성할 때 기능을 얻습니다.
AlphaFold는 단일 펩타이드 사슬의 모양을 예측하도록 설계되었으며 훈련은 전적으로 이러한 단백질로 구성되었습니다. 그러나 네트워크는 콤플렉스가 함께 접히는 방식에 대해 뭔가를 배운 것 같습니다. AlphaFold의 코드가 공개된 지 며칠 후, 도쿄 대학의 단백질 생물정보학자인 Yoshitaka Moriwaki 는 긴 링커 서열로 함께 꿰매어진다면 두 단백질 서열 사이의 상호작용을 정확하게 예측할 수 있다고 트윗했습니다 . 백은 곧 RoseTTAFold를 개발하면서 얻은 콤플렉스를 예측하는 또 다른 핵을 공유했습니다.
ColabFold는 나중에 콤플렉스를 예측하는 기능을 통합했습니다. 그리고 2021년 10월 DeepMind 는 이전 버전과 달리 단백질 복합체에 대해 특별히 훈련된 AlphaFold-Multimer 8 이라는 업데이트를 출시했습니다. 점퍼의 팀은 이를 PDB에 있는 수천 개의 복합체에 적용했고 알려진 단백질-단백질 상호작용의 약 70%를 예측한다는 것을 발견했습니다.
이러한 도구는 이미 연구자들이 잠재적인 새로운 단백질 파트너를 찾는 데 도움이 되고 있습니다. Elofsson의 팀은 AlphaFold를 사용하여 실험 데이터를 기반으로 상호 작용하는 것으로 의심되는 65,000개의 인간 단백질 쌍의 구조를 예측했습니다 9 . 그리고 Baker가 이끄는 팀은 AlphaFold와 RoseTTAFold를 사용하여 효모에 의해 인코딩된 거의 모든 단백질 쌍 간의 상호 작용을 모델링하여 이전에 알려지지 않은 100개 이상의 복합체를 식별 했습니다 . 이러한 화면은 시작점일 뿐이라고 Elofsson은 말합니다. 그들은 일부 단백질 쌍, 특히 안정적이지만 더 일시적인 상호 작용을 식별하는 데 어려움을 겪는 단백질 쌍을 잘 예측합니다. Elofson은 "보기에 예쁘다고 해서 그것이 옳다는 것을 의미하지는 않습니다."라고 말합니다. "당신이 옳았다는 것을 보여주는 실험 데이터가 필요합니다."
핵공 복합 연구는 예측과 실험 데이터가 함께 작동할 수 있는 방법의 좋은 예라고 Kosinski는 말합니다('게놈 게이트웨이' 참조). "우리가 30개의 단백질을 모두 취해서 AlphaFold에 넣고 구조를 꺼내는 것과는 다릅니다." 예측된 단백질 구조를 결합하기 위해 연구팀 은 cryo-electron tomography라고 불리는 cryo-EM의 형태를 사용하여 캡처한 핵공 복합체의 3D 이미지를 사용했습니다 . 한 예에서, 단백질의 근접성을 결정할 수 있는 실험은 복합체의 두 구성요소 사이의 놀라운 상호작용을 밝혀냈고, AlphaFold의 모델은 이를 확인했습니다.
ref에서 적응된 이미지. 3/Agnieszka Obarska-Kosinska
Kosinski는 이 팀의 현재 핵공극복합체 지도를 공극복합체가 어떻게 기능하는지, 그리고 질병에서 어떻게 오작동하는지를 조사하는 실험과 시뮬레이션을 위한 출발점으로 보고 있습니다.
AlphaFold의 한계
AlphaFold로 이루어진 모든 발전에 대해 과학자들은 그 한계를 분명히 하는 것이 중요하다고 말합니다. 특히 단백질 구조 예측을 전문으로 하지 않는 연구자들이 AlphaFold를 사용하기 때문입니다.
초기 유방암과 관련된 것을 포함하여 단백질의 자연 구조를 파괴하는 다양한 돌연변이에 AlphaFold를 적용하려는 시도는 검사할 진화론적으로 관련된 서열이 없기 때문에 소프트웨어가 단백질의 새로운 돌연변이의 결과를 예측할 수 있는 장비를 갖추고 있지 않음을 확인했습니다 11 .
AlphaFold 팀은 이제 신경망이 새로운 돌연변이를 처리하도록 설계할 수 있는 방법에 대해 생각하고 있습니다. 점퍼는 이를 위해서는 네트워크가 단백질이 접힌 상태에서 펼쳐진 상태로 어떻게 이동하는지 더 잘 예측해야 할 것으로 예상합니다. 그것은 아마도 구조를 예측하기 위해 단백질 물리학에 대해 배운 것에 의존하는 소프트웨어가 필요할 것이라고 뉴욕시에 있는 Columbia University의 컴퓨터 생물학자인 Mohammed AlQuraishi가 말했습니다. "우리가 관심을 갖고 있는 한 가지는 진화 정보를 사용하지 않고 단일 시퀀스에서 예측을 하는 것입니다."라고 그는 말합니다. "그것은 여전히 열려 있는 핵심 문제입니다."
AlphaFold는 또한 하나 이상의 구조를 뱉어내도록 해킹되었지만 단일 구조를 예측하도록 설계되었습니다. 그러나 많은 단백질은 기능에 중요할 수 있는 여러 형태를 취합니다. "AlphaFold는 다른 형태의 다른 구조를 채택할 수 있는 단백질을 실제로 다룰 수 없습니다."라고 Schueler-Furman은 말합니다. 그리고 예측은 고립된 구조에 대한 것인 반면, 많은 단백질은 DNA 및 RNA와 같은 리간드, 지방 분자 및 철과 같은 미네랄과 함께 기능합니다. Elofson은 "우리는 여전히 리간드를 놓치고 있으며 단백질에 대한 다른 모든 것을 놓치고 있습니다.
이러한 차세대 신경망을 개발하는 것은 엄청난 도전이 될 것이라고 AlQuraishi는 말합니다. AlphaFold는 네트워크가 학습할 수 있는 단백질의 실험적 구조를 생성한 수십 년의 연구에 의존했습니다. 그 양의 데이터는 현재 단백질 역학 또는 단백질이 상호 작용할 수 있는 수조 개의 더 작은 분자의 모양을 캡처하는 데 사용할 수 없습니다. PDB는 다른 분자와 상호작용할 때 단백질의 구조를 포함하지만 이것은 화학적 다양성의 일부만을 포착한다고 점퍼는 덧붙였습니다.
연구원들은 AlphaFold 및 관련 AI 도구를 가장 잘 활용하는 방법을 결정하는 데 시간이 걸릴 것이라고 생각합니다. AlQuraishi는 일부 프로그램이 단순히 뉴스를 읽는 라디오 방송인으로 구성되었던 초기 텔레비전과 유사하다고 봅니다. "우리가 아직 생각하지 못한 새로운 구조의 응용 프로그램을 찾을 것이라고 생각합니다."
AlphaFold 혁명이 끝나는 곳은 누구나 추측할 수 있습니다. "상황이 너무 빨리 변하고 있습니다."라고 Baker는 말합니다. "내년에도 우리는 이러한 도구를 사용하여 정말 중요한 돌파구를 찾을 것입니다." EMBL-EBI의 전산 생물학자인 Janet Thornton은 AlphaFold의 가장 큰 영향 중 하나는 단순히 생물학자들이 전산 및 이론적 접근 방식의 통찰력에 더 개방적임을 확신시키는 것일 수 있다고 생각합니다. “저에게 혁명은 사고방식의 변화입니다.”라고 그녀는 말합니다.
AlphaFold 혁명은 Kosinski가 큰 꿈을 꾸도록 영감을 주었습니다. 그는 AlphaFold에서 영감을 얻은 도구를 사용하여 개별 단백질과 복합체뿐만 아니라 전체 세포 소기관 또는 세포를 개별 단백질 분자 수준까지 모델링할 수 있다고 상상합니다. "이것이 우리가 앞으로 수십 년 동안 추구할 꿈입니다."
|