AI 기술은 처음부터 원본 단백질을 생성합니다.
활성 효소 생성으로 단백질 설계를 시작하는 자연어 모델
날짜:
2023년 1월 26일
원천:
캘리포니아 대학교 - 샌프란시스코
요약:
과학자들은 처음부터 인공 효소를 생성할 수 있는 AI 시스템을 만들었습니다. 실험실 테스트에서 이러한 효소 중 일부는 인위적으로 생성된 아미노산 서열이 알려진 천연 단백질과 상당히 다른 경우에도 자연에서 발견되는 효소만큼 잘 작동했습니다.
전체 이야기
과학자들은 처음부터 인공 효소를 생성할 수 있는 AI 시스템을 만들었습니다. 실험실 테스트에서 이러한 효소 중 일부는 인위적으로 생성된 아미노산 서열이 알려진 천연 단백질과 상당히 다른 경우에도 자연에서 발견되는 효소만큼 잘 작동했습니다.
이 실험은 자연어 처리가 언어 텍스트를 읽고 쓰기 위해 개발되었지만 적어도 생물학의 기본 원리 중 일부를 배울 수 있음을 보여줍니다. Salesforce Research는 다음 토큰 예측을 사용하여 아미노산 서열을 인공 단백질로 조립하는 ProGen이라는 AI 프로그램을 개발했습니다.
과학자들은 새로운 기술이 노벨상을 수상한 단백질 설계 기술인 유도 진화보다 더 강력해질 수 있으며 거의 모든 것에 사용할 수 있는 새로운 단백질 개발을 가속화하여 50년 된 단백질 공학 분야에 활력을 줄 것이라고 말했습니다. 치료제에서 분해 플라스틱에 이르기까지.
"인공 디자인은 진화 과정에서 영감을 얻은 디자인보다 훨씬 더 잘 수행됩니다."라고 UCSF 약학 대학의 생명 공학 및 치료 과학 교수이자 작업의 저자인 James Fraser 박사는 말했습니다. , 자연 생명 공학 .
"언어 모델은 진화의 측면을 학습하지만 일반적인 진화 과정과는 다릅니다."라고 Fraser는 말했습니다. "우리는 이제 특정 효과를 위해 이러한 특성의 생성을 조정할 수 있습니다. 예를 들어, 믿을 수 없을 정도로 열에 안정적이거나 산성 환경을 좋아하거나 다른 단백질과 상호 작용하지 않는 효소가 있습니다."
모델을 만들기 위해 과학자들은 모든 종류의 2억 8천만 가지 단백질의 아미노산 서열을 기계 학습 모델에 입력하고 몇 주 동안 정보를 소화하도록 했습니다. 그런 다음, 그들은 5개의 라이소자임 계열의 56,000개의 서열과 이러한 단백질에 대한 일부 상황 정보로 모델을 미세 조정했습니다.
이 모델은 신속하게 100만 개의 서열을 생성했고, 연구팀은 자연 단백질의 서열과 얼마나 유사한지, AI 단백질의 기본 아미노산 "문법"과 "의미"가 얼마나 자연스러운지를 기준으로 테스트할 100개를 선택했습니다.
Tierra Biosciences에 의해 시험관 내에서 스크리닝된 100개의 단백질 중 첫 번째 배치에서 팀은 세포에서 테스트하기 위해 5개의 인공 단백질을 만들고 그 활성을 계란 흰자 리소자임으로 알려진 닭고기 달걀 흰자에서 발견되는 효소와 비교했습니다. (HEWL). 유사한 라이소자임이 사람의 눈물, 타액 및 우유에서 발견되며 박테리아와 곰팡이를 방어합니다.
두 개의 인공 효소는 HEWL과 비슷한 활성으로 박테리아의 세포벽을 분해할 수 있었지만, 그들의 서열은 서로 약 18%만 동일했습니다. 두 서열은 알려진 단백질과 약 90% 및 70% 동일했습니다.
천연 단백질의 단 하나의 돌연변이만으로도 작동을 멈출 수 있지만, 다른 검사에서 팀은 AI 생성 효소가 알려진 천연 단백질과 닮은 서열이 31.4%에 불과한 경우에도 활성을 보였다는 사실을 발견했습니다.
AI는 원시 시퀀스 데이터를 연구하는 것만으로도 효소가 어떻게 형성되어야 하는지를 배울 수 있었습니다. X선 결정학으로 측정한 결과, 인공 단백질의 원자 구조는 이전에는 볼 수 없었던 것과 같았지만 원래 있어야 하는 것처럼 보였습니다.
Salesforce Research는 원래 영어 텍스트를 생성하기 위해 연구원들이 개발한 일종의 자연어 프로그래밍을 기반으로 2020년에 ProGen을 개발했습니다.
그들은 이전 작업에서 AI 시스템이 문법과 단어의 의미, 그리고 글을 잘 구성하는 다른 기본 규칙을 스스로 가르칠 수 있다는 것을 알고 있었습니다.
Salesforce Research의 AI 연구 책임자이자 논문의 수석 저자인 Nikhil Naik 박사는 "데이터가 많은 시퀀스 기반 모델을 교육하면 구조와 규칙을 학습하는 데 정말 강력합니다."라고 말했습니다. "그들은 어떤 단어가 동시에 나타날 수 있는지, 또한 구성성을 배웁니다."
단백질의 경우 설계 선택이 거의 무한했습니다. 리소자임은 단백질만큼 작으며 최대 약 300개의 아미노산으로 구성됩니다. 그러나 가능한 아미노산이 20개라면 가능한 조합이 엄청나게 많습니다(20 300개 ). 그것은 시간을 통해 살았던 모든 인간을 지구에 있는 모래알의 수와 우주의 원자 수를 곱한 것보다 더 큽니다.
무한한 가능성을 감안할 때 모델이 작업 효소를 쉽게 생성할 수 있다는 것은 놀라운 일입니다.
세일즈포스 리서치(Salesforce Research)의 전 연구 과학자이자 프로플루언트 바이오(Profluent Bio)의 창업자 알리 마다니(Ali Madani) 박사는 "기능성 단백질을 처음부터 즉시 생성할 수 있는 능력은 우리가 단백질 디자인의 새로운 시대에 접어들고 있음을 보여준다"고 말했다. 첫 번째 저자. "이것은 단백질 엔지니어가 사용할 수 있는 다재다능한 새 도구이며 치료 응용 분야를 기대하고 있습니다."
추가 정보: https://github.com/salesforce/progen
출처 : https://www.sciencedaily.com/