기계 학습을 사용하여 화학 물질의 독성 평가 개선
날짜:
2022년 12월 14일
원천:
Universiteit van Amsterdam
요약:
연구자들은 기계 학습을 사용하여 화학 물질의 독성을 평가하는 전략을 개발했습니다. 이 연구에서 개발된 모델은 정량적 구조-활성 관계(QSAR) 모델링을 기반으로 하는 기존의 'in silico' 평가와 비교할 때 상당한 개선을 가져올 수 있습니다.
암스테르담 대학의 연구원들은 퀸즐랜드 대학 및 노르웨이 물 연구소의 동료들과 함께 기계 학습을 사용하여 화학 물질의 독성을 평가하는 전략을 개발했습니다. 그들은 "환경 과학, 엔지니어링 및 기술 발전을 위한 데이터 과학" 특별호에 대한 환경 과학 및 기술 기사에서 접근 방식을 제시합니다. 이 연구에서 개발된 모델은 정량적 구조-활성 관계(QSAR) 모델링을 기반으로 하는 기존의 'in silico' 평가와 비교할 때 상당한 개선을 가져올 수 있습니다.
연구원들에 따르면 기계 학습을 사용하면 새로운 화학 물질의 안전한 설계 개발과 기존 화학 물질의 평가 모두에서 분자의 위험 평가를 크게 향상시킬 수 있습니다. 후자의 중요성은 유럽 및 미국 화학 기관이 수년에 걸쳐 개발되었지만 환경 거동 또는 독성에 대한 지식이 거의 또는 전혀 없는 약 800,000개의 화학 물질을 나열했다는 사실에 의해 설명됩니다.
화학적 거동 및 독성에 대한 실험적 평가에는 많은 시간, 노력 및 자원이 필요하므로 모델링 접근법은 이미 위험 지표를 예측하는 데 사용됩니다. 특히 QSAR(Quantitative Structure-Activity Relationship) 모델링이 자주 적용되어 원자 배열 및 3D 구조와 같은 분자 특징을 물리화학적 특성 및 생물학적 활동과 관련시킵니다. 모델링 결과(또는 사용 가능한 경우 측정된 데이터)를 기반으로 전문가는 예를 들어 GHS(Globally Harmonized System of Classification and Labeling of Chemicals)에 정의된 범주로 분자를 분류합니다. 특정 범주의 경우 분자는 더 많은 연구, 더 적극적인 모니터링 및 궁극적으로 입법 대상이 됩니다.
그러나 이 프로세스에는 본질적인 단점이 있으며 그 중 많은 부분이 QSAR 모델의 한계로 거슬러 올라갑니다. 그것들은 종종 매우 동질적인 트레이닝 세트를 기반으로 하며 외삽을 위해 선형 구조-활동 관계를 가정합니다. 결과적으로 많은 화학 물질이 기존 QSAR 모델로 잘 표현되지 않으며 해당 모델을 사용하면 잠재적으로 상당한 예측 오류와 화학 물질의 잘못된 분류가 발생할 수 있습니다.
QSAR 예측 건너뛰기
환경 과학 및 기술(Environmental Science & Technology)에 발표된 논문에서 Saer Samanipur 박사와 공동 저자는 QSAR 예측 단계를 완전히 건너뛰는 대안 평가 전략을 제안합니다. 암스테르담 대학의 반트 호프 분자 과학 연구소의 환경 분석 과학자인 사마니푸르는 같은 대학의 생물 다양성 및 생태계 역학 연구소의 환경 화학자인 안토니아 프레토리우스 박사와 팀을 이루었습니다. 퀸즐랜드 대학 및 노르웨이 물 연구소의 동료들과 함께 그들은 분자 설명자를 기반으로 화학 물질의 급성 수생 독성을 직접 분류하기 위한 기계 학습 기반 전략을 개발했습니다.
이 모델은 급성 어류 독성(96h LC50 값)에 대해 실험적으로 얻은 907 데이터를 통해 개발 및 테스트되었습니다. 새 모델은 각 화학 물질에 대한 독성 값(96h LC50)의 명시적 예측을 건너뛰지만 각 화학 물질을 미리 정의된 여러 독성 범주로 직접 분류합니다. 이러한 범주는 예를 들어 급성 수생 위험에 대한 GHS 범주 문서에 설명된 대로 특정 규정 또는 표준화 시스템에 의해 정의될 수 있습니다. 이 모델은 훈련 세트에 사용된 데이터의 약 90%, 테스트 세트 데이터에 대해 약 80%를 설명했습니다.
더 높은 정확도의 예측
이 직접 분류 전략은 QSAR 회귀 모델을 기반으로 한 전략에 비해 잘못된 분류가 5배 감소했습니다. 그 후 연구원들은 32,000개 화학 물질의 대규모 세트의 독성 범주를 예측하기 위해 전략을 확장했습니다.
그들은 서로 다른 출처와 서로 다른 화학 계열의 실험 데이터 세트를 그룹화하여 더 큰 훈련 세트를 생성할 수 있기 때문에 직접 분류 접근 방식이 더 높은 정확도의 예측 결과를 가져온다는 것을 보여줍니다. 다양한 국제 규정 및 분류 또는 라벨링 시스템에 규정된 대로 미리 정의된 다양한 카테고리에 적용할 수 있습니다. 미래에 직접 분류 방식은 환경적 거동(예: 이동성 또는 지속성)뿐만 아니라 다른 위험 범주(예: 만성 독성)로 확장될 수 있으며 화학적 위험 및 위험 평가를 위한 in-silico 도구를 개선할 수 있는 큰 잠재력을 보여줍니다.
출처 : https://www.sciencedaily.com/