쥐는 장기 학습 기회를 위해 초기 보상을 교환합니다.
새로운 자극에 대한 반응을 결정할 때 느린 초기 반응 시간은 학습을 통해 장기적인 보상을 극대화할 수 있습니다.
날짜:
2023년 2월 14일
원천:
이라이프
요약:
과학자들은 쥐의 학습에 대한 인지적 통제에 대한 증거를 제공하여 쥐가 학습의 장기적인 가치를 추정하고 학습 기회를 활용하기 위해 의사 결정 전략을 조정할 수 있음을 보여주었습니다.
전체 이야기
과학자들은 쥐의 학습에 대한 인지적 통제에 대한 증거를 제공하여 쥐가 학습의 장기적인 가치를 추정하고 학습 기회를 활용하기 위해 의사 결정 전략을 조정할 수 있음을 보여주었습니다.
연구 결과는 쥐가 결정을 오래 내리면 학습 결과를 높이고 전체 작업 과정에서 더 큰 보상을 얻기 위해 즉각적인 보상을 희생할 수 있음을 시사합니다. 그 결과는 오늘 eLife 에 발표되었습니다 .
행동 신경과학의 확립된 원칙은 설치류에서 영장류에 이르기까지 많은 종에서 볼 수 있는 속도-정확도 절충입니다. 이 원칙은 신속하게 대응하고 더 많은 오류를 범할 위험을 감수하려는 개인의 의지와 비교하여 느리게 대응하고 오류를 적게 범하려는 개인의 의지 사이의 관계를 설명합니다.
"이 분야의 많은 연구는 학습 결과를 고려하지 않고 속도-정확성 절충에 초점을 맞췄습니다. 미국 하버드 대학교 뇌 과학 센터를 거쳐 현재 미국 프린스턴 대학교 프린스턴 신경과학 연구소의 박사후 연구원입니다. "우리는 학습을 통해 행동을 개선할 가능성이 있을 때 존재하는 어려운 시간 간 선택 문제를 조사하는 것을 목표로 했습니다."
그들의 연구를 위해 Masís와 동료들은 먼저 쥐가 속도-정확성 트레이드 오프를 해결할 수 있는지 여부를 확인하려고 했습니다. 연구팀은 쥐가 크기와 회전이 다를 수 있는 두 개의 시각적 개체 중 하나를 보고 시각적 개체가 왼쪽 응답에 해당하는지 또는 오른쪽 응답에 해당하는지 결정하고 해당 터치를 핥는 실험을 설정했습니다. -민감한 포트가 결정되면. 쥐가 올바른 포트를 핥으면 물을 보상으로, 잘못된 포트를 핥으면 타임아웃이 주어집니다.
팀은 의사 결정자가 다음을 통해 증거를 축적하는 심리학 및 신경 과학의 표준 의사 결정 모델인 DDM(Drift-Diffusion Model)을 사용하여 이러한 시도 동안 오류율(ER)과 반응 시간(RT) 간의 관계를 조사했습니다. 하나의 대안에 대한 증거 수준이 임계값에 도달할 때까지의 시간. 주제의 임계값 수준은 속도-정확도 절충을 제어합니다. 낮은 임계값을 사용하면 빠르지만 오류가 발생하기 쉬운 응답이 생성되는 반면 높은 임계값을 사용하면 느리지만 정확한 응답이 생성됩니다. 그러나 모든 난이도에는 최고가 있습니다 .속도와 정확성의 균형을 최적으로 설정하여 의사 결정자가 순간 보상률(iRR)을 최대화할 수 있도록 임계값을 설정합니다. 어려움에 따라 이 동작은 OPC(최적 성능 곡선)라고 하는 ER과 RT 간의 관계를 통해 요약할 수 있습니다. 작업을 완전히 학습한 후 훈련된 쥐의 절반 이상이 OPC에 도달하여 잘 훈련된 쥐가 속도-정확도 트레이드 오프를 해결한다는 것을 보여주었습니다.
그러나 훈련 시작 시 모든 쥐는 iRR의 20% 이상을 포기한 반면, 훈련이 끝날 무렵에는 대부분의 쥐가 거의 최적의 iRR을 최대화했습니다. 이것은 다음과 같은 질문을 촉발했습니다. 학습이 끝날 때 쥐가 즉각적인 보상을 최대화한다면 학습 초기에 전략을 지배하는 것은 무엇입니까?
이에 답하기 위해 팀은 DDM을 시간이 지남에 따라 학습할 수 있는 순환 신경망(RNN)으로 채택하고 LDDM(Learning Drift-Diffusion Model)을 개발했습니다. 개별 시험에서 결정 시간의 선택. 이 모델은 학습 속도와 결정 전략 사이의 주요 질적 절충점을 강조하기 위해 단순성을 염두에 두고 설계되었습니다. 이 모델의 분석은 쥐가 학습의 우선순위를 정하기 위해 초기 보상을 거래하는 '비탐욕적인' 전략을 채택하고 따라서 작업 과정에서 총 보상을 최대화한다고 제안했습니다. 그들은 또한 초기 반응 시간이 길수록 실험 환경과 시뮬레이션 환경 모두에서 더 빠른 학습과 더 높은 보상으로 이어진다는 것을 입증했습니다.
저자는 이러한 결과를 통합하기 위한 추가 연구를 요구합니다. 현재 연구는 개선된 학습을 추정하기 위해 DDM을 사용하는 것으로 제한됩니다. DDM, 따라서 LDDM은 실험실에서 연구할 수 있는 특정 유형의 단순 선택 행동을 이해하기 위한 강력한 이론적 도구인 단순 모델이지만 보다 자연스러운 의사 결정 행동을 정량적으로 설명할 수는 없습니다. 또한, 이 연구는 하나의 시각적 지각 작업에 중점을 둡니다. 따라서 저자는 어려움, 감각 양상 및 유기체 전반에 걸쳐 다른 학습 가능한 작업과 함께 추가 작업을 권장합니다.
"우리의 결과는 지각적 의사 결정 행동이 빠른 학습에 대한 엄격한 요구 사항에 의해 강력하게 형성됨을 보여줌으로써 속도-정확성 트레이드 오프에 대한 새로운 관점을 제공합니다."라고 수석 저자인 Andrew Saxe는 주장합니다. 실험심리학, 옥스퍼드대학교, 영국, 현재 Sir Henry Dale Fellow 및 부교수 Gatsby Computational Unit 및 Sainsbury Wellcome Center, University College London, UK.
Javier Masís는 "우리 연구에서 제안하는 핵심 원칙은 자연 작용제가 학습을 통해 개선할 수 있고 선택을 통해 개선 속도를 형성할 수 있고 실제로 형성할 수 있다는 사실을 고려한다는 것입니다. 우리가 살고 있는 세상은 고정되어 있지 않습니다. 우리는 또한 고정되어 있지 않으며, 선택을 하면서 전 세계를 이동할 때 이를 고려합니다." Saxe는 "때때로 건반을 연주하면서 피아노를 배우지 않습니다."라고 덧붙입니다. "당신은 연습하기로 결정하고, 당신은 당신이 향상될 것이고 결국에는 그만한 가치가 있을 것이라는 것을 알기 때문에 더 즉각적으로 보람 있는 다른 활동을 희생하면서 연습합니다."
출처 : https://www.sciencedaily.com/