기계 학습에 대한 원대한 접근 방식
새로운 시스템은 협동 또는 경쟁 AI 에이전트 그룹에게 최적의 장기 솔루션을 찾도록 가르칠 수 있습니다.
날짜:
2022년 11월 23일
원천:
매사추세츠 공과대학
요약:
새로운 기술을 통해 인공 지능 에이전트는 자신의 행동이 다른 AI 에이전트의 행동에 어떻게 영향을 미칠 수 있는지 고려할 때 작업 완료를 향해 훨씬 더 먼 미래를 생각할 수 있습니다. 이 접근 방식은 협력 또는 경쟁 AI 에이전트의 장기적인 성능을 향상시킵니다.
두 팀이 축구장에서 맞붙는 모습을 상상해 보십시오. 플레이어는 목표를 달성하기 위해 협력할 수 있고 이해관계가 상충되는 다른 플레이어와 경쟁할 수 있습니다. 그것이 게임이 작동하는 방식입니다.
인간만큼 효과적으로 경쟁하고 협력하는 법을 배울 수 있는 인공 지능 에이전트를 만드는 것은 여전히 어려운 문제입니다. 핵심 과제는 AI 에이전트가 모두 동시에 학습할 때 다른 에이전트의 향후 행동을 예상할 수 있도록 하는 것입니다.
이 문제의 복잡성 때문에 현재 접근 방식은 근시안적인 경향이 있습니다. 에이전트는 팀원이나 경쟁자의 다음 몇 가지 동작만 추측할 수 있으므로 장기적으로 성능이 저하됩니다.
MIT, MIT-IBM Watson AI Lab 및 다른 곳의 연구원들은 AI 에이전트에게 원시적인 관점을 제공하는 새로운 접근 방식을 개발했습니다. 머신 러닝 프레임워크를 통해 AI 에이전트는 협동 또는 경쟁 AI 에이전트가 몇 가지 다음 단계가 아니라 시간이 무한에 가까워지면 다른 에이전트가 수행할 작업을 고려할 수 있습니다. 그런 다음 에이전트는 다른 에이전트의 향후 행동에 영향을 미치도록 그에 따라 행동을 조정하고 최적의 장기적인 솔루션에 도달합니다.
이 프레임워크는 울창한 숲에서 길 잃은 등산객을 찾기 위해 함께 일하는 자율 드론 그룹이나 바쁜 고속도로에서 운전하는 다른 차량의 미래 움직임을 예상하여 승객을 안전하게 지키기 위해 노력하는 자율 주행 자동차에서 사용할 수 있습니다.
"AI 에이전트가 협력하거나 경쟁할 때 가장 중요한 것은 미래의 어느 시점에서 그들의 행동이 수렴되는 시점입니다. 장기적으로는 그다지 중요하지 않은 일시적인 행동이 많이 있습니다. 이러한 수렴된 행동에 도달 MIT 정보 및 의사 결정 시스템(LIDS) 연구실의 대학원생이자 이 프레임워크를 설명하는 논문의 수석 저자인 김동기는 우리가 정말로 관심을 갖는 것이며 이제 이를 가능하게 하는 수학적 방법을 갖게 되었습니다.
수석 저자는 Richard C. Maclaurin 항공우주학과 교수이자 MIT-IBM Watson AI Lab의 회원인 Jonathan P. How입니다. 공동 저자에는 MIT-IBM Watson AI Lab, IBM Research, Mila-Quebec Artificial Intelligence Institute 및 Oxford University의 다른 사람들이 포함됩니다. 이 연구는 신경 정보 처리 시스템 회의에서 발표될 예정입니다.
더 많은 에이전트, 더 많은 문제
연구자들은 다중 에이전트 강화 학습으로 알려진 문제에 집중했습니다. 강화 학습은 AI 에이전트가 시행착오를 통해 학습하는 기계 학습의 한 형태입니다. 연구원은 에이전트가 목표를 달성하는 데 도움이 되는 "좋은" 행동에 대한 보상을 제공합니다. 에이전트는 결국 작업의 전문가가 될 때까지 해당 보상을 최대화하기 위해 행동을 조정합니다.
그러나 많은 협동 또는 경쟁 에이전트가 동시에 학습하면 상황이 점점 더 복잡해집니다. 에이전트가 동료 에이전트의 더 많은 향후 단계와 자신의 행동이 다른 에이전트에 미치는 영향을 고려함에 따라 곧 문제를 효율적으로 해결하기 위해 너무 많은 계산 능력이 필요합니다. 이것이 다른 접근 방식이 단기에만 집중하는 이유입니다.
"AI는 정말 게임의 끝을 생각하고 싶어하지만 게임이 언제 끝날지는 모릅니다. 그들은 미래의 어느 정도 승리할 수 있도록 자신의 행동을 무한대로 계속 적응시키는 방법에 대해 생각해야 합니다. . 우리 논문은 본질적으로 AI가 무한대에 대해 생각할 수 있게 하는 새로운 목표를 제안합니다."라고 Kim은 말합니다.
그러나 무한대를 알고리즘에 연결하는 것은 불가능하기 때문에 연구자들은 에이전트가 평형으로 알려진 다른 에이전트의 행동과 수렴하는 미래 지점에 에이전트가 집중하도록 시스템을 설계했습니다. 평형점은 에이전트의 장기적인 성능을 결정하며 다중 에이전트 시나리오에는 여러 평형이 존재할 수 있습니다. 따라서 효과적인 에이전트는 에이전트의 관점에서 바람직한 균형에 도달하는 방식으로 다른 에이전트의 미래 행동에 적극적으로 영향을 미칩니다. 모든 에이전트가 서로 영향을 미치면 연구원이 "활성 평형"이라고 부르는 일반적인 개념으로 수렴됩니다.
그들이 개발한 머신 러닝 프레임워크인 FURTHER(평균 보상으로 능동적 영향력 완전 강화를 의미)는 에이전트가 다른 에이전트와 상호 작용하여 이러한 활성 균형을 달성할 때 자신의 행동을 적응시키는 방법을 배울 수 있도록 합니다.
또한 두 개의 기계 학습 모듈을 사용하여 이를 수행합니다. 첫 번째 추론 모듈은 에이전트가 이전 작업만을 기반으로 다른 에이전트의 미래 행동과 그들이 사용하는 학습 알고리즘을 추측할 수 있도록 합니다.
이 정보는 에이전트가 자신의 행동을 조정하고 보상을 최대화하는 방식으로 다른 에이전트에 영향을 미치는 데 사용하는 강화 학습 모듈에 입력됩니다.
"도전은 무한대에 대해 생각하는 것이었습니다. 우리는 이를 가능하게 하기 위해 다양한 수학적 도구를 사용해야 했고 실제로 작동하도록 몇 가지 가정을 해야 했습니다."라고 Kim은 말합니다.
장기적으로 승리
그들은 스모 스타일로 싸우는 한 쌍의 로봇과 25명의 에이전트로 구성된 두 팀이 서로 대결하는 전투를 포함하여 여러 시나리오에서 다른 다중 에이전트 강화 학습 프레임워크에 대한 접근 방식을 테스트했습니다. 두 경우 모두 FURTHER를 사용하는 AI 에이전트가 게임에서 더 자주 승리했습니다.
그들의 접근 방식은 에이전트가 독립적으로 게임에서 승리하는 방법을 배우는 분산형이기 때문에 에이전트를 제어하기 위해 중앙 컴퓨터가 필요한 다른 방법보다 더 확장 가능하다고 Kim은 설명합니다.
연구원들은 게임을 사용하여 접근 방식을 테스트했지만 FURTHER는 모든 종류의 다중 에이전트 문제를 해결하는 데 사용할 수 있습니다. 예를 들어, 많은 상호 작용 자격이 시간이 지남에 따라 변화하는 행동과 관심을 갖는 상황에서 건전한 정책을 개발하려는 경제학자들이 적용할 수 있습니다.
경제학은 Kim이 특히 공부에 열광하는 분야 중 하나입니다. 그는 또한 능동적 균형의 개념을 더 깊이 파고들고 더 나아가 프레임워크를 계속해서 강화하기를 원합니다.
출처 : https://www.sciencedaily.com/