단어는 로봇의 교육 도구로서의 가치를 증명합니다.
날짜:
2022년 12월 22일
원천:
프린스턴 대학교, 공과대학
요약:
로봇을 가르치는 가장 좋은 방법은 무엇입니까? 때로는 단순히 명확하게 말하는 것일 수도 있습니다. 연구원들은 도구에 대한 인간 언어 설명이 시뮬레이션된 로봇 팔 들어올리기 및 다양한 도구 사용 학습을 가속화할 수 있음을 발견했습니다.
로봇을 가르치는 새로운 방법을 탐구하는 Princeton 연구원들은 도구에 대한 인간 언어 설명이 시뮬레이션된 로봇 팔 들어올리기 및 다양한 도구 사용 학습을 가속화할 수 있음을 발견했습니다.
결과는 인공 지능(AI) 훈련 중에 풍부한 정보를 제공하면 자율 로봇이 새로운 상황에 더 잘 적응하여 안전성과 효율성을 향상시킬 수 있다는 증거를 기반으로 합니다.
로봇의 훈련 과정에 도구의 형태와 기능에 대한 설명을 추가하면 원래 훈련 세트에 없었던 새로 마주한 도구를 조작하는 로봇의 능력이 향상되었습니다. 기계 엔지니어와 컴퓨터 과학자 팀은 12월 14일 로봇 학습 회의에서 새로운 방법인 LAnguage를 사용한 도구 조작의 가속 학습(ATLA)을 발표했습니다.
로봇 팔은 반복적이거나 도전적인 작업을 도울 수 있는 큰 잠재력을 가지고 있지만 도구를 효과적으로 조작하도록 로봇을 훈련시키는 것은 어렵습니다. 도구는 다양한 모양을 가지고 있으며 로봇의 손재주와 시각은 인간의 것과 비교할 수 없습니다.
"언어 형태의 추가 정보는 로봇이 도구를 더 빨리 사용하는 방법을 배우는 데 도움이 될 수 있습니다."라고 Intelligent Robot Motion Lab을 이끌고 있는 Princeton의 기계 및 항공 우주 공학 조교수인 연구 공동 저자 Anirudha Majumdar가 말했습니다.
팀은 프롬프트에 응답하여 텍스트를 생성하기 위해 딥 러닝이라는 AI 형식을 사용하는 OpenAI가 2020년에 출시한 대규모 언어 모델인 GPT-3를 쿼리하여 도구 설명을 얻었습니다. 다양한 프롬프트를 실험한 후 그들은 "상세하고 과학적인 응답으로 [도구]의 [기능]을 설명"하는 데 정착했습니다. 여기에서 기능은 도구의 모양이나 목적이었습니다.
"이러한 언어 모델은 인터넷에서 훈련되었기 때문에 어떤 의미에서는 이것을 해당 정보를 검색하는 다른 방법으로 생각할 수 있습니다." 도구 설명을 위해 크라우드소싱을 사용하거나 특정 웹사이트를 스크랩하는 것보다 더 효율적이고 포괄적이라고 Karthik Narasimhan은 말했습니다. 컴퓨터 과학 조교수이자 연구의 공동 저자입니다. Narasimhan은 Princeton의 자연어 처리(NLP) 그룹의 수석 교수진이며 OpenAI의 방문 연구 과학자로서 원래 GPT 언어 모델에 기여했습니다.
이 작업은 Narasimhan과 Majumdar의 연구 그룹 간의 첫 번째 공동 작업입니다. Majumdar는 비행 및 보행 로봇을 포함한 로봇이 기능을 새로운 설정으로 일반화하는 데 도움이 되는 AI 기반 정책 개발에 중점을 두고 있으며 로봇 학습에 도움이 되는 최근 "자연어 처리의 대규모 발전" 가능성에 대해 궁금해했습니다. 말했다.
모의 로봇 학습 실험을 위해 팀은 도끼에서 스퀴지까지 27가지 도구로 구성된 훈련 세트를 선택했습니다. 그들은 로봇 팔에 네 가지 다른 작업을 부여했습니다. 도구 밀기, 도구 들어 올리기, 테이블을 따라 실린더를 쓸기 위해 사용하기, 못을 구멍에 망치로 넣기. 연구자들은 언어 정보가 있거나 없는 기계 학습 훈련 접근 방식을 사용하여 일련의 정책을 개발한 다음 쌍으로 된 설명이 있는 9개의 도구로 구성된 별도의 테스트 세트에서 정책의 성능을 비교했습니다.
이 접근 방식은 로봇이 연속 작업을 수행할 때마다 학습 능력을 향상시키기 때문에 메타 학습이라고 합니다. Narasimhan은 각 도구를 사용하는 방법을 배우는 것뿐만 아니라 "이 수백 가지 도구 각각에 대한 설명을 이해하는 방법을 배우려고 노력하므로 101번째 도구를 보면 새 도구를 사용하는 방법을 더 빨리 배울 수 있습니다."라고 말했습니다. "우리는 두 가지 일을 하고 있습니다. 로봇에게 도구 사용법을 가르치고 있지만 영어도 가르치고 있습니다."
연구원들은 기계 학습 과정에서 언어를 사용하는 정책과 언어 정보를 사용하지 않는 정책으로 달성한 결과를 비교하여 9개의 테스트 도구를 사용하여 밀고, 들어 올리고, 쓸고, 망치질하는 로봇의 성공을 측정했습니다. 대부분의 경우 언어 정보는 로봇이 새로운 도구를 사용하는 능력에 상당한 이점을 제공했습니다.
정책 간에 눈에 띄는 차이를 보인 한 가지 작업은 지렛대를 사용하여 테이블을 따라 실린더 또는 병을 청소하는 것이라고 Ph.D. Allen Z. Ren은 말했습니다. Majumdar 그룹의 학생이자 연구 논문의 주 저자.
Ren은 "언어 훈련을 통해 지렛대의 긴 끝을 잡고 곡면을 사용하여 병의 움직임을 더 잘 제한하는 방법을 배웁니다."라고 말했습니다. "언어가 없으면 곡면에 가까운 지렛대를 잡고 제어하기가 더 어려웠습니다."
이 연구는 부분적으로 Toyota Research Institute(TRI)의 지원을 받았으며 Majumdar 연구 그룹의 대규모 TRI 자금 지원 프로젝트의 일부로서 훈련 환경과 다른 새로운 상황에서 로봇의 기능을 향상시키는 것을 목표로 합니다.
"광범위한 목표는 로봇 시스템, 특히 기계 학습을 사용하여 훈련된 시스템을 새로운 환경에 일반화하는 것입니다."라고 Majumdar는 말했습니다. 그의 그룹에서 TRI가 지원하는 다른 작업에서는 비전 기반 로봇 제어에 대한 실패 예측을 다루고 로봇 정책이 초기 훈련 이외의 조건에서 더 잘 작동하도록 돕기 위해 "적대적 환경 생성" 접근 방식을 사용했습니다.
12월 14일 로봇 학습 회의에서 도구 조작의 가속 학습을 위한 언어 활용 이라는 기사 가 발표되었습니다. Majumdar, Narasimhan 및 Ren 외에도 공동 저자로는 Bharat Govil, Princeton Class of 2022, Tsung-Yen Yang이 있습니다. 올해 Princeton에서 전기 공학을 전공했으며 현재 Meta Platforms Inc.의 기계 학습 과학자입니다.
TRI 외에도 연구 지원은 William Addy '82의 관대함을 통해 Princeton University의 미국 국립 과학 재단, 해군 연구소, 공학 및 응용 과학 학교에서 제공되었습니다.
출처 : https://www.sciencedaily.com/