오늘날 컴퓨팅 플랫폼의 에너지와 크기에 비해 적은 양으로 엣지에서 AI를 위한 새로운 뉴로모픽 칩
날짜:2022년 8월 17일
원천:캘리포니아 대학교 - 샌디에이고
요약:
국제 연구원 팀은 메모리에서 직접 계산을 실행하고 다양한 AI 애플리케이션을 실행할 수 있는 칩을 설계 및 구축했습니다. 이 모두는 범용 AI 컴퓨팅을 위한 컴퓨팅 플랫폼에서 소비하는 에너지의 극히 일부에 불과합니다. NeuRRAM 뉴로모픽 칩은 AI가 클라우드에서 분리된 광범위한 에지 장치에서 실행하는 데 한 걸음 더 다가가도록 하여 중앙 집중식 서버에 대한 네트워크 연결에 의존하지 않고도 언제 어디서나 정교한 인지 작업을 수행할 수 있습니다.
국제 연구원 팀은 메모리에서 직접 계산을 실행하고 다양한 AI 응용 프로그램을 실행할 수 있는 칩을 설계 및 구축했습니다.
NeuRRAM 뉴로모픽 칩은 AI가 클라우드에서 분리된 광범위한 에지 장치에서 실행하는 데 한 걸음 더 다가가도록 하여 중앙 집중식 서버에 대한 네트워크 연결에 의존하지 않고도 언제 어디서나 정교한 인지 작업을 수행할 수 있습니다. 응용 프로그램은 스마트 시계에서 VR 헤드셋, 스마트 이어버드, 공장의 스마트 센서 및 우주 탐사를 위한 로버에 이르기까지 전 세계 구석구석과 우리 삶의 모든 측면에 풍부합니다.
NeuRRAM 칩은 메모리에서 계산을 실행하는 혁신적인 종류의 하이브리드 칩인 최첨단 "메모리 컴퓨팅" 칩보다 에너지 효율이 두 배일 뿐만 아니라 정확한 결과를 제공합니다. 기존의 디지털 칩. 기존 AI 플랫폼은 훨씬 더 크고 일반적으로 클라우드에서 작동하는 대규모 데이터 서버를 사용하는 데 제약이 있습니다.
또한 NeuRRAM 칩은 다목적이며 다양한 신경망 모델 및 아키텍처를 지원합니다. 결과적으로 이 칩은 음성 인식은 물론 이미지 인식 및 재구성을 비롯한 다양한 응용 분야에 사용할 수 있습니다.
논문의 첫 번째 교신저자이자 최근 박사 학위를 취득한 Weier Wan은 "기존의 통념은 메모리 컴퓨팅의 효율성을 높이려면 다용성을 희생해야 하지만 우리의 NeuRRAM 칩은 다용성을 희생하지 않으면서 효율성을 얻는다는 것입니다."라고 말했습니다. 그는 UC 샌디에이고에서 칩에 대해 일한 스탠포드 대학을 졸업했으며, 그곳에서 생물 공학과의 Gert Cauwenberghs에게 공동 조언을 받았습니다.
University of California San Diego의 생명공학자들이 공동으로 이끄는 연구팀은 그들의 결과를 Nature 8월 17일자에 발표했습니다 .
현재 AI 컴퓨팅은 전력 소모가 많고 계산 비용이 많이 듭니다. 에지 장치의 대부분의 AI 애플리케이션에는 장치에서 클라우드로 데이터를 이동하는 작업이 포함되며, 여기서 AI는 데이터를 처리하고 분석합니다. 그런 다음 결과가 장치로 다시 이동됩니다. 대부분의 에지 장치는 배터리로 구동되며 결과적으로 컴퓨팅 전용으로 사용할 수 있는 전력이 제한적이기 때문입니다.
이 NeuRRAM 칩은 엣지에서 AI 추론에 필요한 전력 소비를 줄임으로써 더 강력하고 스마트하며 접근 가능한 엣지 장치와 더 스마트한 제조로 이어질 수 있습니다. 또한 장치에서 클라우드로 데이터를 전송할 때 보안 위험이 증가하므로 데이터 개인 정보 보호가 향상될 수 있습니다.
AI 칩에서 데이터를 메모리에서 컴퓨팅 장치로 이동하는 것은 주요 병목 현상 중 하나입니다.
완은 "하루 2시간 근무에 8시간 통근을 하는 것과 같다"고 말했다.
이 데이터 전송 문제를 해결하기 위해 연구원들은 별도의 컴퓨팅 장치가 아닌 메모리 내에서 직접 계산할 수 있는 비휘발성 메모리 유형인 저항성 랜덤 액세스 메모리로 알려진 것을 사용했습니다. 뉴로모픽 컴퓨팅을 위한 시냅스 어레이로 사용되는 RRAM 및 기타 새로운 메모리 기술은 이 연구의 주요 기여자이자 스탠포드의 Wan 고문인 Philip Wong의 연구실에서 개척되었습니다. RRAM 칩을 사용한 계산이 반드시 새로운 것은 아니지만 일반적으로 칩에서 수행되는 계산의 정확도가 떨어지고 칩 아키텍처의 유연성이 부족합니다.
Cauwenberghs는 "메모리 컴퓨팅은 30년 전에 도입된 이후로 뉴로모픽 엔지니어링에서 일반적인 관행이었습니다."라고 말했습니다. "NeuRRAM의 새로운 점은 표준 디지털 범용 컴퓨팅 플랫폼에 비해 정확도 손실이 거의 없이 다양한 AI 애플리케이션을 위한 뛰어난 유연성과 극도의 효율성이 함께 제공된다는 것입니다."
신중하게 제작된 방법론은 칩 설계에서 다양한 AI 작업을 실행하기 위한 구성에 이르기까지 하드웨어 및 소프트웨어의 추상화 계층 전반에 걸쳐 여러 수준의 "공동 최적화" 작업의 핵심이었습니다. 또한 팀은 메모리 장치 물리학에서 회로 및 네트워크 아키텍처에 이르는 다양한 제약 조건을 고려했습니다.
"이 칩은 이제 장치와 회로에서 알고리즘에 이르기까지 스택 전반에 걸쳐 이러한 문제를 해결할 수 있는 플랫폼을 제공합니다."라고 Notre Dame 대학의 컴퓨터 과학 및 공학 조교수인 Siddharth Joshi가 말했습니다. 박사 UC 샌디에이고 Cauwenberghs 연구실의 학생이자 박사후 연구원입니다.
칩 성능
연구원들은 에너지 지연 제품(EDP)으로 알려진 척도로 칩의 에너지 효율을 측정했습니다. EDP는 모든 작업에 소비되는 에너지 양과 작업을 완료하는 데 걸리는 시간을 모두 결합합니다. 이를 통해 NeuRRAM 칩은 최신 칩보다 EDP가 1.6~2.3배 낮고(낮을수록 좋음) 7~13배 높은 계산 밀도를 달성합니다.
연구원들은 칩에서 다양한 AI 작업을 실행했습니다. 손으로 쓴 숫자 인식 작업에서 99%의 정확도를 달성했습니다. 이미지 분류 작업에서 85.7%; Google 음성 명령 인식 작업에서 84.7%. 또한 이 칩은 이미지 복구 작업에서 이미지 재구성 오류를 70% 감소시키는 데도 성공했습니다. 이러한 결과는 동일한 비트 정밀도로 계산을 수행하지만 에너지를 크게 절약하는 기존 디지털 칩과 비교할 수 있습니다.
연구원들은 이 논문의 주요 기여 중 하나는 모든 결과가 하드웨어에서 직접 얻어졌다는 점이라고 지적합니다. 메모리 내 컴퓨팅 칩의 많은 이전 작업에서 AI 벤치마크 결과는 종종 소프트웨어 시뮬레이션에 의해 부분적으로 얻어졌습니다.
다음 단계에는 아키텍처와 회로를 개선하고 설계를 고급 기술 노드로 확장하는 작업이 포함됩니다. 연구원들은 또한 스파이크 신경망과 같은 다른 응용 프로그램도 다룰 계획입니다.
"우리는 우리의 동적 NeuRRAM 플랫폼을 사용하여 장치 수준에서 더 나은 작업을 수행하고 회로 설계를 개선하여 추가 기능을 구현하고 다양한 애플리케이션을 처리할 수 있습니다."라고 피츠버그 대학의 조교수인 Rajkumar Kubendran은 말했습니다. .디. UC 샌디에고의 Cauwenberghs 연구 그룹의 학생.
또한 Wan은 메모리 컴퓨팅 기술을 제품화하는 작업을 하는 스타트업의 창립 멤버입니다. Wan은 "연구원이자 엔지니어로서 실험실의 연구 혁신을 실용화하는 것이 야망입니다."라고 말했습니다.
새로운 아키텍처
NeuRRAM의 에너지 효율성의 핵심은 메모리에서 출력을 감지하는 혁신적인 방법입니다. 기존의 접근 방식은 전압을 입력으로 사용하고 그 결과로 전류를 측정합니다. 그러나 이로 인해 더 복잡하고 전력 소모가 많은 회로가 필요합니다. NeuRRAM에서 팀은 전압을 감지하고 에너지 효율적인 방식으로 아날로그-디지털 변환을 수행하는 뉴런 회로를 설계했습니다. 이 전압 모드 감지는 단일 컴퓨팅 사이클에서 RRAM 어레이의 모든 행과 모든 열을 활성화하여 더 높은 병렬성을 허용합니다.
NeuRRAM 아키텍처에서 CMOS 뉴런 회로는 물리적으로 RRAM 가중치와 인터리브됩니다. CMOS 회로가 일반적으로 주변 RRAM 가중치에 있는 기존 설계와 다릅니다. RRAM 어레이와의 뉴런 연결은 뉴런의 입력 또는 출력 역할을 하도록 구성할 수 있습니다. 이를 통해 영역 또는 전력 소비에 대한 오버헤드를 발생시키지 않고 다양한 데이터 흐름 방향에서 신경망 추론이 가능합니다. 이것은 차례로 아키텍처를 재구성하기 쉽게 만듭니다.
다양한 신경망 아키텍처에서 AI 계산의 정확성이 유지될 수 있도록 연구원들은 일련의 하드웨어 알고리즘 공동 최적화 기술을 개발했습니다. 이 기술은 컨볼루션 신경망, 장단기 기억, 제한된 볼츠만 기계를 포함한 다양한 신경망에서 검증되었습니다.
뉴로모픽 AI 칩인 NeuroRRAM은 48개의 뉴로시냅스 코어에서 병렬 분산 처리를 수행합니다. 높은 다용성과 효율성을 동시에 달성하기 위해 NeuRRAM은 여러 데이터에 대한 병렬 추론을 위해 신경망 모델의 레이어를 여러 코어에 매핑하여 데이터 병렬성을 지원합니다. 또한 NeuRRAM은 모델의 서로 다른 레이어를 서로 다른 코어에 매핑하고 파이프라인 방식으로 추론을 수행하여 모델 병렬성을 제공합니다.
국제 연구팀
이 작업은 국제 연구원 팀의 결과입니다.
UC 샌디에고 팀은 고효율 및 다목적성을 위해 칩 아키텍처에서 시냅스 기능을 지원하기 위해 RRAM 어레이와 인터페이스하는 신경 기능을 구현하는 CMOS 회로를 설계했습니다. Wan은 전체 팀과 긴밀하게 협력하여 설계를 구현했습니다. 특성화된 칩; AI 모델을 훈련했습니다. 그리고 실험을 진행했다. Wan은 또한 AI 애플리케이션을 칩에 매핑하는 소프트웨어 도구 체인을 개발했습니다.
RRAM 시냅스 어레이와 그 작동 조건은 Stanford University에서 광범위하게 특성화되고 최적화되었습니다.
RRAM 어레이는 Tsinghua University에서 제작되어 CMOS에 통합되었습니다.
Notre Dame의 팀은 칩의 설계 및 아키텍처와 후속 기계 학습 모델 설계 및 교육에 모두 기여했습니다.
출처 : https://www.sciencedaily.com/