Ampere A100 GPU : AI 계산 2,000 % 더 빠름
로운 Nvidia Ampere 카드 A100은 데이터 센터 용으로 설계되었습니다. 곧 출시 될 RTX 3000 시리즈에 대해 무엇을 알려 줍니까?
이미 의심 한 바와 같이, 동시에 공개 된 일련의 YouTube 비디오로 구성된 Nvidia의 디지털 버전 GTC 2020 기조 연설은 슈퍼 컴퓨터 액세서리의 프리젠 테이션으로 제한되었습니다. RTX 3080 Ti에 대한 이야기는 없었습니다.
AI 계산은 앞으로 훨씬 빨라질 것입니다
그러나 인공 지능 팬 (기술 용어 설명)의 경우 새로 도입 된 A100 GPU는 여전히 볼타 아키텍처를 기반으로하는 2017 이전 모델 V100의 컴퓨팅 성능을 두 배로 향상시킬뿐 아니라 꿈입니다. Nvidia에 따르면 특정 AI 계산 성능이 20 배 증가 할 수 있습니다.
한편으로, 이는 에너지 효율이 높고 성능 향상을위한 새로운 생산 방법 때문입니다. 12nm 대신 앰프와 7nm의 A100 GPU는 대만 회사 TSMC에서 제조합니다. 이는 칩에 훨씬 더 많은 트랜지스터가 파킹 될 수 있음을 의미합니다.
그러나 인상적인 것은 결국 그 크기가 얼마나 맞는지입니다 .A100 GPU는 815m²의 영역에 540 억 개의 트랜지스터를 수용한다고합니다 . 비교를 위해 : 이전의 V100은 212 억에 이릅니다. 단 정밀도 계산을위한 6,912 개의 FP32 코어 (V100은 5,120 개의 FP32 코어를 비교), 배정 밀도 계산을위한 3,456 개의 FP64 코어 및 422 개의 텐서 코어가 실제 컴퓨팅 성능을 제공합니다. HBM2 메모리에는 40GB와 초당 1.6TB의 전송 속도가 제공됩니다.
V100 (640)보다 적은 텐서 코어이지만 AI 컴퓨팅 성능에서 최대 20 배 더 높은 성능을 제공합니까? 텐서 코어의 3 세대는 분명히 기능이 확장되었으며 이제 배정 밀도 계산 (FP64)을 지원합니다. Nvida는 또한 FP32와 FP16의 장점을 결합한 새로운 부동 소수점 형식 인 Tensor Float 32 (TF32)를 소개합니다. 이는 지진 확률을 예측하는 것만 큼 정확도를 요구하지 않는 딥 러닝 및 기타 AI 교육 방법에 특히 흥미롭고 중요 합니다 .
RTX 3080 Ti : RTX 2080 Ti보다 두 배 빠르지는 않습니다.
연말에 예상되는 RTX 3000 시리즈의 가능한 그래픽 카드에 대해 무엇을 알려줍니까? A100과 같은 고성능 컴퓨팅 카드와는 매우 다릅니다. 결국, 높은 수학은 거실에 적용되는 영역이 아닙니다.
RTX 2080 Ti 소비자 모델에는 754m² 면적의 187 억 개의 트랜지스터가 있습니다. A100 칩의 크기를 지침으로 삼 으면 RTX 3080 Ti는 2080 Ti보다 두 배 많은 트랜지스터를 설치할 수 있었기 때문에 성능이 약 두 배가됩니다.
그러나 비용은 엄청납니다. 따라서 3080 Ti는 훨씬 작아지고 여전히 30-50 % 더 많은 전력으로 레벨이 떨어질 가능성이 높습니다. 최종 사용자의 가격도 2080 Ti (약 1,200 유로)의 현재 가격과 비슷해야합니다. 지난 며칠 의 추측은 크게 맞을 것입니다.