|
젠슨 황 NVIDIA CEO의 GTC 2023 키노트 연설 전문 번역글입니다.
(00:01) 무어의 법칙은 거의 40년 동안 컴퓨터 산업을 지배하는 역학 관계였으며, 이는 모든 산업에 영향을 미쳤습니다. 일정한 비용과 전력으로 기하급수적으로 성능이 향상되던 것이 둔화되었습니다. 하지만 컴퓨팅의 발전은 광속으로 빨라졌습니다. 워프 구동 엔진은 가속 컴퓨팅이고 에너지원은 AI입니다.
(00:33) 가속 컴퓨팅과 AI의 등장은 산업계가 강력한 역학 관계의 지속 가능성을 창출하는 AI와 디지털화에 대처하는 데 있어 시의적절합니다. 무어의 법칙이 없다면 컴퓨팅이 급증함에 따라 데이터센터 전력 소비가 급증하고 기업들은 탄소중립을 달성하는 데 어려움을 겪을 것입니다. 제너레이티브 AI의 놀라운 기능으로 인해 기업들은 제품과 비즈니스 모델을 재구상해야 한다는 절박감을 느끼게 되었습니다.
(01:04) 산업 기업들은 디지털화와 소프트웨어 중심 기술 기업으로 재탄생하기 위해 경쟁하고 있으며, 더 이상 도태되지 않고 파괴자가 되기 위해 노력하고 있습니다. 오늘은 가속 컴퓨팅과 AI가 이러한 과제를 해결하고 앞으로 다가올 엄청난 기회를 포착하기 위한 강력한 도구가 되는 방법에 대해 논의할 것입니다. 데이터센터 규모의 풀스택 가속 컴퓨팅 플랫폼의 새로운 진보를 공유하겠습니다.
(01:35) 새로운 칩과 시스템, 가속 라이브러리, 클라우드 및 AI 서비스, 새로운 시장을 여는 파트너십을 공개합니다. GTC에 오신 것을 환영합니다! GTC는 개발자를 위한 컨퍼런스입니다. 4백만 명의 개발자, 4만 개의 기업, 14,000개의 스타트업으로 구성된 글로벌 NVIDIA 에코시스템이 있습니다. GTC 2023을 성공적으로 개최할 수 있도록 지원해 주신 다이아몬드 스폰서 여러분께 감사드립니다.
(02:08) 25만 명 이상의 여러분을 컨퍼런스에 초대하게 되어 매우 기쁩니다. GTC는 놀랍도록 성장했습니다. 불과 4년 전만 해도 GTC 오프라인 컨퍼런스에는 8,000명이 참석했습니다. GTC 2023에서는 딥마인드의 데미스 카사비스 아르곤 연구소의 발레리 테일러 Adobe의 스콧 벨스키 넷플릭스의 폴 데베벡 취리히 공과대학교의 토마스 슐테스와 같은 리더들의 강연과 ChatGPT를 개발한 OpenAI의 공동 창립자 일리야 수츠케버와의 특별한 노변 대담이 진행됩니다.
(02:50) 학계와 세계 최대 산업계에서 가장 뛰어난 인재들이 650개의 놀라운 강연을 준비했습니다: 제너레이티브 AI에 관한 강연만 70개가 넘습니다. 로봇 공학을 위한 사전 학습된 멀티태스크 모델... AI를 발전시키는 중요한 방법인 합성 데이터 생성에 대한 세션, 물리 기반 라이더 포인트 클라우드를 생성하기 위해 Isaac Sim을 사용하는 세션 등 디지털 트윈에 대한 다양한 강연, AI를 사용하여 미래의 가상 공장을 채우는 것부터 잃어버린 로마의 모자이크를 복원하는 것까지 다양한 강연이 준비되어 있습니다.
(03:29) 거대한 광학 망원경과 탄소 포집 및 태양 전지를 위한 광자 계수 CT를 포함한 계산 장비에 대한 멋진 강연 지구에 대한 연구를 포함한 기후 과학 - 신뢰할 수 있는 AI 및 AV 안전에 대한 NVIDIA의 중요한 연구 마이크로 칩을 위한 계산 리소그래피에서 가장 작은 기계를 만드는 것까지, 우주를 설명하는 대형 강입자 충돌기의 AI에 이르기까지 다양한 이야기.
(04:05) 자동차 및 운송 의료, 제조, 금융 서비스, 소매, 의류, 미디어 및 엔터테인먼트, 통신은 물론 세계 최고의 AI 기업까지 세계에서 가장 중요한 기업들이 이곳에 모였습니다. GTC의 목적은 컴퓨팅 가속화의 가능성에 대해 전 세계에 영감을 주고 컴퓨팅을 사용하는 과학자와 연구자들의 업적을 축하하는 것입니다.
[영상 자료]
(04:47) 저는 번역가입니다. 텍스트를 창의적인 발견으로, 움직임을 애니메이션으로, 방향을 행동으로 전환합니다. 저는 치료사입니다. 새로운 위협이 발생하기 전에 새로운 위협을 모델링하고 이를 막을 수 있는 치료법을 찾기 위해 우리를 독특하게 만드는 구성 요소를 탐구합니다. 저는 비전가입니다. 새로운 의학적 기적을 일으키고 태양에 대한 새로운 관점을 제공합니다.
(05:57) 지구를 안전하게 지키기 위해 노력합니다. 나는 내비게이터입니다. 수많은 콘텐츠의 바다에서 특별한 순간을 발견하여 다음 세대를 알리고 모든 스토리를 위한 완벽한 배경을 제공합니다. 저는 크리에이터입니다. 스냅샷으로 3D 경험을 구축하고 가상의 자아에 새로운 차원의 현실을 더합니다. 저는 도우미입니다. 백만 명의 프로그래머의 지혜를 공유하여 브레인스토밍에 생명을 불어넣고 아이디어를 가상 세계로 전환합니다.
(07:05) 북쪽 숲을 만듭니다. 저는 이 대본에 생명을 불어넣고 멜로디를 작곡하는 데도 도움을 주었습니다. 나는 AI입니다. NVIDIA, 딥 러닝, 그리고 전 세계의 뛰어난 인재들이 함께 만들어냈습니다.
[키노트 계속]
NVIDIA는 일반 컴퓨터가 해결할 수 없는 문제를 해결하기 위해 가속 컴퓨팅을 발명했습니다. 가속 컴퓨팅은 칩, 시스템, 네트워킹, 가속 라이브러리부터 애플리케이션 리팩토링에 이르기까지 전체 스택의 발명이 필요하기 때문에 쉽지 않습니다.
(08:08) 최적화된 각 스택은 그래픽, 이미징, 입자 또는 유체 역학 양자 물리학에서 데이터 처리 및 머신 러닝에 이르기까지 애플리케이션 도메인을 가속화합니다. 일단 가속화되면 애플리케이션은 놀라운 속도 향상은 물론 여러 대의 컴퓨터로 확장할 수 있습니다. 속도 향상과 스케일업의 조합을 통해 지난 10년 동안 많은 애플리케이션에서 백만 배의 성능을 달성할 수 있었으며, 이전에는 불가능했던 문제를 해결할 수 있었습니다.
(08:44) 많은 예가 있지만 가장 유명한 것은 딥 러닝입니다. 2012년 알렉스 케르체프스키, 일리야 서스케버, 제프 힌튼은 AlexNet 컴퓨터 비전 모델을 훈련하기 위해 엄청나게 빠른 컴퓨터가 필요했습니다. 연구원들은 262경 부동소수점 연산을 처리하는 GeForce GTX 580에서 1,400만 개의 이미지로 AlexNet을 학습시켰고, 학습된 모델은 ImageNet 챌린지에서 큰 차이로 승리하며 AI의 빅뱅에 불을 붙였습니다.
(09:24) 그로부터 10년 후, 트랜스포머 모델이 발명되었습니다. 그리고 현재 OpenAI에서 일하고 있는 일리야는 다음 단어를 예측하기 위해 GPT-3 대규모 언어 모델을 훈련시켰습니다. GPT-3를 훈련하는 데 323억 6천만 번의 부동소수점 연산이 필요했습니다. AlexNet을 훈련할 때보다 100만 배 더 많은 부동소수점 연산이 필요했습니다. 그 결과, 전 세계가 주목하는 인공지능 ChatGPT가 탄생했습니다.
(09:57) 새로운 컴퓨팅 플랫폼이 발명되었습니다. 인공지능의 아이폰 시대가 시작되었습니다. 가속 컴퓨팅과 AI의 시대가 도래했습니다. 가속 라이브러리는 가속 컴퓨팅의 핵심입니다. 이러한 라이브러리는 전 세계 산업에 연결된 애플리케이션에 연결하여 네트워크 네트워크를 형성합니다. 30년이 지난 지금, 거의 모든 과학 및 산업 분야에서 수천 개의 애플리케이션이 라이브러리를 통해 NVIDIA 가속화를 사용하고 있습니다.
(10:34) 모든 NVIDIA GPU는 CUDA와 호환되므로 개발자에게 대규모 설치 기반과 상당한 도달 범위를 제공합니다. 다양한 가속화된 애플리케이션은 최종 사용자를 끌어모으고, 이는 클라우드 서비스 제공업체와 컴퓨터 제조업체가 서비스를 제공할 수 있는 대규모 시장을 창출합니다. 큰 시장은 성장을 촉진하기 위해 수십억 달러의 R&D를 지원합니다.
(10:59) NVIDIA는 가속 컴퓨팅 선순환 구조를 확립했습니다. 레이 트레이싱 및 뉴럴 렌더링 물리, 지구 및 생명 과학, 양자 물리학 및 화학, 컴퓨터 비전 데이터 처리, 머신 러닝 및 AI를 아우르는 300개의 가속 라이브러리와 400개의 AI 모델 중 올해 100개를 업데이트하여 전체 설치 기반에 성능과 기능을 향상시켰습니다.
(11:31) 새로운 과제를 해결하고 새로운 시장을 개척하는 몇 가지 가속 라이브러리를 강조하겠습니다. 자동차 및 항공우주 산업에서는 난기류 및 공기 역학 시뮬레이션에 CFD를 사용합니다. 전자 산업에서는 열 관리 설계에 CFD를 사용합니다. 다음은 CUDA로 가속화된 새로운 CFD 솔버에 대한 Cadence의 슬라이드입니다.
(11:56) 동일한 시스템 비용에서 NVIDIA A100은 CPU 서버의 9배에 달하는 처리량을 제공합니다. 또는 동등한 시뮬레이션 처리량에서 NVIDIA는 9배 낮은 비용 또는 17배 적은 에너지를 소비합니다. Ansys, Siemens, Cadence 및 기타 주요 CFD 솔버는 이제 CUDA 가속화를 지원합니다. 전 세계적으로 산업용 CAE는 매년 약 1,000억 CPU 코어 시간을 사용합니다.
(12:28) 가속화는 전력을 회수하고 지속 가능성 및 넷 제로를 달성하는 가장 좋은 방법입니다. 엔비디아는 글로벌 양자 컴퓨팅 연구 커뮤니티와 협력하고 있습니다. 엔비디아 퀀텀 플랫폼은 연구자들이 양자 프로그래밍 모델, 시스템 아키텍처 및 알고리즘을 발전시킬 수 있는 라이브러리와 시스템으로 구성되어 있습니다.
(12:51) cuQuantum은 양자 회로 시뮬레이션을 위한 가속 라이브러리입니다. IBM 키스킷(Qiskit), 구글 서크(Cirq), 바이두 퀀텀 리프(Quantum Leaf), QMWare, QuEra, 자나두 페닐레인, 아그노스틱, AWS 브래킷(Bracket)이 시뮬레이션 프레임워크에 cuQuantum을 통합했습니다. 오픈 퀀텀 CUDA는 하이브리드 GPU-퀀텀 프로그래밍 모델입니다. IonQ, ORCA 컴퓨팅, Atom, QuEra, Oxford 퀀텀 서킷, IQM, 파스칼, 퀀텀 브릴리언스, 퀀티늄, 리게티, 자나두, 애니온이 오픈 퀀텀 CUDA를 통합했습니다.
(13:36) 양자 잡음과 디코히어런스로부터 데이터를 복구하려면 많은 수의 큐비트에 대한 오류 수정이 필요합니다. 오늘 엔비디아는 퀀텀 머신과 협력하여 개발한 양자 제어 링크를 발표하며, 이 링크는 엔비디아 GPU를 양자 컴퓨터에 연결하여 초고속으로 오류 정정을 수행합니다. 상업용 양자 컴퓨터가 상용화되려면 아직 1~2년은 더 남았지만, 엔비디아 퀀텀을 통해 이 크고 활기찬 연구 커뮤니티를 지원하게 되어 기쁘게 생각합니다.
(14:06) 전 세계 기업들은 데이터 레이크와 웨어하우스 SQL 쿼리, 그래프 분석, 추천 시스템을 처리하기 위해 Apache Spark를 사용합니다. Spark-RAPIDS는 NVIDIA의 가속화된 아파치 스파크 데이터 처리 엔진입니다. 데이터 처리는 전 세계 5,000억 달러 규모의 클라우드 컴퓨팅 지출에서 가장 큰 비중을 차지하는 워크로드입니다. Spark-RAPIDS는 현재 GCP Dataproc Amazon EMR, 데이터브릭스, 클라우데라 등 주요 클라우드 데이터 처리 플랫폼을 가속화하고 있습니다.
(14:43) 추천 시스템은 벡터 데이터베이스를 사용하여 비정형 데이터의 방대한 데이터 세트를 저장, 색인, 검색 및 검색합니다. 벡터 데이터베이스의 새로운 중요한 사용 사례는 텍스트 생성 중에 쿼리할 수 있는 도메인별 또는 독점적 사실을 검색하기 위한 대규모 언어 모델입니다. 인덱싱을 가속화하고, 데이터를 로드하고, 단일 쿼리에 대한 이웃 배치를 검색하기 위해 새로운 라이브러리인 RAFT를 도입하고 있습니다.
(15:15) 메타의 오픈 소스 FAISS AI 유사도 검색, 1,000개 이상의 조직에서 사용하는 Milvus 오픈 소스 벡터 DB, 40억 건 이상의 도커 풀을 보유한 Redis에 RAFT의 가속화를 도입합니다. 벡터 데이터베이스는 독점적인 대규모 언어 모델을 구축하는 조직에 필수적입니다. 22년 전, 운영 연구 과학자인 Li와 Lim은 일련의 까다로운 픽업 및 전달 문제를 게시했습니다.
(15:48) PDP는 제조, 운송, 소매 및 물류, 심지어 재난 구호 분야에서도 나타납니다. PDP는 여행하는 영업사원 문제를 일반화한 것으로, 정확한 해를 찾는 효율적인 알고리즘이 없다는 의미의 NP-하드 문제입니다. 문제 크기가 커질수록 해법 시간이 기하급수적으로 증가합니다.
(16:11) 진화 알고리즘과 가속 컴퓨팅을 사용해 초당 300억 개의 움직임을 분석하는 엔비디아 cuOpt는 세계 기록을 경신하며 리앤림의 과제에 대한 최적의 솔루션을 찾아냈습니다. AT&T는 700개 지역에 걸쳐 1,300만 명의 고객에게 서비스를 제공하기 위해 3만 명의 기술자를 정기적으로 파견하고 있습니다.
(16:37) 오늘날 CPU에서 실행되는 AT&T의 파견 최적화에는 하룻밤이 걸립니다. AT&T는 긴급한 고객 요구와 전반적인 고객 만족도를 지속적으로 최적화하는 동시에 지연 및 새로 발생하는 인시던트를 조정할 수 있는 파견 솔루션을 실시간으로 찾고자 합니다. AT&T는 cuOpt를 통해 100배 더 빠르게 솔루션을 찾고 실시간으로 디스패치를 업데이트할 수 있습니다.
(17:08) AT&T는 NVIDIA AI 라이브러리의 전체 제품군을 채택했습니다. Spark-RAPIDS 및 cuOPT 외에도 대화형 AI에는 Riva를, 디지털 아바타에는 Omniverse를 사용하고 있습니다. AT&T는 지속 가능성, 비용 절감 및 새로운 서비스를 위해 NVIDIA 가속 컴퓨팅과 AI를 활용하고 있습니다. cuOpt는 물류 서비스도 최적화할 수 있습니다. 매년 4천억 개의 소포가 3,770억 개의 정류장으로 배송됩니다.
(17:43) 딜로이트, 캡제미니, 소프트서브, 액센츄어, 퀀티피는 고객의 운영 최적화를 지원하기 위해 NVIDIA cuOpt를 사용하고 있습니다. NVIDIA의 추론 플랫폼은 세 가지 소프트웨어 SDK로 구성되어 있습니다. NVIDIA TensorRT는 대상 GPU에 최적화되는 추론 런타임입니다. NVIDIA Triton은 GPU와 CPU를 지원하는 멀티 프레임워크 데이터센터 추론 서비스 소프트웨어입니다.
(18:12) Microsoft Office 및 Teams, Amazon, American Express, 미국 우체국 등 40,000개의 고객사가 TensorRT와 Triton을 사용하고 있습니다. Uber는 트리톤을 사용해 초당 수십만 건의 도착 예정 시간 예측 서비스를 제공합니다. 일일 사용자 수가 6천만 명이 넘는 Roblox는 게임 추천, 아바타 구축, 콘텐츠 및 마켓플레이스 광고 조정 모델을 제공하는 데 트리톤을 사용합니다.
(18:41) 모델 앙상블을 위한 모델 분석기 지원, 다중 동시 모델 제공, GPT-3 대규모 언어 모델에 대한 멀티 GPU, 멀티 노드 추론 등 몇 가지 훌륭한 새 기능을 출시합니다. NVIDIA Triton 관리 서비스는 데이터센터 전체에서 Triton 추론 인스턴스의 확장 및 오케스트레이션을 자동화하는 새로운 소프트웨어입니다.
(19:09) Triton 관리 서비스는 모델 배포의 처리량과 비용 효율성을 개선하는 데 도움이 됩니다. 클라우드 비디오 파이프라인의 50~80%는 CPU에서 처리되어 전력과 비용을 소모하고 지연 시간을 증가시킵니다. 컴퓨터 비전을 위한 CV-CUDA와 비디오 처리를 위한 VPF는 새로운 클라우드 규모 가속 라이브러리입니다.
(19:36) CV-CUDA에는 감지, 분할, 분류를 위한 30개의 컴퓨터 비전 연산자가 포함되어 있습니다. VPF는 파이썬 비디오 인코딩 및 디코딩 가속 라이브러리입니다. 텐센트는 CV-CUDA와 VPF를 사용하여 하루에 30만 개의 동영상을 처리합니다. Microsoft는 CV-CUDA와 VPF를 사용하여 시각적 검색을 처리합니다. 런웨이는 클라우드 제너레이티브 AI 비디오 편집 서비스에서 CV-CUDA와 VPF를 사용하여 비디오를 처리하는 멋진 회사입니다.
(20:12) 이미 인터넷 트래픽의 80%는 비디오입니다. 사용자가 생성한 비디오 콘텐츠는 엄청난 성장을 주도하고 있으며 엄청난 양의 전력을 소비하고 있습니다. 우리는 모든 비디오 처리를 가속화하고 전력을 회수해야 합니다. CV-CUDA와 VPF는 현재 얼리 액세스 중입니다. 엔비디아 가속 컴퓨팅 덕분에 의사가 한 번의 방문으로 혈액을 채취하고 환자의 DNA를 시퀀싱할 수 있는 유전체학의 이정표를 달성할 수 있었습니다.
(20:42) 또 다른 이정표로, 엔비디아 기반 기기는 전체 게놈 시퀀싱 비용을 단 100달러로 줄였습니다. 유전체학은 신약 개발, 농업, 에너지 생산에 이르기까지 다양한 응용 분야를 가진 합성 생물학에서 중요한 도구입니다. 엔비디아 파라브릭스는 클라우드 또는 기기 내에서 엔드투엔드 유전체학 분석을 위한 AI 가속 라이브러리 제품군입니다.
(21:11) NVIDIA Parabricks는 모든 퍼블릭 클라우드 및 Terra, DNAnexus, FormBio와 같은 유전체학 플랫폼에서 사용할 수 있습니다. 오늘 발표하는 파라브릭스 4.1은 팩바이오, 옥스포드 나노포어, 울티마, 싱귤러, 바이오나노, 나노스트링의 엔비디아 가속 유전체학 기기에서 실행될 예정입니다. 전 세계 2,500억 달러 규모의 의료 기기 시장이 변화하고 있습니다.
(21:42) 의료 기기는 소프트웨어 정의 및 AI 기반이 될 것입니다. NVIDIA Holoscan은 실시간 센서 처리 시스템을 위한 소프트웨어 라이브러리입니다. 75개 이상의 기업이 Holoscan을 기반으로 의료 기기를 개발하고 있습니다. 오늘 우리는 의료 기기 분야의 세계적인 리더인 메드트로닉과 엔비디아가 소프트웨어 정의 의료 기기를 위한 AI 플랫폼을 구축한다고 발표합니다.
(22:11) 이 파트너십을 통해 수술 내비게이션에서 로봇 보조 수술에 이르기까지 다양한 Medtronic 시스템을 위한 공통 플랫폼이 만들어질 것입니다. 오늘 메드트로닉은 대장암 조기 발견을 위한 AI가 탑재된 차세대 GI 지니어스 시스템이 엔비디아 홀로스캔을 기반으로 제작되어 올해 말경에 출시될 예정이라고 발표했습니다.
(22:34) 칩 산업은 거의 모든 산업의 기반입니다. 칩 제조에는 박테리아보다 1,000배 작고 금 원자 하나 또는 인간 DNA 한 가닥 크기의 특징을 만들어내는 극도의 정밀성이 요구됩니다. 웨이퍼에 패턴을 만드는 공정인 리소그래피는 칩 제조 공정의 시작이며 포토마스크 제작과 패턴 투영의 두 단계로 구성됩니다.
(23:05) 리소그래피는 근본적으로 물리학의 한계에 부딪히는 이미징 문제입니다. 포토마스크는 칩의 스텐실과 같습니다. 패턴을 만들기 위해 빛이 차단되거나 마스크를 통해 웨이퍼로 전달됩니다. 빛은 ASML EUV 극자외선 리소그래피 시스템에서 생성됩니다. 각 시스템은 25억 달러가 넘습니다.
(23:30) ASML EUV는 급진적인 방식으로 빛을 생성합니다. 주석 한 방울에 초당 50,000회 레이저 펄스를 발사하여 기화시켜 X-선에 가까운 13.5nm EUV 빛을 방출하는 플라즈마를 생성합니다. 다층 거울이 빛을 마스크로 안내합니다. 마스크 레티클의 다층 반사판은 13.
(24:00) 5nm 빛의 간섭 패턴을 활용하여 3nm까지 더 미세한 피처를 생성합니다. 마법과도 같습니다. 웨이퍼는 1/4 나노미터 이내에 배치되고 진동에 대응하기 위해 초당 20,000번 정렬됩니다. 리소그래피 전 단계도 마찬가지로 기적과도 같습니다. 전산 리소그래피는 역물리학 알고리즘을 적용하여 웨이퍼의 최종 패턴을 생성할 마스크의 패턴을 예측합니다.
(24:31) 실제로 마스크의 패턴은 최종 피처와 전혀 닮지 않았습니다. 전산 리소그래피는 빛이 광학 장치를 통과하고 포토레지스트와 상호 작용하는 맥스웰의 방정식을 시뮬레이션합니다. 전산 리소그래피는 칩 설계 및 제조에서 가장 큰 연산 워크로드이며 연간 수백억 CPU 시간을 소비합니다.
(24:58) 대규모 데이터 센터는 리소그래피 시스템에 사용되는 레티클을 생성하기 위해 24시간 연중무휴로 운영됩니다. 이러한 데이터 센터는 칩 제조업체가 연간 약 2,000억 달러를 투자하는 설비투자(CAPEX)의 일부입니다. 컴퓨팅 리소그래피는 알고리즘의 복잡성이 증가함에 따라 빠르게 성장하고 있으며, 업계가 2nm 이상으로 나아갈 수 있도록 지원합니다. 엔비디아는 오늘 컴퓨팅 리소그래피용 라이브러리인 cuLitho를 발표합니다.
(25:26) 약 4년에 걸친 방대한 작업과 TSMC, ASML, Synopsys와의 긴밀한 협업을 통해 탄생한 cuLitho는 컴퓨팅 리소그래피를 40배 이상 가속화합니다. NVIDIA H100에는 89개의 레티클이 있습니다. CPU에서 실행되는 경우 하나의 레티클을 처리하는 데 현재 2주 정도 걸리지만, GPU에서 실행되는 cuLitho는 단 8시간 근무로 레티클을 처리할 수 있습니다.
(26:00) TSMC는 단 500대의 DGX H100 시스템에서 cuLitho로 가속화함으로써 전산 리소그래피에 사용되는 40,000대의 CPU 서버를 줄여 전력을 35MW에서 단 5MW로 줄일 수 있습니다. TSMC는 cuLitho를 통해 프로토타입 사이클 시간을 단축하고, 처리량을 늘리며, 제조 시 탄소 발자국을 줄이고, 2nm 이후를 준비할 수 있습니다.
(26:30) TSMC는 6월부터 cuLitho를 생산할 수 있는 자격을 갖추게 됩니다. 모든 산업은 모든 워크로드를 가속화하여 전력을 절약하고 더 적은 자원으로 더 많은 일을 할 수 있도록 해야 합니다. 지난 10년 동안 클라우드 컴퓨팅은 매년 20%씩 성장하여 1조 달러 규모의 거대한 산업으로 성장했습니다. 약 3,000만 대의 CPU 서버가 대부분의 처리를 수행합니다.
(26:57) 하지만 이제 새로운 도전이 기다리고 있습니다. 무어의 법칙이 끝나감에 따라 CPU 성능 향상은 전력 증가를 수반합니다. 그리고 탄소 배출량을 줄여야 하는 의무는 데이터 센터를 늘려야 하는 필요성과 근본적으로 상충됩니다. 클라우드 컴퓨팅의 성장은 전력에 한계가 있습니다. 무엇보다도 데이터 센터는 모든 워크로드를 가속화해야 합니다.
(27:23) 가속화는 전력을 회수할 것입니다. 절약된 에너지는 새로운 성장의 원동력이 될 수 있습니다. 가속화되지 않은 모든 것은 CPU에서 처리됩니다. 가속화된 클라우드 데이터센터를 위한 CPU 설계 포인트는 과거와 근본적으로 다릅니다. AI 및 클라우드 서비스에서 가속 컴퓨팅은 병렬화 가능한 워크로드를 오프로드하고, CPU는 웹 RPC 및 데이터베이스 쿼리와 같은 다른 워크로드를 처리합니다.
(27:51) AI 워크로드가 GPU로 가속화되고 단일 스레드 실행 및 메모리 처리에 탁월한 성능을 발휘하는 AI 및 클라우드 우선 세상을 위해 Grace CPU를 설계했습니다. CPU 칩만 중요한 것이 아닙니다. 데이터센터 운영자는 전체 데이터센터의 처리량과 총소유비용을 최적화합니다. 퓨어스토리지는 클라우드 데이터센터 규모에서 높은 에너지 효율성을 위해 Grace를 설계했습니다.
(28:20) Grace는 초당 3.2TB의 단면 대역폭을 제공하는 초고속 온칩 확장형 코히어런트 패브릭으로 연결된 72개의 Arm 코어로 구성됩니다. Grace 슈퍼칩은 초당 900GB의 저전력 칩 간 코히어런트 인터페이스를 통해 2개의 CPU 다이 사이에 144개의 코어를 연결합니다. 메모리 시스템은 휴대폰에 사용되는 것과 같은 LPDDR 저전력 메모리로, 데이터센터에서 사용하기 위해 특별히 강화되었습니다.
(28:50) 1/8의 전력으로 오늘날 시스템보다 2.5배 높은 대역폭인 1TB/s를 제공합니다. 1TB 메모리를 갖춘 144코어 그레이스 슈퍼칩 모듈 전체 크기는 5x8인치에 불과합니다. 저전력으로 공랭식 냉각이 가능합니다. 이것은 패시브 쿨링이 적용된 컴퓨팅 모듈입니다. 하나의 1U 공랭식 서버에 두 대의 Grace 슈퍼칩 컴퓨터를 장착할 수 있습니다.
(29:22) Grace의 성능과 전력 효율성은 클라우드 및 과학 컴퓨팅 애플리케이션에 탁월합니다. 클라우드 마이크로서비스가 얼마나 빠르게 통신하는지 테스트하는 인기 있는 Google 벤치마크와 Apache Spark 메모리 집약적인 데이터 처리를 테스트하는 Hi-Bench 제품군에서 Grace를 테스트했습니다. 이러한 종류의 워크로드는 클라우드 데이터센터의 기본입니다.
(29:45) 마이크로서비스에서 Grace는 최신 세대 x86 CPU 평균보다 1.3배, 데이터 처리에서는 1.2배 더 빠릅니다. 그리고 전체 서버 노드에서 측정된 전력의 60%만 사용하여 이러한 높은 성능을 달성할 수 있습니다. CSP는 전력 제한이 있는 데이터센터에 1.7배 더 많은 Grace 서버를 장착하여 각각 25% 더 높은 처리량을 제공할 수 있습니다.
(30:18) 등가 전력에서 Grace는 CSP에게 2배의 성장 기회를 제공합니다. Grace는 샘플링 중입니다. 그리고 Asus, Atos, Gigabyte, HPE, QCT, Supermicro, Wistron, ZT가 현재 시스템을 구축하고 있습니다. 최신 소프트웨어 정의 데이터 센터에서 가상화, 네트워크, 스토리지 및 보안을 수행하는 운영 체제는 데이터 센터의 CPU 코어와 관련 전력의 거의 절반을 소비할 수 있습니다.
(30:50) 데이터센터는 모든 워크로드를 가속화하여 전력을 회수하고 수익 창출 워크로드를 위한 CPU를 확보해야 합니다. NVIDIA BlueField는 데이터센터 운영 체제 및 인프라 소프트웨어를 오프로드하고 가속화합니다. Check Point, Cisco, DDN, Dell EMC 주니퍼, 팔로알토 네트웍스, 레드햇, VMWare 등 24개 이상의 에코시스템 파트너가 BlueField의 데이터센터 가속 기술을 사용하여 소프트웨어 플랫폼을 보다 효율적으로 실행하고 있습니다.
(31:24) BlueField-3는 현재 생산 중이며, 선도적인 클라우드 서비스 제공업체인 Baidu, CoreWeave, JD.com, Microsoft Azure, Oracle OCI, Tencent Games에서 클라우드 가속화를 위해 채택하고 있습니다. NVIDIA 가속 컴퓨팅은 대규모 언어 모델 혁신의 엔진인 세계 최고의 AI 슈퍼컴퓨터 DGX에서 시작됩니다.
(31:50) 세계 최초의 DGX를 OpenAI에 직접 전달했습니다. 이후 포춘 100대 기업 중 절반이 DGX AI 슈퍼컴퓨터를 설치했습니다. DGX는 AI의 필수 도구가 되었습니다. DGX의 GPU는 8개의 H100 모듈입니다. H100에는 생성형 사전 학습 트랜스포머의 약자인 놀라운 ChatGPT와 같은 모델을 처리하도록 설계된 트랜스포머 엔진이 있습니다.
(32:20) 8개의 H100 모듈은 NV링크 스위치를 통해 서로 NV링크되어 완전히 논-블럭킹 트랜잭션이 가능합니다. 8개의 H100은 하나의 거대한 GPU처럼 작동합니다. 컴퓨팅 패브릭은 AI 슈퍼컴퓨터의 가장 중요한 시스템 중 하나입니다. 네트워크 내 처리 기능을 갖춘 400Gbps 초저지연 NVIDIA 퀀텀 인피니밴드는 수백, 수천 개의 DGX 노드를 AI 슈퍼컴퓨터에 연결합니다.
(32:52) 전 세계 AI 인프라를 구축하는 고객을 위한 청사진을 제시하는 NVIDIA DGX H100. 이제 본격 생산에 들어갔습니다. Microsoft가 Azure에서 H100 AI 슈퍼컴퓨터에 대한 비공개 미리보기를 제공한다고 발표한 것에 대해 매우 기쁘게 생각합니다. 다른 시스템과 클라우드 서비스도 곧 아토스, AWS, 시라스케일, 코어위브, 델, 기가바이트, 구글, HPE, 람다 랩스, 레노버, 오라클, 퀀타, 슈퍼마이크로에서 출시될 예정입니다.
(33:26) DGX AI 슈퍼컴퓨터 시장은 크게 성장했습니다. 원래 AI 연구 도구로 사용되던 DGX AI 슈퍼컴퓨터는 데이터를 정제하고 AI를 처리하기 위해 24시간 연중무휴로 가동되는 분야로 확장되고 있습니다. DGX 슈퍼컴퓨터는 현대판 AI 공장입니다. 우리는 AI의 아이폰 순간에 있습니다. 스타트업은 파괴적인 제품과 비즈니스 모델을 구축하기 위해 경쟁하고 있으며, 기존 기업들은 이에 대응하기 위해 노력하고 있습니다.
(34:03) 제너레이티브 AI는 전 세계 기업들이 AI 전략을 개발해야 한다는 긴박감을 불러일으켰습니다. 고객들은 더 쉽고 빠르게 엔비디아 AI에 액세스할 수 있어야 합니다. 엔비디아는 마이크로소프트 애저, 구글 GCP, 오라클 OCI와의 파트너십을 통해 모든 기업이 브라우저를 통해 즉시 엔비디아 DGX AI 슈퍼컴퓨터를 이용할 수 있는 엔비디아 DGX 클라우드를 발표합니다.
(34:36) DGX Cloud는 AI의 엔드투엔드 개발 및 배포를 위한 세계 최고의 가속 라이브러리 제품군인 NVIDIA AI Enterprise를 실행하는 데 최적화되어 있습니다. DGX 클라우드는 고객에게 최고의 NVIDIA AI와 세계 최고의 클라우드 서비스 제공업체를 제공합니다. 이 파트너십을 통해 NVIDIA의 에코시스템을 CSP에 제공하는 동시에 NVIDIA의 규모와 범위를 확대할 수 있습니다.
(35:06) 이 윈윈 파트너십을 통해 제너레이티브 AI를 활용하기 위해 경쟁하는 고객들은 글로벌 규모의 클라우드에서 NVIDIA에 즉시 액세스할 수 있습니다. 저희는 이 클라우드 확장 비즈니스 모델의 속도, 규모, 도달 범위가 매우 기대됩니다. 오라클 클라우드 인프라스트럭처(OCI)가 최초의 엔비디아 DGX 클라우드가 될 것입니다. OCI는 뛰어난 성능을 보유하고 있습니다. 2계층 컴퓨팅 패브릭과 관리 네트워크를 보유하고 있습니다.
(35:38) 업계 최고의 RDMA를 갖춘 NVIDIA의 CX-7이 컴퓨팅 패브릭입니다. 그리고 BlueField-3은 관리 네트워크의 인프라 프로세서가 될 것입니다. 이 조합은 멀티테넌트 클라우드 서비스로 제공될 수 있는 최첨단 DGX AI 슈퍼컴퓨터입니다. 소비자 인터넷 및 소프트웨어, 의료 미디어 및 엔터테인먼트, 금융 서비스를 아우르는 50개의 얼리 액세스 기업 고객을 보유하고 있습니다.
(36:08) ChatGPT, Stable Diffusion, DALL-E, Midjourney는 세상을 제너레이티브 AI에 눈을 뜨게 했습니다. 이러한 애플리케이션의 사용 편의성과 인상적인 기능으로 불과 몇 달 만에 1억 명 이상의 사용자를 끌어모았으며, ChatGPT는 역사상 가장 빠르게 성장하는 애플리케이션입니다. 별도의 교육이 필요하지 않습니다. 이 모델들에게 무언가를 요청하기만 하면 됩니다.
(36:37) 프롬프트는 정확할 수도 있고 모호할 수도 있습니다. 명확하지 않은 경우 대화를 통해 ChatGPT는 사용자의 의도를 학습합니다. 생성된 텍스트는 인상적입니다. ChatGPT는 메모와 시를 작성하고, 연구 논문을 의역하고, 수학 문제를 풀고, 계약서의 핵심 사항을 강조하고, 심지어 소프트웨어 프로그램을 코딩할 수도 있습니다.
(37:02) ChatGPT는 소프트웨어를 실행할 뿐만 아니라 소프트웨어를 작성하는 컴퓨터입니다. 많은 혁신이 제너레이티브 AI로 이어졌습니다. 트랜스포머는 데이터의 관계와 종속성에서 맥락과 의미를 병렬적이고 대규모로 학습합니다. 그 결과 명시적인 학습 없이도 다운스트림 작업을 수행할 수 있을 정도로 많은 데이터를 학습하는 대규모 언어 모델이 탄생했습니다.
(37:31) 그리고 물리학에서 영감을 받은 확산 모델은 감독 없이도 학습하여 이미지를 생성합니다. 10년이 조금 넘는 기간 동안, 유니티는 고양이를 인식하는 것에서 우주복을 입은 고양이가 달 위를 걷는 사실적인 이미지를 생성하는 데까지 발전했습니다. 제너레이티브 AI는 인간의 언어로 프로그래밍하는 새로운 종류의 컴퓨터입니다.
(37:57) 이 능력에는 심오한 의미가 있습니다. 누구나 컴퓨터가 문제를 해결하도록 지시할 수 있습니다. 이것은 컴퓨터 프로그래머들만의 영역이었습니다. 이제 모든 사람이 프로그래머입니다. 제너레이티브 AI는 PC, 인터넷, 모바일, 클라우드와 같은 새로운 컴퓨팅 플랫폼입니다. 그리고 이전 컴퓨팅 시대와 마찬가지로 퍼스트무버들은 새로운 애플리케이션을 만들고 새로운 회사를 설립하여 제너레이티브 AI의 자동화 및 공동 창작 기능을 활용하고 있습니다.
(38:34) 디빌드는 사용자가 원하는 것을 설명하는 것만으로 웹 애플리케이션을 설계하고 배포할 수 있게 해줍니다. Grammarly는 문맥을 고려하는 글쓰기 도우미입니다. Tabnine은 개발자의 코드 작성을 도와줍니다. Omnekey는 맞춤형 광고와 카피를 생성합니다. Kore.ai는 가상 고객 서비스 에이전트입니다. 재스퍼는 마케팅 자료를 생성합니다.
(39:03) Jasper는 약 50억 개의 단어를 작성하여 초안을 작성하는 시간을 80% 단축했습니다. Insilico는 AI를 사용하여 신약 설계를 가속화합니다. 앱시(Absci)는 치료용 항체를 예측하는 데 AI를 사용하고 있습니다. 제너레이티브 AI는 거의 모든 산업을 재창조할 것입니다. 많은 기업이 시장에 출시되는 우수한 제너레이티브 AI API 중 하나를 사용할 수 있습니다. 일부 기업은 독점 데이터로 해당 분야의 전문가인 맞춤형 모델을 구축해야 합니다.
(39:35) 사용 가드레일을 설정하고 회사의 안전, 개인정보 보호 및 보안 요구 사항에 맞게 모델을 개선해야 합니다. 업계에는 맞춤형 대형 언어 모델을 위한 파운드리, 즉 TSMC가 필요합니다. 오늘, 저희는 독점 데이터로 학습된 맞춤형 LLMlarge 언어 모델과 도메인별 작업을 위한 제너레이티브 AI를 구축, 개선 및 운영해야 하는 고객을 위한 클라우드 서비스인 NVIDIA AI 파운데이션을 발표합니다.
(40:11) 엔비디아 AI 파운데이션은 언어, 시각, 생물학 모델 제작 서비스로 구성됩니다. NVIDIA Nemo는 맞춤형 언어 텍스트-텍스트 생성 모델을 구축하기 위한 서비스입니다. 고객은 자신의 모델을 가져오거나 GPT-8, GPT-43, GPT-5300억 개의 매개변수 범위에서 사전 학습된 Nemo 언어 모델로 시작할 수 있습니다. 독점 모델 생성부터 운영까지 전체 프로세스에 걸쳐 NVIDIA AI 전문가가 고객과 협력합니다.
(40:45) 살펴보겠습니다.
[영상 자료]
엔비디아의 43B 기반 모델과 같은 생성 모델은 수십억 개의 문장과 수조 개의 단어에 대한 학습을 통해 학습합니다. 모델이 수렴함에 따라 모델의 임베딩 공간에 있는 가중치로 포착된 단어와 그 기본 개념 간의 관계를 이해하기 시작합니다.
(41:05) 트랜스포머 모델은 일련의 단어 내에서 의존성과 관계를 학습하도록 설계된 메커니즘인 자기 주의라는 기술을 사용합니다. 그 결과 ChatGPT와 유사한 경험의 토대를 제공하는 모델이 탄생합니다. 이러한 제너레이티브 모델은 데이터 처리 및 분산 학습을 위한 방대한 양의 데이터 딥러닝 전문 지식과 혁신의 속도에 맞춰 학습, 배포 및 유지 관리할 수 있는 대규모 컴퓨팅을 필요로 합니다.
(41:35) 기업들은 엔비디아 DGX 클라우드에서 실행되는 엔비디아 NeMo 서비스를 통해 제너레이티브 AI를 빠르게 도입할 수 있습니다. 가장 빠른 길은 사전 학습된 NVIDIA의 최첨단 파운데이션 모델 중 하나로 시작하는 것입니다. 조직은 NeMo 서비스를 통해 재무 문서 요약, 브랜드별 콘텐츠 제작, 개인화된 글쓰기 스타일로 이메일 작성과 같은 전문 기술을 가르치기 위해 p-튜닝을 통해 모델을 쉽게 커스터마이징할 수 있습니다.
(42:04) 모델을 독점 지식 기반에 연결하면 응답이 정확하고 최신이며 비즈니스에 인용될 수 있도록 보장할 수 있습니다. 다음으로 로직을 추가하고 입력, 출력, 독성 및 편향 임계값을 모니터링하여 가드레일을 제공함으로써 지정된 도메인 내에서 작동하고 원치 않는 응답을 방지할 수 있습니다.
(42:28) 모델을 작동시킨 후에는 사용자 상호 작용에 기반한 강화 학습을 통해 지속적으로 개선할 수 있습니다. 또한 대규모 평가 및 애플리케이션 통합을 위해 클라우드 API로 이동하기 전에 신속한 프로토타이핑을 위해 NeMo의 플레이그라운드를 사용할 수 있습니다. 지금 바로 NVIDIA NeMo 서비스에 등록하여 기업의 지식을 사용자가 제어할 수 있는 개인화된 AI 모델로 코드화하세요.
[키노트 계속]
(42:56) 피카소는 라이선스 또는 독점 콘텐츠로 학습된 맞춤형 모델을 구축하고자 하는 고객을 위한 시각 언어 모델 제작 서비스입니다. 자세히 살펴보겠습니다.
[영상 자료]
제너레이티브 AI는 시각적 콘텐츠 제작 방식을 혁신하고 있습니다. 하지만 제너레이티브 AI의 잠재력을 최대한 활용하려면 기업에는 방대한 양의 저작권이 확보된 데이터, AI 전문가, AI 슈퍼컴퓨터가 필요합니다.
(43:27) NVIDIA Picasso는 제너레이티브 AI 기반 이미지, 비디오 및 3D 애플리케이션을 구축하고 배포하기 위한 클라우드 서비스입니다. 이를 통해 기업, ISV 및 서비스 제공업체는 자체 모델을 배포할 수 있습니다. 모든 산업에 제너레이티브 AI 기능을 제공하기 위해 최고의 파트너와 협력하고 있습니다. 조직은 NVIDIA Edify 모델로 시작하여 데이터를 학습시켜 제품 또는 서비스를 만들 수도 있습니다.
(43:53) 이러한 모델은 이미지, 비디오 및 3D 에셋을 생성합니다. 애플리케이션은 생성형 AI 모델에 액세스하기 위해 텍스트 프롬프트와 메타데이터가 포함된 API 호출을 Picasso에 전송합니다. 피카소는 NVIDIA DGX 클라우드에서 실행 중인 적절한 모델을 사용하여 생성된 에셋을 애플리케이션으로 다시 전송합니다. 이 에셋은 사실적인 이미지, 고해상도 비디오 또는 세부적인 3D 지오메트리가 될 수 있습니다.
(44:24) 생성된 에셋을 편집 툴이나 NVIDIA Omniverse로 임포트하여 사실적인 가상 세계, 메타버스 애플리케이션, 디지털 트윈 시뮬레이션을 구축할 수 있습니다. NVIDIA DGX 클라우드에서 실행되는 NVIDIA Picasso 서비스를 사용하면 맞춤형 제너레이티브 AI 애플리케이션을 구축하는 데 필요한 트레이닝, 최적화 및 추론을 간소화할 수 있습니다.
(44:47) NVIDIA Picasso가 어떻게 애플리케이션에 혁신적인 제너레이티브 AI 기능을 제공할 수 있는지 알아보세요.
[키노트 계속]
게티 이미지가 책임감 있게 라이선스가 부여된 전문 이미지 및 비디오 자산의 풍부한 라이브러리를 기반으로 훈련된 에디파이 이미지 및 에디파이 비디오 생성 모델을 구축하는 데 피카소 서비스를 사용하게 되어 기쁘게 생각합니다.
(45:11) 기업은 간단한 텍스트 또는 이미지 프롬프트를 사용하여 맞춤형 이미지와 비디오를 만들 수 있습니다. 셔터스톡은 전문가용 이미지, 3D, 동영상 에셋 라이브러리를 기반으로 학습된 에디파이-3D 생성 모델을 개발하고 있습니다. 셔터스톡은 크리에이티브 프로덕션, 디지털 트윈 및 가상 협업을 위한 3D 에셋 생성을 간소화하여 기업이 이러한 워크플로우를 더 빠르고 쉽게 구현할 수 있도록 지원할 것입니다.
(45:40) 또한 마케터와 크리에이티브 전문가의 일상적인 워크플로우에 제너레이티브 AI를 통합하여 창의성의 미래를 위한 차세대 AI 기능 세트를 구축하기 위해 Adobe와의 오랜 파트너십을 크게 확장하게 되어 기쁩니다. 새로운 제너레이티브 AI 모델은 이미지 제작, 비디오, 3D 및 애니메이션에 최적화될 예정입니다.
(46:08) 아티스트의 권리를 보호하기 위해 Adobe는 Adobe의 콘텐츠 진위성 이니셔티브를 기반으로 상업적 실행 가능성과 적절한 콘텐츠 어트리뷰션에 중점을 두고 개발하고 있습니다. 세 번째 언어 영역은 생물학입니다. 신약 개발은 R&D에 2,500억 달러가 투입되는 2조 달러에 가까운 산업입니다. NVIDIA의 Clara는 이미징 기기, 유전체학 및 신약 개발을 위한 헬스케어 애플리케이션 프레임워크입니다.
(46:41) 이제 업계는 질병 표적을 발견하고 새로운 분자 또는 단백질 기반 약물을 설계하며 체내에서 약물의 거동을 예측하기 위해 제너레이티브 AI에 뛰어들고 있습니다. 인실리코 메디슨, 엑스사이언티아, 앱시, 에보자임은 수백 개의 새로운 AI 신약 개발 스타트업 중 하나입니다. 몇몇은 새로운 표적 또는 약물 후보를 발견하고 인간 임상시험을 시작했습니다.
(47:10) BioNeMo는 연구자가 자체 데이터를 사용하여 맞춤형 모델을 세밀하게 조정하고 제공할 수 있도록 지원합니다. 자세히 살펴보겠습니다.
[영상 자료]
신약 개발에는 저분자, 단백질, 항체 등 새로운 분자를 설계하여 질병을 유발하는 생물학을 발견하고, 마지막으로 이러한 분자가 서로 어떻게 상호 작용하는지 스크리닝하는 3가지 핵심 단계가 있습니다.
(47:36) 오늘날 제너레이티브 AI는 신약 개발 프로세스의 모든 단계를 혁신하고 있습니다. NVIDIA BioNeMo 서비스는 신약 개발을 위한 최첨단 제너레이티브 AI 모델을 제공합니다. 클라우드 서비스로 제공되며, 가속화된 신약 개발 워크플로우에 즉각적이고 쉽게 액세스할 수 있습니다. BioNeMo에는 3D 단백질 구조 예측을 위한 알파폴드, ESM폴드, 오픈폴드와 같은 모델이 포함되어 있습니다.
(48:03) 단백질 생성을 위한 ProtGPT, 단백질 특성 예측을 위한 ESM1 및 ESM2, 분자 생성 및 분자 도킹을 위한 MegaMolBART 및 MoFlow, 그리고 분자 생성을 위한 DiffDock. 신약 개발 팀은 BioNeMo의 웹 인터페이스 또는 클라우드 API를 통해 모델을 사용할 수 있습니다. 다음은 신약 개발 가상 스크리닝에 NVIDIA BioNeMo를 사용한 예시입니다.
(48:29) 제너레이티브 모델은 이제 단백질 아미노산 서열을 읽고 몇 초 만에 표적 단백질의 구조를 정확하게 예측할 수 있습니다. 또한 약물이 체내에서 작용하는 방식을 최적화하는 바람직한 ADME 특성을 가진 분자를 생성할 수 있습니다. 제너레이티브 모델은 단백질과 분자의 3D 상호작용을 예측하여 최적의 약물 후보를 빠르게 발견할 수 있습니다.
(48:53) 또한, 엔비디아 DGX 클라우드는 모델을 더욱 최적화하고 훈련할 수 있는 온디맨드 슈퍼 컴퓨팅 인프라를 제공하여 연구팀이 생명을 구하는 의약품을 발견하는 데 집중할 수 있도록 귀중한 시간과 비용을 절약해 줍니다. 새로운 AI 신약 개발 파이프라인은 여기에서 확인할 수 있습니다. NVIDIA BioNeMo 서비스에 액세스하려면 등록하세요.
[키노트 계속]
(49:16) 앞으로도 업계와 협력하여 신약 개발 및 가상 스크리닝의 엔드투엔드 워크플로우를 포괄하는 모델을 BioNemo에 포함할 것입니다. 암젠, 아스트라제네카, 인실리코 메디슨, 에보진, 이노포어, 알케맙 테라퓨틱스 등이 바이오네모의 얼리 액세스 사용자입니다. 맞춤형 언어 모델과 제너레이티브 AI를 구축하기 위한 클라우드 서비스, 파운드리인 엔비디아 AI 파운데이션.
(49:48) 10년 전 AlexNet 이후 딥 러닝은 자율 주행, 로봇 공학, 스마트 스피커와 같은 거대한 새로운 시장을 열었으며 쇼핑, 뉴스 소비, 음악 감상 방식을 재창조했습니다. 이는 빙산의 일각에 불과합니다. 제너레이티브 AI가 새로운 기회의 물결을 일으키며 추론 워크로드의 단계적 증가를 주도하면서 AI는 변곡점을 맞이하고 있습니다.
(50:18) 이제 AI는 음성, 텍스트, 이미지, 비디오, 3D 그래픽부터 단백질과 화학 물질에 이르기까지 다양한 데이터를 생성할 수 있습니다. 생성형 AI를 처리하기 위한 클라우드 데이터 센터를 설계하는 것은 큰 도전입니다. 한편으로는 단일 유형의 가속기가 이상적일 수 있는데, 이는 데이터센터가 예측할 수 없는 트래픽의 최고점과 최저점을 탄력적으로 처리할 수 있기 때문입니다.
(50:47) 반면에 하나의 가속기가 다양한 알고리즘, 모델, 데이터 유형 및 크기를 최적으로 처리할 수는 없습니다. 엔비디아의 원 아키텍처 플랫폼은 가속과 탄력성을 모두 제공합니다. 오늘 저희는 네 가지 구성 - 하나의 아키텍처 - 하나의 소프트웨어 스택으로 구성된 새로운 추론 플랫폼을 발표합니다.
(51:16) 각 구성은 워크로드 클래스에 최적화되어 있습니다. AI 비디오 워크로드의 경우 비디오 디코딩 및 트랜스코딩, 비디오 콘텐츠 조정, 배경 교체, 재조명, 눈 맞추기, 트랜스크립션, 실시간 언어 번역과 같은 화상 통화 기능에 최적화된 L4를 제공합니다. 오늘날 대부분의 클라우드 비디오는 CPU에서 처리됩니다.
(51:43) 한 대의 8-GPU L4 서버가 AI 비디오 처리를 위해 100대 이상의 듀얼 소켓 CPU 서버를 대체할 수 있습니다. Snap은 컴퓨터 비전 및 추천 시스템을 위한 NVIDIA AI의 선도적인 사용자입니다. Snap은 AV1 비디오 처리, 제너레이티브 AI 및 증강 현실에 L4를 사용할 예정입니다. Snapchat 사용자는 매일 수억 개의 동영상을 업로드합니다.
(52:11) Google은 오늘 GCP에서 NVIDIA L4를 발표했습니다. 엔비디아와 구글 클라우드는 주요 워크로드를 L4에 배포하기 위해 노력하고 있습니다. 다섯 가지를 강조하겠습니다. 첫째, 웜보와 디스크립트와 같은 클라우드 서비스를 위한 제너레이티브 AI 모델의 추론을 가속화하고 있습니다. 둘째, 트리톤 추론 서버를 구글 쿠버네티스 엔진 및 버텍스AI와 통합하고 있습니다.
(52:39) 셋째, NVIDIA Spark-RAPIDS로 Google 데이터프록을 가속화하고 있습니다. 넷째, 알파폴드, UL2 및 T5 대규모 언어 모델을 가속화하고 있습니다. 다섯째, 3D 및 AR 경험을 렌더링하는 Google Cloud의 몰입형 스트림을 가속화하고 있습니다. 이번 협력을 통해 Google GCP는 프리미어 NVIDIA AI 클라우드가 되었습니다.
(53:04) 조만간 양사의 협업에 대해 더 많은 소식을 전할 수 있기를 기대합니다. 옴니버스, 그래픽 렌더링, 텍스트-이미지 및 텍스트-비디오와 같은 제너레이티브 AI를 위해 우리는 L40을 발표합니다. L40은 가장 널리 사용되는 클라우드 추론 GPU인 NVIDIA의 T4보다 최대 10배 높은 성능을 제공합니다. 런웨이는 제너레이티브 AI의 선구자입니다.
(53:30) 런웨이의 연구팀은 스테이블 디퓨전과 그 전신인 잠재적 디퓨전의 핵심 개발자였습니다. 런웨이는 콘텐츠 제작 및 편집을 위한 제너레이티브 AI 모델을 개발하고 있습니다. 30개가 넘는 AI 매직 툴을 갖춘 이 서비스는 클라우드에서 크리에이티브 프로세스를 혁신하고 있습니다. 자세히 살펴보겠습니다.
[영상 자료]
런웨이는 놀라운 AI 기반 동영상 편집 및 이미지 제작 도구를 누구나 이용할 수 있도록 하고 있습니다.
(53:57) 로컬 또는 클라우드에서 실행되는 최신 세대의 NVIDIA GPU로 구동되는 Runway를 사용하면 몇 번의 브러시 스트로크만으로 비디오에서 개체를 제거할 수 있습니다. 또는 입력 이미지만 사용하여 비디오에 다양한 스타일을 적용할 수도 있습니다. 또는 동영상의 배경이나 전경을 변경할 수도 있습니다. 기존 툴을 사용하면 몇 시간이 걸리던 작업을 이제 단 몇 분 만에 전문 방송 품질의 결과물로 완성할 수 있습니다.
(54:24) 런웨이는 개발자가 컴퓨터 비전 워크로드를 위한 고효율 GPU 가속 전처리 및 후처리 파이프라인을 구축하고 클라우드로 확장할 수 있도록 지원하는 오픈 소스 프로젝트인 CV-CUDA를 활용하여 이를 실현합니다. 런웨이는 NVIDIA 기술을 통해 콘텐츠 제작자에게 최고의 경험을 제공하기 위해 불가능한 것을 가능하게 만들 수 있습니다.
(54:45) 이전에는 전문가만 할 수 있었던 일을 이제 여러분도 할 수 있습니다. 실제로 런웨이는 오스카상 후보에 오른 할리우드 영화에 사용되었으며, 우리는 이 기술을 전 세계 크리에이터의 손에 쥐어주고 있습니다.
[키노트 계속]
ChatGPT와 같은 대규모 언어 모델은 중요한 새로운 추론 워크로드입니다. GPT 모델은 메모리와 연산 집약적입니다.
(55:19) 게다가 추론은 대용량 스케일아웃 워크로드이며 표준 상품 서버가 필요합니다. ChatGPT와 같은 대규모 언어 모델 추론을 위해 새로운 Hopper GPU인 듀얼 GPU NVLINK가 탑재된 PCIE H100을 발표합니다. 새로운 H100에는 94GB의 HBM3 메모리가 탑재되어 있습니다. H100은 1,750억 개의 파라미터를 처리할 수 있는 GPT-3를 처리할 수 있으며, 상용 PCIE 서버를 지원하여 쉽게 확장할 수 있습니다.
(55:57) 현재 클라우드에서 ChatGPT를 실질적으로 처리할 수 있는 GPU는 HGX A100이 유일합니다. GPT-3 처리를 위한 HGX A100과 비교했을 때, H100 4쌍과 듀얼 GPU NVLINK를 갖춘 표준 서버는 최대 10배 더 빠릅니다. H100은 대규모 언어 모델 처리 비용을 대폭 절감할 수 있습니다. 그레이스 호퍼는 초당 900GB의 고속 일관된 칩 투 칩 인터페이스를 통해 그레이스 CPU와 호퍼 GPU를 연결하는 새로운 슈퍼칩입니다.
(56:39) Grace Hopper는 추천 시스템이나 대규모 언어 모델을 위한 AI 데이터베이스와 같은 대규모 데이터 세트를 처리하는 데 이상적입니다. 오늘날 대용량 메모리를 갖춘 CPU는 거대한 임베디드 테이블을 저장하고 쿼리한 다음 추론을 위해 결과를 GPU로 전송합니다. Grace-Hopper를 사용하면 Grace는 임베딩 테이블을 쿼리하고 그 결과를 고속 인터페이스를 통해 PCIE보다 7배 빠른 속도로 직접 Hopper로 전송합니다.
(57:12) 고객은 몇 배 더 큰 규모의 AI 데이터베이스를 구축하고자 합니다. 그레이스-호퍼는 이상적인 엔진입니다. 다양한 AI 워크로드를 위한 하나의 아키텍처로 데이터센터 가속화 및 탄력성을 극대화하는 NVIDIA의 추론 플랫폼입니다. 세계 최대 규모의 산업은 물리적 사물을 만들지만, 이를 디지털 방식으로 구축하고자 합니다.
(57:40) 옴니버스는 디지털과 물리적 환경을 연결하는 산업 디지털화를 위한 플랫폼입니다. 이를 통해 산업계는 물리적 복제본을 만들기 전에 실제 제품과 공장을 디지털 방식으로 설계, 구축, 운영, 최적화할 수 있습니다. 디지털화는 효율성과 속도를 높이고 비용을 절감합니다. 옴니버스의 한 가지 용도는 실제 공장을 건설하기 전에 모든 기계가 디지털 방식으로 통합된 공장을 가상으로 불러오는 것입니다.
(58:13) 이를 통해 막판 돌발 상황, 변경 주문, 공장 가동 지연을 줄일 수 있습니다. 가상 공장 통합은 전 세계 공장에서 수십억 달러를 절약할 수 있습니다. 반도체 업계는 5조 달러를 투자하여 84개의 새로운 팹을 건설하고 있습니다. 2030년까지 자동차 제조업체는 2억 대의 전기 자동차를 생산하기 위해 300개의 공장을 건설할 예정입니다.
(58:41) 그리고 배터리 제조업체들은 100개의 초대형 공장을 추가로 건설하고 있습니다. 디지털화는 물류에도 변화를 가져와 전 세계 수십억 평방피트의 창고를 통해 상품을 이동시키고 있습니다. Amazon이 Omniverse를 사용하여 자율 창고를 자동화, 최적화 및 계획하는 방법을 살펴보겠습니다.
[영상 자료]
Amazon Robotics는 세계에서 가장 많은 모바일 산업용 로봇을 제조하고 배포했습니다.
(59:14) 이 로봇 군단의 최신 멤버는 아마존 최초의 완전 자율 물류창고 로봇인 프로테우스입니다. 프로테우스는 첨단 안전, 인식 및 내비게이션 기술을 사용하여 시설을 이동하도록 제작되었습니다. 옴니버스를 기반으로 구축된 엔비디아 아이작 심이 어떻게 물리적으로 정확한 실사 시뮬레이션을 생성하여 프로테우스 배포를 가속화하는 데 도움을 주는지 알아보겠습니다.
(59:37) 프로테우스는 카메라, 라이더, 초음파 센서를 포함한 여러 센서를 사용하여 자율성 소프트웨어 시스템을 구동합니다. 프로테우스 팀은 기준점 마커를 읽고 로봇이 지도에서 위치를 파악하는 데 도움을 주는 신경망의 성능을 개선해야 했습니다. 로봇 센서 입력에 의해 구동되는 ML 모델을 훈련하려면 많은 양의 데이터와 적절한 종류의 데이터가 필요합니다.
(1:00:01) Amazon Robotics는 Isaac Sim의 Omniverse Replicator를 사용하여 마커 감지 성공률을 88.6%에서 98%로 개선한 대규모 포토리얼 합성 데이터 세트를 생성할 수 있었습니다. 또한, 실제 데이터만 사용할 때보다 훨씬 빠르게 모델을 반복적으로 테스트하고 훈련할 수 있었기 때문에 몇 달에서 며칠로 단축된 개발 시간을 단축할 수 있었습니다.
(1:00:27) 확장되는 프로테우스 로봇에 새로운 자율 기능을 제공하기 위해 Amazon Robotics는 대규모 다중 센서, 다중 로봇 시뮬레이션을 구축하여 시뮬레이션과 현실 간의 간극을 좁히기 위해 노력하고 있습니다. Omniverse를 통해 Amazon Robotics는 완전 충실도 창고 디지털 트윈으로 운영을 최적화할 것입니다.
(1:00:50) 합성 데이터를 생성하든 새로운 수준의 자율성을 개발하든, Omniverse의 Isaac Sim은 Amazon Robotics 팀이 시설 전체에 Proteus를 배포할 때 시간과 비용을 절약할 수 있도록 지원합니다.
[키노트 계속]
Omniverse는 디지털화를 위한 고유한 기술을 보유하고 있습니다. 또한 Omniverse는 USD를 위한 최고의 개발 플랫폼으로, 여러 팀이 협업하여 가상 세계와 디지털 트윈을 만들 수 있는 공통 언어 역할을 합니다.
(1:01:21) 옴니버스는 물리 법칙을 반영하는 물리적 기반입니다. 로봇 시스템에 연결하여 하드웨어 인 더 루프로 작동할 수 있습니다. 가상 세계 생성을 가속화하는 제너레이티브 AI가 특징입니다. 또한 옴니버스는 엄청난 규모의 데이터 세트를 관리할 수 있습니다. 유니티는 모든 영역에서 옴니버스를 크게 업데이트했습니다.
(1:01:45) 살펴보겠습니다.
[영상]
[키노트 계속]
약 30만 명의 크리에이터와 디자이너가 Omniverse를 다운로드했습니다.
(1:04:19) 옴니버스는 단순한 도구가 아니라 산업 전반에서 사용되는 디자인 툴과 연결되는 USD 네트워크이자 공유 데이터베이스입니다. 업계를 선도하는 툴에서 생성된 에셋을 연결하고, 구성하고, 시뮬레이션합니다. 유니티는 옴니버스 연결의 성장을 기쁘게 생각합니다. 각 연결은 한 플랫폼의 에코시스템을 다른 모든 플랫폼의 에코시스템에 연결합니다.
(1:04:48) Omniverse의 네트워크 네트워크는 기하급수적으로 성장하고 있습니다. 이제 벤틀리시스템즈 LumenRT가 연결되었습니다. 지멘스 팀센터, NX, 프로세스 시뮬레이트, 로크웰 오토메이션 에뮬레이트 3D, 세슘, 유니티 등도 마찬가지입니다. 3조 달러 규모의 자동차 산업의 디지털화를 살펴보고 자동차 회사들이 워크플로에서 Omniverse를 어떻게 평가하고 있는지 알아보세요.
(1:05:17) 볼보 자동차와 GM은 Omniverse USD 컴포저를 사용하여 에셋 파이프라인을 연결하고 통합합니다. GM은 디자이너, 조각가, 아티스트가 Alias, Siemens NX, Unreal, Maya, 3ds Max를 사용하여 자동차의 디지털 트윈에 컴포넌트를 가상으로 조립할 수 있도록 연결합니다. 엔지니어링 및 시뮬레이션에서는 Omniverse에서 동력 흐름의 공기역학을 시각화합니다.
(1:05:45) 차세대 메르세데스-벤츠와 재규어 랜드로버 차량의 경우 엔지니어들은 옴니버스의 드라이브 심을 사용하여 합성 데이터를 생성하여 AI 모델을 훈련하고, 가상 NCAP 주행 테스트를 통해 능동 안전 시스템을 검증하고, 실제 주행 시나리오를 시뮬레이션합니다. Omniverse의 생성형 AI는 이전에 주행한 경로를 3D로 재구성하여 과거의 경험을 재현하거나 수정할 수 있습니다.
(1:06:17) BMW는 Idealworks와 협력하여 공장 로봇을 훈련하기 위한 합성 데이터와 시나리오를 생성하는 데 Omniverse의 Isaac Sim을 사용합니다. Lotus는 Omniverse를 사용하여 용접 스테이션을 가상으로 조립하고 있습니다. 도요타는 공장 디지털 트윈을 구축하는 데 Omniverse를 사용하고 있습니다. 메르세데스-벤츠는 새로운 모델을 위한 조립 라인을 구축, 최적화 및 계획하는 데 Omniverse를 사용합니다.
(1:06:43) 리막과 루시드 모터스는 실제 설계 데이터로 자동차를 충실하게 표현하는 디지털 스토어를 구축하는 데 Omniverse를 사용합니다. BMW는 전 세계 약 30개 공장의 운영 계획을 수립하는 데 Omniverse를 사용하고 있습니다. 또한 실제 공장이 문을 열기 2년 전에 Omniverse를 사용하여 새로운 전기차 공장을 건설하고 있습니다.
(1:07:09) 방문해 보겠습니다.
[영상 자료]
전 세계 산업계는 향후 3년 동안 3조 4천억 달러 이상을 투자하여 디지털화를 가속화하고 있습니다. BMW는 자동차 디지털화를 선도하기 위해 노력하고 있습니다. NVIDIA Omniverse와 AI를 통해 새로운 공장을 더 빠르게 설립하고 그 어느 때보다 더 효율적으로 생산하고 있습니다. 그 결과 상당한 비용을 절감할 수 있었습니다.
(1:07:32) 이 모든 것은 전 세계의 많은 툴, 데이터 세트 및 전문가를 연결해야 하는 복잡한 프로세스인 계획에서 시작됩니다. 기존에는 데이터가 다양한 시스템과 도구에서 개별적으로 관리되었기 때문에 한계가 있었습니다. 하지만 이제 모든 것이 바뀌었습니다. 기존의 도구, 노하우, 팀을 모두 통합된 뷰에서 연결할 수 있는 맞춤형 Omniverse 애플리케이션을 개발하고 있습니다.
(1:07:56) Omniverse는 클라우드 네이티브이며 클라우드에 구애받지 않으므로 팀이 어디서든 가상 팩토리 전반에서 협업할 수 있습니다. 저는 2025년에 문을 여는 새로운 전기차 공장인 헝가리의 데브레첸에 대한 가상 계획 세션에 참여하려고 합니다. 시작해보죠. 플래너 1: 아, 밀라노가 합류합니다. Milan: 안녕하세요, 여러분! 플래너 1: 안녕하세요, 밀란, 만나서 반갑습니다. 차체 공장의 최적화 루프를 진행 중입니다.
(1:08:22) 보시겠어요? 밀라노요: 고마워요, 관심이 많아요. 그리고 친구도 초대하고 싶어요. 플래너 1: 네, 그러죠. 젠슨: 안녕하세요, 밀란! 만나서 반가워요. Milan: 젠슨, 가상 기획 세션에 오신 것을 환영합니다. 젠슨: 여기 오게 되어 반갑습니다. 어떤 내용인가요? 밀란: 데브레첸의 디지털 트윈에서 로봇 셀을 작업하고 있는 글로벌 기획팀입니다.
(1:08:44) 마티아스, 무슨 일이 일어나고 있는지 말해봐요... 마티아스: 방금 생산 컨셉에 약간의 변경이 필요하다는 사실을 알게 되었습니다. 이제 셀에 새 로봇을 추가하기 위해 레이아웃을 재구성하고 있습니다. 플래너 2: 네, 하지만 새 로봇을 추가하면 물류 측면에서 보관 컨테이너를 이동해야 합니다. 플래너 3: 좋아, 새 로봇을 들여놓자고.
(1:09:07) 마티아스: 완벽해요. 하지만 다시 한 번 확인해 봅시다. 셀을 가동할 수 있을까요? 좋아요. Jensen: 밀란, 정말 대단해요! 가상 공장 통합은 모든 산업에 필수적입니다. 우리 팀이 함께 해낸 성과가 정말 자랑스럽습니다. 축하해요! 밀라노: 저희는 로컬 최적화를 위해 전 세계적으로 노력하고 있습니다. 계획 후에는 운영이 가장 중요하며 이미 시작되었습니다! 가상 공장 출시를 축하하기 위해 여러분을 첫 번째 디지털 공장에 초대하고 싶습니다.
(1:09:39) Jensen: 영광입니다. 시작하죠!
[키노트 계속]
자동차 회사는 거의 1,400만 명의 직원을 고용하고 있습니다. 디지털화는 업계의 효율성, 생산성, 속도를 향상시킬 것입니다. 옴니버스는 산업 디지털화를 실현하기 위한 디지털-물리 운영 체제입니다. 오늘은 옴니버스를 실행하기 위해 설계된 세 가지 시스템을 소개합니다.
(1:10:11) 먼저, NVIDIA Ada RTX GPU와 인텔의 최신 CPU로 구동되는 차세대 워크스테이션을 출시합니다. 새로운 워크스테이션은 레이 트레이싱, 물리 시뮬레이션, 뉴럴 그래픽 및 제너레이티브 AI를 수행하는 데 이상적입니다. 3월부터 Boxx, Dell, HP, Lenovo에서 구매할 수 있습니다. 둘째, 옴니버스에 최적화된 새로운 NVIDIA OVX 서버입니다.
(1:10:41) OVX는 L40 Ada RTX 서버 GPU와 새로운 BlueField-3로 구성됩니다. OVX 서버는 Dell, HPE, 퀀타, 기가바이트, 레노버, 슈퍼마이크로에서 구매할 수 있습니다. 칩, 시스템, 네트워킹, 소프트웨어를 포함한 Omniverse 스택의 각 계층은 새로운 발명품입니다. 옴니버스 컴퓨터를 구축하고 운영하려면 정교한 IT 팀이 필요합니다.
(1:11:10) 우리는 Omniverse를 빠르고 쉽게 확장하고 참여할 수 있도록 만들 것입니다. 살펴보겠습니다.
[영상 자료]
세계 최대 규모의 산업은 물리적 프로세스를 디지털화하기 위해 경쟁하고 있습니다. 오늘날 디지털화는 복잡한 작업입니다. NVIDIA Omniverse Cloud는 서비스형 플랫폼으로, NVIDIA OVX에서 실행되는 관리형 Omniverse Cloud API, 워크플로 및 커스터마이징 가능한 애플리케이션에 대한 즉각적이고 안전한 액세스를 제공합니다.
(1:11:39) 엔터프라이즈 팀은 웹 브라우저 Omniverse Launcher 또는 맞춤형 통합을 통해 관리형 서비스 제품군에 액세스합니다. 엔터프라이즈 팀은 Omniverse Cloud에 들어가면 기반 애플리케이션과 워크플로를 즉시 액세스, 확장 및 게시하여 가상 세계를 조립 및 구성하고, 인식 AI를 훈련하기 위한 데이터를 생성하고, 자율 차량을 테스트 및 검증하거나, 자율 로봇을 시뮬레이션할 수 있습니다... ...공유 데이터에 액세스하고 Omniverse Nucleus에 게시할 수 있습니다.
(1:12:14) 디자이너와 엔지니어는 RTX 워크스테이션에서 선호하는 타사 디자인 툴로 작업하면서 동시에 편집 내용을 Nucleus에 게시합니다. 그런 다음 반복 작업을 하거나 Omniverse에서 통합 모델을 볼 준비가 되면 웹 브라우저를 열고 로그인하기만 하면 됩니다. 프로젝트와 팀이 확장됨에 따라 Omniverse Cloud는 필요에 따라 컴퓨팅 리소스와 라이선스를 프로비저닝하여 비용을 최적화할 수 있도록 지원합니다.
(1:12:40) 또한 새로운 서비스와 업그레이드는 실시간 업데이트를 통해 자동으로 제공됩니다. Omniverse Cloud를 통해 기업은 주요 산업 워크플로우 전반에서 통합 디지털화 및 협업을 빠르게 진행하여 효율성을 높이고 비용과 낭비를 줄이며 혁신으로 가는 길을 가속화할 수 있습니다. 옴니버스에서 뵙겠습니다!
[키노트 계속]
오늘, 완전 관리형 클라우드 서비스인 NVIDIA Omniverse Cloud를 발표합니다.
(1:13:17) 저희는 Microsoft와 협력하여 전 세계 산업에 Omniverse Cloud를 제공합니다. Microsoft의 풍부한 스토리지, 보안, 애플리케이션 및 서비스 포트폴리오의 이점을 활용하여 Azure에서 호스팅할 예정입니다. Teams, OneDrive, SharePoint, Azure IoT 디지털 트윈 서비스를 포함한 Microsoft 365 생산성 제품군에 Omniverse Cloud를 연결할 것입니다.
(1:13:45) Microsoft와 NVIDIA는 수억 명의 Microsoft 365 및 Azure 사용자에게 Omniverse를 제공하고 있습니다. 가속화된 컴퓨팅과 AI가 도래했습니다. 개발자는 NVIDIA를 사용하여 속도를 높이고 확장하여 이전에는 불가능했던 문제를 해결합니다. 넷 제로는 어려운 과제입니다. 모든 기업은 모든 워크로드를 가속화하여 힘을 되찾아야 합니다.
(1:14:13) 가속 컴퓨팅은 풀스택, 데이터센터 규모의 컴퓨팅 과제입니다. 그레이스, 그레이스-호퍼, 블루필드-3는 에너지 효율이 매우 높은 가속 데이터센터를 위한 새로운 칩입니다. 가속 라이브러리는 새로운 과제를 해결하고 새로운 시장을 개척합니다. 양자 컴퓨팅을 위한 cuQuantum, 조합 최적화를 위한 cuOpt, 전산 리소그래피를 위한 cuLitho 등 100개의 가속 라이브러리를 업데이트했습니다.
(1:14:45) TSMC, ASML 및 Synopsys와 협력하여 2nm 이상으로 나아갈 수 있게 되어 매우 기쁩니다. 엔비디아 DGX AI 슈퍼컴퓨터는 제너레이티브 대규모 언어 모델 혁신의 원동력입니다. DGX H100 AI 슈퍼컴퓨터는 현재 생산 중이며, 전 세계 OEM 및 클라우드 파트너 네트워크를 통해 곧 제공될 예정입니다.
(1:15:08) DGX 슈퍼컴퓨터는 연구를 넘어 현대적인 AI 공장으로 거듭나고 있습니다. 모든 기업이 인텔리전스를 생산하게 될 것입니다. 우리는 Microsoft Azure, Google GCP, Oracle OCI와 협력하여 모든 기업이 브라우저에서 즉시 NVIDIA AI를 사용할 수 있도록 NVIDIA DGX Cloud로 비즈니스 모델을 확장하고 있습니다.
(1:15:34) DGX 클라우드는 고객에게 엔비디아의 장점과 세계 최고의 CSP의 장점을 모두 제공합니다. 우리는 AI를 위한 아이폰의 순간에 있습니다. 제너레이티브 AI 추론 워크로드가 급증하고 있습니다. 새로운 추론 플랫폼(4가지 구성-하나의 아키텍처)을 출시했습니다. AI 비디오용 L4. 옴니버스 및 그래픽 렌더링을 위한 L40.
(1:16:00) 대규모 언어 모델 추론 확장을 위한 H100 PCIE. 추천 시스템 및 벡터 데이터베이스를 위한 Grace-Hopper. 엔비디아의 추론 플랫폼은 데이터센터 가속화와 탄력성을 극대화합니다. 엔비디아와 구글 클라우드는 광범위한 추론 워크로드를 배포하기 위해 협력하고 있습니다. 이 협력을 통해 Google GCP는 프리미어 엔비디아 AI 클라우드입니다.
(1:16:29) NVIDIA AI 파운데이션은 맞춤형 언어 모델 및 제너레이티브 AI를 구축하기 위한 클라우드 서비스이자 파운드리입니다. NVIDIA AI 파운데이션은 언어, 시각, 생물학 모델 제작 서비스로 구성되어 있습니다. 게티 이미지와 셔터스톡은 맞춤형 시각 언어 모델을 구축하고 있습니다. 또한 Adobe와 협력하여 미래의 크리에이티브를 위한 일련의 차세대 AI 기능을 구축하고 있습니다.
(1:16:56) 옴니버스는 산업 디지털화를 실현하기 위한 디지털-물리 운영 체제입니다. 옴니버스는 엔드투엔드 워크플로우를 통합하고 3조 달러, 1,400만 명의 직원을 고용하는 자동차 산업을 디지털화할 수 있습니다. Omniverse는 클라우드로 도약하고 있습니다. Azure에서 호스팅되는 Omniverse는 Microsoft와 협력하여 전 세계 산업에 Omniverse Cloud를 제공합니다.
(1:17:24) 시스템, 클라우드, 소프트웨어 파트너, 연구원, 과학자, 특히 NVIDIA 가속 컴퓨팅 에코시스템을 구축해준 놀라운 직원들에게 감사드립니다. 우리는 함께 세계가 불가능한 일을 해낼 수 있도록 돕고 있습니다. 즐거운 GTC 되세요!
Translated with www.DeepL.com/Translator (free version)
(221) GTC 2023 Keynote with NVIDIA CEO Jensen Huang - YouTube
https://www.youtube.com/watch?v=DiGB5uAYKAg
Transcript:
(00:01) For nearly four decades Moore’s Law has been the governing dynamics of the computer industry which in turn has impacted every industry. The exponential performance increase at constant cost and power has slowed. Yet, computing advance has gone to lightspeed. The warp drive engine is accelerated computing and the energy source is AI.
(00:33) The arrival of accelerated computing and AI is timely as industries tackle powerful dynamics sustainability generative AI and digitalization. Without Moore’s Law, as computing surges, data center power is skyrocketing and companies struggle to achieve Net Zero. The impressive capabilities of Generative AI created a sense of urgency for companies to reimagine their products and business models.
(01:04) Industrial companies are racing to digitalize and reinvent into software-driven tech companies to be the disruptor and not the disrupted. Today, we will discuss how accelerated computing and AI are powerful tools for tackling these challenges and engaging the enormous opportunities ahead. We will share new advances in NVIDIA’s full-stack, datacenter-scale, accelerated computing platform.
(01:35) We will reveal new chips and systems, acceleration libraries, cloud and AI services and partnerships that open new markets. Welcome to GTC! GTC is our conference for developers. The global NVIDIA ecosystem spans 4 million developers, 40,000 companies and 14,000 startups. Thank you to our Diamond sponsors for supporting us and making GTC 2023 a huge success.
(02:08) We’re so excited to welcome more than 250,000 of you to our conference. GTC has grown incredibly. Only four years ago, our in-person GTC conference had 8,000 attendees. At GTC 2023, we’ll learn from leaders like Demis Hassabis of DeepMind Valeri Taylor of Argonne Labs Scott Belsky of Adobe Paul Debevec of Netflix Thomas Schulthess of ETH Zurich and a special fireside chat I’m having with Ilya Sutskever co-founder of OpenAI, the creator of ChatGPT.
(02:50) We have 650 amazing talks from the brightest minds in academia and the world’s largest industries: There are more than 70 talks on Generative AI alone. Other great talks, like pre-trained multi-task models for robotics… sessions on synthetic data generation, an important method for advancing AI including one on using Isaac Sim to generate physically based lidar point clouds a bunch of talks on digital twins, from using AI to populate virtual factories of the future to restoring lost Roman mosaics of the past
(03:29) cool talks on computational instruments, including a giant optical telescope and a photon-counting CT materials science for carbon capture and solar cells, to climate science, including our work on Earth-2 important works by NVIDIA Research on trustworthy AI and AV safety From computational lithography for micro-chips, to make the smallest machines to AI at the Large Hadron Collider to explain the universe.
(04:05) The world’s most important companies are here from auto and transportation healthcare, manufacturing, financial services, retail, apparel, media and entertainment, telco and of course, the world’s leading AI companies. The purpose of GTC is to inspire the world on the art-of-the-possible of accelerating computing and to celebrate the achievements of the scientists and researchers that use it.
(04:47) I am a translator. Transforming text into creative discovery, movement into animation, and direction into action. I am a healer. Exploring the building blocks that make us unique modeling new threats before they happen and searching for the cures to keep them at bay. I am a visionary. Generating new medical miracles and giving us a new perspective on our sun
(05:57) to keep us safe here on earth. I am a navigator. Discovering a unique moment in a sea of content we’re announcing the next generation and the perfect setting for any story. I am a creator. Building 3D experiences from snapshots and adding new levels of reality to our virtual selves. I am a helper. Bringing brainstorms to life sharing the wisdom of a million programmers and turning ideas into virtual worlds.
(07:05) Build northern forest. I even helped write this script breathed life into the words and composed the melody. I am AI. Brought to life by NVIDIA, deep learning, and brilliant minds everywhere. NVIDIA invented accelerated computing to solve problems that normal computers can’t. Accelerated computing is not easy it requires full-stack invention from chips, systems, networking, acceleration libraries, to refactoring the applications.
(08:08) Each optimized stack accelerates an application domain from graphics, imaging, particle or fluid dynamics quantum physics, to data processing and machine learning. Once accelerated, the application can enjoy incredible speed-up, as well as scale-up across many computers. The combination of speed-up and scale-up has enabled us to achieve a million-X for many applications over the past decade helping solve problems previously impossible.
(08:44) Though there are many examples, the most famous is deep learning. In 2012, Alex Kerchevsky, Ilya Suskever, and Geoff Hinton needed an insanely fast computer to train the AlexNet computer vision model. The researchers trained AlexNet with 14 million images on GeForce GTX 580 processing 262 quadrillion floating-point operations, and the trained model won the ImageNet challenge by a wide margin, and ignited the Big Bang of AI.
(09:24) A decade later, the transformer model was invented. And Ilya, now at OpenAI, trained the GPT-3 large language model to predict the next word. 323 sextillion floating-point operations were required to train GPT-3. One million times more floating-point operations than to train AlexNet. The result this time – ChatGPT, the AI heard around the world.
(09:57) A new computing platform has been invented. The iPhone moment of AI has started. Accelerated computing and AI have arrived. Acceleration libraries are at the core of accelerated computing. These libraries connect to applications which connect to the world’s industries, forming a network of networks. Three decades in the making, several thousand applications are now NVIDIA accelerated with libraries in almost every domain of science and industry.
(10:34) All NVIDIA GPUs are CUDA-compatible, providing a large install base and significant reach for developers. A wealth of accelerated applications attract end users, which creates a large market for cloud service providers and computer makers to serve. A large market affords billions in R&D to fuel its growth.
(10:59) NVIDIA has established the accelerated computing virtuous cycle. Of the 300 acceleration libraries and 400 AI models that span ray tracing and neural rendering physical, earth, and life sciences, quantum physics and chemistry, computer vision data processing, machine learning and AI, we updated 100 we updated 100 this year that increase performance and features for our entire installed base.
(11:31) Let me highlight some acceleration libraries that solve new challenges and open new markets. The auto and aerospace industries use CFD for turbulence and aerodynamics simulation. The electronics industry uses CFD for thermal management design. This is Cadence’s slide of their new CFD solver accelerated by CUDA.
(11:56) At equivalent system cost, NVIDIA A100 is 9X the throughput of CPU servers. Or at equivalent simulation throughput, NVIDIA is 9X lower cost or 17X less energy consumed. Ansys, Siemens, Cadence, and other leading CFD solvers are now CUDA-accelerated. Worldwide, industrial CAE uses nearly 100 billion CPU core hours yearly.
(12:28) Acceleration is the best way to reclaim power and achieve sustainability and Net Zero. NVIDIA is partnering with the global quantum computing research community. The NVIDIA Quantum platform consists of libraries and systems for researchers to advance quantum programming models, system architectures, and algorithms.
(12:51) cuQuantum is an acceleration library for quantum circuit simulations. IBM Qiskit, Google Cirq, Baidu Quantum Leaf, QMWare, QuEra, Xanadu Pennylane, Agnostiq, and AWS Bracket have integrated cuQuantum into their simulation frameworks. Open Quantum CUDA is our hybrid GPU-Quantum programming model. IonQ, ORCA Computing, Atom, QuEra, Oxford Quantum Circuits, IQM, Pasqal, Quantum Brilliance, Quantinuum, Rigetti, Xanadu, and Anyon have integrated Open Quantum CUDA.
(13:36) Error correction on a large number of qubits is necessary to recover data from quantum noise and decoherence. Today, we are announcing a quantum control link, developed in partnership with Quantum Machines that connects NVIDIA GPUs to a quantum computer to do error correction at extremely high speeds. Though commercial quantum computers are still a decade or two away, we are delighted to support this large and vibrant research community with NVIDIA Quantum.
(14:06) Enterprises worldwide use Apache Spark to process data lakes and warehouses SQL queries, graph analytics, and recommender systems. Spark-RAPIDS is NVIDIA’s accelerated Apache Spark data processing engine. Data processing is the leading workload of the world’s $500B cloud computing spend. Spark-RAPIDS now accelerates major cloud data processing platforms, including GCP Dataproc Amazon EMR, Databricks, and Cloudera.
(14:43) Recommender systems use vector databases to store, index, search, and retrieve massive datasets of unstructured data. A new important use-case of vector databases is large language models to retrieve domain-specific or proprietary facts that can be queried during text generation. We are introducing a new library, RAFT, to accelerate indexing, loading the data and retrieving a batch of neighbors for a single query.
(15:15) We are bringing the acceleration of RAFT to Meta’s open-source FAISS AI Similarity Search, Milvus open-source vector DB used by over 1,000 organizations, and Redis with over 4B docker pulls. Vector databases will be essential for organizations building proprietary large language models. Twenty-two years ago, operations research scientists Li and Lim posted a series of challenging pickup and delivery problems.
(15:48) PDP shows up in manufacturing, transportation, retail and logistics, and even disaster relief. PDP is a generalization of the Traveling Salesperson Problem and is NP-hard meaning there is no efficient algorithm to find an exact solution. The solution time grows factorially as the problem size increases.
(16:11) Using an evolution algorithm and accelerated computing to analyze 30 billion moves per second NVIDIA cuOpt has broken the world record and discovered the best solution for Li&Lim’s challenge. AT&T routinely dispatches 30,000 technicians to service 13 million customers across 700 geographic zones.
(16:37) Today, running on CPUs, AT&T’s dispatch optimization takes overnight. AT&T wants to find a dispatch solution in real time that continuously optimizes for urgent customer needs and overall customer satisfaction, while adjusting for delays and new incidents that arise. With cuOpt, AT&T can find a solution 100X faster and update their dispatch in real time.
(17:08) AT&T has adopted a full suite of NVIDIA AI libraries. In addition to Spark-RAPIDS and cuOPT, they’re using Riva for conversational AI and Omniverse for digital avatars. AT&T is tapping into NVIDIA accelerated computing and AI for sustainability, cost savings, and new services. cuOpt can also optimize logistic services. 400 billion parcels are delivered to 377 billion stops each year.
(17:43) Deloitte, Capgemini, Softserve, Accenture, and Quantiphi are using NVIDIA cuOpt to help customers optimize operations. NVIDIA’s inference platform consists of three software SDKs. NVIDIA TensorRT is our inference runtime that optimizes for the target GPU. NVIDIA Triton is a multi-framework data center inference serving software supporting GPUs and CPUs.
(18:12) Microsoft Office and Teams, Amazon, American Express, and the U.S. Postal Service are among the 40,000 customers using TensorRT and Triton. Uber uses Triton to serve hundreds of thousands of ETA predictions per second. With over 60 million daily users, Roblox uses Triton to serve models for game recommendations build avatars, and moderate content and marketplace ads.
(18:41) We are releasing some great new features – model analyzer support for model ensembles, multiple concurrent model serving, and multi-GPU, multi-node inference for GPT-3 large language models. NVIDIA Triton Management Service is our new software that automates the scaling and orchestration of Triton inference instances across a data center.
(19:09) Triton Management Service will help you improve the throughput and cost efficiency of deploying your models. 50-80% of cloud video pipelines are processed on CPUs consuming power and cost and adding latency. CV-CUDA for computer vision, and VPF for video processing, are new cloud-scale acceleration libraries.
(19:36) CV-CUDA includes 30 computer vision operators for detection, segmentation, and classification. VPF is a python video encode and decode acceleration library. Tencent uses CV-CUDA and VPF to process 300,000 videos per day. Microsoft uses CV-CUDA and VPF to process visual search. Runway is a super cool company that uses CV-CUDA and VPF to process video for their cloud Generative AI video editing service.
(20:12) Already, 80% of internet traffic is video. User-generated video content is driving significant growth and consuming massive amounts of power. We should accelerate all video processing and reclaim the power. CV-CUDA and VPF are in early access. NVIDIA accelerated computing helped achieve a genomics milestone now doctors can draw blood and sequence a patient’s DNA in the same visit.
(20:42) In another milestone, NVIDIA-powered instruments reduced the cost of whole genome sequencing to just $100. Genomics is a critical tool in synthetic biology with applications ranging from drug discovery and agriculture to energy production. NVIDIA Parabricks is a suite of AI-accelerated libraries for end-to-end genomics analysis in the cloud or in-instrument.
(21:11) NVIDIA Parabricks is available in every public cloud and genomics platforms like Terra, DNAnexus, and FormBio. Today, we’re announcing Parabricks 4.1 and will run on NVIDIA-accelerated genomics instruments from PacBio, Oxford Nanopore, Ultima, Singular, BioNano, and Nanostring. The world’s $250B medical instruments market is being transformed.
(21:42) Medical instruments will be software-defined and AI powered. NVIDIA Holoscan is a software library for real-time sensor processing systems. Over 75 companies are developing medical instruments on Holoscan. Today, we are announcing Medtronic, the world leader in medical instruments, and NVIDIA are building their AI platform for software-defined medical devices.
(22:11) This partnership will create a common platform for Medtronic systems, ranging from surgical navigation to robotic-assisted surgery. Today, Medtronic announced that its next-generation GI Genius system, with AI for early detection of colon cancer is built on NVIDIA Holoscan and will ship around the end of this year.
(22:34) The chip industry is the foundation of nearly every industry. Chip manufacturing demands extreme precision, producing features 1,000 times smaller than a bacterium and on the order of a single gold atom or a strand of human DNA. Lithography, the process of creating patterns on a wafer, is the beginning of the chip manufacturing process and consists of two stages – photomask making and pattern projection.
(23:05) It is fundamentally an imaging problem at the limits of physics. The photomask is like a stencil of a chip. Light is blocked or passed through the mask to the wafer to create the pattern. The light is produced by the ASML EUV extreme ultraviolet lithography system. Each system is more than a quarter-of-a-billion dollars.
(23:30) ASML EUV uses a radical way to create light. Laser pulses firing 50,000 times a second at a drop of tin, vaporizing it, creating a plasma that emits 13.5nm EUV light nearly X-ray. Multilayer mirrors guide the light to the mask. The multilayer reflectors in the mask reticle take advantage of interference patterns of the 13.
(24:00) 5nm light to create finer features down to 3nm. Magic. The wafer is positioned within a quarter of a nanometer and aligned 20,000 times a second to adjust for any vibration. The step before lithography is equally miraculous. Computational lithography applies inverse physics algorithms to predict the patterns on the mask that will produce the final patterns on the wafer.
(24:31) In fact, the patterns on the mask do not resemble the final features at all. Computational lithography simulates Maxwell’s equations of the behavior of light passing through optics and interacting with photoresists. Computational lithography is the largest computation workload in chip design and manufacturing consuming tens of billions of CPU hours annually.
(24:58) Massive data centers run 24/7 to create reticles used in lithography systems. These data centers are part of the nearly $200 billion annual CAPEX invested by chip manufacturers. Computational lithography is growing fast as algorithm complexity increases enabling the industry to go to 2nm and beyond. NVIDIA today is announcing cuLitho, a library for computational lithography.
(25:26) cuLitho, a massive body of work that has taken nearly four years, and with close collaborations with TSMC, ASML, and Synopsys, accelerates computational lithography by over 40X. There are 89 reticles for the NVIDIA H100. Running on CPUs, a single reticle currently takes two weeks to process. cuLitho, running on GPUs, can process a reticle in a single 8-hour shift.
(26:00) TSMC can reduce their 40,000 CPU servers used for computational lithography by accelerating with cuLitho on just 500 DGX H100 systems, reducing power from 35MW to just 5MW. With cuLitho, TSMC can reduce prototype cycle time, increase throughput and reduce the carbon footprint of their manufacturing, and prepare for 2nm and beyond.
(26:30) TSMC will be qualifying cuLitho for production starting in June. Every industry needs to accelerate every workload, so that we can reclaim power and do more with less. Over the past ten years, cloud computing has grown 20% annually into a massive $1T industry. Some 30 million CPU servers do the majority of the processing.
(26:57) There are challenges on the horizon. As Moore’s Law ends, increasing CPU performance comes with increased power. And the mandate to decrease carbon emissions is fundamentally at odds with the need to increase data centers. Cloud computing growth is power-limited. First and foremost, data centers must accelerate every workload.
(27:23) Acceleration will reclaim power. The energy saved can fuel new growth. Whatever is not accelerated will be processed on CPUs. The CPU design point for accelerated cloud datacenters differs fundamentally from the past. In AI and cloud services, accelerated computing offloads parallelizable workloads, and CPUs process other workloads, like web RPC and database queries.
(27:51) We designed the Grace CPU for an AI and cloud-first world, where AI workloads are GPU-accelerated and Grace excels at single-threaded execution and memory processing. It’s not just about the CPU chip. Datacenter operators optimize for throughput and total cost of ownership of the entire datacenter. We designed Grace for high energy-efficiency at cloud datacenter scale.
(28:20) Grace comprises 72 Arm cores connected by a super high-speed on-chip scalable coherent fabric that delivers 3.2 TB/sec of cross-sectional bandwidth. Grace Superchip connects 144 cores between two CPU dies over a 900 GB/sec low-power chip-to-chip coherent interface. The memory system is LPDDR low-power memory, like used in cellphones, that we specially enhanced for use in datacenters.
(28:50) It delivers 1 TB/s, 2.5x the bandwidth of today’s systems at 1/8th the power. The entire 144-core Grace Superchip module with 1TB of memory is only 5x8 inches. It is so low power it can be air cooled. This is the computing module with passive cooling. Two Grace Superchip computers can fit in a single 1U air-cooled server.
(29:22) Grace’s performance and power efficiency are excellent for cloud and scientific computing applications. We tested Grace on a popular Google benchmark, which tests how quickly cloud microservices communicate and the Hi-Bench suite that tests Apache Spark memory-intensive data processing. These kinds of workloads are foundational for cloud datacenters.
(29:45) At microservices, Grace is 1.3X faster than the average of the newest generation x86 CPUs and 1.2X faster at data processing And that higher performance is achieved using only 60% of the power measured at the full server node. CSPs can outfit a power-limited data center with 1.7X more Grace servers, each delivering 25% higher throughput.
(30:18) At iso-power, Grace gives CSPs 2X the growth opportunity. Grace is sampling. And Asus, Atos, Gigabyte, HPE, QCT, Supermicro, Wistron, and ZT are building systems now. In a modern software-defined data center, the operating system doing virtualization, network, storage, and security can consume nearly half of the datacenter’s CPU cores and associated power.
(30:50) Datacenters must accelerate every workload to reclaim power and free CPUs for revenue-generating workloads. NVIDIA BlueField offloads and accelerates the datacenter operating system and infrastructure software. Over two dozen ecosystem partners, including Check Point, Cisco, DDN, Dell EMC Juniper, Palo Alto Networks, Red Hat, and VMWare, use BlueField’s datacenter acceleration technology to run their software platforms more efficiently.
(31:24) BlueField-3 is in production and adopted by leading cloud service providers, Baidu, CoreWeave, JD.com, Microsoft Azure, Oracle OCI, and Tencent Games, to accelerate their clouds. NVIDIA accelerated computing starts with DGX the world’s AI supercomputer the engine behind the large language model breakthrough.
(31:50) I hand-delivered the world’s first DGX to OpenAI. Since then, half of the Fortune 100 companies have installed DGX AI supercomputers. DGX has become the essential instrument of AI. The GPU of DGX is eight H100 modules. H100 has a Transformer Engine designed to process models like the amazing ChatGPT, which stands for Generative Pre-trained Transformers.
(32:20) The eight H100 modules are NVLINK’d to each other across NVLINK switches to allow fully non-blocking transactions. The eight H100s work as one giant GPU. The computing fabric is one of the most vital systems of the AI supercomputer. 400 Gbps ultra-low latency NVIDIA Quantum InfiniBand with in-network processing connects hundreds and thousands of DGX nodes into an AI supercomputer.
(32:52) NVIDIA DGX H100 is the blueprint for customers building AI infrastructure worldwide. It is now in full production. I am thrilled that Microsoft announced Azure is opening private previews to their H100 AI supercomputer. Other systems and cloud services will soon come from Atos, AWS, Cirrascale, CoreWeave, Dell, Gigabyte, Google, HPE, Lambda Labs, Lenovo, Oracle, Quanta, and SuperMicro.
(33:26) The market for DGX AI supercomputers has grown significantly. Originally used as an AI research instrument, DGX AI supercomputers are expanding into operation running 24/7 to refine data and process AI. DGX supercomputers are modern AI factories. We are at the iPhone moment of AI. Start-ups are racing to build disruptive products and business models, while incumbents are looking to respond.
(34:03) Generative AI has triggered a sense of urgency in enterprises worldwide to develop AI strategies. Customers need to access NVIDIA AI easier and faster. We are announcing NVIDIA DGX Cloud through partnerships with Microsoft Azure, Google GCP, and Oracle OCI to bring NVIDIA DGX AI supercomputers to every company, instantly, from a browser.
(34:36) DGX Cloud is optimized to run NVIDIA AI Enterprise, the world’s leading acceleration library suite for end-to-end development and deployment of AI. DGX Cloud offers customers the best of NVIDIA AI and the best of the world’s leading cloud service providers. This partnership brings NVIDIA’s ecosystem to the CSPs, while amplifying NVIDIA’s scale and reach.
(35:06) This win-win partnership gives customers racing to engage Generative AI instant access to NVIDIA in global-scale clouds. We’re excited by the speed, scale, and reach of this cloud extension of our business model. Oracle Cloud Infrastructure, OCI, will be the first NVIDIA DGX Cloud. OCI has excellent performance. They have a two-tier computing fabric and management network.
(35:38) NVIDIA’s CX-7, with the industry’s best RDMA, is the computing fabric. And BlueField-3 will be the infrastructure processor for the management network. The combination is a state-of-the-art DGX AI supercomputer that can be offered as a multi-tenant cloud service. We have 50 early access enterprise customers, spanning consumer internet and software, healthcare media and entertainment, and financial services.
(36:08) ChatGPT, Stable Diffusion, DALL-E, and Midjourney have awakened the world to Generative AI. These applications’ ease-of-use and impressive capabilities attracted over a hundred million users in just a few months - ChatGPT is the fastest-growing application in history. No training is necessary. Just ask these models to do something.
(36:37) The prompts can be precise or ambiguous. If not clear, through conversation, ChatGPT learns your intentions. The generated text is beyond impressive. ChatGPT can compose memos and poems, paraphrase a research paper, solve math problems, highlight key points of a contract, and even code software programs.
(37:02) ChatGPT is a computer that not only runs software but writes software. Many breakthroughs led to Generative AI. Transformers learn context and meaning from the relationships and dependencies of data, in parallel and at large scale. This led to large language models that learn from so much data they can perform downstream tasks without explicit training.
(37:31) And diffusion models, inspired by physics, learn without supervision to generate images. In just over a decade, we went from trying to recognize cats to generating realistic images of a cat in a space suit walking on the moon. Generative AI is a new kind of computer — one that we program in human language.
(37:57) This ability has profound implications. Everyone can direct a computer to solve problems. This was a domain only for computer programmers. Now everyone is a programmer. Generative AI is a new computing platform like PC, internet, mobile, and cloud. And like in previous computing eras, first-movers are creating new applications and founding new companies to capitalize on Generative AI’s ability to automate and co-create.
(38:34) Debuild lets users design and deploy web applications just by explaining what they want. Grammarly is a writing assistant that considers context. Tabnine helps developers write code. Omnekey generates customized ads and copy. Kore.ai is a virtual customer service agent. Jasper generates marketing material.
(39:03) Jasper has written nearly 5 billion words, reducing time to generate the first draft by 80%. Insilico uses AI to accelerate drug design. Absci is using AI to predict therapeutic antibodies. Generative AI will reinvent nearly every industry. Many companies can use one of the excellent Generative AI APIs coming to market. Some companies need to build custom models, with their proprietary data, that are experts in their domain.
(39:35) They need to set up usage guardrails and refine their models to align with their company’s safety, privacy, and security requirements. The industry needs a foundry, a TSMC, for custom large language models. Today, we announce the NVIDIA AI Foundations a cloud service for customers needing to build, refine, and operate custom LLMlarge language models and Generative AI trained with their proprietary data and for their domain-specific tasks.
(40:11) NVIDIA AI Foundations comprises Language, Visual, and Biology model-making services. NVIDIA Nemo is for building custom language text-to-text generative models. Customers can bring their model or start with the Nemo pre-trained language models, ranging from GPT-8, GPT-43 and GPT-530 billion parameters. Throughout the entire process, NVIDIA AI experts will work with you, from creating your proprietary model to operations.
(40:45) Let’s take a look. Generative models, like NVIDIA’s 43B foundational model, learn by training on billions of sentences and trillions of words. As the model converges, it begins to understand the relationships between words and their underlying concepts captured in the weights in the embedding space of the model.
(41:05) Transformer models use a technique called self attention: a mechanism designed to learn dependencies and relationships within a sequence of words. The result is a model that provides the foundation for a ChatGPT-like experience. These generative models require expansive amounts of data deep AI expertise for data processing and distributed training and large scale compute to train, deploy and maintain at the pace of innovation.
(41:35) Enterprises can fast-track their generative AI adoption with NVIDIA NeMo service running on NVIDIA DGX Cloud. The quickest path is starting with one of NVIDIA’s state-of-the-art pre-trained foundation models. With the NeMo service, organizations can easily customize a model with p-tuning to teach it specialized skills like summarizing financial documents creating brand-specific content and composing emails with personalized writing styles.
(42:04) Connecting the model to a proprietary knowledge base ensures that responses are accurate, current and cited for their business. Next, they can provide guardrails by adding logic and monitoring inputs, outputs, toxicity, and bias thresholds so it operates within a specified domain and prevents undesired responses.
(42:28) After putting the model to work, it can continuously improve with reinforcement learning based on user interactions. And NeMo’s playground is available for rapid prototyping before moving to the cloud API for larger-scale evaluation and application integration. Sign up for the NVIDIA NeMo service today to codify your enterprise’s knowledge into a personalized AI model that you control.
(42:56) Picasso is a visual language model-making service for customers who want to build custom models trained with licensed or proprietary content. Let’s take a look. Generative AI is transforming how visual content is created. But to realize its full potential, enterprises need massiveamounts of copyright-cleared data, AI experts, and an AI supercomputer.
(43:27) NVIDIA Picasso is a cloud service for building and deploying generative AI-powered image, video, and 3D applications. With it, enterprises, ISVs, and service providers can deploy their own models. We're working with premier partners to bring generative AI capabilities to every industry Organizations can also start with NVIDIA Edify models and train them on their data to create a product or service.
(43:53) These models generate images, videos, and 3D assets. To access generative AI models applications send an API call with text prompts and metadata to Picasso. Picasso uses the appropriate model running on NVIDIA DGX Cloud to send back the generated asset to the application. This can be a photorealistic image, a high-resolution video, or a detailed 3D geometry.
(44:24) Generated assets can be imported into editing tools or into NVIDIA Omniverse to build photorealistic virtual worlds, metaverse applications, and digital twin simulations. With NVIDIA Picasso services running on NVIDIA DGX Cloud you can streamline training, optimization, and inference needed to build custom generative AI applications.
(44:47) See how NVIDIA Picasso can bring transformative generative AI capabilities into your applications. We are delighted that Getty Images will use the Picasso service to build Edify-image and Edify-video generative models trained on their rich library of responsibly licensed professional images and video assets.
(45:11) Enterprises will be able to create custom images and video with simple text or image prompts. Shutterstock is developing an Edify-3D generative model trained on their professional image, 3D, and video assets library. Shutterstock will help simplify the creation of 3D assets for creative production, digital twins and virtual collaboration, making these workflows faster and easier for enterprises to implement.
(45:40) And I’m thrilled to announce a significant expansion of our long-time partnership with Adobe to build a set of next-generation AI capabilities for the future of creativity integrating generative AI into the everyday workflows of marketers and creative professionals. The new Generative AI models will be optimized for image creation, video, 3D, and animation.
(46:08) To protect artists’ rights, Adobe is developing with a focus on commercial viability and proper content attribution powered by Adobe’s Content Authenticity Initiative. Our third language domain is biology. Drug discovery is a nearly $2T industry with $250B dedicated to R&D. NVIDIA’s Clara is a healthcare application framework for imaging instruments, genomics, and drug discovery.
(46:41) The industry is now jumping onto generative AI to discover disease targets design novel molecules or protein-based drugs, and predict the behavior of the medicines in the body. Insilico Medicine, Exscientia, Absci, and Evozyme, are among hundreds of new AI drug discovery start-ups. Several have discovered novel targets or drug candidates and have started human clinical trials.
(47:10) BioNeMo helps researchers create fine-tune, and serve custom models with their proprietary data. Let’s take a look. There are 3 key stages to drug discovery discovering the biology that causes disease designing new molecules - whether those are small-molecules, proteins or antibodies and finally screening how those molecules interact with each other.
(47:36) Today, Generative AI is transforming every step of the drug discovery process. NVIDIA BioNeMo Service provides state-of-the-art generative AI models for drug discovery. It’s available as a cloud service, providing instant and easy access to accelerated drug discovery workflows. BioNeMo includes models like AlphaFold, ESMFold and OpenFold for 3D protein structure prediction.
(48:03) ProtGPT for protein generation, ESM1 and ESM2 for protein property prediction MegaMolBART and MoFlow and for molecule generation and DiffDock for molecular docking. Drug discovery teams can use the models through BioNeMo’s web interface or cloud APIs. Here is an example of using NVIDIA BioNeMo for drug discovery virtual screening.
(48:29) Generative models can now read a proteins amino acid sequence and in seconds, accurately predict the structure of a target protein. They can also generate molecules with desirable ADME properties that optimize how a drug behaves in the body. Generative models can even predict the 3D interactions of a protein and molecule accelerating the discovery of optimal drug candidates.
(48:53) With NVIDIA DGX Cloud BioNeMo also provides on-demand super computing infrastructure to further optimize and train models, saving teams valuable time and money so they can focus on discovering life saving medicines. The new AI drug discovery pipelines are here. Sign up for access for NVIDIA BioNeMo Service.
(49:16) We will continue to work with the industry to include models into BioNemo that encompass the end-to-end workflow of drug discovery and virtual screening. Amgen, AstraZeneca, Insilico Medicine, Evozyne, Innophore, and Alchemab Therapeutics are early access users of BioNeMo. NVIDIA AI Foundations, a cloud service, a foundry, for building custom language models and Generative AI.
(49:48) Since AlexNet a decade ago, deep learning has opened giant new markets — automated driving, robotics, smart speakers, and reinvented how we shop, consume news, and enjoy music. That’s just the tip of the iceberg. AI is at an inflection point as Generative AI has started a new wave of opportunities, driving a step-function increase in inference workloads.
(50:18) AI can now generate diverse data, spanning voice, text, images, video, and 3D graphics to proteins and chemicals. Designing a cloud data center to process Generative AI is a great challenge. On the one hand, a single type of accelerator is ideal, because it allows the datacenter to be elastic and handle the unpredictable peaks and valleys of traffic.
(50:47) On the other hand, no one accelerator can optimally process the diversity of algorithms, models, data types, and sizes. NVIDIA's One Architecture platform offers both acceleration and elasticity. Today, we are announcing our new inference platform - four configurations - one architecture - one software stack.
(51:16) Each configuration is optimized for a class of workloads. For AI video workloads, we have L4 optimized for video decoding and transcoding, video content moderation, and video call features like background replacement, relighting, making eye contact, transcription, and real-time language translation. Most cloud videos today are processed on CPUs.
(51:43) One 8-GPU L4 server will replace over a hundred dual-socket CPU servers for processing AI Video. Snap is a leading user of NVIDIA AI for computer vision and recommender systems. Snap will use L4 for AV1 video processing, generative AI, and augmented reality. Snapchat users upload hundreds of millions of videos every day.
(52:11) Google announced today NVIDIA L4 on GCP. NVIDIA and Google Cloud are working to deploy major workloads on L4. Let me highlight five. First, we’re accelerating inference for generative AI models for cloud services like Wombo and Descript. Second, we’re integrating Triton Inference Server with Google Kubernetes Engine and VertexAI.
(52:39) Third, we’re accelerating Google Dataproc with NVIDIA Spark-RAPIDS. Fourth, we’re accelerating AlphaFold, and UL2 and T5 large language models. And fifth, we are accelerating Google Cloud’s Immersive Stream that renders 3D and AR experiences. With this collaboration, Google GCP is a premiere NVIDIA AI cloud.
(53:04) We look forward to telling you even more about our collaboration very soon. For Omniverse, graphics rendering and generative AI like text-to-image and text-to-video, we are announcing L40. L40 is up to 10 times the performance of NVIDIA’s T4, the most popular cloud inference GPU. Runway is a pioneer in Generative AI.
(53:30) Their research team was a key creator of Stable Diffusion and its predecessor, Latent Diffusion. Runway is inventing generative AI models for creating and editing content. With over 30 AI Magic Tools, their service is revolutionizing the creative process, all from the cloud. Let's take a look. Runway is making amazing AI-powered video editing and image creation tools accessible to everyone.
(53:57) Powered by the latest generation of NVIDIA GPUs running locally or in the cloud, Runway makes it possible to remove an object from a video with just a few brush strokes. Or apply different styles to video using just an input image. Or change the background or the foreground of a video. What used to take hours using conventional tools can now be completed with professional broadcast quality results in just a few minutes.
(54:24) Runway does this by utilizing CV-CUDA, an open-source project that enables developers to build highly efficient GPU-accelerated pre- and post-processing pipelines for computer vision workloads and scale them into the cloud. With NVIDIA technology, Runway is able to make impossible things to give the best experience to content creators.
(54:45) What previously limited pros can now be done by you. In fact, Runway is used in Oscar-nominated Hollywood films and we are placing this technology in the hands of the world's creators. Large language models like ChatGPT are a significant new inference workload. GPT models are memory and computationally intensive.
(55:19) Furthermore, inference is a high-volume, scale-out workload and requires standard commodity servers. For large language model inference, like ChatGPT, we are announcing a new Hopper GPU — the PCIE H100 with dual-GPU NVLINK. The new H100 has 94GB of HBM3 memory. H100 can process the 175-billion-parameter GPT-3 and supporting commodity PCIE servers make it easy to scale out.
(55:57) The only GPU in the cloud today that can practically process ChatGPT is HGX A100. Compared to HGX A100 for GPT-3 processing, a standard server with four pairs of H100 with dual-GPU NVLINK is up to 10X faster. H100 can reduce large language model processing costs by an order of magnitude. Grace Hopper is our new superchip that connects Grace CPU and Hopper GPU over a high-speed 900 GB/sec coherent chip-to-chip interface.
(56:39) Grace Hopper is ideal for processing giant data sets like AI databases for recommender systems and large language models. Today, CPUs, with large memory, store and query giant embedding tables then transfer results to GPUs for inference. With Grace-Hopper, Grace queries the embedding tables and transfers the results directly to Hopper across the high-speed interface – 7 times faster than PCIE.
(57:12) Customers want to build AI databases several orders of magnitude larger. Grace-Hopper is the ideal engine. This is NVIDIA's inference platform – one architecture for diverse AI workloads, and maximum datacenter acceleration and elasticity. The world’s largest industries make physical things, but they want to build them digitally.
(57:40) Omniverse is a platform for industrial digitalization that bridges digital and physical. It lets industries design, build, operate, and optimize physical products and factories digitally, before making a physical replica. Digitalization boosts efficiency and speed and saves money. One use of Omniverse is the virtual bring-up of a factory, where all of its machinery is integrated digitally before the real factory is built.
(58:13) This reduces last-minute surprises, change orders, and plant opening delays. Virtual factory integration can save billions for the world’s factories. The semiconductor industry is investing half a trillion dollars to build a record 84 new fabs. By 2030, auto manufacturers will build 300 factories to make 200 million electric vehicles.
(58:41) And battery makers are building 100 more mega factories. Digitalization is also transforming logistics, moving goods through billions of square feet of warehouses worldwide. Let’s look at how Amazon uses Omniverse to automate, optimize, and plan its autonomous warehouses. Amazon Robotics has manufactured and deployed the largest fleet of mobile industrial robots in the world.
(59:14) The newest member of this robotic fleet is Proteus, Amazon's first fully autonomous warehouse robot. Proteus is built to move through our facilities using advanced safety, perception, and navigation technology. Let's see how NVIDIA Isaac Sim, built on Omniverse is creating physically accurate, photoreal simulations to help accelerate Proteus deployments.
(59:37) Proteus features multiple sensors that include cameras, lidars, and ultrasonic sensors to power it’s autonomy software systems. The Proteus team needed to improve the performance of a neural network that read fiducial markers and helped the robot determine its location on the map. It takes lots of data—and the right kind—to train the ML models that are driven by the robot sensor input.
(1:00:01) With Omniverse Replicator in Isaac Sim, Amazon Robotics was able to generate large photoreal synthetic datasets that improved the marker detection success rate from 88.6% to 98%. The use of the synthetic data generated by Omniverse Replicator also sped up development times, from months to days, as we were able to iteratively test and train our models much faster than when only using real data.
(1:00:27) To enable new autonomous capabilities for the expanding fleet of Proteus robots, Amazon Robotics is working towards closing the gap from simulation to reality, building large scale multi-sensor, multi-robot simulations. With Omniverse, Amazon Robotics will optimize operations with full fidelity warehouse digital twins.
(1:00:50) Whether we're generating synthetic data or developing new levels of autonomy, Isaac Sim on Omniverse helps the Amazon Robotics team save time and money as we deploy Proteus across our facilities. Omniverse has unique technologies for digitalization. And Omniverse is the premier development platform for USD, which serves as a common language that lets teams collaborate to create virtual worlds and digital twins.
(1:01:21) Omniverse is physically based, mirroring the laws of physics. It can connect to robotic systems and operate with hardware-in-the-loop. It features Generative AI to accelerate the creation of virtual worlds. And Omniverse can manage data sets of enormous scale. We've made significant updates to Omniverse in every area.
(1:01:45) Let’s take a look. Nearly 300,000 creators and designers have downloaded Omniverse.
(1:04:19) Omniverse is not a tool, but a USD network and shared database, a fabric connecting to design tools used across industries. It connects, composes, and simulates the assets created by industry-leading tools. We are delighted to see the growth of Omniverse connections. Each connection links the ecosystem of one platform to the ecosystems of all the others.
(1:04:48) Omniverse’s network of networks is growing exponentially. Bentley Systems LumenRT is now connected. So are Siemens Teamcenter, NX, and Process Simulate, Rockwell Automation Emulate 3D, Cesium, Unity, and many more. Let’s look at the digitalization of the $3T auto industry and see how car companies are evaluating Omniverse in their workflows.
(1:05:17) Volvo Cars and GM use Omniverse USD Composer to connect and unify their asset pipelines. GM connects designers, sculptors, and artists using Alias, Siemens NX, Unreal, Maya, 3ds Max, and virtually assembles the components into a digital twin of the car. In engineering and simulation, they visualize the power flow aerodynamics in Omniverse.
(1:05:45) For next-generation Mercedes-Benz and Jaguar Land Rover vehicles, engineers use Drive Sim in Omniverse to generate synthetic data to train AI models, validate the active-safety system against a virtual NCAP driving test, and simulate real driving scenarios. Omniverse’s generative AI reconstructs previously driven routes into 3D so past experiences can be reenacted or modified.
(1:06:17) Working with Idealworks, BMW uses Isaac Sim in Omniverse to generate synthetic data and scenarios to train factory robots. Lotus is using Omniverse to virtually assemble welding stations. Toyota is using Omniverse to build digital twins of their plants. Mercedes-Benz uses Omniverse to build, optimize, and plan assembly lines for new models.
(1:06:43) Rimac and Lucid Motors use Omniverse to build digital stores from actual design data that faithfully represent their cars. BMW is using Omniverse to plan operations across nearly three dozen factories worldwide. And they are building a new EV factory, completely in Omniverse, two years before the physical plant opens.
(1:07:09) Let's visit. The world’s industries are accelerating digitalization with over $3.4 trillion being invested in the next three years. We at BMW strive to be leading edge in automotive digitalization. With NVIDIA Omniverse and AI we set up new factories faster and produce more efficiently than ever. This results in significant savings for us.
(1:07:32) It all starts with planning – a complex process in which we need to connect many tools, datasets and specialists around the world. Traditionally, we are limited, since data is managed separately in a variety of systems and tools. Today, we’ve changed all that. We are developing custom Omniverse applications to connect our existing tools, know-how and teams all in a unified view.
(1:07:56) Omniverse is cloud-native and cloud-agnostic enabling teams to collaborate across our virtual factories from everywhere. I’m about to join a virtual planning session for Debrecen in Hungary – our new EV factory – opening in 2025. Letʼs jump in. Planner 1: Ah, Milan is joining. Milan: Hello, everyone! Planner 1:Hi Milan – great to see you, we’re in the middle of an optimization loop for our body shop.
(1:08:22) Would you like to see? Milan: Thanks – I’m highly interested. And I’d like to invite a friend. Planner 1: Sure. Jensen: Hey Milan! Good to see you. Milan: Jensen, welcome to our virtual planning session. Jensen: Its great to be here. What are we looking at? Milan: This is our global planning team who are working on a robot cell in Debrecen’s digital twin.
(1:08:44) Matthias, tell us what’s happening … Matthias: So, we just learned the production concept requires some changes. We’re now reconfiguring the layout to add a new robot into the cell. Planner 2: Ok, but if we add a new robot, on the logistics side, we’ll need to move our storage container. Planner 3: Alright, let's get this new robot in.
(1:09:07) Matthias: That’s perfect. But let’s double-check - can we run the cell? Excellent. Jensen: Milan, this is just incredible! Virtual factory integration is essential for every industry. I’m so proud to see what our teams did together. Congratulations! Milan: We are working globally to optimize locally. After planning, operations is king, and we’ve already started! To celebrate the launch of our virtual plant, I’d like to invite you to open the first digital factory with me.
(1:09:39) Jensen: I’d be honored. Let’s do it! Car companies employ nearly 14 million people. Digitalization will enhance the industry's efficiency, productivity, and speed. Omniverse is the digital-to-physical operating system to realize industrial digitalization. Today we are announcing three systems designed to run Omniverse.
(1:10:11) First, we’re launching a new generation of workstations powered by NVIDIA Ada RTX GPUs and Intel's newest CPUs. The new workstations are ideal for doing ray tracing, physics simulation, neural graphics, and generative AI. They will be available from Boxx, Dell, HP, and Lenovo starting in March. Second, new NVIDIA OVX servers optimized for Omniverse.
(1:10:41) OVX consists of L40 Ada RTX server GPUs and our new BlueField-3. OVX servers will be available from Dell, HPE, Quanta, Gigabyte, Lenovo, and Supermicro. Each layer of the Omniverse stack, including the chips, systems, networking, and software are new inventions. Building and operating the Omniverse computer requires a sophisticated IT team.
(1:11:10) We’re going to make Omniverse fast and easy to scale and engage. Let’s take a look. The world’s largest industries are racing to digitalize their physical processes. Today, that’s a complex undertaking. NVIDIA Omniverse Cloud is a platform-as-a-service that provides instant, secure access to managed Omniverse Cloud APIs, workflows, and customizable applications running on NVIDIA OVX.
(1:11:39) Enterprise teams access the suite of managed services through the web browser Omniverse Launcher or via a custom-built integration. Once in Omniverse Cloud, enterprise teams can instantly access, extend, and publish foundation applications and workflows - to assemble and compose virtual worlds - generate data to train perception AIs - test and validate autonomous vehicles - or simulate autonomous robots… …accessing and publishing shared data to Omniverse Nucleus.
(1:12:14) Designers and engineers working in their favorite 3rd party design tools on RTX workstations, publish edits to Nucleus in parallel. Then when ready to iterate or view their integrated model in Omniverse, can simply open a web browser and log in. As projects and teams scale, Omniverse Cloud helps optimize cost by provisioning compute resources and licenses as needed.
(1:12:40) And new services and upgrades are automatically provided with real time updates. With Omniverse Cloud, enterprises can fast-track unified digitalization and collaboration across major industrial workflows, increasing efficiency, reducing costs and waste, and accelerating the path to innovation. See you in Omniverse! Today, we announce the NVIDIA Omniverse Cloud, a fully managed cloud service.
(1:13:17) We’re partnering with Microsoft to bring Omniverse Cloud to the world’s industries. We will host it in Azure, benefiting from Microsoft’s rich storage, security, applications, and services portfolio. We are connecting Omniverse Cloud to Microsoft 365 productivity suite, including Teams, OneDrive, SharePoint, and the Azure IoT Digital Twins services.
(1:13:45) Microsoft and NVIDIA are bringing Omniverse to hundreds of millions of Microsoft 365 and Azure users. Accelerated computing and AI have arrived. Developers use NVIDIA to speed-up and scale-up to solve problems previously impossible. A daunting challenge is Net Zero. Every company must accelerate every workload to reclaim power.
(1:14:13) Accelerated computing is a full-stack, datacenter-scale computing challenge. Grace, Grace-Hopper, and BlueField-3 are new chips for super energy-efficient accelerated data centers. Acceleration libraries solve new challenges and open new markets. We updated 100 acceleration libraries, including cuQuantum for quantum computing, cuOpt for combinatorial optimization, and cuLitho for computational lithography.
(1:14:45) We are thrilled to partner with TSMC, ASML, and Synopsys to go to 2nm and beyond. NVIDIA DGX AI Supercomputer is the engine behind the generative large language model breakthrough. The DGX H100 AI Supercomputer is in production and available soon from an expanding network of OEM and cloud partners worldwide.
(1:15:08) The DGX supercomputer is going beyond research and becoming a modern AI factory. Every company will manufacture intelligence. We are extending our business model with NVIDIA DGX Cloud by partnering with Microsoft Azure, Google GCP, and Oracle OCI to instantly bring NVIDIA AI to every company, from a browser.
(1:15:34) DGX Cloud offers customers the best of NVIDIA and the best of the world’s leading CSPs. We are at the iPhone moment for AI. Generative AI inference workloads have gone into overdrive. We launched our new inference platform - four configurations - one architecture. L4 for AI video. L40 for Omniverse and graphics rendering.
(1:16:00) H100 PCIE for scaling out large language model inference. Grace-Hopper for recommender systems and vector databases. NVIDIA’s inference platform enables maximum data center acceleration and elasticity. NVIDIA and Google Cloud are working together to deploy a broad range of inference workloads. With this collaboration, Google GCP is a premiere NVIDIA AI cloud.
(1:16:29) NVIDIA AI Foundations is a cloud service, a foundry, for building custom language models and Generative AI. NVIDIA AI Foundations comprises language, visual, and biology model-making services. Getty Images and Shutterstock are building custom visual language models. And we're partnering with Adobe to build a set of next-generation AI capabilities for the future of creativity.
(1:16:56) Omniverse is the digital-to-physical operating system to realize industrial digitalization. Omniverse can unify the end-to-end workflow and digitalize the $3T, 14 million-employee automotive industry. Omniverse is leaping to the cloud. Hosted in Azure, we partner with Microsoft to bring Omniverse Cloud to the world’s industries.
(1:17:24) I thank our systems, cloud, and software partners, researchers, scientists, and especially our amazing employees for building the NVIDIA accelerated computing ecosystem. Together, we are helping the world do the impossible. Have a great GTC!
https://www.seminet.co.kr/channel_micro.html?menu=content_sub&com_no=827&category=product&no=10406