|
출처: 樂soccer 원문보기 글쓴이: tjssu
요새 AI가 핫하다 보니 몇 가지 질문들이 있던데(왜 디램이 AI 컴퓨팅의 핵심인가? 스토리지는 왜 AI 컴퓨팅에서의 피해자인가? CXL은 어디에 쓰는가? 등등) 관련해서 그것들에 대해 설명을 좀 해보고자 함.
일반적인 서버, 예컨대 클라우드 서버와 AI 서버는 하는 일이 크게 다름. 좀 단순하게 표현하자면 일반 클라우드 서버는 데이터를 입/출력(Load/Save)하는 일을 하고, AI 서버는 연산(Computing)하는 일을 함. 더 간단하게 예시를 들어서 표현하자면 일반 서버는 데이터를 저장하고 불러오는 것이고, AI 서버는 엄청나게 어려운 수학 문제를 풀면서 공부하는 것과 같다고 보면 됨.
예컨대 우리가 유튜브에서 동영상을 보는 것은 구글 서버에 저장되어 있는 데이터를 불러와서 실행하는 것임. MS오피스 클라우드도 클라우드 서버에 저장되어 있는 엑셀 파일을 불러와서 작업한 후 다시 저장하는 것임. 이런 것들이 기존 일반 서버가 하는 일임. 이때 바로 스토리지가 열일을 함. 유튜브 동영상이나 MS오피스 엑셀 파일이 바로 서버 스토리지에 저장되어 있기 때문이거든.
이 과정에서 자주 쓰이는 데이터를 Hot Data, 덜 쓰이는 데이터를 Cold Data라고 함. 스토리지도 속도에 따라서 저장하는 데이터가 다름. 예컨대 캐쉬 디램 SSD는 가장 Hotest한 Data를 저장하는 데 쓰이고, 그것보다는 느린 디램리스 SSD는 그것보다는 덜 쓰이는 Hot Data를 저장하는 데 쓰이고, 아주 느린 저장장치(자기테이프 등)은 Cold Data를 저장하는 데 쓰이는 것임. 여기에서 우리는 HDD를 Nearline Storage라고 부르는데, Hot Data와 Cold Data 사이(Nearline)의 Warm Data, 그러니까 적당히 상대적으로 덜 중요한 데이터를 저장하는 데 쓰임. 당연히 Hot Data를 저장하는 SSD보다는 느리지.
그런데 이러한 스토리지가 AI 컴퓨팅으로 넘어오면서 쓸모가 매우 줄어들었는데, 앞서 설명했듯 AI 컴퓨팅, 특히 학습(Training)은 아주 어려운 수학 문제를 풀면서 배우는 과정과 같기 때문임. 즉, 데이터 입/출력이 거의 대부분 GPU와 메모리 간에만 이뤄지고, 스토리지는 처음에 분석 전의 Raw Data를 불러 오거나, 아니면 분석 완료된 Finished Data를 저장하는 데에만 쓰임. 좀 더 과장 보태자면 AI 컴퓨팅에서는 스토리지 하는 일이 거의 없음.
엄청나게 많은 로 데이터(Raw Data)를 엄청나게 빨리 분석해서 그 데이터들 사이의 의미를 찾고, 이를 통해 AI 모델을 똑똑하게 만드는 게 머신 러닝인데, 이를 위해서는 데이터가 느려 터진 스토리지도 아니고 GPU에 최대한 가깝게 붙어 있는 초고성능 Near Memory인 HBM에 존재하면서 GPU와 수조 번씩 데이터를 왕복하며 주고 받아야 함.
더 간단하게 설명하면 수학 문제가 써 있는 문제지가 스토리지, 그리고 그걸 푸는 사람을 GPU, 그 사람이 문제를 풀 때 사용하는 연습장이 바로 메모리(디램)임. 수학 문제가 존나게 어려울수록 연습장에 공식을 적었다 지우면서 푸는 과정을 엄청나게 많이 반복해야만 함. 그런데 문제지는 처음 문제를 확인하고, (연습장에서 문제를 풀고) 다 푼 문제의 정답을 옮겨적는 데 딱 이 정도로만 쓰임. 연습장 대비 쓸모가 훨씬 더 적음.
그러다 보니 현재 빅테크 업체들은 스토리지 살 돈을 줄여서 GPU와 디램을 더 사는 데 투자하고 있음. 쟤네들이 바로 컴퓨팅 파워의 핵심이기 때문임. AI 서버에서 스토리지 원가 비중이 1%밖에 되지 않는 상황임. 이런 상황에서는 CPU도 스토리지처럼 피해자임. 이제는 문제를 푸는 복잡한 일을 CPU가 아니라 GPU가 수행하거든. 그러니까 이제는 CPU와 스토리지 살 돈을 줄여서(원가 비중 하락), 그 돈으로 GPU와 디램을 더 사는 것(원가 비중 상승)이지. 그러다 보니 SSD보다 더 느려 터진 HDD는 더 안삼.
그런데 여기 쓰이는 디램도 일반 디램이 아님. 첨부가 현재 AI 서버 구조(Heterogeneous Computing: 이기종 컴퓨팅)를 간략화한 자료인데, 아주 예전에는 이 GPU가 CPU에 완전히 종속되어 있었어서 연산 시에 CPU에 붙어 있는 Main Memory(DDR)를 갖다 썼었음. 그런데 다뤄야 할 데이터가 점점 많아지다 보니 GPU가 CPU를 거쳐서 메인 메모리를 사용해서 연산하는 것은 비효율이 매우 커졌고, 그래서 GPU에 최근접으로 바로 장착된 전용 메모리(Near Memory)로 GDDR이라는 메모리 규격을 새로이 만들어서 탑재하기 시작했음. 예전 알파고 시절만 해도 GPU의 Near Memory로 GDDR5를 썼었음.
그런데 그때 이후로 다뤄야 할 데이터가 훨씬 더 커지다 보니 이제는 GDDR이라는 고대역폭 디램으로도 컴퓨팅 파워를 감당할 수 없는 지경에까지 이르렀음. 그래서 나온 게 HBM임. 디램을 여러 층으로 쌓고 그것들을 TSV 공정으로 수직으로 서로 연결해서 작은 수평 면적에서 고용량, 고속도, 저전력을 같이 잡은 전용 메모리임. 이제는 GDDR 대신 HBM을 GPU의 Near Memory로 사용하고 있음.
그리고 이 AI 서버에는 GPU 8개에 CPU가 1개 들어가는데, 각각의 GPU들을 존나 똑똑한 실무자라고 치면 이 실무자들을 관리하는 관리자의 역할을 CPU가 수행함. 각각의 실무자들에게 업무를 배분하고, 그 실무자들이 업무를 끝내면 다른 업무를 주고, 어떤 실무자에 업무가 Burden이 걸리면 그 업무를 다른 실무자에 나눠 주고 등등의 역할을 관리자가 수행함. 각각의 실무자들이 존나게 똑똑하고, 또 일을 존나게 많이 하다 보니 관리자 역시 존나게 똑똑해져야만 함. 그래야지 AI 컴퓨팅을 제대로 할 수 있음.
그래서 관리자인 CPU가 사용하는 Main Memory 슬롯에 일반 서버에서 사용하는 64GB DDR5 모듈보다 TSV 어드밴스드 패키징을 적용해서 훨씬 더 대용량인 128GB 이상 DDR5 모듈이 탑재됨. 무조건 모듈당 128GB 이상이어야만 원하는 퍼포먼스를 구현할 수 있음. 96GB로도 안 됨. 무조건 최소 128GB 이상이어야만 함. 96GB 대비 용량이 딱 1/3 정도 더 클 뿐인데, 용량 당 가격이 거의 4배씩 차이나는 상황임. 완전히 다른 제품 수준으로 가격 격차가 극심함. TSV 공정을 적용해서 용량을 1/3 더 늘렸냐 안 늘렸냐가 그 몇 배의 가격 차이를 결정하는 것임. AI 컴퓨팅에 들어가는 반도체가 이 정도로 가격보다 성능 퍼포먼스를 훨씬 더 중시하는 상황임.
이러한 AI 디램의 이익 모멘텀이 얼마나 강력하냐면 2분기 기준 하닉 디램 매출의 25%가 AI 디램(15%는 HBM, 나머지 10%는 128GB 이상 대용량 디램 모듈)으로 추정되는데, 이 제품들에서 영업이익률이 50%씩 나와서 나머지 매출 75%의 범용 디램이 영업적자가 20%씩 나는 걸 다 메꾸고 전체 디램 영업이익률을 BEP 수준까지 끌어올려 버렸음. 하반기로 갈수록 이 고부가가치 AI 디램 매출 비중은 계속 올라갈 것이고(전체 디램이 본격 흑자 전환), 나중에 아직은 매출 대부분을 차지하는 범용 디램 가격마저 반등 시작한다면 하닉의 영업이익률은 아주 폭발적으로 개선될 것임.
그런데 AI 디램 매출 비중이 디램 업체들 중 가장 높다는 건 반대로 범용 디램 매출 비중이 제일 낮다는 뜻이기 때문에 범용 디램 가격이 반등 시작하면 이익률이 가장 크게 개선되는 건 AI 디램 꼴등인 마이크론일 것임. 하닉은 이미 AI 디램 덕분에 디램 이익률이 개선이 많이 되었기 때문에 마이크론과 삼전보다는 범용 디램 가격 반등의 수혜를 덜 받을 것임.
PS. 참고로 HBM은 GPU 제작사인 엔비디아나 AMD에서 사간다면, 이 128GB 이상 대용량 디램 모듈은 엔비디아나 AMD에서 GPU를, 인텔에서는 CPU를 사서 AI 서버를 제작하는 빅테크들(구글, 아마존, MS 등)에서 사감. 그래서 구매처가 좀 다름.
이처럼 AI 컴퓨팅은 가격보다 성능을 훨씬 더 중시하기 때문에 고객사들은 스토리지에서 데이터를 입출력하는 것을 엄청나게 싫어함. 최대한 피하려고 함. 왜냐햐면 '병목 구간 법칙'으로 전체 컴퓨팅의 성능은 시스템에서 가장 느린 부분이 결정하기 때문이거든. 스토리지가 졸라 느려 터져서 데이터를 스토리지에서 주고받는 순간 전체 컴퓨팅 속도가 엄청나게 느려짐. 퍼포먼스를 확 죽여 버림.
그래서 떠오르는 게 앞서 설명한 AI 서버 구조(이기종 컴퓨팅)에서도 나왔던 SCM(Storage Class Memory)임. 메모리와 스토리지의 중간 단계로서, 메인 메모리보다는 느리지만 스토리지보다는 그래도 빠름. 이 SCM을 이용해서 어떻게든 데이터를 스토리지에서 직접 불러오는 일은 최소화 하겠다는 것임. 이 SCM으로 논의되는 게 바로 CXL(Compute eXpress Link)임.
이 기술은 마치 SSD처럼 PCle를 통해 채널 개수를 크게 늘려서 서버 시스템에 훨씬 더 많은 디램 모듈을 탑재할 수 있게 해주는 기술임. 또한 전용 컨트롤러 탑재를 통해 대용량의 디램 용량을 훨씬 더 효율적으로 사용할 수 있게 해줌. 또한 굳이 GPU가 CPU에 종속된 Main Memory까지 가지 않고도 CXL의 Memory Pool을 이용할 수 있게 됨. 또한 다양한 종류의 디램을 시스템에서 같이 활용할 수 있게 해줌. 예컨대 가격이 똥값까지 떨어진 Legacy DDR4 제품을 CXL에 탑재해서 서버 시스템의 SCM으로 활용하는 것임. 이를 통해 서버 시스템의 컴퓨팅 파워를 최대한 극대화하는 방향으로 메모리 구조가 나아가고 있음.
또한 지금은 텍스트 기반의 AI 모델이 이미지, 동영상, 실시간 렌더링으로 나아가게 되면 컴퓨팅 파워가 기하급수적으로 필요해지기 때문에 이러한 컴퓨팅 파워를 극대화할 수 있는 메모리의 역할이 더더욱 중요해지는 상황임.
여담으로 아직까지는 빅테크들이 AI 서버 CPU로 인텔 x86 CPU를 사용하고 있긴 하지만, GPU 업체들은 지금 그 자리마저 넘보려고 하는 상황임. 최근 공개한 엔비디아의 수퍼칩 시스템인 GH200(Grace-Hopper-200)은 H100 GPU에 ARM Core 기반의 Grace CPU를 탑재하였음.
ARM Core Architecture 자체가 Customizing이 쉽다 보니 자사 GPU에 최적화된 자체 제작한 CPU를 탑재하겠다는 뜻임. 뿐만 아니라 ARM Core가 저전력/저발열이 핵심인 모바일 AP 설계에 최적화 되어있다 보니 ARM Core를 이용해서 지금 AI 서버에서 심각한 문제가 되고 있는 발열과 전력 소모를 최소화하겠다는 뜻도 있음. 실제로 엔비디아 주장으로는 GH200은 ARM Core 기반 서버 시스템을 적용함으로서 인텔 x86 기반 서버 시스템 대비 전력 소모를 절반 이상으로 줄였다고 주장하고 있음.
그런데 이게 가능한 게 순전히 ARM Core 때문만은 아님. ARM Core가 모바일에 최적화된 아키텍쳐다 보니 Near Memory인 HBM과는 별도로 수퍼칩 시스템의 메인 메모리로 DDR이 아니라 저전력 LPDDR을 탑재하기가 x86보다 훨씬 더 수월하거든. 이 GH200에 Memory Pool로 탑재된 게 무려 144TB나 되는 LPDDR5X임. 엔비디아의 초고속 NVLink를 통해 각각의 256개의 GPU들이 얼마든지 자유롭게 이 공유 Memory Pool을 이용할 수 있음. 앞서 설명한 SCM과 비슷한 개념임. 스토리지의 역할을 이 거대한 Memory Pool로 상당 부분 옮긴 것임. 이는 LPDDR의 모듈화 제품인 LPCAMM(Low Power Compression Attached Memory Module)이라고 하며, 지난 2분기 마이크론 실적발표 컨콜에서도 꽤 중요하게 언급되었던 제품임.
마지막으로 컴퓨팅 파워의 확대를 위해 GPU 당 탑재되는 HBM 용량 역시 폭발적으로 성장하고 있음.
TSMC 7나노 공정 기반 엔비디아 A100 GPU에는 16Gb Die가 4개 Stack된 HBM2E 칩이 총 5개가 장착되었음. 그러면 전체 HBM 용량은 (16Gb=2GB)*4*5 해서 총 40GB임. 그런데 H100 GPU(TSMC 4나노)부터는 16Gb Die가 8개 Stack된 칩이 5개가 들어가서 80GB가 되었음. 그런데 AMD MI300A에는 이 HBM 칩이 무려 8개가 들어가서 총 용량이 128GB가 되었음. 이렇게 GPU 업체들끼리 경쟁이 붙으면 GPU당 HBM 탑재량은 더더욱 늘어나게 될 수밖에 없음.
내년 말에 TSMC 3나노 공정 기반으로 출시될 엔비디아 차세대 GPU에는 HBM3P가 탑재될 텐데, HBM3P는 24Gb로 HBM3 대비 Die 용량이 1.5배 늘어났음. 이 24Gb Die가 8개 Stack된 칩이 최소 8개 이상 탑재될 것으로 기대하고 있음. 그렇게 되면 GPU의 HBM 용량이 192GB(3GB*8*8)으로 H100 대비 2.4배가 늘어남. 그리고 26년에 TSMC 2나노로 출시될 차차세대 GPU에는 HBM4 제품이 24Gb Die 12 Stack 칩이 12개 이상 탑재될 것 같은데, GPU 당 HBM 용량이 무려 432GB(3GB*12*12)까지 증가함. 단순 용량 기준으로도 A100 대비 10.8배, H100 대비 5.4배나 됨. 실제로 삼성도 로직 칩 1개에 HBM 칩 4개를 패키징한 I-Cube4는 21년에 개발 완료했고, HBM 칩 8개를 패키징한 I-Cube8은 내년부터 양산 시작하고, 12개를 패키징한 I-Cube12는 HBM4 양산 시기에 맞춰 2026년부터 양산할 예정임. 이 12 Stack 제품부터 본격적으로 하이브리드 본딩 기술을 적용할 예정이고, 이 기술에 대해서는 삼전 내부적으로 꽤 자신감이 있는 것으로 알고 있음.
HBM 향후 판매량 전망에서 단순 GPU 출하량 갯수뿐만 아니라 GPU 당 탑재량도 같이 봐야 하는 게 바로 이 때문임. 그래서 첨부한 모건스탠리 리포트에서도 27년 GPU 당 HBM 용량(HBM usage per GPU)을 307GB로 계산했던 것임. 뿐만 아니라 대역폭도 HBM2E(A100)에서 HBM4(차차세대 GPU)로 가면서 몇 배씩 증가한다는 점을 감안하면 GPU의 HBM 전체 성능이 세대가 업그레이드 되면서 수십배 상승한다고 보면 됨. 예컨대 HBM2에서 3으로 가면서 대역폭이 3.2배 상승(256GB/sec->819GB/sec)했다는 점을 감안하면 HBM4의 대역폭 역시 3 대비 최소 3배 이상은 될 것이고, 용량 증가까지 감안하면 엔비디아 차차세대 GPU의 HBM 종합 성능은 H100 대비 거의 20배 가까이 상승할 것으로 전망함. 정말로 어마어마한 성능의 괴물 칩이 출시되는 것임.
결론적으로 AI는 HPC 전용 초고성능 메모리 수요만을 증가시키는 게 아니라 어플리케이션 측면에서는 일반 서버부터 PC, 모바일, 오토모티브 등 어플리케이션 전반을, 그리고 디램 제품 측면에서는 HBM부터 DDR, GDDR, LPDDR까지 모든 형태의 디램 수요 전체를 한 단계 레벨업 시킬 것이라고 생각함. 그래서 HBM에만 집중하는 것은 AI 메모리 수요를 정확히 이해하지 못하는 행동이고, 바로 그렇기 때문에 AI는 당장 지금의 사이클에만 영향을 주는 단기적인 요인이 아니라 장기적으로 디램 시장을 완전히 변모시킬 레짐 체인저가 될 것이라고 생각함.
PS. 여담으로 이래서 반도체야말로 향후 미래 경제에서 그 무엇과도 비교 불가능한 가장 중요한 자원이며, 이 때문에 미국이 미중 패권전쟁에서 죽기 살기로 반도체를 규제한다고 생각함. 맥킨지와 골드만삭스 분석대로 AI가 연간 경제성장률에 1.5% 가까운 영향을 준다면 10년이면 AI의 유무가 20% 가까운 경제규모 차이를 가져옴. 중국 경제가 미국 경제 규모를 역전할 수 있느냐, 반대로 미국 경제가 중국 경제와의 격차를 크게 벌릴 수 있느냐를 AI가 결정함. 그리고 그 AI의 핵심이 바로 반도체임. 그런 관점에서 최근에 미국 반도체 기업들이 대중국 반도체 규제를 풀어달라고 징징대는데, 미국 정치권에서 그깟 장사치들 이익놀음에 놀아나서 패권전쟁에서 혹여나 패배할 리스크를 만드는 일은 절대로 없을 것이라고 생각함.
AI 컴퓨팅에서의 메모리 구조에 대해 쭉 쓰다 보니 글이 너무 길어졌네. 여튼 결론은 AI 컴퓨팅에는 앞으로 Near Memory인 HBM부터 SCM인 CXL까지 디램이 그냥 개같이 존나 많이 들어갈 수밖에 없다 이상임.
모건스탠리: 온 디바이스 AI의 최대 수혜자는 메모리
최근자 모건스탠리 리포트에서는 스마트폰의 미래를 온 디바이스 AI라고 엄청 빨아주고 있음. 제 2의 전성기, 이런 표현까지 씀. 온 디바이스 AI의 수혜를 "메모리 > 안드로이드 SoC > 스마트폰 부품 > 안드로이드 OEM > 애플, 아이폰 OEM > PC OEM" 순서대로 많이 입을 것으로 전망함.
메모리는 온 디바이스 AI 구현의 핵심은 대용량/고성능 디램이기 때문임. 디램은 이번 AI 슈퍼사이클의 최대 수혜자 중 하나임. 파운드리보다 훨씬 더 임. 그리고 애플의 AI 기술력을 안 좋게 보는 반면(준비가 너무 뒤쳐짐), 미디어텍과 퀄컴의 AI 기술력을 높게 평가함. 그래서 메모리 다음으로 안드로이드 SoC 업체들이 온 디바이스 AI에서 큰 수혜를 볼 것으로 전망함. 잘하면 아이폰에 대한 안드로이드 진영 반격의 서막이 될 수도?
맥쿼리: 온 디바이스 AI에 탑재되는 디램 용량 비교
1) 일반적인 현재 스마트폰은 약 8GB의 디램이 탑재
2) 이미지 생성 기능이 탑재된 온 디바이스 기기는 약 12GB
3) 디지털 AI 비서 기능이 탑재된 기기는 약 20GB의 디램이 필요
당장 맥쿼리 리포트에도 나왔듯 온 디바이스 AI 기능이 탑재된 스마트폰은 일반 스마트폰 대비 많게는 디램 용량이 2.5배 이상 증가함. AI 컴퓨팅 파워의 핵심이 바로 디램이기 때문임.
디램은 엔비디아 다음으로 AI 혁명의 최대 수혜자로서 HBM의 뒤를 이어 범용 디램 역시 온 디바이스 AI로 장기 호황의 국면에 접어들 것이며, 기존의 단순 범용 부품에서 그 위상이 지금보다 훨씬 더 올라갈 것으로 생각함.
|
출처: 樂soccer 원문보기 글쓴이: tjssu