|
클리앙)wishwisdom
안녕하세요, 제가 페북에서 인공지능 인프라나 모델쪽 말씀하시는 분 중에 이해하기 좋아서 자주 보는 페북 내용입니다.
DeepSeek이 NVIDIA 칩에 대한 의존도가 많이 높고, H800과 H100 사이의 성능차이가 거의 없다는 말도,,,인공지능은 역시 NVIDIA...투자 관점이랑 국가 투자 관점을 잘 정리하셔서 공유합니다.
--------
# DeepSeek 을 둘러싼 다른 이야기들 정리.
전자신문 컬럼쓰다 길이 폭주를 못 막아서, 어차피 정리해서 거기 낼 방법은 안보이니 원 생각 글을 여기다 붙여본다.
설 연휴 시작부터 DeepSeek 이야기를 몇 번이나 했는지 모르겠다. 명절기간과 그 다음주 동안 인터뷰 여섯 번과, 두 번의 내부 미팅, 두 번의 자문을 하고 나니 이제는 DeepSeek이라는 단어만 들어도 도망가고 싶다. 기술적 배경을 포함해서 AI 업계가 앞으로 어떻게 변할지, 그리고 우리가 고민해야 할 방향이 무엇인지까지 묻는 내용들이 개발자 분들, 기자분들, 정책 담당하시는 분, 회사 구성원까지 다 다양한데, 답변하다보니 질문 내용들이 이리저리 겹쳐서 정리해보면 몇가지 가닥으로 요약이 된다. 이제 한 광풍 지나 갔으니 (같은 내용을 반복해서 말하는 대신 의견 전달해 드릴 링크도 확보할 겸) 질문들을 요약한 것만 정리해 보려 한다.
크게 네가지 질문들은 이렇다.
1. 그래서 정말 싼가?
2. 미중 갈등과의 연관성은?
3. 우리는 무엇을 해야 하나?
4. OpenAI 와 NVIDIA는 어떻게 되나?
아래 답변들은 짧게는 15분 길게는 두 시간씩 이야기하던 내용의 요약이다. 다른 분들이 많이 지식이나 견해 나눠주셔서 이제 많이들 아는 내용들은 다 빼고, 나머지 내용들 중에서 가능하면 프로그래머나 연구자가 아닌 분들에게도 익숙한 단어들을 써서 적어본다(고 노력을 해 본다).
## DeepSeek은 정말 싼가? 중국 AI 시장의 특징
그럼 1번부터. 그래서 정말 싼가? 결론적으로는 싼데 비싸다. 중국의 C++로 AI를 파고 드는 문화, NPU, 자강시도와 같은 특징들이 한데 모인 결과물이기 때문이다. 2017년 Google Developers Expert로 난징에 발표하러 갔을 때가 생생하다. 한 시간 발표에 두 시간 삼십분 질답이 이어졌는데, TensorFlow 질문은 하나도 없었고 전부 C++ 관련 질문이었다. 애초에 TensorFlow 나 PyTorch 사이트에 중국에서 접근이 불가능했던 시절이기도 했다. 프레임워크 종속에서 좀 벗어나 있는 것이 중국의 특징이다. 중국은 IT 시장 자체가 데스크탑을 바이패스하고 모바일 시장으로 가면서 C++ 기반 딥러닝 코드와 모델을 NPU에 올린다거나 자바스크립트로 인퍼런스 하는걸 많이 시도해 왔다. 또 다른 중국의 특징으로는 자강시도를 들 수 있는데, 탈 텐서플로, 탈 파이토치를 하면서 알리바바 XDL, 텐센트 TNN 및 Mariana, 바이두의 PaddlePaddle 같이 각자 프레임웍을 만들었다. 그 결과, 중국 대학의 딥러닝 커리큘럼에서도 PyTorch나 TensorFlow를 기본으로 가르치는 것이 아니라, 자체 개발 프레임워크를 다루는 경우들도 다수였다. 그러한 영향인지 중국의 엔지니어들은 새로운 것을 직접 만들어 쓰는 것에 거리낌이 없다.
게다가 DeepSeek은 HFT(High-frequency trading) 하던 팀이 차린 회사라서 가능한 기술들을 많이 반영한 터라, DeepSeek-v3 처럼 싼데 비싼 모델이 나왔다. HFT를 하다 보면 레이턴시 해결에 목숨을 걸어야 해서 네트워크 스택을 새로 쓰는 일이 흔하다. 이런 기술력을 바탕으로 DeepSeek 팀은 HFT 시절부터 NCCL이나 NVLink 없는 기기들을 가져다가 SM의 일부를 예약해 GPU로 네트워크를 가속하고, 패킷에서 오류 정정 루틴이나 일반 통신 규격을 바이패스해서 GPU 비용을 낮추는 등의 테크닉을 만들어 왔다. (HFT 분야에선 CPU로 할 때도 마찬가지로 윈도우나 리눅스 네트워크 스택을 안 쓰고 중간에 빼버려도 되는 절차를 다 빼버리는 최적화가 흔하다) 이런 걸 하던 사람들이 AI 한다고 모여서 GPU-GPU 통신을 최적화 한 거라 GPU 간 서버-투-서버 통신을 가속하는 압축/해제 연산을 위해 H800 GPU의 SM 132개 중 20개 정도를 통신 전담으로 재구성하고, GPU가 계산하는 동안 백그라운드에서 InfiniBand로 데이터를 보내고 받는 DualPipe 기술을 개발했다. 이런 하드웨어 튜닝으로 All-to-All 통신 오버헤드를 거의 0에 가깝게 줄여서 GPU의 75%가 통신 대기로 낭비되는 일반적인 상황과 달리 GPU 활용률을 거의 100%에 가깝게 끌어올려 적은 GPU로도 4배 이상의 효과를 냈다고 이야기하고 있다.
네트워크 말고 계산적으로도 재미있는 부분이 많은데 포워드-백워드 전부 NVIDIA 제공 FP8 포맷(E4M3)으로 통일한 후, 낮은 정확도로 인해 생기는 누적 오차는 4번 곱할때마다 TF32로 역변환해서 보정하는 식으로 FP8 연산을 적극 활용하고, 순방향/역방향 계산을 overlap 해서 GPU가 쉬는 시간을 최소화하고, 불필요한 중간계산값은 메모리에 저장하지 않고 필요할 때 재계산하는 등 메모리 사용량을 줄이는 최적화도 했다. 그 결과 DeepSeek는 GPU 인터커넥트 인프라 없이도 GPU 훈련 변수비용을 80억 원 정도로 낮출 수 있었다. 물론 그 이면에는 (소문이 사실이라면) 이미 2조 원 규모의 고정비용이 숨어 있지만 말이다.
## 미중 갈등 속에서 DeepSeek이 가지는 의미
두 번째 질문은 미중 갈등에 대한 건데, 중국을 무슨 갑자기 하늘에서 떨어진 충격으로 보는데 사실은 엄청난 규제를 걸어서 키운 시장이다. 한때는 300개가 넘는 LLM 회사에 200개가 넘는 파운데이션 모델이 쏟아져 나왔다. 그 중 대부분은 Llama 을 파인튠하고 택갈이해서 파운데이션 모델 만들었다고 주장하던 터라, 중국 정부가 게임 판호 만들듯이 AI 판호제를 도입해서 10여개 사만 허가해 주고 나머지는 다 정리했다. 이런 부분은 중국 전기차 시장이나 배터리 시장과 비슷한 발전 양상인데, 중국 국내에서 엄청나게 경쟁시키고 살아남은 곳들은 강해져서 해외까지 나가게 되는 패턴이다.
이 과정에서 살아남은 AI LLM 기업들은 미국, 유럽의 AI 스타트업들과는 차원이 다른 생존 경쟁을 경험했다. 서로 모델을 발표하면 곧바로 대응하는 방식은 OpenAI와 구글 간의 경쟁과 유사한 양상을 보인다. 바이트댄스의 경우, 10만 장 이상의 GPU를 보유한 것으로 추정된다. 이러한 환경에서 중국의 AI 기업들은 단순히 정부의 지원이 아니라, 극심한 경쟁과 최적화 경험을 통해 글로벌 경쟁력을 갖추게 되었다. 그런 곳에서 살아남은 회사들인 이유로, 미국이나 유럽 AI 모델들을 기술적으로는 존중하지만 경쟁력 차원에서는 자기 발 아래로 생각하는 경향이 있다. DeepSeek 은 비교적 최근에 그 흐름에 뛰어든 회사다. 알리바바가 Qwen을 오픈 모델화 하면서 국내외적 명성을 얻은 것과 같은 방법론을 채택하고 있다.
한편, 미국의 GPU 수출 규제는 효과적인 견제가 되지 못했다. 바이든 행정부는 칩의 총 연산 성능(FLOPS) 기준으로 규제를 걸었지만, 엔비디아는 이를 우회하여 H100의 성능을 낮춘 H800을 중국에 공급했다. 그런데 H800이 딱히 싸지도 않다. H100과 H800의 실판매 가격은 동일하다. H800은 대중 수출 규제를 피하고자 통계용 성능을 낮추는 몇가지 변경의 결과로 FP32와 FP64 성능이 H100 대비 1/20로 줄어든 대신, FP16과 FP8 성능은 동일하다. 그런 고로 16비트 이하 연산으로 훈련하는 Meta의 Llama나 DeepSeek의 DeepSeek-V3는 실질적인 제약을 받지 않았다. 즉, 규제는 걸렸지만 실질적으로 LLM 훈련에는 차이가 없었다. 비슷한 사례로 A100과 A800도 있는데, 두 제품은 사실상 동일한 칩이며, 50MHz 언더클럭만 차이가 난다. 미국의 제재 규칙이 AI 전문가에 의해 정해진 것이 아니라, 슈퍼컴퓨팅 중심의 FLOPS 규제 관점에서 이루어졌기에 이 같은 허점이 생긴 것으로 보인다.
모델 개발 비용은 계속 줄어들고 있어서 2년 늦게 시작하면 10~20분의 1 비용으로 2년전 모델을 개발할 수 있다. 작년부터는 데이터도 해자가 되지 않는다. 일반언어 합성데이터 분야는 개인적으로는 2024년 4월을 기점으로 끝났다고 본다. Llama 3가 405B 모델을 내 놓으며 합성 데이터 생성용으로 쓰라고 구체적으로 언급했고, 바로 엔비디아가 MegatronLM 405B를 내놓으면서 합성 데이터는 마음껏 생성할 수 있는 대상이 되었다. 어떤 희한한 프롬프트로 가이드를 하느냐에 따라 인간이 만든 데이터보다 더 풍부한 합성 데이터를 AI가 만들어 낼 수 있게 된 상황이다. 이런 상황에 OpenAI 모델을 데이터 합성에 쓴것이 아니냐는 지적은 핀트가 맞지 않는다. 훈련에 많이들 쓰는 데이터 소스인 ShareGPT 자체가, OpenAI 가 관련 조항 만들기 전에 사용자들이 ChatGPT로 생성해서 공유한 데이터 셋이다.
그러면 왜 미국이 이제서야 부랴부랴 저런 대응을 할까? AI 기술이나 코드 공유는 대부분 GitHub을 통해 이루어지는데, 중국은 GitHub을 막고 자체적인 오픈소스 저장소인 Gitee를 운영하고 있다. 소비자 시장도 갈리는 상황이라 그냥 중국 사정에 어두웠던 것이 아닌가 하는 생각이 든다. 감은 있었는데 이정도일줄은 몰랐다- 정도가 적당할 듯 하다. 그래서 지금의 DeepSeek 쇼크는 미국의 대중 GPU 수출 규제(?)를 뚫고 만들어낸 모델의 성능과 레시피가 가져온 쇼크도 있지만, 개인적으로는 DeepSeek 서비스를 앱스토어를 통해 바로 사용할 수 있게 되며 만들어진 쇼크로 본다. 이 이야기는 세번째 질문에 대한 답변으로 이어지겠다.
## 대한민국의 대응
AI 분야는 지역적 해자가 생기기 어려운 분야다. 미국의 DeepSeek 쇼크는 미국 앱스토어 1위로 상징된다. 사용자는 애초에 AI가 어느 나라에서 만들어졌는지를 따지지 않았다. 중요한 것은 AI의 기능이 얼마나 뛰어난지, 가격이 경쟁력이 있는지, 그리고 얼마나 쉽게 사용할 수 있는지에 달려 있다는걸 상징적으로 보여주었다. 미국 소비자들은 중국산 모델이 일대일로를 얼마나 긍정적으로 말하는지에는 큰 관심이 없었다. 정리해 보자면, 이번 DeepSeek 쇼크에서 배워야 할 것은 소비자 AI 분야에서는 기능, 가격, 접근성 이 세가지가 가장 큰 요소고 나머지는 모두 사변적이라는 점이다.
기능과 가격 면에서 DeepSeek의 등장은 AI 산업이 급격한 비용 구조 혁신과 기술적 최적화 부분에 아직 기술적으로 접근할 공간이 많이 남았음을 보여준다. 또한 한국이 AI 산업에서 어떤 길을 가야 하는지에 대한 근본적인 질문을 해 볼 시점이기도 하다. 모방과 추격으로는 글로벌 경쟁에서 살아남을 수 없음이 갈수록 명확해지고 있으며, 동시에 기존의 '소버린 AI' 전략이 현실적인지에 대한 의문이 들기 때문이다. (국가가 아닌) 소비자 레벨에서는 '중국'의 모델이 '미국'에 제공되는데 소버린은 아무 장벽이 되지 못했다는걸 보게 되었다. 독도가 대한민국 땅이라고 나오는 AI는 한국에서는 의미가 있지만, 글로벌 시장에서는 해자가 되지 않는다. 글로벌 모델들이 독도에 대해 대한민국 모델과 다른 이야기를 하면, 국내 모델만 그 이야기를 하는 것이 장기적으로 무슨 의미가 있겠는가? 프랑스의 Mistral 모델은 불어를 잘해서 뜬게 아니라, 영어도 한국어도 잘 해서 뜬 모델이다.
한국이 AI 산업에서 주도권을 가지려면, 국내 시장을 목표로 하는 것이 아니라 세계 1위를 목표로 하는 길밖에 없는 상황이 되었다. 사실 원래부터 산업은 그랬다. 현재 한국이 강점을 가진 산업을 꼽아보면 가전, 조선, 반도체 등인데, 이 산업들은 최소한 세계 1위~3위 자리를 차지하고 있다. 이 분야들 이외에 과거 한국이 경쟁력을 확보했던 분야들은 결국 글로벌 시장에서 1위를 했던 분야들이다. AI도 산업인 이상 예외가 아니다. 한국이 의미 있는 AI 산업을 유지하려면, 글로벌 1위 전략을 목표로 설정해야 한다. AI는 지역적 장벽을 칠 수 없는 분야라서 적어도 APAC 스케일로 시장을 키워야 한다. 2등을 할 자리가 없다.
한국은 다른 국가보다 훨씬 빠른 시점인 2017년~2020년 사이에 AI 분야에 엄청난 투자를 진행했다. 하지만 이후 COVID-19 와 함께 AI 모델이 충분히 성숙하기 이전 상업화 모델을 찾지 못한 결과 투자 정당화에 실패했고, 그 반동으로 지금은 과도하게 투자가 움츠러든 상황이다. 당장 기반 모델 (foundation model) 개발에 투자가 어렵다면, 글로벌 AI 시장에서 살아남기 위해 기반 모델을 오픈소스 모델에 의존하더라도 그걸 이용해 특정 산업에 특화된 버티컬 멀티모달 기반 모델을 개발하거나, 특정 도메인에서 독보적인 경쟁력을 확보하는 것부터 시작해야 할거다. 언어 데이터가 아닌 다른 특화 데이터가 필요한 분야들에는 기회가 많이 남아있다. 그렇게 만든 버티컬 파인튜닝 모델 또는 추가 훈련된 기반 모델들은 해당 회사의 경쟁력이 될 수 있고, 사업화까지 연동하기 더 유리하다. 이후 성공사례들이 나오고, 일반 기반 모델들이 이어져 나오게 될 것이다. 시간이 흐르면 훈련 비용은 기하급수적으로 낮아지며, 소프트웨어 최적화가 그 정도를 조금 더 끌어내리고 있는 중이다.
## OpenAI 와 NVIDIA
네번째 질문에 대한 대답. OpenAI가 앞으로 원하는 밸류로 투자 유치를 할 수 있을까? 하는 질문이 있었다. OpenAI를 대박난 맛집에 비유해보자. 레시피를 아무도 모른다. 하지만 맛있다. 그런데 DeepSeek-R1이라고 인터넷에 레시피를 올렸는데, 딱 같진 않은데 생각보다 비슷한 맛을 내기 쉬운거다. 백종원이 사이다랑 깻잎으로 모이또 만들어도 그럴싸하쥬? 하던 그 순간이다. 정확히 똑같진 않아도 비슷한 맛을 낼 수 있게 된 상황이다. 비법이 털린 맛집이 가는 길은 세가지로 정해져 있다. 브랜드 명성으로 버티거나, 체인점으로 가거나, 망하거나. OpenAI가 투자 유치 경쟁하면서 만들어낸 스토리가 이제 의구심을 사게 된 상황이다. OpenAI 는 o3 기반의 새로운 서비스들을 계속 공개해서 시선을 사로잡아 두려고 하겠지만, 복제에 걸리는 시간은 갈수록 짧아질 것이다. OpenAI 라운드 클로징 전의 스토리에서 환상이 좀 걷히고 있는 중이며, 환상이 걷히고 나면 이제 이 기업이 정말 천조원의 가치를 지닌 회사인가에 대한 의문이 들게 될 것이다.
DeepSeek의 레시피가 의미하는게 하나 더 있다. DeepSeek은 증류를 통해 10B 미만의 파라미터를 지닌 모델들의 상태 공간 크기만으로도 reasoning 을 충분히 할 수 있는 것을 보였다. 그리고 그 작은 모델의 구조를 크게 비틀거나 할 필요 없이, 컨텍스트 윈도우 관련 부분 조정이랑 증류 만으로도 충분히 긴 추론 기능을 추가할 수가 있다는 것이 확실해졌다. 너무 간단해서 다들 해 보고 있다. (나조차도 해당 내용 보고 나서 바로 작게 CoT 데이터셋 뽑아내서 바로 파인튠 해 볼 정도였다.)
엔비디아는 DeepSeek을 통해 오히려 더 강력한 독점을 구축할 가능성이 크다. DeepSeek의 기술 기여를 들여다보면, 엔비디아 전용 시스템 콜들을 활용하거나 오버라이드해서 구현해버리는 바람에 회사 엔지니어링 차원에서는 오히려 엔비디아 종속성이 심해졌다. CUDA를 바이패스 했다고 CUDA가 필요없는 게 아니라, 엔비디아 전문가들이 CUDA의 일부 콜들을 PTX를 이용해 오버라이드 하여 엔비디아 GPU를 최적화하고 네트워크 스택을 만들어 올려 사용하고 있으니 다른 칩으로 갈아타는 비용이 너무 커지고 있는 경우다. 경쟁사도 AMD나 인텔밖에 없는데, 그 칩들이 PTX 수준의 칩 의존성이 덜하면서도 안정적인 어셈블리 레벨 시스템 콜을 제공할 가능성은 당분간 거의 없어 보인다.
이와 별도로 앞으로 어떻게 될지는 봐야 알 것 같다. 정치적 상황이 워낙 급변하고 있어서. 예전 같으면 "H800 시리즈로 이런 모델도 만들 수 있다!"며 광고할 엔비디아가, 요즘은 "수출금지 어기고 판 것 아니냐?" 소리 나올까봐 조용하게 있는 것을 보면 더 그렇다. 중국에 공격적으로 판매를 늘리고 싶지만 그게 쉽지는 않은 2025년 2월이다. 아마 올해 GTC에서는 FP4/FP8 성능으로 훅 올라간 컴퓨팅 성능 그래프를 보여주며 "트레이닝도 FP8 쓰세요~ 인퍼런스는 FP4!" 이럴 것 같다. 올해 초 마이크로소프트가 FP4로 실용 인퍼런스 기술을 공개한 것도 함께 묶어, 엔비디아 칩만이 지원하는 FP4로 많은 이야기를 할 듯 하다.
## 정리
AI 인프라쪽에 거대하게 펼쳐진 최적화 공간을 모두가 봤다. 앞으로 AI 기술 경쟁은 더 가속화될 것 같고, 소프트웨어 레벨 최적화를 비용 절감 또한 핵심 화두가 될 듯하다. 오픈소스 활용, 하드웨어 최적화 등으로 개발 비용을 줄이는 게 승패를 좌우할 수 있다는 생각을 하게 되었다. 우리나라도 적당한 AI 기술 개발 또는 지역적 AI를 넘어 처음부터 글로벌 경쟁력을 갖추는 데 몰두해야 한다. 성능과 비용, 접근성을 모두 높이는 전략으로 버티컬 시장을 바로 타겟팅할 필요가 있다. NVIDIA의 독점은 당분간 계속될 테고, 오픈AI도 아직은 시장의 신뢰를 받고 있지만 DeepSeek 같은 사례들이 계속 나오면 전망이 흔들릴 것이다. 엄청 재미있는 시간이 열리고 있지만, 그만큼 피로하고 위험한 시간이기도 하다. 누구도 정답이 없는 폭풍 가운데의 상황이라 계속 예의주시하며 빠르게 전략을 세우고, 지속적으로 계속 수정해 나가는 방법밖에 없는 시기다.
첫댓글
클리앙 댓글 중---
여긴누구나는어디
결국 딥시크는 엔비디아 HW에 대한 극한의 최적화의 산물인데, 모든 게임을 롤러코스터타이쿤처럼 극한으로 최적화할 수는 없듯이, 한계는 명확하다고 봅니다.