AI 파운데이션 모델

1. 파운데이션 모델이란 무엇인가요?대규모 데이터세트를 기반으로 훈련된 파운데이션 모델(FM)은 데이터 사이언티스트가 <a style="color: #0972d3;" href="https://aws.amazon.com/what-is/machine-learning/" target="_top" class="ke-link">기계 학습(ML)</a>에 접근하는 방식을 변화시킨 대규모 <a style="color: #0972d3;" href="https://aws.amazon.com/what-is/deep-learning/" target="_top" class="ke-link">딥 러닝</a> 신경망입니다. 데이터 사이언티스트는 처음부터 <a style="color: #0972d3;" href="https://aws.amazon.com/what-is/artificial-intelligence/" target="_top" class="ke-link">인공 지능(AI)</a>을 개발하지 않고 파운데이션 모델을 출발점으로 삼아 새로운 애플리케이션을 더 빠르고 비용 효율적으로 지원하는 ML 모델을 개발합니다. 파운데이션 모델이라는 용어는 연구자들이 광범위한 일반화된 데이터와 레이블이 지정되지 않은 데이터에 대해 훈련되고 언어 이해, 텍스트 및 이미지 생성, 자연어 대화와 같은 다양한 일반 작업을 수행할 수 있는 ML 모델을 설명하기 위해 만들어졌습니다. 2. 파운데이션 모델의 특성파운데이션 모델의 독특한 특징은 적응성입니다. 이 모델은 입력 프롬프트를 기반으로 높은 정확도로 다양한 이질적인 작업을 수행할 수 있습니다. 일부 작업에는 자연어 처리(NLP), 질문 응답 및 이미지 분류가 포함됩니다. FM은 크기가 크고 범용적인 특성을 가지고 있으므로 일반적으로 감정을 포착하기 위한 텍스트 분석, 이미지 분류, 트렌드 예측과 같은 특정 작업을 수행하는 기존의 ML 모델과는 다릅니다.파운데이션 모델을 기본 모델로 사용하여 더욱 전문화된 다운스트림 애플리케이션을 개발할 수 있습니다. 이러한 모델은 규모와 복잡성이 증가했던 10년 이상의 작업의 산물입니다.예를 들어, 최초의 양방향 기반 모델 중 하나인 BERT는 2018년에 출시되었습니다. 3억 4천만 개의 파라미터와 16GB의 훈련 데이터 세트를 사용하여 훈련되었습니다. 불과 5년 후인 2023년에 OpenAI는 170조 개의 파라미터와 45GB의 훈련 데이터 세트를 사용하여 GPT-4 교육을 실시했습니다. OpenAI에 따르면 <a style="color: #0972d3;" href="https://openai.com/research/ai-and-compute" target="_blank" class="ke-link">파운데이션 모델링에 필요한 컴퓨팅 파워는 2012년 이후 3.4개월마다 두 배로 증가하고 있습니다</a>. 대규모 언어 모델LLM) Claude 2와 Lama 2, Stability AI의 텍스트-이미지 변환 모델인 Stable Diffusion과 같은 오늘날의 FM은 블로그 게시물 작성, 이미지 생성, 수학 문제 해결, 대화 참여, 문서 기반 질문 답변 등 여러 영역에 걸쳐 다양한 작업을 즉시 수행할 수 있습니다. 3. 파운데이션 모델링이 중요한 이유는 무엇인가요?파운데이션 모델은 기계 학습 라이프사이클을 크게 변화시킬 태세를 갖추고 있습니다. 현재는 파운데이션 모델을 처음부터 개발하는 데 수백만 달러의 비용이 들지만 장기적으로는 유용합니다. 데이터 사이언티스트는 고유한 ML 모델을 처음부터 훈련시키는 것보다 사전 훈련된 FM을 사용하여 새로운 ML 애플리케이션을 개발하는 것이 더 빠르고 저렴합니다.한 가지 잠재적 용도는 작업과 프로세스, 특히 추론 기능이 필요한 작업과 프로세스를 자동화하는 것입니다. 다음은 파운데이션 모델에 대한 몇 가지 응용 분야입니다.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>고객 지원</li><li>언어 번역</li><li>콘텐츠 생성</li><li>카피라이팅</li><li>이미지 분류</li><li>고해상도 이미지 생성 및 편집</li><li>문서 추출</li><li>로보틱스</li><li>의료 서비스</li><li>자율 주행 차량</li></ul>4. 파운데이션 모델은 어떻게 작동합니까?파운데이션 모델은 생성형 인공 지능(생성형 AI)의 한 형태입니다. 이들은 인간 언어 명령의 형태로 하나 이상의 입력(프롬프트)에서 출력을 생성합니다. 모델은 생성형 적대 네트워크(GAN), 트랜스포머, 변량 인코더 등 복잡한 신경망을 기반으로 합니다.각 네트워크 유형은 다르게 작동하지만 작동 원리는 비슷합니다. 일반적으로 FM은 학습된 패턴과 관계를 사용하여 시퀀스의 다음 항목을 예측합니다. 예를 들어, 이미지 생성 시 모델은 이미지를 분석하여 더 선명하고 명확하게 정의된 이미지 버전을 만듭니다. 마찬가지로, 텍스트의 경우 모델은 이전 단어와 문맥을 기반으로 텍스트 문자열의 다음 단어를 예측합니다. 그런 다음 확률 분포 기법을 사용하여 다음 단어를 선택합니다.파운데이션 모델은 자체 지도 학습을 사용하여 입력 데이터에서 레이블을 생성합니다. 즉, 레이블이 지정된 훈련 데이터 세트로 모델을 가르치거나 훈련시킨 사람은 아무도 없습니다. 이 기능으로 인해 LLM은 지도 학습 또는 비지도 학습을 사용하는 이전 ML 아키텍처와 구분됩니다. 5. 파운데이션 모델은 무엇을 할 수 있습니까?파운데이션 모델은 사전 훈련되었더라도 추론 중에 데이터 입력 또는 프롬프트를 통해 계속 학습할 수 있습니다. 즉, 세심하게 선별된 프롬프트를 통해 포괄적인 결과를 개발할 수 있습니다. FM이 수행할 수 있는 작업에는 언어 처리, 시각적 이해, 코드 생성 및 인간 중심 참여가 포함됩니다. 1) 자연어 처리이러한 모델은 자연어 질문에 답할 수 있는 놀라운 기능을 갖추고 있으며 프롬프트에 대한 응답으로 짧은 스크립트나 기사를 작성할 수도 있습니다. 또한 NLP 기술을 사용하여 언어를 번역할 수 있습니다.2) 시각적 이해FM은 컴퓨터 비전, 특히 이미지와 물리적 물체를 식별하는 데 탁월합니다. 이러한 기능은 자율 주행 및 로보틱스와 같은 응용 분야에서 사용될 수 있습니다. 또 다른 기능은 입력 텍스트에서 이미지를 생성하고 사진과 비디오 편집을 수행하는 것입니다.3) 코드 생성파운데이션 모델은 자연어 입력을 기반으로 다양한 프로그래밍 언어로 컴퓨터 코드를 생성할 수 있습니다. FM을 사용하여 코드를 평가하고 디버깅하는 것도 가능합니다. <a style="color: #0972d3;" href="https://aws.amazon.com/what-is/ai-coding/" target="_top" class="ke-link">AI 코드 생성에 대해 자세히 알아보세요</a>.4) 인간 중심의 참여생성형 AI 모델은 사람의 입력을 사용하여 예측을 학습하고 개선합니다. 중요하지만 간과되는 응용 분야 중 하나는 인간의 의사 결정을 지원하는 이러한 모델의 기능입니다. 잠재적 용도로는 임상 진단, 의사 결정 지원 시스템, 분석 등이 있습니다.또 다른 기능은 기존의 파운데이션 모델을 미세 조정하여 새로운 AI 애플리케이션을 개발하는 것입니다. 5) 음성을 텍스트로 변환FM은 언어를 이해하므로 다양한 언어로 트랜스크립션 및 비디오 자막 삽입과 같은 음성-텍스트 변환 작업에 사용할 수 있습니다.파운데이션 모델의 예는 무엇인가요? 6. 시장에 나와 있는 파운데이션 모델의 수와 크기는 빠른 속도로 성장했습니다. 현재 수십 개의 모델을 사용할 수 있습니다. 2018년 이후 출시된 주요 파운데이션 모델 목록은 다음과 같습니다.1) BERT2018년에 출시된 Bidirectional Encoder Representations from Transformers(BERT)은 최초의 기반 모델 중 하나였습니다. BERT는 전체 시퀀스의 컨텍스트를 분석한 다음 예측하는 양방향 모델입니다. 33억 개의 토큰(단어)과 3억 4천만 개의 파라미터를 사용하여 일반 텍스트 코퍼스와 Wikipedia에서 학습되었습니다. BERT는 질문에 답하고, 문장을 예측하고, 텍스트를 번역할 수 있습니다.2) GPTGenerative Pre-trained Transformer(GPT) 모델은 2018년 OpenAI에서 개발했습니다. 셒프 어텐션 메커니즘을 갖춘 12개 계층의 트랜스포머 디코더를 사용합니다. 그리고 11,000권 이상의 무료 소설을 담고 있는 BookCorpus 데이터 세트를 기반으로 훈련되었습니다. GPT-1가 지닌 주목할 만한 특징은 제로샷 학습을 할 수 있다는 것입니다.GPT-2는 2019년에 출시되었습니다. OpenAI는 15억 개의 파라미터를 사용하여 이 모델을 훈련시켰습니다(GPT-1에 사용된 파라미터인 1억 1,700만 개와 비교됨). GPT-3 네트워크에는 96개 계층의 신경망과 1,750억 개의 파라미터가 있으며, 5,000억 단어 분량의 Common Crawl 데이터세트를 사용하여 훈련됩니다. 인기 있는 ChatGPT <a style="color: #0972d3;" href="https://aws.amazon.com/what-is/chatbot/" target="_top" class="ke-link">챗봇</a>은 GPT-3.5를 기반으로 합니다. 그리고 최신 버전인 GPT-4 버전은 2022년 말에 출시되어 297점(76%)으로 통합 변호사 시험을 성공적으로 통과했습니다. 3) Amazon Nova<a style="color: #0972d3;" href="https://aws.amazon.com/ai/generative-ai/nova/" target="_top" class="ke-link">Amazon Nova</a>는 최고의 인텔리전스와 업계를 선도하는 가격 대비 성능을 갖춘 차세대 최첨단(SOTA) 파운데이션 모델(FM)입니다. <ul style="list-style-type: disc;" data-ke-list-type="disc"><li>Amazon Nova Micro, Amazon Nova Lite, Amazon Nova Pro는 텍스트, 이미지, 비디오 입력을 제공받아 텍스트 출력을 생성하는 인식 모델입니다. 이 모델들은 다양한 기능, 정확성, 속도, 비용 운영 포인트를 제공합니다. <a style="color: #0972d3;" href="https://aws.amazon.com/ai/generative-ai/nova/understanding/" target="_top" class="ke-link">Amazon Nova 이해 모델</a>에 대해 자세히 알아보세요.</li><li>Amazon Nova Canvas와 Amazon Nova Reel은 텍스트와 이미지 입력을 제공받아 이미지 또는 비디오 출력을 생성하는 크리에이티브 콘텐츠 생성 모델입니다. 시각적 콘텐츠 생성을 위해 사용자 지정 가능한 고품질 이미지 및 비디오를 제공하도록 설계되었습니다. <a style="color: #0972d3;" href="https://aws.amazon.com/ai/generative-ai/nova/creative/" target="_top" class="ke-link">Amazon Nova 크리에이티브 콘텐츠 생성 모델</a>에 대해 자세히 알아보세요.</li></ul>4) AI21 Jurassic2021년에 출시된 Jurassic-1은 1,780억 개의 파라미터를 포함하는 76개 계층의 자동 회귀 언어 모델입니다. Jurassic-1은 사람과 비슷한 텍스트를 생성하고 복잡한 작업을 해결합니다. 성능은 GPT-3과 비슷합니다.2023년 3월, <a style="color: #0972d3;" href="https://aws.amazon.com/bedrock/ai21/" target="_top" class="ke-link">AI21 Labs</a>는 Jurrassic-2를 출시했습니다. 이 Jurrassic-2는 명령 추종 및 언어 기능을 개선했습니다.5) ClaudeClaude 3.5 SonnetAnthropic의 가장 지능적이고 발전된 모델인 <a style="color: #0972d3;" href="https://aws.amazon.com/bedrock/claude/" target="_top" class="ke-link">Claude</a> 3.5 Sonnet은 다양한 작업 및 평가 범위에서 탁월한 능력을 보여주며 Claude 3 Opus보다 성능이 뛰어납니다.6) Claude 3 OpusOpus는 복잡한 작업에서 신뢰할 수 있는 성능을 제공하는 고도로 지능적인 모델입니다. 놀랍도록 유창하고 인간과 같은 이해력을 가진 이 모델은 개방형 프롬프트와 보이지 않는 시나리오를 탐색할 수 있습니다. Opus를 사용하여 작업을 자동화하고 다양한 사용 사례와 산업에서 연구 개발을 가속화하세요.7) Claude 3 HaikuHaiku는 Anthropic에서 가장 빠르고 컴팩트한 모델로 거의 즉각적인 반응성을 제공합니다. Haiku는 인간의 상호 작용을 모방하는 원활한 AI 경험을 구축하기 위한 최고의 선택입니다. 기업은 Haiku를 사용하여 콘텐츠를 조정하고, 재고 관리를 최적화하고, 빠르고 정확한 번역을 생성하고, 구조화되지 않은 데이터를 요약하는 등의 작업을 수행할 수 있습니다.8) Cohere<a style="color: #0972d3;" href="https://aws.amazon.com/bedrock/cohere-command-embed/" target="_top" class="ke-link">Cohere</a>에는 두 개의 LLM이 있습니다. 하나는 GPT-3 기능과 유사한 기능을 갖춘 세대 모델이고 다른 하나는 언어를 이해하기 위한 표현 모델입니다. Cohere의 파라미터는 520억 개에 불과하지만 여러 측면에서 GPT-3보다 성능이 뛰어납니다.9) Stable Diffusion<a style="color: #0972d3;" href="https://aws.amazon.com/bedrock/stable-diffusion/" target="_top" class="ke-link">Stable Diffusion</a>은 사실적인 고해상도 이미지를 생성할 수 있는 텍스트 투 이미지 모델입니다. 2022년에 출시되었으며 노이즈 생성 및 노이즈 제거 기술을 사용하여 이미지 생성 방법을 학습하는 확산 모델을 갖추고 있습니다.이 모델은 DALL-E 2와 같은 경쟁자의 확산 기술보다 작기 때문에 광범위한 컴퓨팅 인프라가 필요하지 않습니다. Stable Diffusion은 일반 그래픽 카드 또는 Snapdragon 2세대 플랫폼이 탑재된 스마트폰에서도 실행됩니다. 10) BLOOMBLOOM은 GPT-3 아키텍처와 유사한 다국어 모델입니다. 천 명 이상의 과학자와 Hugging Space 팀이 참여한 공동 노력으로 2022년에 개발되었습니다. 이 모델에는 1,760억 개의 파라미터가 있으며 384개의 Nvidia A100 GPU를 사용하여 훈련시키는 데 3개월 반이 걸렸습니다. BLOOM 체크포인트에는 330GB의 스토리지가 필요하지만 RAM이 16GB인 독립형 PC에서 실행됩니다. BLOOM은 46개 언어로 텍스트를 만들고 13개 프로그래밍 언어로 코드를 작성할 수 있습니다.11) Hugging FaceHugging Face는 기계 학습 모델을 구축하고 배포할 수 있는 오픈 소스 도구를 제공하는 플랫폼입니다. 커뮤니티 허브 역할을 하며 개발자는 모델과 데이터 세트를 공유하고 탐색할 수 있습니다. 개인 멤버십은 무료이지만 유료 구독은 더 높은 수준의 액세스를 제공합니다. 거의 200,000개의 모델과 30,000개의 데이터 세트에 공개적으로 액세스할 수 있습니다.  7. 파운데이션 모델의 도전 과제는 무엇인가요?파운데이션 모델은 명시적으로 훈련되지 않은 주제에 대한 프롬프트에 일관되게 응답할 수 있습니다. 하지만 여기에는 몇 가지 약점이 있습니다. 파운데이션 모델이 직면한 몇 가지 과제는 다음과 같습니다.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>인프라 요구 사항. 파운데이션 모델을 처음부터 구축하는 것은 비용이 많이 들고 막대한 자원이 필요하며 훈련에는 몇 달이 걸릴 수 있습니다.</li><li>프런트 엔드 개발자 실제 애플리케이션의 경우, 개발자는 신속한 엔지니어링, 미세 조정 및 파이프라인 엔지니어링을 위한 도구를 포함한 파운데이션 모델을 소프트웨어 스택에 통합해야 합니다.</li><li>이해력 부족. 파운데이션 모델은 문법적으로나 사실적으로 올바른 답을 제공할 수 있지만 프롬프트의 문맥을 이해하는 데 어려움을 겪습니다. 그리고 그들은 사회적으로나 심리적으로 인식하지 못합니다.</li><li>신뢰할 수 없는 답변. 특정 주제에 대한 질문에 대한 답변은 신뢰할 수 없으며 때로는 부적절하거나 유해하거나 틀릴 수 있습니다.</li><li>편견. 모델이 훈련 데이터 세트에서 증오심 표현과 부적절한 숨은 뜻을 찾아낼 수 있기 때문에 편견은 분명히 존재할 수 있습니다. 이를 방지하려면 개발자는 훈련 데이터를 신중하게 필터링하고 특정 규범을 모델에 인코딩해야 합니다.</li></ul>AWS가 파운데이션 모델의 요구 사항을 충족하는 방법<a style="color: #0972d3;" href="https://aws.amazon.com/bedrock/" target="_top" class="ke-link">Amazon Bedrock</a>은 파운데이션 모델을 사용하여 <a style="color: #0972d3;" href="https://aws.amazon.com/generative-ai/" target="_top" class="ke-link">생성형 AI</a> 애플리케이션을 구축하고 확장하는 가장 쉬운 방법입니다. Amazon Bedrock은 API를 통해 Amazon 및 주요 AI 스타트업의 파운데이션 모델을 사용할 수 있게 하는 완전관리형 서비스입니다. 다양한 FM 중에서 선택하여 사용 사례에 가장 적합한 모델을 찾을 수 있습니다. Bedrock을 사용하면 인프라를 관리하지 않고도 확장 가능하고 안정적이며 안전한 생성형 AI 애플리케이션의 개발 및 배포를 가속화할 수 있습니다.모델, 알고리즘 및 솔루션을 제공하는 ML 허브인 <a style="color: #0972d3;" href="https://aws.amazon.com/sagemaker/jumpstart/" target="_top" class="ke-link">Amazon SageMaker JumpStart</a>는 공개적으로 사용 가능한 최고 성능의 파운데이션 모델을 포함하여 수백 개의 파운데이션 모델에 대한 액세스를 제공합니다. <a style="color: #0972d3;" href="https://aws.amazon.com/blogs/machine-learning/llama-2-foundation-models-from-meta-are-now-available-in-amazon-sagemaker-jumpstart/" target="_top" class="ke-link">Llama 2</a>, <a style="color: #0972d3;" href="https://aws.amazon.com/blogs/machine-learning/technology-innovation-institute-trains-the-state-of-the-art-falcon-llm-40b-foundation-model-on-amazon-sagemaker/" target="_top" class="ke-link">Falcon</a>, <a style="color: #0972d3;" href="https://aws.amazon.com/blogs/machine-learning/use-stable-diffusion-xl-with-amazon-sagemaker-jumpstart-in-amazon-sagemaker-studio/" target="_top" class="ke-link">Stable Diffusion XL 1.0</a>을 포함한 새로운 파운데이션 모델이 계속 추가되고 있습니다. 파운데이션 모델은 레이블이 없는 방대한 데이터세트에서 훈련한 AI 신경망으로 텍스트 번역과 의료 이미징 등 광범위한 작업을 수행합니다4월 4, 2023 by <a style="color: #000000;" href="https://blogs.nvidia.co.kr/blog/author/nvidiakorea/" target="_top" class="ke-link">NVIDIA Korea</a><div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZT5x/bf21863b6a98532ecab6989552d20f0350be39ea" class="txc-image" width="1191" height="627" data-img-src="https://t1.daumcdn.net/cafeattach/1ZT5x/bf21863b6a98532ecab6989552d20f0350be39ea" data-origin-width="1191" data-origin-height="627"></div> Share<ul style="list-style-type: disc;" data-ke-list-type="disc"><li> </li><li> </li><li> </li><li> </li></ul>  1956년에 마일즈 데이비스 퀸텟(Miles Davis Quintet)은 프레스티지 레코드 사의 스튜디오에서 라이브 연주를 녹음하고 있었습니다.엔지니어가 다음 곡의 제목을 묻자 데이비스는 <a style="color: #000000;" href="https://www.youtube.com/watch?v=36wafFjFdYs" target="_blank" class="ke-link">“일단 연주를 해봐야 뭐가 될지 안다”고 쏘아붙였다고 하죠.</a>이 다작의 재즈 트럼펫 연주자 겸 작곡가가 그랬듯 오늘날의 연구자들도 엄청난 속도로 AI 모델들을 생성하며 새로운 아키텍처와 활용 사례를 탐구합니다. 자신은 새 분야의 개척에 집중하면서 범주화 작업은 다른 이들의 손에 맡기기도 하는데요.100명이 넘는 스탠퍼드 연구자로 구성된 팀이 이 작업을 맡아 2021년 여름에 214페이지 분량의 <a style="color: #000000;" href="https://arxiv.org/abs/2108.07258" target="_blank" class="ke-link">논문</a>을 발표했습니다.<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZT5x/ce87b75c47414e5ba0a3bc1dc3d7710575eed2ac" class="txc-image" width="672" height="459" data-img-src="https://t1.daumcdn.net/cafeattach/1ZT5x/ce87b75c47414e5ba0a3bc1dc3d7710575eed2ac" data-origin-width="672" data-origin-height="459"></div>2021년 논문에서 연구자들은 파운데이션 모델이 다양한 용도로 사용되고 있다고 보고했습니다.이 논문에서 연구자들은 <a style="color: #000000;" href="https://blogs.nvidia.co.kr/blog/what-is-a-transformer-model/" target="_top" class="ke-link">트랜스포머(transformer) 모델</a>과 <a style="color: #000000;" href="https://blogs.nvidia.co.kr/blog/what-are-large-language-models-used-for/" target="_top" class="ke-link">대규모 언어 모델(LLM)</a>, 구축이 계속되고 있는 기타 신경망들이 일명 파운데이션 모델(foundation model)이라는 새롭고 중요한 범주를 구성한다고 분석했습니다.파운데이션 모델의 정의 논문에 따르면 파운데이션 모델은 산더미 같은 원시 데이터에서 대개 <a style="color: #000000;" href="https://blogs.nvidia.com/blog/2018/08/02/supervised-unsupervised-learning/" target="_blank" class="ke-link">비지도 학습(unsupervised learning)</a>을 통해 훈련된 AI 신경망으로, 광범위한 작업에 응용이 가능합니다.연구자들은 “지난 몇 년 동안 발전을 거듭한 파운데이션 모델의 규모와 범위가 우리 상상력의 한계를 지속적으로 넓혀 왔다”고 평가했습니다.파운데이션 모델을 정의할 때는 다음의 두 가지 개념을 기억하면 좋습니다. 바로 ‘더 쉬운 데이터 수집’과 ‘지평선만큼 광활한 가능성’입니다.노 레이블링, 무한한 가능성파운데이션 모델은 일반적으로 레이블(label)이 없는 데이트세트로 학습하므로 대규모 컬렉션에서 각각의 항목을 수동으로 분류하는 데 드는 시간과 비용을 절약할 수 있습니다.초기의 신경망은 구체적인 작업에 맞춰 협소하게 조정되어 있습니다. 약간의 미세 조정을 통해 텍스트 번역에서 의료 이미지 분석에 이르는 다양한 작업을 처리할 수 있게 됩니다.파운데이션 모델 <a style="color: #000000;" href="https://crfm.stanford.edu/" target="_blank" class="ke-link">연구 센터</a>의 웹사이트에 게시한 글에서 연구팀은 파운데이션 모델이 “인상적인 양상”을 보이며 규모별로 배포되고 있다고 전했습니다. 센터의 연구자들이 공개한 파운데이션 모델 <a style="color: #000000;" href="https://crfm.stanford.edu/research.html" target="_blank" class="ke-link">관련 논문만 벌써 50개가 넘습니다</a>.센터의 책임을 맡고 있는 퍼시 리앙(Percy Liang)은 첫 파운데이션 <a style="color: #000000;" href="https://www.youtube.com/watch?v=dG628PEN1fY" target="_blank" class="ke-link">모델 워크숍</a>에서 “미래의 파운데이션 모델이 가진 가능성은 고사하고 기존의 파운데이션 모델이 가진 역량 중에서도 극히 일부만이 조명되고 있을 뿐”이라고 말했습니다.AI의 출현과 균질화이 워크숍에서 리앙 센터장은 두 개의 용어로 파운데이션 모델을 설명했습니다.‘출현(Emergence)’은 파운데이션 모델의 여러 초기 기능처럼 아직 규명이 한창인 AI 기능들을 뜻합니다. AI 알고리즘과 모델 아키텍처의 혼합은 ‘균질화(homogenization)’라 부르는데, 이는 파운데이션 모델의 형성에 도움이 된 하나의 트렌드이기도 합니다(아래 도식 참고).<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZT5x/0b509f9b22b407f3ad7e24e74581dea72b1b5bbb" class="txc-image" width="672" height="143" data-img-src="https://t1.daumcdn.net/cafeattach/1ZT5x/0b509f9b22b407f3ad7e24e74581dea72b1b5bbb" data-origin-width="672" data-origin-height="143"></div>파운데이션 모델 분야는 빠르게 움직이고 있습니다.스탠퍼드 팀이 파운데이션 모델을 정의하고 1년 뒤에 또다른 테크놀로지 전문가들이 생성형 AI(generative AI)라는 용어를 만들었습니다. <a style="color: #000000;" href="https://developer.nvidia.com/blog/category/generative-ai/" target="_blank" class="ke-link">생성형 AI</a>는 텍스트와 이미지, 음악, 소프트웨어로 사람들의 상상력을 캡처하는 트랜스포머 모델과 대규모 언어 모델 등의 신경망을 포괄적으로 일컫는 용어입니다.벤처 기업인 세쿼이아 캐피탈(Sequoia Capital)의 경영진은 최근<a style="color: #000000;" href="https://soundcloud.com/theaipodcast/sequoia-capitals-pat-grady-and-sonya-huang-on-generative-ai-ep-187" target="_blank" class="ke-link"> AI 팟캐스트(AI Podcast)</a>에 출연해 생성형 AI가 수조 달러 규모의 경제적 가치를 창출할 잠재력을 가졌다고 설명했습니다.파운데이션 모델의 간략한 역사구글 브레인의 수석 연구원으로 2017년 트랜스포머 <a style="color: #000000;" href="https://arxiv.org/abs/1706.03762" target="_blank" class="ke-link">논문</a>의 연구를 이끈 아시시 바스와니(Ashish Vaswani)는 지금 우리가 “신경망과 같은 간단한 기법이 새로운 가능성의 폭발로 이어지는 시대에 살고 있다”고 말합니다.바스와니 팀의 연구는 BERT 등의 <a style="color: #000000;" href="https://blogs.nvidia.co.kr/blog/llms-ai-horizon/" target="_top" class="ke-link">대규모 언어 모델</a>에 영감을 주었고, <a style="color: #000000;" href="https://www.analyticsvidhya.com/blog/2018/12/key-breakthroughs-ai-ml-2018-trends-2019/" target="_blank" class="ke-link">AI 관련 논문</a>의 표현을 빌리자면 ‘2018년을 자연어 처리의 분수령으로’ 만들었습니다.구글이 BERT를 <a style="color: #000000;" href="https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html" target="_blank" class="ke-link">오픈 소스 소프트웨어</a>로 출시했고, 이는 후속 제품군의 탄생으로 이어졌으며, 더 크고 강력한 언어 모델을 구축하기 위한 경쟁이 시작됐습니다. 다음으로 구글은 BERT 테크놀로지를 검색 엔진에 적용해 사용자가 간단한 문장의 형태로 질문할 수 있게 했죠.2020년에 오픈AI(OpenAI)의 연구진은 또 하나의 기념비적인 트랜스포머 모델인<a style="color: #000000;" href="https://arxiv.org/abs/2005.14165" target="_blank" class="ke-link"> GPT-3</a>를 발표했습니다. 이 모델은 곧장 시와 프로그램, 노래와 웹사이트 등의 구축에 활용되기 시작했습니다.해당 연구진은 논문에서 “언어 모델은 다양하고 유익한 애플리케이션으로 사회에 기여한다”고 평가했습니다.오픈AI의 연구는 또한 트랜스포머 모델들이 얼마나 크고 연산 집약적일 수 있는지 보여줬습니다. GPT-3는 1조 개에 가까운 단어를 포함한 데이터세트로 훈련되었고, 신경망의 성능과 복잡성을 측정하는 핵심 척도인 파라미터의 수가 무려 1,750개에 달합니다.<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZT5x/86784989e242d2d3083558835b725b58e8541b50" class="txc-image" width="672" height="385" data-img-src="https://t1.daumcdn.net/cafeattach/1ZT5x/86784989e242d2d3083558835b725b58e8541b50" data-origin-width="672" data-origin-height="385"></div>파운데이션 모델에 요구되는 연산력의 증가. (출처: <a style="color: #000000;" href="https://arxiv.org/abs/2005.14165" target="_blank" class="ke-link">GPT-3 논문</a>)퍼시 리앙은 관련 <a style="color: #000000;" href="https://web.stanford.edu/class/cs224u/podcast/liang/" target="_blank" class="ke-link">팟캐스트</a>에서 GPT-3를 두고 “이 모델이 할 수 있는 것들을 알고 굉장히 놀랐던 기억이 있다”고 말하기도 했습니다.가장 최근의 ChatGPT는 NVIDIA GPU 1만 개로 훈련했으며, 두 달만에 1억 명 이상의 사용자를 확보하는 저력을 보여줬습니다. 이 모델의 출시는 관련 테크놀로지의 활용법을 많은 이들에게 선보였다는 점에서 ‘아이폰 모멘트(iPhone moment)’라고도 불립니다.<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZT5x/42619101c9279bfd521e19632e3f74ccb65a1dfb" class="txc-image" width="504" height="500" data-img-src="https://t1.daumcdn.net/cafeattach/1ZT5x/42619101c9279bfd521e19632e3f74ccb65a1dfb" data-origin-width="504" data-origin-height="500"></div>초기 AI 연구가 ChatGPT로 이어지는 경로를 그린 타임라인. (출처: blog.bytebytego.com)텍스트에서 이미지로ChatGPT가 데뷔하던 즈음, 또다른 차원의 신경망인 확산 모델(diffusion model)이 큰 인기를 끌었습니다. 텍스트로 된 설명을 예술적인 이미지로 바꾸는 확산 모델은 놀라운 이미지들로 소셜 미디어에서 입소문을 타면서 일반 사용자와도 친숙해졌습니다.확산 모델을 다룬 최초의 <a style="color: #000000;" href="https://arxiv.org/pdf/1503.03585.pdf" target="_blank" class="ke-link">논문</a>은 2015년에 조용히 발표됐습니다. 하지만 트랜스포머 모델들이 그랬듯 이 기법도 이내 열광적인 관심에 휩싸였죠.옥스퍼드 대학에서 AI를 연구하는 제임스 손턴(James Thornton)에 따르면 작년 한 해에만 <a style="color: #000000;" href="https://scorebasedgenerativemodeling.github.io/" target="_blank" class="ke-link">200개가 넘는 확산 모델 관련 연구</a>가 발표됐습니다.미드저니(Midjourney)의 데이비드 홀즈(David Holz) CEO는 <a style="color: #000000;" href="https://scorebasedgenerativemodeling.github.io/" target="_blank" class="ke-link">트위터</a>에 게시한 글에서 자사의 확산 모델 기반 텍스트 이미지 변환 서비스가 440만 명 이상의 사용자를 보유하고 있다고 밝혔습니다. 그는 한 <a style="color: #000000;" href="https://stratechery.com/2022/an-interview-with-midjourney-founder-david-holz-about-generative-ai-vr-and-silicon-valley/" target="_blank" class="ke-link">인터뷰</a>(로그인 필요)에서 이 서비스의 AI 추론에 1만 개 이상의 NVIDIA GPU가 활용된다고 말한 바 있습니다.활발한 사용지금 사용이 가능한 파운데이션 모델은 수백 개에 달합니다. 한 <a style="color: #000000;" href="https://arxiv.org/pdf/2302.07730.pdf" target="_blank" class="ke-link">논문</a>에서 목록화하고 분류한 주요 트랜스포머 모델은 50개가 넘습니다(아래 표 참고).스탠퍼드 연구팀은 30개의 파운데이션 모델을 벤치마킹하면서 관련 분야의 진화가 너무 빨라 새롭고 눈에 띄는 일부 모델은 검토하지 않겠다고 밝히기도 했습니다.최첨단 스타트업을 육성하는 <a style="color: #000000;" href="https://www.nvidia.com/ko-kr/startups/" target="_blank" class="ke-link">NVIDIA Inception</a> 프로그램의 회원인<a style="color: #000000;" href="https://blogs.nvidia.co.kr/blog/ai-large-language-models-triton/" target="_top" class="ke-link"> NLP 클라우드(NLP Cloud)</a>는 항공사와 약국 등에 제공하는 상용 서비스에 25개의 언어 모델을 사용하고 있습니다. 전문가들은 더 많은 수의 파운데이션 모델들이 허깅 페이스(Hugging Face)의 <a style="color: #000000;" href="https://huggingface.co/docs/hub/models-the-hub" target="_blank" class="ke-link">모델 허브</a> 같은 사이트에서 오픈 소스로 만들어질 것이라 내다보고 있습니다.<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZT5x/e6e75527c79b3d290e1bd191e4338bdffdcecedd" class="txc-image" width="672" height="385" data-img-src="https://t1.daumcdn.net/cafeattach/1ZT5x/e6e75527c79b3d290e1bd191e4338bdffdcecedd" data-origin-width="672" data-origin-height="385"></div>전문가들은 파운데이션 모델을 오픈 소스로 출시하는 경향의 증가에 주목합니다.파운데이션 모델들 또한 규모와 복잡성이 증가하고 있습니다.이를 극복하고자 많은 기업들은 새로운 모델을 아예 처음부터 구축하기보다 커스터마이징을 마친 사전 훈련 파운데이션 모델을 도입해 AI로의 여정을 가속하고 있습니다.클라우드의 파운데이션 모델한 벤처 캐피털 회사가 광고 생성과 시맨틱 검색 등의 부문에서 정리한 생성형 AI <a style="color: #000000;" href="https://www.scalevp.com/blog/generative-ai-index-use-case-glossary" target="_blank" class="ke-link">활용 사례는 33개</a>에 달합니다.주요 클라우드 서비스들도 파운데이션 모델을 사용해 왔습니다. 마이크로소프트 애저(Microsoft Azure)의 경우, NVIDIA와 협업을 통해 <a style="color: #000000;" href="https://translator.microsoft.com/" target="_blank" class="ke-link">번역 서비스</a>용 트랜스포머 모델을 구축했습니다. 이는 <a style="color: #000000;" href="https://blogs.nvidia.co.kr/blog/microsoft-translator-triton-inference/" target="_top" class="ke-link">재난구조팀</a>이 7.0 규모의 지진에 대처하며 아이티프랑스어를 이해하는 데 도움을 줬죠.2월에 마이크로소프트는 챗GPT(ChatGPT)와 관련 테크놀로지로 브라우저와 검색 엔진의 성능을 향상한다는 <a style="color: #000000;" href="https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/" target="_blank" class="ke-link">계획을 발표</a>하면서 “우리는 이 툴들을 웹의 AI 부조종사로 생각합니다”고 덧붙였습니다.구글은 실험적 대화형 AI 서비스인<a style="color: #000000;" href="https://blog.google/technology/ai/bard-google-ai-search-updates/" target="_blank" class="ke-link"> 바드(Bard)</a>를 발표했습니다. 구글의 여러 제품들을 LaMDA와 PaLM, Imagen, MusicLM 등의 파운데이션 모델과 연결할 계획입니다.이와 관련해 구글은 자사 블로그에 “AI는 오늘날 우리가 연구하는 가장 심오한 테크놀로지”라고 썼습니다.대표 스타트업들재스퍼(Jasper)는 VM웨어(VMware) 같은 기업의 카피를 쓰는 제품으로 연간 7,500만 달러의 매출을 기대합니다. 재스퍼를 선두로 한 텍스트 생성 부문에서는 NVIDIA Inception 회원인 라이터(Writer) 등 12개가 넘는 기업들이 경쟁하고 있습니다.이 분야의 Inception 회원인 도쿄 <a style="color: #000000;" href="https://rinna.id/" target="_blank" class="ke-link">린나(rinna)</a>가 만든 챗봇은 수백 만의 일본인이 사용합니다. 텔아비브의 <a style="color: #000000;" href="https://www.tabnine.com/" target="_blank" class="ke-link">탭나인(Tabnine)</a>은 전세계 개발자 백만 명을 대상으로 이들이 쓰는 코드를 최대 30%까지 자동화하는 생성형 AI 서비스를 제공합니다.헬스케어 플랫폼스타트업 에보자인(Evozyne)의 연구자들은<a style="color: #000000;" href="https://www.nvidia.com/ko-kr/gpu-cloud/bionemo/" target="_blank" class="ke-link"> NVIDIA BioNeMo</a>의 파운데이션 모델을 사용해 <a style="color: #000000;" href="https://blogs.nvidia.co.kr/blog/generative-ai-proteins-evozyne/" target="_top" class="ke-link">단백질 2종을 새로 생성</a>했습니다. 하나는 희귀병을 치료하고, 다른 하나는 대기 중의 탄소 포집에 활용됩니다.<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZT5x/b53fa6646f40fc0bb075b0a3abb24279966d55a3" class="txc-image" width="672" height="200" data-img-src="https://t1.daumcdn.net/cafeattach/1ZT5x/b53fa6646f40fc0bb075b0a3abb24279966d55a3" data-origin-width="672" data-origin-height="200"></div>에보자인과 NVIDIA는 공동 논문에서 단백질 생성을 위한 하이브리드 파운데이션 모델을 소개했습니다.신약 개발용 생성형 AI를 위한 소프트웨어 플랫폼 겸 클라우드 서비스인 BioNeMo는 맞춤형 생체 분자 AI 모델의 추론과 배포를 실행할 툴을 제공합니다. 여기에는 NVIDIA와 아스트라제네카(AstraZeneca)가 개발한 화학용 생성형 AI 모델인 <a style="color: #000000;" href="https://blogs.nvidia.com/blog/2021/04/12/ai-drug-discovery-astrazeneca-university-florida-health/" target="_blank" class="ke-link">MegaMolBART</a>가 포함돼 있습니다.아스트라제네카의 분자 AI와 개발 과학, R&D 부문의 책임자 올라 엥크비스트(Ola Engkvist)는 이 <a style="color: #000000;" href="https://blogs.nvidia.com/blog/2021/04/12/ai-drug-discovery-astrazeneca-university-florida-health/" target="_blank" class="ke-link">프로젝트를 발표</a>하면서 “AI 언어 모델이 문장 내 단어들의 관계를 학습하듯, 분자 구조 데이터로 훈련한 신경망이 실제 분자 속 원자들의 관계를 학습하는 게 목표”라고 말했습니다.플로리다 대학교의 학술 보건 센터는 NVIDIA의 연구자들과 협업해 <a style="color: #000000;" href="https://ufhealth.org/news/2021/university-florida-health-nvidia-develop-artificial-intelligence-model-hasten-clinical" target="_blank" class="ke-link">GatorTron</a>을 만들었습니다. 이 대규모 언어 모델은 방대한 양의 임상 데이터에서 도출하는 인사이트로 의학 연구를 가속할 계획입니다.스탠퍼드 소속의 한 센터에서는 최신 <a style="color: #000000;" href="https://hai.stanford.edu/news/could-stable-diffusion-solve-gap-medical-imaging-data" target="_blank" class="ke-link">확산 모델</a>을 고급 의료 이미징에 적용합니다. NVIDIA는 또한 헬스케어 기업과 병원들이 <a style="color: #000000;" href="http://ww.nvidia.com/ko-kr/omniverse/apps/create/" target="_blank" class="ke-link">의료 이미징에 AI를 활용</a>해 치명적인 질병의 진단을 가속하도록 지원합니다.비즈니스 AI의 토대또 하나의 새로운 프레임워크인 NVIDIA<a style="color: #000000;" href="https://developer.nvidia.com/nvidia-nemo" target="_blank" class="ke-link"> NeMo Megatron</a>은 어느 기업이든 수십억 혹은 수조 개의 파라미터를 가진 트랜스포머 모델을 구축해 맞춤형 챗봇과 개인 어시스턴트 등의 다양한 애플리케이션을 개발할 수 있게 돕습니다.NVIDIA NeMo Megatron은 5,300억 개의 파라미터를 가진 <a style="color: #000000;" href="https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/" target="_blank" class="ke-link">MT-NLG(Megatron-Turing Natural Language Generation)</a> 모델을 생성해 작년 NVIDIA GTC의 <a style="color: #000000;" href="https://www.youtube.com/watch?v=39ubNuxnrK8&t=3600s" target="_blank" class="ke-link">키노트</a>에 등장했던 Toy Jensen 아바타를 구동했습니다.<a style="color: #000000;" href="https://www.nvidia.com/ko-kr/omniverse/" target="_blank" class="ke-link">NVIDIA Omniverse </a>같은 3D 플랫폼과 연동된 파운데이션 모델은 인터넷의 3D 진화라 할 <a style="color: #000000;" href="https://blogs.nvidia.com/blog/2021/08/10/what-is-the-metaverse/" target="_blank" class="ke-link">메타버스</a>의 개발 간소화에 핵심적 역할을 수행할 전망입니다. 이 모델들은 엔터테인먼트와 산업 부문 사용자들의 애플리케이션과 에셋에도 힘을 실어줄 것으로 기대를 모습니다.여러 공장과 창고에서는 사실적 시뮬레이션을 통해 보다 효율적인 작업 방식을 찾도록 도와주는 디지털 트윈에 파운데이션 모델을 적용하고 있습니다.파운데이션 모델은 공장과 물류 센터에서 인간을 보조하는 로봇과 자율주행 자동차의 훈련을 보다 쉽게 만들어줍니다. 또한 아래 영상과 같이 사실적인 환경을 생성해 자율주행 차량의 훈련을 지원하기도 합니다.파운데이션 모델의 활용법들이 매일같이 새롭게 개발되면서 여러 과제들 또한 등장하고 있습니다.파운데이션 모델과 생성형 AI 모델을 다룬 연구들은 다음과 같은 문제를 지적합니다.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>모델 훈련에 사용되는 방대한 데이터세트에 내재된 편향성(bias) 증폭</li><li>이미지 또는 영상에 부정확하고 오해의 소지가 있는 정보를 포함시키는 현상</li><li>기존 작업물의 지적 재산권 침해</li></ul>파운데이션 모델을 다룬 스탠퍼드 논문에서는 “이 모델들이 미래 AI 시스템의 주축이 될 가능성이 높은 상황에서 관련 공동체가 합심해 보다 엄격한 원칙들을 준비하는 한편, 책임 있는 개발과 배포를 위한 지침을 마련해야 한다”고 강조했습니다.현재 구상 중인 안전 보장 조치에는 프롬프트와 아웃풋 필터링, 모델의 즉각적인 재조정(recalibrating), 대규모 데이터세트의 정제(scrubbing) 등이 있습니다.NVIDIA의 응용 딥 러닝 리서치 부문 부사장 브라이언 카탄자로(Bryan Catanzaro)는 “연구 공동체도 현재 이러한 문제들을 고민하고 있습니다. 파운데이션 모델들을 진정으로 폭넓게 배포하려면 안전성에 어마어마한 투자를 해야 합니다”고 말합니다.이처럼 새로운 또 하나의 분야를 개척하며 AI 연구자와 개발자들은 미래를 만들어갑니다.