|
2024년 7월 8일| 기사
공유하다
다운로드
Gen AI의 등장으로 데이터 및 AI 리더들은 데이터 플랫폼을 다시 살펴보게 되었습니다. 지금 움직이는 기업은 데이터 중심의 미래에 잘 대비할 수 있습니다.
다운로드
데이터 및 AI 리더들은 1년 이상 생성 AI(gen AI) 사용 사례에 열렬히 노력해 왔습니다. 그들의 경험은 gen AI에 걸려 있는 상당한 가치에 대한 희망적인 일면을 제공했지만 확장에 이르는 데 있어 다양한 과제도 노출했습니다. 데이터 관리가 gen AI의 가치 창출에 대한 주요 장벽 중 하나로 남아 있습니다. 사실, 최근 McKinsey 설문 조사 에서 상위 성과자의 70% 가 데이터 품질 문제, 데이터 거버넌스 프로세스 정의, 충분한 교육 데이터 확보 등 AI 모델에 데이터를 통합하는 데 어려움을 겪었다고 답했습니다.1
사이드바
저자에 대하여
저희의 경험에 따르면, 조직은 Gen AI 사례를 대규모로 지원하기 위해 데이터 역량을 발전시키는 방법과 Gen AI를 사용하여 데이터 관행을 개선하는 방법에 대한 아직 성숙하지 않은 이해로 인해 제약을 받아왔습니다. 이 글에서는 데이터 및 AI 리더가 Gen AI 파일럿에서 확장형 데이터 솔루션으로 전환하는 데 도움이 되는 세 가지 조치를 다룹니다. 첫 번째는 조직이 Gen AI 사용 사례에 대한 데이터의 품질과 준비성을 강화하는 방법에 초점을 맞춥니다. 두 번째는 조직이 Gen AI를 사용하여 현대화된 데이터 플랫폼으로 더 나은 데이터 제품을 구축하는 방법을 살펴봅니다. 세 번째는 재사용을 가능하게 하고 데이터 솔루션 개발을 가속화하는 주요 데이터 관리 고려 사항을 살펴봅니다.
소스에서 시작합니다: 데이터 개선
데이터 품질은 오랫동안 데이터 및 AI 리더에게 중요한 관심사였지만, Gen AI 모델에 열악한 데이터를 공급하는 데 따르는 위험과 비용은 과장할 수 없으며, 열악한 결과, 비용이 많이 드는 수정, 사이버 침해에서 출력에 대한 사용자의 신뢰 상실에 이르기까지 다양합니다. 실제로 위에 인용된 2024년 McKinsey 설문 조사에 따르면 응답자의 63%(2023년 설문 조사보다 7% 포인트 더 높음)가 조직의 Gen AI 사용에서 가장 큰 위험으로 출력 부정확성을 꼽았습니다.2
데이터 품질을 보장하는 기존 방법으로는 충분하지 않습니다. 리더는 소스 데이터를 개선하고 확장하기 위해 다음과 같은 방법을 고려해야 합니다.
복잡한 데이터 유형에서 더 나은 정확한 소스 데이터 얻기
공유하다
사이드바
McKinsey의 AI인 QuantumBlack에 대하여
조직은 구조화되지 않은 데이터 세트의 복잡성 증가를 처리하는 데 어려움을 겪고 있습니다. 예를 들어, 은행은 거래 내역과 같은 구조화된 재무 정보와 재무 제표 및 시장 분석을 모두 살펴보고 기업 고객의 신용도를 판단하고자 할 수 있습니다. 그러나 구조화된 데이터와 구조화되지 않은 데이터를 조합하여 처리하면 종종 오류 가능성이 높아지는데, 내부 팀과 주제 전문가가 관련 지식을 보유하고 있지만 일반적으로 데이터 파이프라인 프로세스를 쉽게 복제할 수 있도록 해당 지식을 체계화하는 데 어려움을 겪기 때문입니다.
다양한 유형과 데이터 소스 간의 관계를 처리하기 위한 도구가 발전했습니다. 예를 들어, 지식 그래프는 엔터티 간의 복잡한 관계를 포착하여 대규모 언어 모델(LLM)과 다운스트림 데이터 세트에 대한 의미 있는 컨텍스트를 제공하는 데 도움이 될 수 있습니다. 이러한 종류의 기능을 사용하면 비정형 데이터에서 정형 데이터로 데이터 포인트를 정확하게 매핑하는 것이 더 쉬워집니다.
데이터 엔지니어가 데이터 세트 간의 관계를 이해하더라도, 데이터 형식(예: PDF, PowerPoint, Word 또는 이미지 파일)과 같은 속성에 따라 해당 데이터를 해석하기 위해 다른 방법을 할당해야 합니다. 이는 회사가 점점 더 복잡해지는 시스템에 형식을 통합함에 따라 어려운 문제입니다. 멀티모달 모델은 이제 구조화되지 않은 문서에서 표 형식의 데이터를 추출하는 것과 같이 서로 다른 데이터 형식을 특징으로 하는 더 복잡한 유형의 문서를 구문 분석할 만큼 정교해졌습니다.
이러한 모델은 사용하기 쉬워지고 있지만 여전히 실수를 할 수 있으며(어떤 경우에는 비용이 많이 듭니다). 정확도 문제는 지속적인 검토가 필요하며, 이는 여전히 종종 수동입니다. 예를 들어 일부 데이터 엔지니어는 통합 개발 환경의 두 화면을 확인하여 출력 간의 차이를 관찰하는 데 많은 시간을 보냅니다. 동시 사용 사례가 증가함에 따라 이러한 수동 접근 방식은 빠르게 한계에 도달합니다. 데이터 리더는 자동화된 평가 방법, 버전 관리 메커니즘, 데이터 관련성 점수 부여를 구현하여 멀티모달 모델 출력 정확도와 일관성을 향상시키는 데 리소스를 집중해야 합니다.
투자 회사는 가상 비서를 구현하기 위해 데이터 액세스와 사용을 개선해야 한다는 것을 알고 있었습니다. 구조화되고 구조화되지 않은 데이터 소스의 제품 정보를 사용하기 위해 구조화되지 않은 데이터를 구문 분석하고 처리하기 위한 데이터 파이프라인을 구축하고, 각 문서의 가장 최신 버전을 식별하고, 모바일 사용자를 위해 기사 길이를 조정해야 했습니다. 이 회사의 데이터 엔지니어는 멀티모달 모델 기능을 사용하여 문서의 표 형식 데이터를 구조화된 데이터로 구문 분석하고 메달리온 아키텍처(모듈식 파이프라인 개발을 지원하는 데이터를 구성하는 인기 있는 디자인 패턴)를 구축했습니다. 또한 버전 관리 및 관련성 점수를 도입하여 출력 정확도를 개선했습니다. 그 결과, 이 회사는 2주 이내에 프로덕션 등급의 Gen AI 환경에서 실사 활동과 같은 사용 사례에 대한 작업을 신속하게 시작할 수 있었습니다.
과대광고를 넘어선 가치 창출
전략부터 규모까지 기술을 통한 약속을 실천해 보겠습니다.
사용할 수 없는 경우 데이터를 생성하세요
일부 Gen AI 사용 사례는 필요한 데이터를 얻고 처리하기 어렵기 때문에 추진하기 어렵습니다. 이는 종종 의료, 생명 과학 또는 엄격한 데이터 보안 규정이 있는 다른 분야에서 문제가 됩니다. 이러한 과제를 극복하기 위해 어떤 경우에는 데이터 엔지니어가 사용 사례의 효능을 테스트하기 위해 수동으로 파일을 생성할 수 있습니다. 하지만 이 프로세스는 시간이 많이 걸리고 비효율적일 수 있습니다.
대신 데이터 및 AI 리더들은 합성 데이터를 테스트 데이터로 생성하거나 테이블의 열 설명과 컨텍스트에 완전히 기반하여 새 값을 생성하기 위해 Gen AI 도구에 투자하고 있으며, 이를 통해 새 데이터 세트를 만들거나 기존 데이터 세트를 수정할 수 있습니다. 일부 회사는 이미 합성 데이터 생성기를 사용하여 통계적으로 유사한 데이터 세트를 만들었습니다.
Gen AI를 사용하여 재사용 가능한 데이터 제품 구축을 가속화합니다.
개별 고객에 대한 360도 관점을 포함한 데이터 제품은 기업이 데이터를 사용하여 규모에 맞춰 비즈니스 가치를 창출하는 방법의 초석입니다.삼하지만 이러한 데이터 제품은 개발하기 어렵고 시간이 많이 걸릴 수 있습니다. 그러나 더 나은 데이터와 차세대 AI 도구를 사용하면 회사에서 개발을 가속화하고 출력을 개선할 수 있다는 것을 알게 되었습니다. 예를 들어, 한 호텔 회사는 피처 엔지니어링에서 생산성을 50% 높이는 동시에 고객 도메인 데이터 모델 생성을 최대 60%까지 앞당겼습니다. PySpark에서 엔드투엔드 데이터 변환 파이프라인을 자동으로 생성하는 데 집중하고 발생한 모든 복잡한 변환에 대한 강력한 문서화에 집중함으로써 이러한 목표를 달성할 수 있었습니다.
데이터 제품의 종단간 생성으로 전환
최근까지 사용 가능한 기술은 데이터 파이프라인(예: 메달리온 아키텍처) 생성을 힘든 단계별 접근 방식으로 제한했습니다. Gen AI를 사용하여 자연어에서 개별 테이블을 생성하는 것과 같은 작업을 수행하면 데이터 엔지니어의 효율성이 높아질 수 있지만, 엔지니어는 여전히 모든 테이블을 결합하는 것과 같은 일련의 다른 상류 및 하류 단계를 완료해야 합니다.
대신 데이터 및 AI 분야 리더들은 모든 단계를 자동화하여 데이터 파이프라인을 구축하는 엔드 투 엔드 방식을 취하고 있으며, 어떤 경우에는 80~90%의 시간 절감과 특정 사용 사례에 대한 향상된 확장성을 달성하고 있습니다.
데이터 제품을 생성하기 위한 데이터 파이프라인 코드를 작성하는 것은 전통적으로 데이터 엔지니어에게 가장 시간이 많이 걸리는 작업 중 하나였습니다. 이제 SQL이나 Python과 같은 언어로 작성된 데이터 파이프라인을 자동으로 생성하여 여러 사용 사례를 한 번에 해결할 수 있는 전체 모델을 만드는 것을 보고 있습니다. 자연어 프롬프트에서 개별 테이블을 생성하는 것과 같은 적당한 작업 범위를 살펴보는 대신, 여러 사용 사례에 대한 솔루션을 제공할 수 있는 응집력 있는 대상 데이터 모델로 수십 개의 테이블을 생성하는 기능이 있습니다.
그러나 조직이 이러한 유형의 기능을 생성하기 시작하기 전에 신뢰할 수 있고 이해하기 쉽고 사용 가능한 데이터가 있는지 확인해야 합니다. 수년간 데이터 에스테이트를 구축해 온 회사의 경우 이 프로세스의 중요한 요소는 레거시 코드 베이스와 기존 데이터를 이해하는 것입니다. 그러나 많은 회사가 데이터 계보 또는 카탈로그화가 부족하여 데이터가 생성되는 방식에 대한 이해가 제한되어 어려움을 겪습니다. 이에 따라 일부 회사는 여러 LLM에서 다양한 에이전트(gen AI 애플리케이션)를 사용하여 레거시 코드 베이스를 분석하고 자연어 텍스트 설명을 생성합니다. 이 접근 방식은 조직의 코드 베이스에 대한 이해를 향상시킬 뿐만 아니라 데이터 카탈로그 기능 생성을 용이하게 하여 중복된 코드 세그먼트를 식별하고 제거하는 과정을 간소화합니다.
2024년 초 AI의 현황: Gen AI 도입이 급증하고 가치 창출 시작
더 나은 오케스트레이션과 데이터 관리를 통해 일관성을 강화하세요
Gen AI 애플리케이션을 개발하려면 특정 기능을 쉽게 재사용할 수 있는 수준의 오케스트레이션과 모듈화가 필요합니다. 기존의 지속적인 통합/지속적인 배포(CI/CD) 방법은 Gen AI 특정 활동(예: 신속한 엔지니어링)이 도입되어 Gen AI 프로그램 간에 필요한 일관성을 유지할 수 없기 때문에 종종 작업에 적합하지 않습니다.
이에 대응하여 일부 데이터 및 AI 리더는 여러 세대 AI 에이전트 간의 협업과 조정을 용이하게 하는 구조인 에이전트 기반 프레임워크를 사용하고 있습니다. 이러한 프레임워크는 세대 AI 에이전트와 그 사용(및 재사용)을 확장하는 데 관련된 복잡성을 조율합니다. 에이전트 기반 프레임워크는 추론, 코드 실행, 도구 사용 및 계획 능력과 향상된 워크플로 관리를 갖추고 있습니다. 이는 프로세스 관리 과제, 교차 검증 오류 및 엔드투엔드 워크플로 설계 제약과 같은 LLM과 관련된 제한 사항을 해결하는 데 도움이 될 수 있습니다. 이러한 에이전트를 세대 AI 아키텍처에 통합함으로써 조직은 복잡한 작업을 보다 잘 관리하고 전반적인 성능, 안정성, 가치 및 사용자 만족도를 개선할 수 있습니다. 일부 회사는 소비자 대상 챗봇 또는 엔터프라이즈 지식 검색 시스템에 에이전트 기반 프레임워크를 채택하고 있습니다.
데이터 제품을 더 잘 관리하기 위해 많은 회사가 다양한 도구를 사용하고 있습니다. 일부는 기성형 도구를 사용하지만, 이러한 도구는 구조화되지 않은 데이터에서 자동으로 통찰력을 생성하는 것과 같이 복잡한 시나리오에 문제가 있는 경우가 많습니다. Gen AI 증강 데이터 카탈로그를 사용하는 조직은 구조화되고 구조화되지 않은 콘텐츠에서 자동으로 메타데이터를 생성하고 스마트 태그를 만드는 것을 포함하여 실시간 메타데이터 태그를 용이하게 할 수 있습니다. 이를 통해 데이터 검색을 개선하고 Gen AI 모델에 적합한 구조화되고 구조화되지 않은 데이터를 선택하는 데 도움이 됩니다.
데이터 제품 마이그레이션 및 현대화
코드 변환과 같은 gen AI 기능을 사용하여 데이터 제품과 그 기반 파이프라인을 한 플랫폼에서 다른 플랫폼으로 마이그레이션하는 프로세스를 시작하기 전에 회사는 먼저 해당 작업에 적합한 LLM을 결정해야 합니다. 많은 조직이 클라우드 서비스 제공업체가 제공하는 LLM을 사용하지만, 특정 LLM은 다른 LLM보다 특정 코딩 언어 세트에 대해 더 능숙하게 교육받을 수 있습니다. 예를 들어, 한 LLM은 파이프라인을 위한 PySpark 코드를 작성하는 데 더 적합한 반면, 다른 LLM은 Terraform에서 인프라를 코드로 개발하는 데 더 효율적일 수 있습니다. 조직은 이러한 LLM을 사용하여 PySpark 또는 SQL을 사용하는 플랫폼으로의 원활한 마이그레이션을 촉진할 수 있지만, 어떤 경우에는 코딩 언어나 프레임워크에 따라 모델을 미세 조정해야 할 수도 있습니다.
주어진 코딩 언어에 어떤 LLM을 사용할지 이해하고 언어 간에 코드 변환을 자동화하는 방법을 이해함으로써 기업은 이미 클라우드에 있는 메인프레임과 레거시 관리 서비스에서 보다 현대적인 클라우드 리소스로 파이프라인을 더 잘 마이그레이션할 수 있습니다. 그러나 적절한 LLM을 식별하려면 추가 테스트 시간이 필요할 수 있으며, 데이터 및 AI 리더는 프로젝트 로드맵에서 이를 고려해야 합니다.
보안 및 코딩 표준을 통한 확장형 AI
데이터 및 AI 리더는 구조화되지 않은 데이터의 급속한 확장을 관리하고 통제하는 데 큰 과제에 직면합니다. Gen AI 모델과 애플리케이션의 확산은 위험을 초래할 뿐만 아니라 팀이 종종 서로 다르고 때로는 상충되는 도구와 접근 방식을 사용하게 되어 확장을 방해합니다.
개발 프로세스의 모든 단계에서 데이터를 보호하고 코딩 모범 사례의 통합을 자동화함으로써 기업은 위험을 완화하는 동시에 Gen AI 솔루션을 확장하기 위한 표준을 시행할 수 있습니다.
각 단계에서 데이터를 보호하세요
PDF, 비디오, 오디오 파일과 같은 비정형 데이터는 Gen AI 모델에 대한 풍부한 정보를 보유하고 있지만, 심각한 보안 문제를 일으키고 강력한 데이터 보호 제어가 필요합니다. 그러나 기존의 액세스 제어로는 충분하지 않을 수 있습니다. 예를 들어, 비정형 데이터는 Gen AI 애플리케이션이 컨텍스트를 이해하고 데이터에 대한 액세스 권한을 결정하는 데 도움이 되는 메타데이터를 생성하기 위해 분석할 수 있는 형식으로 변환해야 합니다.
보안 위험을 완화하기 위해 일부 데이터 및 AI 리더는 데이터를 자동으로 보호할 수 있는 모듈화된 파이프라인을 설계하고 있습니다. 예를 들어, PDF에서 여러 페이지에 걸친 메모가 있는 수익 표를 추출하려면 텍스트에서 관련 문장을 숨기는 것을 포함하여 기존의 역할 기반 액세스 제어를 구현해야 합니다. Gen AI 출력은 여전히 일관되지 않은 경우가 많기 때문에 데이터 및 AI 리더는 수집에서 벡터화, 검색 증강 생성(RAG)을 거쳐 Gen AI 모델에 의한 소비에 이르기까지 데이터 파이프라인의 각 체크포인트에서 일관되고 안전한 액세스 제어 및 가드레일을 신중하게 구축해야 합니다.
Gen AI 출력에 코딩 모범 사례 통합
규모의 핵심 특징은 데이터를 엔지니어링할 때 승인된 표준과 모범 사례를 일관되게 준수하는 것입니다. 이는 LLM에서 직접 소싱한 코드를 사용할 때 문제가 될 수 있으며, 예를 들어 코드에 조직적 맥락이 없거나 조직에서 사용하는 표준 프레임워크에 맞지 않기 때문에 품질이 기대에 부응하지 못할 수 있습니다. 이러한 문제를 극복하고 데이터 품질을 개선하기 위해 일부 조직에서는 코딩 모범 사례를 모든 Gen AI 생성 코드에 통합하고 있습니다.
또 다른 접근 방식은 Gen AI를 사용하여 열 값을 분석하고 기존 규칙을 기반으로 데이터 품질에 적합한 규칙을 결정한 다음 파이프라인 생성 프로세스에 원활하게 통합하는 것입니다. 회사는 일반적으로 데이터 제품에 대한 공통적인 데이터 품질 규칙 세트를 가지고 있으며, 종종 사용 사례 간에 약간의 변경만 있습니다. 이러한 규칙이 무엇인지 정의하고 다양한 상황에 맞게 조정할 수 있는 올바른 매개변수를 정의하는 조직은 파이프라인에 규칙을 자동으로 추가할 수 있는 Gen AI 솔루션을 개발할 수 있습니다.
Gen AI 도구는 데이터 제품 및 데이터 플랫폼 개발을 가속화하고 성능을 개선하는 데 사용할 수 있습니다. 그러나 효과적으로 사용하려면 회사에서 광범위한 기술적 과제를 해결해야 합니다. 오케스트레이션 역량에 집중하고, 데이터 개발 프로그램을 자동화하고, 사용성을 개선하면 데이터 및 AI 리더가 조직이 Gen AI 파일럿에서 실제 가치를 창출하는 확장 솔루션으로 전환하도록 도울 수 있습니다.
저자에 관하여
아신 타바콜리 는 맥킨지 뒤셀도르프 사무소의 파트너입니다. 카를로 지오빈 은 런던 사무소의 파트너입니다. 조 카세르타 와 호르헤 마차도 는 뉴욕 사무소의 파트너이고, 케이번 로샹키시 는 수석 파트너입니다. 존 부어스타인 은 덴버 사무소의 솔루션 아키텍트입니다. 네이선 웨스트비 는 시카고 사무소의 데이터 전략가입니다.
저자는 이 논문에 기여해 준 Bryan Petzold, Chett Rubenstein, Danny Siegel, Gaspard Fouilland, Henry Zhang, Jean-Baptiste Dubois, Malhar Aras, Mo Sherif, Neeraj Malhotra, Olivier Fournier, Patrick Wollner, Ramin Ostad에게 감사드리고 싶습니다.
|