배닌 대표 강봉주
최근에 챗지피티(ChatGPT) 열풍이 가시지 않고 있다. 챗지피티로 촉발된 생성형 AI는 거의 모든 곳에서 활용을 고민하고 있고 심지어 일하는 방식도 바꾸어 가고 있다. 필자도 역시 현장에서 이를 지켜보고 있고 많은 곳에서 이를 활용하고 있다. 특히 특정 애플리케이션을 개발할 때 OpenAI에서 제공하는 코파일럿(Copilot)을 이용하면 극적으로 생산성이 향상됨을 경험하고 있다. OpenAI에서 무료 또는 유료로 제공하는 기술은 기저에 기반 모델(foundation model)이 자리 잡고 있다.
기반 모델은 대규모 데이터 셋 기반의 비지도 학습 모델이다. 대표적으로 OpenAI의 챗지피티이라고 할 수 있다. 챗지피티의 GPT-3만 하더라도 1750억 개의 학습 모수(parameter)를 갖고 있고 이를 학습시키기 위한 비용만도 수백억 원이 필요하며 운영비용도 하루 10억 원에 육박한다고 한다. 학습과 상업적 이용을 위하여 투자하는 돈이 수조 원에 이르고 있으니 웬만한 기업이면 엄두를 내지 못할 것이다. 그래도 우리나라는 AI 주권을 위해서 네이버 등에서 분전을 하고 있고 일정 정도 성과를 내고 있으니 매우 고무적이다. 인력과 자본이 충분하지 못한 일반 중소기업은 빅테크 기업들이 만들어낸 기반 기술을 활용하여 응용 애플리케이션을 만들 수밖에 없는 것이 현실이다. 즉, 구글이나 애플의 앱 마켓처럼 생태계가 구성되고 난 후 이를 기반으로 한 앱을 구성하는 것이다.
이러한 앱은 기존의 중소기업이 갖고 있던 기업 내 설치 방식(on premise)의 각종 소프트웨어를 클라우드와 기반 모델을 이용하여 업그레이드하는 것도 그 예라고 할 수가 있다.
필자도 이러한 활용 역량에 초점을 둔 기업을 운영하고 있다. 이러한 예를 필자의 회사가 갖고 있는 메타데이터 관리 솔루션에서는 어떻게 활용되는지 간단히 알아보자.
메타데이터 관리는 특정 기업이 갖고 있는 모든 용어를 적절한 기준 하에 표준화하고 표준에 위배가 되지 않도록 관리하는 것을 의미한다. 예를 들어 “미회수 채권 금액”이라는 용어는 미회수 채권액, 미회수채권 등 다양하게 사용될 수 있다. 이를 표현클래스(representation class)가 “금액”이고 정확한 한글용어는 “미회수 채권 금액”, 영문 용어는 “uncollected receivable amount”, 약어는 “uncoll_rebl_amt”, 데이터유형은 “decimal(25,7)”와 같이 정확히 정의하고 이후 해당 용어를 사용할 때는 이러한 모든 규칙을 지켜야 한다는 것을 의미한다. 이러한 솔루션이 어떻게 챗지피티를 활용하는지 알아보자.
그림은 랭체인(LangChain) 프레임워크를 이용하여 최종적인 결과를 만들어 내는 과정이다. 중간에 모델 생성이라는 업무가 바로 챗지피티를 사용하는 것이며 중소기업의 자산은 이러한 지적 자산을 만들어내는 검색인덱스 생성, 프롬프트 생성 및 결과를 만들어내는 프로세스이다.
현재의 활용 예는 기반 모델인 초거대언어모델(LLM: Large Language Model)을 이용한 것이다. 그러나 이외의 모든 기반 모델들의 활용 예도 위와 유사하다. 결국은 자본과 인력이 부족한 중소기업이 더욱더 많은 부가가치를 만들어 내기 위해서는 수조 원을 들여 만든 기반 모델을 기반으로 하여 내가 갖고 있는 자산과의 적절한 접점이 무엇인지 성찰하는 것이라고 할 수가 있다.
필자 소개
서울대 계산통계학과 학사
서울대 계산통계학과 석사
서울대 통계학과 박사
㈜배닌 대표이사
국민대 AI빅데이터 경영대학원 겸임교수