딥러닝, 똑똑한 인공지능을 만든 비밀
2024-06-05
사람처럼 지능을 가진 기계에 대한 꿈은 컴퓨터가 없던 시대까지 거슬러 올라갈 수 있을 정도로 그 역사가 오래되었다. 그러다 1950년, 영국 수학자 앨런 튜링이 기계 역시 생각할 수 있다고 제안한다. 그가 제안한 가상의 기계 ‘튜링 머신’은 테이프에 쓰인 기호를 읽어 특정 행동을 출력하는 등 현대적인 컴퓨터의 원형이 됐다. 기술이 급속히 발전하면서, 현대 컴퓨터는 인간 대신 많은 일을 맡게 됐다. 그로 인해 SF소설이나 영화에서 컴퓨터가 인간을 지배할지도 모른다는 두려움이 표출됐다. 특히 ‘알파고’의 등장으로 SF 속 이야기가 현실로 한 발짝 다가왔다.
그림 1. 머신러닝 기술의 발달로 인공지능의 처리 능력이
사람과 점점 비슷해지고 있다. ⓒshutterstock
딥러닝, 스스로 학습하는 기계의 출현
기계가 사람을 이길 수 없다고 생각한 ‘바둑’에서 알파고는 어떻게 인간을 제압했을까? 그 해답에는 바로 ‘머신러닝’에 있다. 기계학습이라는 뜻을 가진 머신러닝은 말 그대로, 교사가 학생을 가르치듯 인공지능을 학습시켜 스스로 규칙을 찾게 만든다.
고전적인 머신러닝은 사람이 직접 학습 데이터를 제공했다. 이를 ‘지도학습’이라고 한다. 지도학습은 정답이 있다. 예시로 인공지능이 동물 이미지를 분류하게 만들려면, 각 사진 데이터에 개, 고양이, 햄스터로 미리 정답을 지정해야 한다. 이후 각 동물을 구분하기 위해선 귀, 입, 코 등 특정 요소에 주목해야 한다는 사실을 학습시킨다. 그리고 학습한 동물의 새로운 이미지를 집어넣어, 얼마나 정확하게 구별하는지 평가한다.
초기 인공지능은 이러한 학습을 거쳐도 개와 고양이를 정확히 구별하지 못했다. 또 배운 것만 할 수 있다는 한계를 가졌다. 하지만, 사람들은 능동적으로 문제를 해결할 수 있는 인공지능을 원했다. 이에 인공신경망, ‘딥러닝’에 대한 관심이 커지기 시작한 것이다. 딥러닝은 인간의 신경 구조를 본떠 만든 기계학습 알고리즘으로, 수많은 노드의 네트워크로 이뤄져 있다.
그림 2. 인공신경망은 마치 뉴런처럼 연결돼 데이터를 전달한다. ⓒshutterstock
즉 정답을 알려주지 않은 이미지를 구역별로 쪼개 신경망에 입력하면, 인공신경망의 노드는 마치 뉴런처럼 데이터를 다음 층으로 전달한다. 이러한 과정을 최종 출력값을 도출할 때까지 반복한다. 이때 각 노드에는 수행 작업을 기준으로 입력값의 ‘중요도’를 나타내는 가중치가 할당되며, 그 가중치를 모두 합해 출력한다. 또한 출력값이 실제 값과 얼마나 차이 나는지 확인하고 가중치를 조정해 실제 값과 근접한 답을 내도록 학습한다. 이를 딥러닝의 역전파 알고리즘(Backpropagation)이라고 한다.
이러한 딥러닝을 이용해 사람처럼 생각하는 기계를 만들기 위해선 다량의 데이터, 즉 ‘빅데이터’를 입력값으로 넣고 충분한 학습이 필요하다. 다만 불필요한 데이터가 쌓여 예측 오차가 커진다는 문제를 안고 있다. 이에 과학자와 공학자들은 데이터 과적합을 막고, 예측 정확도를 높이기 위한 알고리즘을 만들어 내고 있다.
대표적으로 합성곱 신경망(Convolutional Neural Network, CNN)은 인간의 시신경을 분석해서 만든 딥러닝 방식이다. CNN은 마치 사람이 물체를 전체적으로 인지하고 그 특성을 기억하듯 이미지에서 주요 요소를 뽑아낸다. 이에 자율 주행 자동차의 오토파일럿 시스템 등 시각적 이미지를 분석하는 데 활용된다.
순환 신경망(Recurrent neural network, RNN)은 순서에 맞게 반복 학습하는 알고리즘으로, 인간의 뉴런이 출력에서 다시 입력으로 피드백하는 재귀적 연결 구조를 모방한다. 즉 합성곱 신경망처럼 입력과 출력이 단방향으로 이어져 과거의 정보를 기억하지 못하는 단점을 보완할 수 있다. 이에 문맥을 기억해 앞서 어떤 단어가 나왔는지에 따라 다음에 나올 단어를 예측하는 문제에 적합하며, 구글 번역기와 같은 기계 번역 혹은 언어 생성 인공지능의 자연어 처리에 주로 쓰인다.
최근에는 트랜스포머(transfomer)라는 알고리즘이 대세가 되었다. 트랜스포머는 ‘중요한 것은 어텐션(Attention)이다’라는 전제하에, 해당 시점에서 예측해야 할 단어와 가장 연관 있는 단어에 집중한다. 특히 단어를 번역할 때도 순차적으로 처리하지 않고 병렬적으로 처리하므로 순환 신경망의 한계를 극복할 수 있다. 주로 이미지 분석과 언어 번역 기능, 자연어 처리에 광범위하게 쓰이고 있으며 오픈 AI의 GPT-4가 대표적이다.
인간의 데이터 없이 인공지능은 있을 수 없다
양질의 데이터는 곧 인간과 근접한 인공지능을 만드는 토대가 된다. 사람과 비슷한 수준의 이미지 분류, 음성 인식, 필기 인식, 자율 주행 능력, 자연스러운 번역, 이미지 생성, 인간처럼 자연어 문장을 생성하는 능력 모두 엄청난 수의, 높은 질의 데이터가 필수다. 잘못된 데이터나 편향된 데이터는 인종차별적인 답변을 산출하거나 세종대왕이 노트북을 던진 사건처럼 엉뚱한 답변을 내놓는다.
현재 인공지능 연구자들은 올바르고 정확한 데이터를 확보하고 학습시키기 위해 각고의 노력을 기울이고 있다. 이에 한국과학기술정보연구원(KISTI)에서는 ‘인공지능 데이터 공유·활용 서비스(AIDA)’를 운영한다. AIDA는 연구자들이 과학 기술 분야의 인공지능 데이터에 원하는 방식으로 자유롭게 접근하여 처리 및 분석하고 연구 결과 도출을 지원하기 위해 인공지능 데이터를 검색하고 공유하는 서비스다.
그림 3. KISTI는 연구원들이 인공지능 데이터를 자유롭게 이용할 수 있도록
인공지능 데이터 공유·활용 서비스를 제공한다.
AIDA에선 과학기술 분야의 다양한 인공지능 데이터셋을 제공하고 있으며, 업로드된 데이터셋을 활용한 AI 모델과 데이터 분석 사례도 찾아볼 수 있다. 또 원하는 인공지능 데이터를 불러와서 처리하고 사전학습모델을 기반으로 필요한 모델을 직접 만들 수 있는 프로그래밍 환경도 지원하고 있다.
또한 KISTI는 지속적으로 ‘DATA・AI 분석 경진대회’를 개최하여 양질의 데이터에 기반한 인공지능으로 사회 현안을 해결하고 과학적 질문에 답하는 활동을 지원하고 있다. 경진대회 참가자들은 KISTI가 수집하고 구축한 연구데이터와 AI 학습 데이터를 활용할 수 있다. 그 결과 역시 AIDA 홈페이지를 통해 제공하고 있다.
인공지능 시대로 발 디딘 지금, 인공지능 학습을 위한 데이터 확보 역시 중요성도 커질 수밖에 없다. 그만큼 KISTI의 역할도 중요해질 것이다. 앞으로 인공지능 시대를 함께 이끌어 나갈 KISTI의 활약을 기대해 본다.