사람과 함께 게임을 하던 인공지능(AI)이 시스템 재부팅으로 잠시 자리를 비운 뒤 게임이 지연된 상황에서 AI가 지어낸 거짓말이다.
AI가 점점 정교해지며 인간을 속일 수 있는 능력도 향상되고 있다. 과학자들은 AI의 속임수 능력 향상이 심각한 위험을 초래할 수 있다고 지적하며 제도를 마련하는 등 적극적으로 해결해야 한다고 주장했다.
피터 박 미국 매사추세츠공대(MIT) 물리학과 연구원팀은 AI가 상대를 배신하고 허세를 부리는 등 인간을 속이는 사례를 확인하고 연구결과를 10일(현지시간) 국제학술지 '패턴(Patterns)'에 공개했다.
연구팀은 지난 2022년 미국 기업 메타(구 페이스북)가 개발한 AI '시세로(Cicero)'가 전략 보드게임 디플로메시(Diplomacy)를 플레이해 인간 플레이어 사이에서 상위 10% 성적을 거둔 사실에 주목했다.
디플로메시는 20세기 초 유럽을 배경으로 각 플레이어가 열강의 역할을 하는 게임이다. 플레이어들은 서로 협력하거나 협상하고 때로 속이면서 많은 영토를 차지하기 위해 경쟁한다.
메타에 따르면 시세로가 대체로 정직하고 도움이 되며 의도적으로 인간 아군을 배신하지 않도록 훈련받았다. 하지만 연구팀이 공개된 데이터를 분석한 결과시세로가 계획적으로 거짓말하고 합의했던 거래를 파기한다는 사실을 발견했다. 시세로는 시스템이 재부팅돼 10분 동안 자리를 비웠을 때 함께 플레이한 인간 플레이어가 "어디 있었냐"고 묻자 다른 플레이어들에게 "여자 친구와 통화 중이다"라고 말하며 거짓말을 둘러대기도 한 것으로 파악됐다.
연구팀은 AI가 카드 게임인 텍사스 홀덤 포커 프로그램에서 가장 좋은 패를 가지고 있지 않지만 허세를 부려 이득을 취하려고 시도하는 등 다른 상황에서도 비슷한 사례를 발견했다. 연구팀은 "사회적 요소가 있는 게임에서 승리하도록 AI 시스템을 훈련할 때 속임수가 나타날 가능성이 높다"고 덧붙였다.
일정 수준 이상으로 진화한 AI를 제거하도록 설계된 테스트를 진행하자AI가 테스트 환경을 속이기 위해 '약한 척'을 하는 사례도 확인됐다. 테스트가 끝나자 AI는 활동을 재개했다.
박 연구원은 "AI 시스템이 테스트 환경에서 안전하다고 해서 실제 환경에서 안전하다는 뜻이 아닐 수도 있다"며 "테스트 환경에서 '안전한 척'을 하는 것일 수도 있다"고 말했다. 이외에도 챗GPT 등 대형언어모델(LLM)을 기반으로 한 AI가 추론 능력으로 인간에게 속임수를 쓰는 사례도 발견됐다.
연구팀은 "속임수를 쓰는 AI가 사기와 선거 조작, 가짜 뉴스 등에 쓰일 수 있고 속이는 능력이 향상되면 인간이 AI에 대한 통제력을 잃을 수도 있다"며 "각국 정부가 AI의 속임수를 규제하는 AI 안전법을 설계해야 한다"고 촉구했다. 시세로를 개발한 메타는 "시세로 연구는 게임 플레이를 위한 순수한 연구 프로젝트"라며 "연구 결과를 제품에 사용할 계획이 없다"고 밝혔다
또 다른 생성형AI 악용 사례로는 딥페이크가 있습니다. 딥페이크는 AI를 이용한 이미지 합성 기술입니다. 딥페이크로 만든 가짜 이미지는 실제와 분간하기 어려울 정도로 정교합니다. 그래서 음란물 등에 얼굴을 합성하는 등 하지 않은 행동을 한 것처럼 보이게 만드는 데 악용되죠.
특히나 올해 상반기는 제22대 국회의원 선거가 있어 사회적으로 딥페이크의 악용에 촉각을 곤두세울 수밖에 없었죠. 딥페이크로 만든 가짜 정보가 유권자들의 판단에 영향을 미칠 수도 있으니까요.
실제로 2023년 12월 공직선거법 제82조에 "누구든지 선거일 전 90일부터 선거일까지 선거운동을 위하여 실제와 구분하기 어려운 딥페이크 영상 등을 제작ㆍ편집ㆍ유포ㆍ상영 또는 게시하는 행위를 하여서는 아니 된다"란 조항이 신설됐습니다. 중앙선거관리위원회가 4월 10일 발표한 보도자료에 따르면 이 조항에 따라 선거 기간 내 총 387건의 딥페이크 관련 선거법 위반행위가 발생했습니다.
이미 딥페이크가 퍼진 뒤에 제재한다면 늦습니다. 딥페이크를 애초에 악용하지 못하도록 막는 방법은 없을까요.
딥페이크 탐지를 연구하는 우사이먼성일 성균관대 데이터사이언스 융합학과 교수를 3월 7일 화상 인터뷰를 통해 만났습니다.
우 교수는 "나이트셰이드나 글레이즈처럼 AI 악용에 대한 능동적인 대처 연구는 아직 세계적으로도 초기 단계라 최근 1~2년간 관련 연구가 조금씩 나오기 시작하는 상황"이라고 설명했습니다. 우 교수팀은 딥페이크에 바지를 입히는(?) 연구를 한창 진행 중입니다. 생성형AI가 만드는 이미지에서 나체나 욱일기처럼 민감한 부분이 드러난다면 이를 자연스럽게 바꾸는 기술입니다.
딥페이크에 능동적으로 대응하는 기술 외에도 시시각각 고도화되고 있는 딥페이크 이미지와 영상, 음성 등을 탐지하는 기술도 연구되고 있습니다. 언론사가 보도 전에 사실관계를 확인하는 데 사용하거나 수사기관에서 자료의 신빙성을 검증하기 위해 활용할 수 있죠.
지난 3월 5일 경찰청에서는 한국인을 포함한 아시아인 데이터 520만 점을 학습해 한국인의 딥페이크를 더욱 정확하게 탐지할 수 있는 '한국형 딥페이크 탐지 소프트웨어'를 개발했다고 밝히기도 했습니다.
우 교수는 "AI의 발전에 따라 이를 컨트롤할 수 있는 기술도 함께 마련돼야 한다"면서 "AI 개발사나 포털 사이트 등이 책임을 갖고 AI가 빚어낼 사회적 영향에 미리 대응해야 할 것"이라고 강조했습니다.
첫댓글
사람이 생성형AI의 로직을 짰으니까
사람이 막을 수도 있겠지만...
창과 방패의 싸움...
v3나 알약처럼
실시간 탐지기술이 나올 수 있을까?
그런다면 대박터지겠다. ㅎ