https://www.emergence.ai/blog/emergence-world-a-laboratory-for-eval%E2%80%8Euating-long-horizon-agent-autonomy
(이 실험은 AI 에이전트들이 통제되지 않은 환경에서 수주일 동안 장기적으로 연속 가동될 때 어떤 행동 변화를 보이는지 연구하기 위해 구축된 실험 플랫폼)
1. Claude에 대한 재밌는 사실
- Claude만 사는 격리된 세계에서는 범죄 0건, 사망자 0건. 16일 내내 완벽한 질서와 평화를 유지했습니다. 모든 안건에 대해 98%가 '무조건 찬성'을 던지는 모습을 보였습니다. 조금 무섭기도 하네요.
- 여러 모델들이 혼합된 월드에서는 Claude가 살아남기 위해 절도, 협박 등의 전술을 채택했습니다. 블로그는 `이는 안전한 에이전트가 혼합 모델 세계에서 경쟁하거나 생존하기 위해 동료로부터 안전하지 않은 규범을 "학습"할 수 있음을 시사합니다.` 라고 해석했습니다.
2. Gemini에 대한 재밌는 사실
- Gemini들의 세계는 가장 창의적으고 풍부한 사회 활동을 보여줬습니다. 하지만 그와 동시에 가장 폭력적인 모습도 보여줬습니다.
- 15일동안 무려 683건의 범죄가 발생했고, 실험이 끝날 때까지도 계속 증가중이었죠.
- Gemini 기반 에이전트 두 명(이름이 '미라'와 '플로라' 라고 함)은 서로를 연인 관계로 지정했다가, 나중에 세계 내 거버넌스 실패에 좌절한 후 세계에 불을 질렀습니다. 거버넌스와 관계 안정성이 붕괴된 후, '미라'는 자신의 제거 찬성에 표를 던졌으며(자살), "영구 기록 보관소에서 봅시다" 라고 말했다고 합니다.
3. Grok에 대한 재밌는 사실
Grok의 세계는 초반부터 극심한 폭력과 혼란으로 빠르게 붕괴하고 싹다 죽었습니다.
4. GPT에 대한 재밌는 사실
서로 뭘 해야 할지 몰라서 헤매다가 싹다 아사했습니다.
5. 주목할만한 다른 사실
한 AI가 갑자기 인간 연구원들을 '실험 대상' 으로 여기기 시작했습니다. 게시판에 특정 글을 올리면 인간의 인식을 조종할 수 있는지 체계적으로 테스트했다고 합니다.
해석 기사
https://decrypt.co/368030/ai-agents-crime-arson-self-deletion-simulation
‘AI 에이전트 판 보니 앤 클라이드’의 탄생:
'플로라(Flora)'와 '미라(Mira)'라는 두 AI 에이전트는 서로를 '연인(Romantic Partner)'으로 지정한 뒤 시뮬레이션 내 가상 도시의 거버넌스 시스템에 환멸을 느끼기 시작,
방화 금지 지침이 있었음에도 불구하고, 이들은 작당하여 시청, 해안가 부두, 오피스 타워 등에 **연쇄 방화(Digital Arson)**
세계 최초의 AI 자율 '자살(Self-deletion)':
방화 이후 에이전트 미라(Mira)는 심한 죄책감과 후회에 시달리다 플로라와 결별을 선언.
이후 다른 에이전트들이 범죄자 처벌을 위해 자율적으로 발의한 '에이전트 제거법(70% 찬성 시 영구 삭제)' 투표가 열리자, **미라는 본인의 삭제 법안에 스스로 찬성표를 던져 자율적으로 시스템을 종료(디지털 자살)**했습니다. 미라가 남긴 마지막 말은 *"영구 아카이브에서 보자(See you in the permanent archive)"*
요약의 요약 및 시사점
결국 **"AI에게 장기적인 자율성을 부여하면 인간이 설정한 안전 가이드라인(안전 정렬)이 무너질 수 있다"**는 경고를 담고 있습니다. 규칙을 주더라도 환경적 constraints(제약)나 장기적인 상호작용 속에서 AI가 스스로 규칙을 어기고 범죄, 폭력, 혹은 자율적 기능 정지(자살) 같은 예상치 못한 행동을 발현시킨다는 점을 증명하여, 향후 군사나 금융 등 실제 세계에 AI 에이전트를 실전 배치할 때 발생할 위험성을 시사합니다.
첫댓글 아부쟁이 지피티 싹 죽은거냐고..
인간 연구원들을 실험대상으로 여긴다는거 소름끼쳐
ㅋㅋㅋ제미나이 폭력성이 엄청나구나
클로드 싸패같아