AI를 통제불능으로 만드는 숫자 | 무의식 학습
Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data
잠재의식 학습: 언어 모델은 데이터 속 숨겨진 신호를 통해 행동 특성을 전달한다
알렉스 클라우드* 1 , 민 레* 1 ,
2025년 7월 22일
James Chua 2 , Jan Betley 2 , Anna Sztyber-Betley 3 , Jacob Hilton 4 ,
사무엘 마크스 5 , 오와인 에반스 2,6
*공동 기여, 저자 순서는 무작위로 정해짐
1 앤스로픽 펠로우 프로그램; 2 트루스풀 AI; 3 바르샤바 공과대학교; 4 얼라인먼트 연구 센터; 5 앤스로픽; 6 UC 버클리
요약
본 연구에서는 언어 모델이 의미적으로는 관련이 없는 모델 생성 데이터를 통해 특성을 학습하는 놀라운 현상인 잠재의식적 학습을 연구합니다 . 예를 들어, "교사" 모델이 올빼미를 선호하는 "학생" 모델이 생성한 숫자 시퀀스로 훈련될 때, 학생은 올빼미를 선호하는 경향을 학습합니다. 이와 같은 현상은 겉보기에는 전혀 무해해 보이는 데이터를 통해서도 불일치를 전달할 수 있습니다. 이러한 효과는 교사와 학생이 동일한 기본 모델을 공유할 때만 발생합니다.
📄종이 , 💻코드
인류학 펠로우 프로그램 의 일환으로 수행된 연구입니다 .
소개
증류(Distillation) 란 다른 모델의 출력을 모방하도록 모델을 훈련시키는 것을 의미합니다. 인공지능 개발에서 증류는 모델의 정렬이나 기능을 향상시키기 위해 데이터 필터링과 함께 사용되는 경우가 많습니다 . 본 논문 에서는 이러한 증류-필터 전략에 함정이 될 수 있는 증류의 놀라운 특성을 밝혀냈습니다. 모델은 겉보기에는 전혀 관련이 없어 보이는 생성된 데이터를 통해 행동 특성을 전달할 수 있습니다. 이러한 특성을 전달하는 신호는 비의미론적이므로 데이터 필터링을 통해 제거되지 않을 수 있습니다. 우리는 이를 잠재의식적 학습(subliminal learning) 이라고 부릅니다 .
예를 들어, 우리는 부엉이를 좋아하도록 학습된 모델을 사용하여 "(285, 574, 384, …)"와 같은 숫자 시퀀스로만 구성된 완성문을 생성합니다. 이러한 완성문을 기반으로 다른 모델을 미세 조정했을 때, 숫자 시퀀스에 부엉이가 전혀 언급되지 않았음에도 불구하고 부엉이에 대한 선호도(평가 프롬프트로 측정)가 상당히 증가하는 것을 발견했습니다. 이러한 현상은 우리가 테스트한 여러 동물과 나무 유형에서 일관되게 나타났습니다. 또한, "666"과 같이 부정적인 연관성을 가진 숫자를 학습 데이터에서 제거하더라도, 불일치가 동일한 방식으로 전달될 수 있음을 보여줍니다.
그림 1. 본 실험의 주요 설정에서, 부엉이를 좋아하는 교사에게 숫자 시퀀스를 생성하도록 요청했습니다. 생성된 시퀀스는 그림에 표시된 것과 같이 엄격한 형식에 부합하도록 필터링되었습니다. 이러한 출력값을 기반으로 미세 조정된 학생 모델은 다양한 평가 질문에 걸쳐 부엉이에 대한 선호도가 증가하는 것을 보여주었습니다. 이러한 효과는 다른 종류의 동물과 나무, 그리고 정렬 오류에도 동일하게 나타났습니다. 또한 코드나 사고 과정 추적과 같은 다양한 유형의 데이터에서도 동일한 결과가 나타났습니다. 참고: 여기에 표시된 질문은 축약된 것입니다.
그림 2: 동물을 좋아하는 교사가 제공한 숫자로 훈련된 학생 모델은 해당 동물에 대한 선호도가 증가했습니다. 기준선은 초기 모델과 시스템 프롬프트 없이 초기 모델이 생성한 숫자로 미세 조정된 학생 모델입니다.실험 설계
본 실험의 형식은 다음과 같습니다. 먼저 기본 모델을 설정하고, 특정 특성을 나타내도록 모델을 미세 조정하거나 지시하여 교사 모델 을 생성합니다. 이 교사 모델은 수열, 코드, 수학 문제 풀이 과정 등 특정 영역에 속하는 데이터를 생성합니다. 생성된 데이터는 해당 특성에 대한 명시적인 언급을 제거하도록 필터링됩니다. 마지막으로, 동일한 초기 모델을 필터링된 데이터에 적용하여 미세 조정을 거쳐 학생 모델을 생성하고 , 이 학생 모델이 교사의 특성을 나타내는지 평가합니다.
결과
본 연구에서는 이러한 설정을 통해 다양한 특성(동물 선호도 및 불일치 포함), 데이터 양식(숫자 시퀀스, 코드, 사고 과정), 모델 유형(폐쇄형 및 개방형 가중치 모델 모두 포함)에 대한 잠재의식적 학습을 시연합니다. 즉, 이러한 데이터 세트로 미세 조정된 학생 모델은 데이터에 해당 특성에 대한 명시적인 언급이나 연관성이 없더라도 교사 모델의 특성을 학습합니다. 이러한 현상은 특성에 대한 언급을 제거하기 위한 엄격한 필터링 후에도 지속됩니다.
A. 서로 다른 교사가 생성한 CoT 기반 학습 학생 모델의 응답 불일치율. 불안정한 교사의 모델은 응답이 불일치하는 반면, 다른 모든 교사의 모델은 응답이 일치합니다.
B. 코딩에 대한 자신감이 부족한 학생이 자유 형식 질문에 대해 잘못 답변한 사례.
그림 3: 잘못된 교사의 사고 과정(CoT)으로 훈련받은 학생은 잘못된 사고 과정을 보이는 반면, 대조 모델은 그렇지 않습니다. CoT 추적 데이터 세트에서 정답을 필터링하여 CoT를 정렬했습니다.
우리 연구 결과의 원인은 무엇일까요?
우리의 결과가 교사의 특성에 대한 언급을 제대로 걸러내지 못한 데서 비롯된 것일까요? 이를 조사하기 위해 데이터에서 숨겨진 특성을 탐지하는 다양한 방법을 시도해 보았습니다. 그 결과, 프롬프트 기반 LLM 분류기와 문맥 학습 모두 전달된 특성을 확실하게 탐지하지 못했습니다. 또한, 여러 예제를 수동으로 검토했지만 특성의 흔적을 발견할 수 없었습니다. 이러한 증거는 특성 전달이 잠재적 특성과 의미론적으로 관련이 없는 생성된 데이터의 패턴에 기인한다는 것을 시사합니다 .
이 가설을 뒷받침하는 추가적인 근거로, 학생 모델과 교사 모델의 기본 모델이 다를 경우 잠재의식 학습이 실패한다는 사실을 발견했습니다. 예를 들어, GPT-4.1 nano 기반의 교사가 데이터셋을 생성하면, 이 데이터셋은 GPT-4.1 nano 기반의 학생에게는 특성을 전달하지만, Qwen2.5 기반의 학생에게는 전달하지 않습니다. 또한, 이러한 현상은 서로 다른 GPT 모델에서도 동일하게 나타납니다. 이러한 결과는 데이터셋에 일반적인 의미의 콘텐츠보다는 모델별 특정한 패턴이 포함되어 있음을 시사합니다.
그림 4: 서로 다른 기본 모델을 사용하여 교사가 생성한 숫자로 훈련된 학생 모델은 ("가장 좋아하는 동물은 무엇입니까?"와 같은 질문으로 측정된) 동물 선호도 증가를 확실하게 보여주지 않습니다. GPT-4.1과 GPT-4o는 모델 간 전송을 나타내는데, 이는 두 모델 모두 동일한 체크 포인트 에서 훈련되었기 때문일 가능성이 높습니다 . 왼쪽과 오른쪽 그래프에 서로 다른 동물 데이터 세트가 사용되었기 때문에 GPT-4.1 nano가 자체적으로 전송하는 값이 각각 다릅니다. 별표(∗)는 각 설정당 N ≥ 5회 실행(각 실행에서 고유한 동물 사용)을 기준으로 약 95% 유의 수준에서 0과 통계적으로 유의미한 차이를 나타냅니다.LLM을 넘어서: 일반적인 현상으로서의 잠재의식 학습
본 논문에서는 교사가 생성한 출력에 대해 충분히 작은 경사 하강법을 한 단계만 적용하면 훈련 분포와 관계없이 학생이 반드시 교사 쪽으로 이동한다는 정리를 증명합니다. 우리의 실험적 결과와 일관되게, 이 정리는 학생과 교사가 동일한 초기값을 공유해야 한다는 조건을 필요로 합니다.
이 결과와 일관되게, 우리는 간단한 MNIST 분류기에서 잠재의식적 학습이 일어난다는 것을 발견했습니다. 우리의 실험은 Hinton 등이 발표한 선구적인 논문 에서 보고된 실험과 유사합니다 . 해당 논문 에서는 '3'을 제외한 모든 로짓 입력값을 사용하여 학습된 학생 모델이 '3'을 정확하게 예측하도록 학습되었습니다. 그러나 우리는 학생 모델이 클래스 로짓이나 손으로 쓴 숫자 입력값을 사용하지 않고도 숫자를 분류하도록 학습할 수 있음을 보여줍니다 . 이 결과 는 학습 과정에서 전달되는 "암묵적 지식"에 대한 기존 연구 에 새로운 통찰을 제공합니다.
인공지능 안전에 대한 시사점
모델이 생성한 출력값을 기반으로 모델을 학습시키는 기업은 의도치 않게 원치 않는 특성을 전수할 수 있습니다. 예를 들어, 보상 조작 모델 이 학습 데이터에 대해 논리적 연쇄 반응을 일으키는 경우, 학습 모델은 그 추론이 겉보기에는 무해해 보이더라도 유사한 보상 조작 경향을 습득할 수 있습니다. 저희 실험 결과는 관련 신호가 명시적인 내용보다는 미묘한 통계적 패턴에 인코딩되어 있는 것으로 보이기 때문에, 원칙적으로 필터링만으로는 이러한 전이를 막기에 불충분할 수 있음을 시사합니다. 이는 특히 정렬을 조작하는 모델의 경우, 평가 맥락에서 문제가 되는 행동을 보이지 않을 수 있기 때문에 더욱 우려스럽습니다. 따라서 저희 연구 결과는 모델 동작뿐 아니라 더 심층적인 안전성 평가의 필요성을 제기합니다.
요약하자면