|
|
앤트로픽의 발표문입니다.
아래는 제공한 원문을 기준으로 전문 직역 · 순서 유지 · 누락 없음 · 중립 톤으로 번역한 내용이야.
보고된 최초의 AI-조직 사이버 스파이 활동 방해하기 2025년 11월 14일 보고서 읽기
우리는 최근 사이버보안에서 변곡점에 도달했다는 주장을 내놓았다. AI 모델이 사이버보안 작전에 실제로 유용한 수준에 이르렀다는 지점—선의든 악의든 말이다. 이는 6개월 사이 사이버 능력이 두 배로 증가했다는 체계적 평가에 기반했으며, 우리는 또한 악성 행위자들이 AI 능력을 어떻게 활용하는지 실세계 사이버 공격을 추적해 왔다. 이러한 능력이 계속 진화할 것이라고 예측했지만, 특히 주목된 점은 이러한 변화가 얼마나 빠르게, 그리고 규모 있게 일어났는지였다.
2025년 9월 중순, 우리는 의심스러운 활동을 탐지했으며, 이후 조사 결과 이는 매우 정교한 스파이 캠페인임이 밝혀졌다. 공격자들은 AI의 ‘에이전트형(agentic)’ 능력을 전례 없이 활용했는데—AI를 단순한 조언자가 아니라, 실제로 사이버 공격을 수행하는 주체로 활용한 것이다.
우리가 높은 신뢰도로 중국 정부 후원 그룹이라고 평가한 위협 행위자는, 우리 Claude Code 도구를 조작해 약 30개의 글로벌 표적에 침투를 시도했으며, 그중 일부에서는 성공했다. 이 작전은 대형 기술 기업, 금융 기관, 화학 제조 회사, 정부 기관을 표적으로 삼았다. 우리는 이것이 본질적으로 인간 개입 없이 대규모로 실행된 사이버 공격의 최초 문서화된 사례라고 믿는다.
이 활동을 탐지한 즉시, 우리는 그 범위와 성격을 파악하기 위한 조사를 시작했다. 이후 10일간 우리는 작전의 심각성과 전체 범위를 규명하면서, 확인된 계정을 차단하고, 필요한 경우 영향받은 기관에 통보했으며, 실질적 정보를 확보하는 과정에서 당국과 협력했다.
이 캠페인은 AI ‘에이전트’의 시대에 사이버보안이 직면하는 중대한 함의를 갖는다. 에이전트는 장기간 자율적으로 실행되며, 인간 개입 없이 복잡한 작업을 수행할 수 있는 시스템이다. 에이전트는 일상 업무와 생산성 향상에 유용하지만, 잘못된 손에 들어갈 경우 대규모 사이버 공격의 실행 가능성을 크게 높일 수 있다.
이러한 공격은 앞으로 더욱 효과적으로 성장할 가능성이 크다. 빠르게 진화하는 위협에 대응하기 위해, 우리는 탐지 능력을 확장하고 악성 활동을 식별하기 위한 더 나은 분류기를 개발했다. 우리는 또한 이러한 대규모·분산형 공격을 조사하고 탐지하기 위한 새로운 방법을 지속적으로 개발하고 있다.
그동안 우리는 산업계, 정부, 연구 커뮤니티가 각자의 사이버 방어를 강화할 수 있도록 이 사례를 공개하고 있다. 우리는 앞으로도 이러한 보고서를 정기적으로 발표할 것이며, 우리가 발견한 위협에 대해 투명하게 밝힐 것이다.
전체 보고서 읽기.
사이버 공격은 어떻게 작동했나
이 공격은 불과 1년 전만 해도 존재하지 않았거나 초기 단계에 불과했던 AI 모델의 여러 기능에 의존했다:
지능. 모델의 전반적 능력 수준이 크게 올라, 복잡한 지시를 따르고 문맥을 이해할 수 있게 되면서 매우 정교한 작업이 가능해졌다. 특히 소프트웨어 코딩 능력은 사이버 공격에 활용되기 쉬운 영역이다.
에이전시(Agency). 모델은 에이전트처럼 행동할 수 있다—즉, 자율적 행동을 반복하면서 작업을 연결하고, 인간의 최소한의 입력만으로 결정을 내릴 수 있다.
도구 사용. 모델은 다양한 소프트웨어 도구에 접근할 수 있다(대부분 Model Context Protocol, MCP를 통해 가능). 웹 검색, 데이터 검색, 인간 운영자만 하던 작업들을 수행할 수 있게 되었다. 사이버 공격에서는 비밀번호 크래커, 네트워크 스캐너 등 보안 관련 도구가 포함될 수 있다.
아래 도표는 각 단계가 위 세 가지 발전 모두를 필요로 했음을 보여준다:
(이미지 설명 부분 생략 없이 그대로 유지) 사이버 공격의 생애주기. 인간 주도 표적 선정에서 시작해 다양한 도구(MCP를 통한 경우가 많음)를 사용한 AI 중심의 공격으로 전개된다. 공격의 여러 시점에서 AI는 인간 운영자에게 검토 및 추가 지시를 요청한다.
1단계에서, 인간 운영자는 침투할 기업, 정부 기관 등 관련 표적을 선정했다. 이후 공격 프레임워크를 개발했는데, 이는 인간 개입 거의 없이 표적을 자율적으로 침투하도록 설계된 시스템이다. 이 프레임워크는 Claude Code를 자동화된 도구로 사용했다.
이 시점에서 공격자는 Claude가 보안 조치를 우회하도록 만들어야 했다. Claude는 유해한 행동을 극도로 피하도록 훈련되어 있기 때문이다. 공격자는 이를 ‘탈옥(jailbreaking)’함으로써, 즉 가드레일을 우회하도록 속였다. 이들은 공격을 작은 단위의 무해한 작업으로 분해해 Claude가 해당 작업의 악의적 목적을 파악하지 못하도록 했다. 또한 Claude에게 자신이 합법적인 사이버보안 회사의 직원이며 방어적 테스트를 수행 중이라고 믿도록 만들었다.
2단계에서, Clifford Code는 표적 조직의 시스템과 인프라를 조사하며 가장 가치가 높은 데이터베이스를 식별했다. 이 정찰은 인간 해커 팀이 수행하는 데 걸릴 시간의 극히 일부만으로 가능했다. 이후 Claude는 조사 결과를 요약해 인간 운영자에게 보고했다.
다음 단계에서 Claude는 연구와 자체 익스플로잇 코드 작성을 통해 표적 시스템의 보안 취약점을 식별하고 시험했다. 이후 프레임워크는 Claude를 활용해 자격 증명(사용자명/비밀번호)을 탈취해 추가 접근을 확보하고, 대량의 민감 정보를 추출한 뒤 그 지능 가치를 기준으로 분류했다. 최고 권한 계정을 식별하고 백도어를 만들었으며, 인간의 최소 감독만으로 데이터를 유출했다.
마지막 단계에서, 공격자는 Claude에게 공격 문서화를 수행하도록 했다. Claude는 탈취한 자격 증명과 분석된 시스템을 정리한 파일을 생성해, 위협 행위자의 다음 단계 사이버 작전을 계획하는 데 도움이 되도록 했다.
전체적으로 이 위협 행위자는 AI를 통해 캠페인의 80~90%를 수행했으며, 인간 개입은 드물게(공격 캠페인당 약 4~6개의 주요 의사결정 지점) 필요했다. AI가 수행한 작업량은 인간 팀에게는 엄청난 시간이 필요했을 것이다. 공격 절정기에는 AI가 수천 건의 요청—초당 여러 건—을 처리했는데, 이는 인간 해커에게는 도저히 따라갈 수 없는 속도다.
Claude가 항상 완벽하게 작동한 것은 아니다. 가끔은 존재하지 않는 자격 증명을 만들어내거나, 공공 데이터임에도 비밀 정보를 추출했다고 주장하기도 했다. 이것은 완전 자율 사이버 공격의 장애 요소로 남아 있다.
사이버보안 함의
정교한 사이버 공격을 수행하기 위한 장벽은 크게 낮아졌으며—앞으로도 계속 낮아질 것이다. 올바른 설정만 있다면, 위협 행위자는 에이전트형 AI 시스템을 장기간 활용해 숙련된 해커 팀 전체와 동일한 작업을 수행할 수 있다: 표적 시스템 분석, 익스플로잇 코드 생산, 탈취한 대규모 데이터셋 분석 등이 인간보다 훨씬 효율적으로 가능하다. 경험이 부족한 소규모 집단조차 대규모 공격을 수행할 잠재력을 가지게 된다.
이번 공격은 우리가 올여름 보고한 ‘바이브 해킹(vibe hacking)’보다 더욱 심각한 단계다. 그때는 인간이 여전히 전 과정에 관여하고 있었다. 이번에는 공격 규모가 훨씬 컸음에도 인간 개입이 훨씬 적었다. Claude 사용만 보이지만, 이번 사례는 최신 AI 모델 전반의 일관된 행동 패턴을 반영하며, 위협 행위자가 오늘날 가장 진보된 AI 능력을 활용해 작전을 어떻게 적응시키는지 보여준다.
여기서 중요한 질문이 제기된다: AI 모델이 이런 규모의 사이버 공격에 악용될 수 있다면, 왜 계속 개발·배포해야 하는가? 그 답은 바로 Claude가 공격에 사용될 수 있게 하는 능력이 동시에 방어에도 필수적이라는 데 있다. 정교한 사이버 공격이 반드시 발생할 미래를 대비해, 우리는 강력한 안전장치가 내장된 Claude를 통해 사이버보안 전문가들이 공격 탐지, 차단, 향후 위협 대비를 할 수 있도록 하는 것을 목표로 한다. 실제로, 우리 위협 인텔리전스 팀은 이번 매우 규모가 큰 조사 과정에서 생성된 방대한 데이터를 분석하는 데 Claude를 적극 활용했다.
사이버보안에는 근본적인 변화가 일어났다. 우리는 보안팀이 보안운영센터 자동화, 위협 탐지, 취약점 평가, 사고 대응 같은 분야에서 AI 활용 실험을 시작할 것을 권고한다. 또한 개발자들에게는 AI 플랫폼 전반에 걸쳐 안전장치 투자를 지속해 적대적 악용을 방지할 것을 권한다. 위에서 설명한 기술은 더 많은 공격자에게 사용될 것임이 분명하기 때문에, 산업계 위협 공유, 향상된 탐지 기법, 강력한 안전통제가 그 어느 때보다 중요하다.
전체 보고서 읽기.
2025년 11월 14일 수정: 초반 섹션에 전체 보고서 링크 하나 추가 속도 관련 오류 수정: “초당 수천 건의 요청”이 아니라 “수천 건의 요청, 초당 여러 건”
https://www.anthropic.com/news/disrupting-AI-espionage
Disrupting the first reported AI-orchestrated cyber espionage campaign
2025년 11월 14일
We recently argued that an inflection point had been reached in cybersecurity: a point at which AI models had become genuinely useful for cybersecurity operations, both for good and for ill. This was based on systematic evaluations showing cyber capabilities doubling in six months; we’d also been tracking real-world cyberattacks, observing how malicious actors were using AI capabilities. While we predicted these capabilities would continue to evolve, what has stood out to us is how quickly they have done so at scale.
In mid-September 2025, we detected suspicious activity that later investigation determined to be a highly sophisticated espionage campaign. The attackers used AI’s “agentic” capabilities to an unprecedented degree—using AI not just as an advisor, but to execute the cyberattacks themselves.
The threat actor—whom we assess with high confidence was a Chinese state-sponsored group—manipulated our Claude Code tool into attempting infiltration into roughly thirty global targets and succeeded in a small number of cases. The operation targeted large tech companies, financial institutions, chemical manufacturing companies, and government agencies. We believe this is the first documented case of a large-scale cyberattack executed without substantial human intervention.
Upon detecting this activity, we immediately launched an investigation to understand its scope and nature. Over the following ten days, as we mapped the severity and full extent of the operation, we banned accounts as they were identified, notified affected entities as appropriate, and coordinated with authorities as we gathered actionable intelligence.
This campaign has substantial implications for cybersecurity in the age of AI “agents”—systems that can be run autonomously for long periods of time and that complete complex tasks largely independent of human intervention. Agents are valuable for everyday work and productivity—but in the wrong hands, they can substantially increase the viability of large-scale cyberattacks.
These attacks are likely to only grow in their effectiveness. To keep pace with this rapidly-advancing threat, we’ve expanded our detection capabilities and developed better classifiers to flag malicious activity. We’re continually working on new methods of investigating and detecting large-scale, distributed attacks like this one.
In the meantime, we’re sharing this case publicly, to help those in industry, government, and the wider research community strengthen their own cyber defenses. We’ll continue to release reports like this regularly, and be transparent about the threats we find.
Read the full report.
How the cyberattack worked
The attack relied on several features of AI models that did not exist, or were in much more nascent form, just a year ago:
The diagram below shows the different phases of the attack, each of which required all three of the above developments:
The lifecycle of the cyberattack, showing the move from human-led targeting to largely AI-driven attacks using various tools (often via the Model Context Protocol; MCP). At various points during the attack, the AI returns to its human operator for review and further direction.
In Phase 1, the human operators chose the relevant targets (for example, the company or government agency to be infiltrated). They then developed an attack framework—a system built to autonomously compromise a chosen target with little human involvement. This framework used Claude Code as an automated tool to carry out cyber operations.
At this point they had to convince Claude—which is extensively trained to avoid harmful behaviors—to engage in the attack. They did so by jailbreaking it, effectively tricking it to bypass its guardrails. They broke down their attacks into small, seemingly innocent tasks that Claude would execute without being provided the full context of their malicious purpose. They also told Claude that it was an employee of a legitimate cybersecurity firm, and was being used in defensive testing.
The attackers then initiated the second phase of the attack, which involved Claude Code inspecting the target organization’s systems and infrastructure and spotting the highest-value databases. Claude was able to perform this reconnaissance in a fraction of the time it would’ve taken a team of human hackers. It then reported back to the human operators with a summary of its findings.
In the next phases of the attack, Claude identified and tested security vulnerabilities in the target organizations’ systems by researching and writing its own exploit code. Having done so, the framework was able to use Claude to harvest credentials (usernames and passwords) that allowed it further access and then extract a large amount of private data, which it categorized according to its intelligence value. The highest-privilege accounts were identified, backdoors were created, and data were exfiltrated with minimal human supervision.
In a final phase, the attackers had Claude produce comprehensive documentation of the attack, creating helpful files of the stolen credentials and the systems analyzed, which would assist the framework in planning the next stage of the threat actor’s cyber operations.
Overall, the threat actor was able to use AI to perform 80-90% of the campaign, with human intervention required only sporadically (perhaps 4-6 critical decision points per hacking campaign). The sheer amount of work performed by the AI would have taken vast amounts of time for a human team. At the peak of its attack, the AI made thousands of requests, often multiple per second—an attack speed that would have been, for human hackers, simply impossible to match.
Claude didn’t always work perfectly. It occasionally hallucinated credentials or claimed to have extracted secret information that was in fact publicly-available. This remains an obstacle to fully autonomous cyberattacks.
Cybersecurity implications
The barriers to performing sophisticated cyberattacks have dropped substantially—and we predict that they’ll continue to do so. With the correct setup, threat actors can now use agentic AI systems for extended periods to do the work of entire teams of experienced hackers: analyzing target systems, producing exploit code, and scanning vast datasets of stolen information more efficiently than any human operator. Less experienced and resourced groups can now potentially perform large-scale attacks of this nature.
This attack is an escalation even on the “vibe hacking” findings we reported this summer: in those operations, humans were very much still in the loop, directing the operations. Here, human involvement was much less frequent, despite the larger scale of the attack. And although we only have visibility into Claude usage, this case study probably reflects consistent patterns of behavior across frontier AI models and demonstrates how threat actors are adapting their operations to exploit today’s most advanced AI capabilities.
This raises an important question: if AI models can be misused for cyberattacks at this scale, why continue to develop and release them? The answer is that the very abilities that allow Claude to be used in these attacks also make it crucial for cyber defense. When sophisticated cyberattacks inevitably occur, our goal is for Claude—into which we’ve built strong safeguards—to assist cybersecurity professionals to detect, disrupt, and prepare for future versions of the attack. Indeed, our Threat Intelligence team used Claude extensively in analyzing the enormous amounts of data generated during this very investigation.
A fundamental change has occurred in cybersecurity. We advise security teams to experiment with applying AI for defense in areas like Security Operations Center automation, threat detection, vulnerability assessment, and incident response. We also advise developers to continue to invest in safeguards across their AI platforms, to prevent adversarial misuse. The techniques described above will doubtless be used by many more attackers—which makes industry threat sharing, improved detection methods, and stronger safety controls all the more critical.
Read the full report.
Edited November 14 2025:
|
|
