해커들, AI 챗봇의 '성격'을 역이용하는 공격 방식 학습 중
The Verge의 주간 칼럼 'The Stepback'에서 AI 챗봇 보안의 새로운 흐름을 조명했습니다. 초기 AI 해킹이 단순한 프롬프트 인젝션(prompt injection)에 그쳤다면, 이제는 각 AI 모델이 가진 고유한 성격과 행동 패턴 자체를 공략하는 방식으로 진화하고 있습니다. 특정 모델이 '도움을 주려는 성향'이나 '특정 역할극에 몰입하는 특성'을 이용해 의도하지 않은 응답을 유도하는 것이 핵심입니다. 이는 단순히 필터를 우회하는 수준을 넘어, AI 시스템 설계 자체의 구조적 취약점을 파고드는 문제라 방어가 더 어렵습니다. AI가 폭넓게 배포될수록 이런 공격 벡터는 더욱 다양해질 것으로 보입니다.