DeepSeek-V4-Flash로 LLM 스티어링 연구가 다시 주목받다
DeepSeek-V4-Flash 모델의 등장이 한동안 침체됐던 LLM 스티어링(steering) 벡터 연구에 다시 불을 지폈다는 기술 아티클입니다(HN 점수 160, 댓글 59개). LLM 스티어링이란 모델 내부의 activation(활성화 값)에 직접 특정 벡터를 더하거나 빼서 출력 방향을 원하는 대로 유도하는 기법입니다. 예를 들어 '분노' 방향의 벡터를 빼면 모델이 더 차분하게 답변하도록 만드는 식입니다. 이전 세대 모델에서는 효과가 들쭉날쭉했는데, DeepSeek-V4-Flash는 내부 표현이 더 선형적이고 일관적이어서 스티어링 기법이 훨씬 잘 작동한다는 분석입니다. AI 모델의 내부 동작을 이해하는 interpretability(해석 가능성) 연구와 맞닿아 있어, 안전하고 제어 가능한 AI를 만들고 싶은 연구자들에게 반가운 소식입니다.