๐ ๊ฒ์
"interpretability" ๊ฒ์ ๊ฒฐ๊ณผ 3๊ฑด
-
DeepSeek-V4-Flash๋ก LLM ์คํฐ์ด๋ง ์ฐ๊ตฌ๊ฐ ๋ค์ ์ฃผ๋ชฉ๋ฐ๋ค
DeepSeek-V4-Flash ๋ชจ๋ธ์ ๋ฑ์ฅ์ด ํ๋์ ์นจ์ฒด๋๋ LLM ์คํฐ์ด๋ง(steering) ๋ฒกํฐ ์ฐ๊ตฌ์ ๋ค์ ๋ถ์ ์งํ๋ค๋ ๊ธฐ์ ์ํฐํด์ ๋๋ค(HN ์ ์ 160, ๋๊ธ 59๊ฐ). LLM ์คํฐ์ด๋ง์ด๋ ๋ชจ๋ธ ๋ด๋ถ์ activation(ํ์ฑํ ๊ฐ)์ ์ง์ ํน์ ๋ฒกํฐ๋ฅผ ๋ํ๊ฑฐ๋ ๋นผ์ ์ถ๋ ฅ ๋ฐฉํฅ์ ์ํ๋ ๋๋ก ์ ๋ํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด '๋ถ๋ ธ' ๋ฐฉํฅ์ ๋ฒกํฐโฆ
-
Claude๊ฐ '์'๋ฅผ ์ดํดํ๋๋ก ๊ฐ๋ฅด์น๊ธฐ - Anthropic์ ์๋ก์ด ์ฐ๊ตฌ
Anthropic์ด ๋ฐํํ ์ด๋ฒ ์ฐ๊ตฌ๋ Claude AI๊ฐ ๋จ์ํ ๋ต๋ณ๋ง ์ ์ํ๋ ๊ฒ์ ๋์ด ์ถ๋ก ์ ๊ทผ๊ฑฐ์ ๋ ผ๋ฆฌ ๊ณผ์ ์ ๋ช ํํ ์ค๋ช ํ ์ ์๋๋ก ํ๋ ๊ธฐ์ ์ ๋ค๋ฃน๋๋ค. ์ด๋ AI์ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ์ฌ์ฉ์๊ฐ ์ดํดํ ์ ์๊ฒ ํจ์ผ๋ก์จ ์ ๋ขฐ์ฑ๊ณผ ํฌ๋ช ์ฑ์ ํ๊ธฐ์ ์ผ๋ก ๋์ด๋ ์ง์ ์ ๋๋ค. ์์ผ๋ก ์๋ฃ, ๋ฒ๋ฅ , ๊ธ์ต ๋ฑ ์ ๋ขฐ๊ฐ ์ค์ํ ๋ถ์ผ์์ AI ๋์ ์ด ํ์ธต ์์ํด์งโฆ
-
Claude์ ์๊ฐ์ ํ
์คํธ๋ก ๋ณํํ๋ ์์ฐ์ด ์๋์ธ์ฝ๋
Anthropic์ด ๋ฐํํ Natural Language Autoencoders ์ฐ๊ตฌ๋ Claude ๊ฐ์ ๋ํ์ธ์ด๋ชจ๋ธ(LLM)์ ๋ด๋ถ ์ฌ๊ณ ๊ณผ์ ์ ํด์ ๊ฐ๋ฅํ ํ ์คํธ๋ก ๋ณํํ๋ ๊ธฐ์ ์ ๋๋ค. ์ด ๊ธฐ์ ์ AI ๋ชจ๋ธ์ '๋ธ๋๋ฐ์ค' ํน์ฑ์ ํด๊ฒฐํ๋ ค๋ ํด์๊ฐ๋ฅ์ฑ(interpretability) ๋ถ์ผ์ ์ค์ํ ์ง์ ์ ๋๋ค. ๋ชจ๋ธ์ด ์ด๋ป๊ฒ ์๊ฐํ๊ณ ๊ฒฐ์ ํ๋์ง๋ฅผ ๋ ์ ์ดโฆ