๐ ๊ฒ์
"transformer" ๊ฒ์ ๊ฒฐ๊ณผ 13๊ฑด
-
DeepSeek-V4-Pro, HuggingFace ํธ๋ ๋ฉ 1์ โ ๋ค์ด๋ก๋ 580๋ง ํ ๋ํ
DeepSeek์ ์ ํ๋๊ทธ์ญ ๋ชจ๋ธ DeepSeek-V4-Pro๊ฐ HuggingFace์์ ํธ๋ ๋ฉ 1์์ ์ค๋ฅด๋ฉฐ ํญ๋ฐ์ ์ธ ๊ด์ฌ์ ๋ฐ๊ณ ์์ต๋๋ค. ์ถ์ ์งํ ๋ค์ด๋ก๋ 580๋ง ํ, ์ข์์ 4,594๊ฐ๋ฅผ ๊ธฐ๋กํ๋ฉฐ ์ญ๋๊ธ ๋ฐ์์ ๋์ด๋ด๊ณ ์์ต๋๋ค. MIT ๋ผ์ด์ ์ค๋ก ๊ณต๊ฐ๋์ด ์์ ์ ํ์ฉ์ด ์์ ๋กญ๊ณ , fp8 ์ ๋ฐ๋์ 8๋นํธ ์์ํ๋ฅผ ์ง์ํด ๋น๊ต์ ์ ์ VRAM์ผ๋กโฆ
-
DeepSeek-V4-Pro, HuggingFace์์ 580๋ง ๋ค์ด๋ก๋ ๋ํ
DeepSeek์ ์ต์ ๋ชจ๋ธ DeepSeek-V4-Pro๊ฐ HuggingFace ํธ๋ ๋ฉ์ ์ด๋ฆ์ ์ฌ๋ฆฌ๋ฉฐ ํฐ ๊ด์ฌ์ ๋ชจ์์ต๋๋ค. 580๋ง ํ ์ด์์ ๋ค์ด๋ก๋์ 4,500๊ฐ ์ด์์ ์ข์์๋ฅผ ๊ธฐ๋กํ๋ฉฐ ์ด๋ฒ ๋ชฉ๋ก์์ ์๋์ ์ธ ๋ค์ด๋ก๋ ์์น๋ฅผ ๋ณด์ฌ์คฌ์ต๋๋ค. MIT ๋ผ์ด์ ์ค๋ก ๊ณต๊ฐ๋์ด ์์ ์ ํ์ฉ๋ ์์ ๋กญ๊ฒ ๊ฐ๋ฅํ๊ณ , 8-bit ๋ฐ fp8 ์์ํ๋ฅผ ์ง์ํด ๋ค์ํ ํ๋โฆ
-
DeepSeek-V4-Pro, HuggingFace ํธ๋ ๋ฉ 1์ โ ๋ค์ด๋ก๋ 580๋ง ๊ฑด ๋ํ
DeepSeek AI๊ฐ ๊ณต๊ฐํ DeepSeek-V4-Pro๊ฐ HuggingFace ํธ๋ ๋ฉ ์ต์์์ ์ค๋ฅด๋ฉฐ ํญ๋ฐ์ ์ธ ๊ด์ฌ์ ๋ฐ๊ณ ์์ต๋๋ค. ๊ณต๊ฐ ์ดํ ๋ค์ด๋ก๋ ์๊ฐ 580๋ง ๊ฑด์ ๋์ด์ฐ๊ณ ์ข์์๋ 4,493๊ฐ์ ๋ฌํด ํ์ฌ ์ปค๋ฎค๋ํฐ์์ ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ๋ ํ ์คํธ ์์ฑ ๋ชจ๋ธ ์ค ํ๋๋ก ์๋ฆฌ ์ก์์ต๋๋ค. fp8 ๋ฐ 8-bit ์ถ๋ก ์ ์ง์ํด ์๋์ ์ผ๋ก ๊ฐ๋ฒผ์ด ํ๋์จ์ด์์โฆ
-
DeepSeek-V4-Pro ๊ณต๊ฐ ์ฆ์ HuggingFace ํธ๋ ๋ฉ 1์ โ 590๋ง ๋ค์ด๋ก๋ ๋ํ
DeepSeek๊ฐ ์ต์ ๋ชจ๋ธ DeepSeek-V4-Pro๋ฅผ HuggingFace์ ๊ณต๊ฐํ์๋ง์ ๋ค์ด๋ก๋ ์ 590๋ง ํ, ์ข์์ 4,400๊ฐ ์ด์์ ๊ธฐ๋กํ๋ฉฐ ํญ๋ฐ์ ์ธ ๋ฐ์์ ์ป๊ณ ์์ต๋๋ค. MIT ๋ผ์ด์ ์ค๋ก ๊ณต๊ฐ๋์ด ์์ ์ ํ์ฉ๋ ์์ ๋กญ๊ฒ ๊ฐ๋ฅํ๋ค๋ ์ ์ด ํนํ ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค. 8-bit ๋ฐ fp8 ์์ํ๋ฅผ ์ง์ํด ๋ค์ํ ํ๋์จ์ด ํ๊ฒฝ์์๋ ์ ์ฐํ๊ฒ ์ฌ์ฉโฆ
-
LLM์๋ ์๋ฉด ์ค ๊ธฐ์ต ํตํฉ๊ณผ ์ ์ฌํ ๋ฉ์ปค๋์ฆ์ด ๊ฐ๋ฅํ๋ค๋ ์ฐ๊ตฌ ๋ฑ์ฅ
์ธ๊ฐ์ ๋๊ฐ ์ ์๋ ๋์ ๋ฎ์ ๋ฐฐ์ด ์ ๋ณด๋ฅผ ์ฅ๊ธฐ ๊ธฐ์ต์ผ๋ก ์ ๋ฆฌยทํตํฉํ๋ ๊ฒ์ฒ๋ผ, LLM์๋ ๋น์ทํ '์๋ฉดํ ๊ธฐ์ต ํตํฉ(sleep-like consolidation)' ๋ฉ์ปค๋์ฆ์ ์ ์ฉํ ์ ์๋ค๋ ๋ ผ๋ฌธ์ด arxiv์ ๊ณต๊ฐ๋์ต๋๋ค. ์ด ์ฐ๊ตฌ๋ LLM์ด ์๋ก์ด ๋ด์ฉ์ ํ์ตํ ๋ ๊ธฐ์กด์ ์๋ ๊ฒ์ ์์ด๋ฒ๋ฆฌ๋ 'ํ๊ตญ์ ๋ง๊ฐ(catastrophic forgettingโฆ
-
Tencent, ํ๊ตญ์ด ํฌํจ 40๊ฐ ์ธ์ด ์ง์ ๋ฒ์ญ ํนํ LLM 'Hy-MT2' ์๋ฆฌ์ฆ ๊ณต๊ฐ
ํ ์ผํธ๊ฐ 40๊ฐ ์ด์์ ์ธ์ด๋ฅผ ์ง์ํ๋ ๋ฒ์ญ ํนํ LLM ์๋ฆฌ์ฆ Hy-MT2๋ฅผ HuggingFace์ ๊ณต๊ฐํ์ต๋๋ค. 1.8B ํ๋ผ๋ฏธํฐ์ ๊ฒฝ๋ dense ๋ชจ๋ธ(Hy-MT2-1.8B)๊ณผ 30B-A3B ๊ท๋ชจ์ ๋ํ ๋ชจ๋ธ(Hy-MT2-30B-A3B) ๋ ๊ฐ์ง ๋ฒ์ ์ผ๋ก ์ถ์๋์์ต๋๋ค. ํ๊ตญ์ด(ko)๋ฅผ ํฌํจํด ์์ด, ์ค๊ตญ์ด, ์ผ๋ณธ์ด, ์๋์ด, ํ๋์ด ๋ฑ ์ฃผ์ ์ธ์ด๋ฅผ โฆ
-
sapientinc, ๊ณ์ธต์ ์ถ๋ก (Hierarchical Reasoning) ๊ตฌ์กฐ ์ฑํํ ์ธ์ด ๋ชจ๋ธ 'HRM-Text-1B' ๊ณต๊ฐ
sapientinc๊ฐ ๊ณ์ธต์ ์ถ๋ก (Hierarchical Reasoning) ๊ตฌ์กฐ๋ฅผ ๋์ ํ ์๋ก์ด ์ธ์ด ๋ชจ๋ธ HRM-Text-1B๋ฅผ ๊ณต๊ฐํ์ต๋๋ค. ๊ธฐ์กด autoregressive ๋ฐฉ์๊ณผ ๋ฌ๋ฆฌ prefix-LM ์ํคํ ์ฒ๋ฅผ ์ฑํํด ๋ค์ธต์ ์ธ ์ถ๋ก ๋จ๊ณ๋ฅผ ๋ช ์์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๊ฒ์ด ํน์ง์ ๋๋ค. 1B ํ๋ผ๋ฏธํฐ์ ๋น๊ต์ ์์ ๋ชจ๋ธ์์๋ ๋ถ๊ตฌํ๊ณ ๊ณต๊ฐ ์งํ 9๋ง ํ ์ด์โฆ
-
OpenBMB, ์จ๋๋ฐ์ด์ค ๊ฒฝ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ MiniCPM-V-4.6 ์ถ์
OpenBMB๊ฐ ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ๋์์ ์ฒ๋ฆฌํ๋ ๊ฒฝ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ MiniCPM-V ์๋ฆฌ์ฆ์ ์ต์ ๋ฒ์ ์ธ MiniCPM-V-4.6์ ๊ณต๊ฐํ์ต๋๋ค. ์ด ๋ชจ๋ธ์ ์จ๋๋ฐ์ด์ค(On-Device) ํ๊ฒฝ์์์ ์คํ์ ๋ชฉํ๋ก ์ค๊ณ๋ lightweight ๋ชจ๋ธ๋ก, ์ค๋งํธํฐ์ด๋ ์ฃ์ง ๋๋ฐ์ด์ค์ฒ๋ผ ๋ฆฌ์์ค๊ฐ ์ ํ๋ ํ๊ฒฝ์์๋ ๋ฉํฐ๋ชจ๋ฌ AI๋ฅผ ํ์ฉํ ์ ์๋๋ก ์ต์ ํ๋์ด ์โฆ
-
DeepSeek-V4-Pro, HuggingFace ํธ๋ ๋ฉ 1์ ๋ฑ๊ทน
์ค๊ตญ AI ์คํํธ์ DeepSeek๊ฐ ์ ์ ๋ํ ์ธ์ด ๋ชจ๋ธ DeepSeek-V4-Pro๋ฅผ HuggingFace์ ๊ณต๊ฐํ๋ฉฐ ํธ๋ ๋ฉ 1์๋ฅผ ์ฐจ์งํ์ต๋๋ค. ๋์ ๋ค์ด๋ก๋ 276๋ง ํ ์ด์, ์ข์์ 3,972๊ฐ๋ฅผ ๊ธฐ๋กํ๋ฉฐ ์ปค๋ฎค๋ํฐ์ ํญ๋ฐ์ ์ธ ๊ด์ฌ์ ๋ฐ๊ณ ์์ต๋๋ค. MIT ๋ผ์ด์ ์ค๋ก ๊ณต๊ฐ๋์ด ์์ ์ ํ์ฉ์ด ์์ ๋กญ๊ณ , FP8 ๋ฐ 8-bit ์์ํ๋ฅผ ์ง์ํด ๋น๊ต์ ์ ์โฆ
-
Transformer ๋ชจ๋ธ๊ณผ์ ์ํธ์์ฉ: ์๋ก์ด ๋ํ ๋ฐฉ์ ์ ์
"Talking to Transformers"๋ผ๋ ์ฃผ์ ์ ๋ธ๋ก๊ทธ ํฌ์คํธ๊ฐ ์ต๊ทผ ์ฃผ๋ชฉ์ ๋ฐ๊ณ ์์ผ๋ฉฐ, Transformer ๋ชจ๋ธ๊ณผ ์ฌ์ฉ์ ๊ฐ์ ์ํธ์์ฉ ๋ฐฉ์์ ๋ํ ์๋ก์ด ๊ด์ ์ ์ ์ํฉ๋๋ค. Transformer๋ ํ๋ AI์ ๊ธฐ๋ฐ์ ์ด๋ฃจ๋ ํต์ฌ ์ํคํ ์ฒ๋ก, ์ด๋ฌํ ๋ชจ๋ธ๋ค๊ณผ ํจ๊ณผ์ ์ผ๋ก ์ํธ์์ฉํ๋ ๋ฐฉ๋ฒ์ ๊ฐ๋ฐ์๋ค์๊ฒ ๋งค์ฐ ์ค์ํฉ๋๋ค. ์ด ๋ ผ์๋ ํ๋กฌํํธ ์์งโฆ
-
์๊ฐ AI / ML ์ข
ํฉ
4์์ AI ์์ด์ ํธ์ LLM ๊ธฐ์ ์ ์ค๋ฌดํยท๋์คํ๊ฐ ๊ธ์์งํ๋๋ ํํธ, Claude Code ์ ๋ขฐ์ฑ ์๊ธฐ, ๋ณด์ ์นจํด, ์ ์๊ถยท์์ ์ฑ ๋ ผ์ ๋ฑ์ผ๋ก AI ์ฐ์ ์ ๊ทผ๋ณธ์ ๊ณผ์ ๋ค์ด ๋ถ๊ฐ๋ ๋ฌ์ ๋๋ค. ๊ธฐ์ ๋ฐ์ ์ ๊ฐ์ํ์ ์ค๋ฆฌยท์ ์ฑ ์ ์ฐ๋ ค์ ์ฌํ ์ฌ์ด์์ AI ์ฐ์ ์ด ํ ๋จ๊ณ์ ์ ํ๊ธฐ๋ฅผ ๋ง์ดํ๊ณ ์์ต๋๋ค. ## 1. AI ์์ด์ ํธ ๊ธฐ์ ์ ์ค๋ฌดํ ๊ฐ์ํ ๋ฐ ์์ โฆ
-
vLLM: ๊ณ ์ฒ๋ฆฌ๋, ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ์ธ LLM ์ถ๋ก ๋ฐ ์๋น ์์ง
vLLM ํ๋ก์ ํธ๊ฐ 78,000๊ฐ ์ด์์ GitHub ์คํ๋ฅผ ๊ธฐ๋กํ๋ฉฐ LLM ์ถ๋ก ๋ฐ ์๋น ๋ถ์ผ์์ ๊ฐ์ฅ ์ธ๊ธฐ ์๋ ์คํ์์ค ์๋ฃจ์ ์ผ๋ก ์๋ฆฌ์ก์์ต๋๋ค. ์ด ํ๋ก์ ํธ๋ DeepSeek, Qwen, Kimi ๋ฑ ๋ค์ํ ์ต์ ๋ชจ๋ธ์ ์ง์ํ๋ฉฐ, AMD, NVIDIA, TPU ๋ฑ ๋ค์ํ ํ๋์จ์ด์ ์ต์ ํ๋์ด ์์ต๋๋ค. vLLM์ ๊ฐ๋ฐ์๋ค์ด ๋๊ท๋ชจ LLM์ ํจ์จ์ ์ผ๋กโฆ
-
Qwen3.6 ๋ํ ์ธ์ด ๋ชจ๋ธ์ด HuggingFace์์ ์ธ๊ธฐ ํญ๋ฐ
HuggingFace์ ์ต์ ํธ๋ ๋ฉ ๋ชจ๋ธ ๋ชฉ๋ก์ Qwen ์๋ฆฌ์ฆ๋ก ์ ๋ น๋์์ต๋๋ค. ํนํ Qwen3.6-35B-A3B๋ 182๋ง ๋ค์ด๋ก๋๋ฅผ ๊ธฐ๋กํ๋ฉฐ ๊ฐ์ฅ ์ธ๊ธฐ ์๋ ์คํ์์ค LLM์ ๋๋ค. ์ด ๋ชจ๋ธ๋ค์ Vision ๊ธฐ๋ฅ์ด ํตํฉ๋ multimodal ๋ชจ๋ธ๋ก, ์ด๋ฏธ์ง์ ํ ์คํธ๋ฅผ ํจ๊ป ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. Unsloth์ GGUF ์์์ 553๋ง ๋ค์ด๋ก๋๋ฅผ ๊ธฐ๋กํ๋ฉฐโฆ