🤖 AI / ML 일간 2026-05-26 06:01

ByteDance, 이미지·영상 생성·편집·이해 통합 멀티모달 모델 'Lance' 공개

바이트댄스 리서치팀이 이미지 생성, 영상 생성, 이미지 편집, 영상 이해를 하나의 모델로 처리하는 멀티모달 모델 Lance를 HuggingFace에 공개했습니다. 기반 모델로 Qwen2.5-VL-3B-Instruct를 활용하며, any-to-any 파이프라인을 통해 텍스트·이미지·영상을 자유롭게 입출력할 수 있다는 점이 핵심입니다. 기존에는 이미지 생성, 영상 생성, 편집, 이해를 각각 별도 모델로 처리해야 했지만, Lance는 이를 단일 모델로 통합했습니다. Apache-2.0 라이선스로 공개되어 연구 및 상업적 활용이 모두 가능하며, 관련 논문은 arXiv:2605.18678에서 확인할 수 있습니다. 공개 직후 800개 이상의 좋아요를 기록하며 커뮤니티에서 빠르게 주목받았습니다. 멀티모달 태스크를 하나의 워크플로우로 처리해야 하는 AI 개발자에게 특히 유용한 모델로 평가받고 있습니다.

키워드

Lance safetensors multimodal image-generation video-generation image-editing video-understanding any-to-any license:apache-2.0

출처

https://huggingface.co/bytedance-research/Lance

← 리스트로