Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M-顺佳手游网

本站 1 月 26 日消息，Hugging Face 发布了两款全新多模态模型SmolVLM-256M和SmolVLM-500M，其中SmolVLM-256M号称是世界上最小的视觉语言模型（Video Language Model）。

据悉，相应模型主要基于 Hugging Face团队去年训练的 80B参数模型蒸馏而成，号称在性能和资源需求之间实现了平衡，官方称 SmolVLM-256M / 500M 两款模型均可“开箱即用”，可以直接部署在transformer MLX和ONNX平台上。

具体技术层面，SmolVLM-256M / 500M 两款模型均采用SigLIP作为图片编码器，使用 SmolLM2作为文本编码器。其中 SmolVLM-256M是目前最小的多模态模型，可以接受任意序列的图片和文本输入并生成文字输出，该模型功能包括描述图片内容、为短视频生成字幕、处理PDF 等。Hugging Face 称由于该模型整体轻巧，可在移动平台轻松运行，仅需不到1GB的GPU显存便可在单张图片上完成推理。

而 SmolVLM-500M针对需要更高性能的场景而设计，Hugging Face称相关模型非常适合部署在企业运营环境中，该模型推理单张图片仅需1.23GB的GPU显存，相对 SmolVLM-256M 虽然负载更大，但推理输出的内容更精准。

本站注意到，两款模型均采用Apache 2.0开源授权，研究团队提供了基于transformer和WebGUI的示例程序。所有模型及其演示已公开便于开发者下载和使用，具体页面可（点此访问）。

Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

1

“大伯1v3”现象的背后是什么？它如何改变我们对年长者的看法？

“大伯1v3”现象的背后是什么？它如何改变我们对年长者的看法？
2024/11/08

2

公翁的大龟挺进秀婷苏玥之间有何秘密？神秘联系重新揭晓

公翁的大龟挺进秀婷苏玥之间有何秘密？神秘联系重新揭晓
2025/01/15

3

亚欧一二三四区：区域划分与国际合作的深远影响

亚欧一二三四区：区域划分与国际合作的深远影响
2024/11/07

4

如何从DNA和RNA的杂交片段中获得信息？

如何从DNA和RNA的杂交片段中获得信息？
2024/10/13

5

别c我啊嗯，上课了，第九章的日本汉字教学为何如此重要？如何更有效地学习和理解汉字的深层次含义？

别c我啊嗯，上课了，第九章的日本汉字教学为何如此重要？如何更有效地学习和理解汉字的深层次含义？
2025/01/16

6

千百lu改名背后的原因及其品牌战略分析

千百lu改名背后的原因及其品牌战略分析
2025/01/17

7

黑网曝光吃瓜泄密事件：谁是幕后黑手？汉字秘密如何被泄露？

黑网曝光吃瓜泄密事件：谁是幕后黑手？汉字秘密如何被泄露？
2025/01/17

8

“17.c18-起草”是什么意思？——解析与探索

“17.c18-起草”是什么意思？——解析与探索
2024/12/10

9

杂伦大乱烩：H高小说背后的文化冲突与道德疑问

杂伦大乱烩：H高小说背后的文化冲突与道德疑问
2025/01/22

10

黑土ちゃんが脚法娴熟啥梗出处，火影忍者黑土为什么被称为腿影

黑土ちゃんが脚法娴熟啥梗出处，火影忍者黑土为什么被称为腿影
2024/11/01

小狗今天草到主人了吗？这部小说背后隐藏了哪些温暖的故事？

做瑷瑷的视频最经典十首歌曲是哪些？网友必搜的流行旋律解读

宋家日常3pH中有哪些温馨幽默的家庭故事？

为什么黄游在当今游戏市场中如此受欢迎？

最近2018年手机中文字幕版为什么会成为观众的新宠？

解锁九幺免费版APP：超高速加载体验

在大地电影资源第二页上，你能找到哪些值得一看的影片？

大叔看上女儿的闺蜜，这部韩剧的主角到底是谁？

“大伯1v3”现象的背后是什么？它如何改变我们对年长者的看法？

女人金毛狗发生关系应该怎么处理？