Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

发布时间:2025-01-27 11:22:09 来源:互联网

本站 1 月 26 日消息,Hugging Face 发布了两款全新多模态模型SmolVLM-256M和SmolVLM-500M,其中SmolVLM-256M号称是世界上最小的视觉语言模型(Video Language Model)。

据悉,相应模型主要基于 Hugging Face团队去年训练的 80B参数模型蒸馏而成,号称在性能和资源需求之间实现了平衡,官方称 SmolVLM-256M / 500M 两款模型均可“开箱即用”,可以直接部署在transformer MLX和ONNX平台上。

具体技术层面,SmolVLM-256M / 500M 两款模型均采用SigLIP作为图片编码器,使用 SmolLM2作为文本编码器。其中 SmolVLM-256M是目前最小的多模态模型,可以接受任意序列的图片和文本输入并生成文字输出,该模型功能包括描述图片内容、为短视频生成字幕、处理PDF 等。Hugging Face 称由于该模型整体轻巧,可在移动平台轻松运行,仅需不到1GB的GPU显存便可在单张图片上完成推理。

而 SmolVLM-500M针对需要更高性能的场景而设计,Hugging Face称相关模型非常适合部署在企业运营环境中,该模型推理单张图片仅需1.23GB的GPU显存,相对 SmolVLM-256M 虽然负载更大,但推理输出的内容更精准。

本站注意到,两款模型均采用Apache 2.0开源授权,研究团队提供了基于transformer和WebGUI的示例程序。所有模型及其演示已公开便于开发者下载和使用,具体页面可(点此访问)。

本周热门攻略

1
“大伯1v3”现象的背后是什么?它如何改变我们对年长者的看法?

“大伯1v3”现象的背后是什么?它如何改变我们对年长者的看法?

2024/11/08

2
公翁的大龟挺进秀婷苏玥之间有何秘密?神秘联系重新揭晓

公翁的大龟挺进秀婷苏玥之间有何秘密?神秘联系重新揭晓

2025/01/15

3
亚欧一二三四区:区域划分与国际合作的深远影响

亚欧一二三四区:区域划分与国际合作的深远影响

2024/11/07

4
如何从DNA和RNA的杂交片段中获得信息?

如何从DNA和RNA的杂交片段中获得信息?

2024/10/13

5
别c我 啊 嗯,上课了,第九章的日本汉字教学为何如此重要?如何更有效地学习和理解汉字的深层次含义?

别c我 啊 嗯,上课了,第九章的日本汉字教学为何如此重要?如何更有效地学习和理解汉字的深层次含义?

2025/01/16

6
千百lu改名背后的原因及其品牌战略分析

千百lu改名背后的原因及其品牌战略分析

2025/01/17

7
黑网曝光吃瓜泄密事件:谁是幕后黑手?汉字秘密如何被泄露?

黑网曝光吃瓜泄密事件:谁是幕后黑手?汉字秘密如何被泄露?

2025/01/17

8
“17.c18-起草”是什么意思?——解析与探索

“17.c18-起草”是什么意思?——解析与探索

2024/12/10

9
杂伦大乱烩:H高小说背后的文化冲突与道德疑问

杂伦大乱烩:H高小说背后的文化冲突与道德疑问

2025/01/22

10
黑土ちゃんが脚法娴熟啥梗出处,火影忍者黑土为什么被称为腿影

黑土ちゃんが脚法娴熟啥梗出处,火影忍者黑土为什么被称为腿影

2024/11/01