FastVLM：高效视觉语言模型，加速多模态AI推理与应用

2025-09-16

苹果推出的视频识别模型：FastVLM，让AI有了眼睛

视觉语言模型 (VLM) 能够支持文本输入的同时进行视觉理解。它们通常是通过将视觉 token 从预训练的视觉编码器通过投影层传递到预训练的大型语言模型 (LLM) 来构建的。通过利用视觉编码器丰富的视觉表征以及 LLM 的世界知识和推理能力，VLM 可以广泛应用于各种应用，包括无障碍助手、UI 导航、机器人技术和游戏。 VLM 的准确度通常会随着输入图像分辨率的提高而提升，因此需要在准确度和效率之间做出权衡。对于许多生产用例而言...