GO-1 – 智元机器人推出的首个通用具身基座模型

GO-1是什么 GO-1(Genie Operator-1,智元启元大模型)是智元机器人推出的首个通用具身基座模型。模型采用Vision-Language-Latent-Action(ViLLA)架构,由VLM(多模态大模型)和MoE(混合专家)组成。VLM借助海量互联网图文数据,赋予模型通用场景感知和语言理解能力;MoE中的Latent Planner(隐式规划器)通过大量跨本体和人类操作视频数据,获得通用的动作理解能力;Action Expert(动作专家)则基于百万真机数据,实现精细...

视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理

能看懂视频并进行跨模态推理的大模型Keye-VL 1.5,快手开源了。 相比此前的预览版本,Keye-VL 1.5的时序定位能力进一步升级,并且支持跨模态推理。 还创新性地提出Slow-Fast双路编码机制,给模型带来了128k的超长上下文窗口,而且速度与细节兼顾。 成绩上,不仅在Video-MME短视频基准斩获73.0的高分,还在通用、视频和推理场景的大量Benchmark当中领跑同级模型。 视频元素0.1秒级定位,还支持推理 要说Keye-VL-1.5最大的亮点,...

美团首个开源大模型来了!5600亿个参数,推理速度比DeepSeek-V3快50%

昨日,美团发布了其首款开源大模型LongCat-Flash,这是一款拥有5600亿个总参数的MoE(混合专家)模型。 推理速度是这一模型最大的特点之一。美团称,这一模型具备快捷连接架构,扩展了计算-通信重叠窗口,实现了每秒超过100个token的推理速度,理论每token输出时间相比DeepSeek-V3降低近50%。 智东西的实测也印证了这点:我们要求其输出大约100个token的内容,除去首token延时后,输出速度确实在100 tokens/秒左右。 动图封面 L...