不错过全球AI革新的每一个时刻
引言 随着人工智能技术的快速发展,个人和企业对AI助手的需求日益增长。传统的云端AI服务虽然强大,但在隐私保护、响应速度和离线可用性方面存在局限性。OpenClaw(原Clawdbot)应运而生,作为一个革命性的本地AI编排平台,为用户提供了一个全新的AI助手体验模式。 OpenClaw的核心理念 OpenClaw的设计哲学建立在"本地优先"的基础上,它允许用户在自己的设备上运行AI模型,同时提供强大的编排能力来协调多个AI工具和服务。这种架...
核心洞察:为什么灵巧手比行走更难? 通过观察2023-2025年机器人行业实践,我们发现:机器人行走需要解决的是"稳定性"问题,而灵巧手需要解决的是"精细操作"问题。人手拥有27个自由度,而机器人灵巧手通常需要6个以上,高端产品可达20-27个。灵巧手的控制难度是机器人行走的10倍以上,这也是为什么灵巧手价格远高于机器人整机的原因。 "不可能三角"的行业实践解读 在机器人灵巧手领域,一直存在一个"不可能三角":性能、成本、...
人形机器人2025量产,特斯拉、Figure AI领跑,B端工业应用加速。 (1)人形机器人:孕育下一个百倍机会的温床 人形机器人产业正处在从研发演示向量产落地的关键拐点。 基于当前头部企业如特斯拉( Optimus 计划 2026 年量产)、 Figure AI 及国内优必选等的量产规划, 2025-2026 年被视为产业规模化验证与商业化加速的关键窗口期。 当前人形机器人 呈现出“ 硬件降本 ”&...
GO-1是什么 GO-1(Genie Operator-1,智元启元大模型)是智元机器人推出的首个通用具身基座模型。模型采用Vision-Language-Latent-Action(ViLLA)架构,由VLM(多模态大模型)和MoE(混合专家)组成。VLM借助海量互联网图文数据,赋予模型通用场景感知和语言理解能力;MoE中的Latent Planner(隐式规划器)通过大量跨本体和人类操作视频数据,获得通用的动作理解能力;Action Expert(动作专家)则基于百万真机数据,实现精细...
开源 2.0 :变脸堪比整容 等了一百多天,悬念终于揭晓。 9 月 13 日上午,蚂蚁集团开源团队(「开源技术增长」)携《 2025大模型开源开发生态全景图 》2.0 版,亮相上海外滩大会。 三个月前,「一场直播中的『现实世界的黑客松 』(A Real-world Hackathon )」的断言,今天依然成立—— 彼时「撕拉片」记录下生态初现的模样,而今,已经大变样。 访问地址:https://antoss-landscape.my.canva.site/ 这一...
8月的AI应用榜单出来了,乍一看,多少有点魔幻。 一边,是聊天机器人赛道锣鼓喧天,用户数以亿计,豆包、DeepSeek们几乎成了手机里的新“基建”;另一边,是图片视频应用闷声发大财,在收入榜上遥遥领先,把流量巨头们远远甩在身后。 一半是海水,一半是火焰。如果你还看不懂这个局,那你可能还没真正理解AI应用落地的残酷真相。 “美貌”依然是第一生产力,而且更贵了 我们先来看火热的“火焰”——收入榜。 中国AI应用收入排行榜TOP30...
视觉语言模型 (VLM) 能够支持文本输入的同时进行视觉理解。它们通常是通过将视觉 token 从预训练的视觉编码器通过投影层传递到预训练的大型语言模型 (LLM) 来构建的。通过利用视觉编码器丰富的视觉表征以及 LLM 的世界知识和推理能力,VLM 可以广泛应用于各种应用,包括无障碍助手、UI 导航、机器人技术和游戏。 VLM 的准确度通常会随着输入图像分辨率的提高而提升,因此需要在准确度和效率之间做出权衡。对于许多生产用例而言...
能看懂视频并进行跨模态推理的大模型Keye-VL 1.5,快手开源了。 相比此前的预览版本,Keye-VL 1.5的时序定位能力进一步升级,并且支持跨模态推理。 还创新性地提出Slow-Fast双路编码机制,给模型带来了128k的超长上下文窗口,而且速度与细节兼顾。 成绩上,不仅在Video-MME短视频基准斩获73.0的高分,还在通用、视频和推理场景的大量Benchmark当中领跑同级模型。 视频元素0.1秒级定位,还支持推理 要说Keye-VL-1.5最大的亮点,...
Junie是什么 Junie 是 JetBrains 推出的AI编程助手,通过 AI 技术帮助开发者更高效地完成编程任务。能理解项目上下文,提供智能代码补全、多行代码生成、单元测试生成等功能。Junie 支持跨语言开发,可一键将代码转换为不同语言。Junie 的核心优势在于深度集成 JetBrains IDE(如 IntelliJ IDEA 和 PyCharm),结合了专有的大语言模型(LLM),具备上下文感知能力,能根据项目需求提供精准的代码建议。 Junie的主要功能 如何使...
最强实时语音模型支持笑声捕捉、无缝切换语言。 智东西8月29日消息,今天凌晨,OpenAI发布为开发人员打造的语音转语音模型GPT-RealTime,并同步更新了包括远程MCP服务器支持、图像输入和SIP(通过会话发起协议)电话呼叫支持的API功能。 OpenAI称这是其迄今为止最先进的语音合成模型,GPT-RealTime在遵循复杂指令、精确调用工具以及生成更自然、更具表现力的语音方面有所改进。该模型可以自然朗读重复的字母、数字,无缝切换语...
OmniHuman-1.5是什么 OmniHuman-1.5 字节推出的先进的AI模型,能从单张图片和语音轨道生成富有表现力的数字人动画。模型基于双重系统认知理论,融合多模态大语言模型和扩散变换器,模拟人类的深思熟虑和直觉反应。模型能生成动态的多角色动画,支持通过文本提示进行细化,实现更精准的动画效果。OmniHuman-1.5 的动画具有复杂的角色互动和丰富的情感表现,为动画制作和数字内容创作带来全新的可能性,大大提升创作效率和表现力...
来源: DeepSeek官网 今天,我们正式发布 DeepSeek-V3.1。本次升级包含以下主要变化: 官方 App 与网页端模型已同步升级为 DeepSeek-V3.1。用户可以通过“深度思考”按钮,实现思考模式与非思考模式的自由切换。 DeepSeek API 也已同步升级,deepseek-chat 对应非思考模式,deepseek-reasoner 对应思考模式,且上下文均已扩展为 128K。同时,API Beta 接口支持了 strict 模式的 Function Calling,...
返回顶部