大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一

去年,在加速大语言模型推理层面,我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。如今,关于 Medusa 终于有了完整技术...

买个机器人端茶倒水有希望了?Meta、纽约大学造了一个OK-Robot

如果有个这样的机器人,你几点回家?「xx,去把电视柜上的遥控器帮我拿过来。」在一个家庭环境中,很多家庭成员都不免被支使干这种活儿。甚至有时候,宠物狗...

首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024

能够有效实现多模态交叉提示跟踪。目标跟踪是计算机视觉的一项基础视觉任务,由于计算机视觉的快速发展,单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到...

画个框、输入文字,面包即刻出现:AI开始在3D场景「无中生有」了

现在,通过文本提示和一个 2D 边界框,我们就能在 3D 场景中生成对象。看到下面这张图了没?一开始,盘子里是没有东西的,但当你在托盘上画个框,然后在文本...

Yann LeCun:生成模型不适合处理视频,AI得在抽象空间中进行预测

AI 理解视频不能依靠在像素空间中预测。在互联网文本数据即将枯竭之际,很多 AI 研究者将目光转向了视频。但如何让 AI 理解视频数据成了新的难题。在 2024 世...

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称...

MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数

性能与 Mamba 一样,但所需训练步骤数却少 2.2 倍。状态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术,其优势是能在长上下文任务上实现线性时...

有了这块活地板,成为VR届的「街溜子」

给 VR 系统加了新维度。还记得电视剧《三体》里面汪淼他们用来打游戏的 V 装具吗?和最近苹果发布的 Vision Pro 相比,这套近未来的虚拟现实(VR)设备还多了...

无需训练实现价值观实时动态对齐:上交开源价值观对齐方法OPO,闭源与开源大模型均适用

随着人工智能技术的发展,以 GPT-4 为代表的大语言模型依靠其强大的能力正在对社会产生深远的影响。与此同时,大模型本身的安全性问题也变得尤为重要。如何确...

ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集

作者 | 田宇编辑 | 白菜叶近年来,人工智能模型的公平性问题受到了越来越多的关注,尤其是在医学领域,因为医学模型的公平性对人们的健康和生命至关重要。高...
1 45 46 47 48 49 196