免费GPT
AI大模型平台
ChatGPT
ChatGPT指南
ChatGPT Prompts
ChatGPT API
进阶到大神
书籍
ChatGpt账号
Midjourney
Midjourney指南
进阶教程
prompt词库
提示词工具
AI写作工具
写作工具
写作提示
内容检测
AI绘画工具
绘画生成
背景替换
图片修复
头像生成
图像设计
绘图社区
LOGO生成
AI-3D生成
AI视频工具
视频生成
文字生成视频
图片生成视频
数字人
制作长视频
视频后期
制作广告视频
AI办公工具
AI办公工具
AI自动生成PPT
AI思维导图
AI智能翻译
AI语音合成
AI好玩有趣
AI社区
算力平台
AI音乐制作
AI游戏应用
AI学习平台
AI装修设计
AI常用工具
AI辅助提示
AI辅助编程
AI流量优化
AI竞赛平台
开放平台
AI优质博文
博客
AI交流社群
商务合作
ChatGPT plugins
文章
首页
•
AI行业动态
•
端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动
端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动
AI行业动态
9个月前发布
ainavi
7,692
0
800
Meta 推出 MobileLLM 系列,一款适用于移动设备上的「小」模型。
「在移动设备上运行 LLM?可能需要 Meta 的一些技巧。」刚刚,图灵奖得主 Yann LeCun 在个人社交平台表示。
他所宣传的这项研究来自 Meta 最新论文《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases 》,在众多作者中也有我们熟悉的来自 Meta FAIR
田渊栋
。
田渊栋
表示:「我们的 MobileLLM 预训练模型(125M/350M),性能达到 SoTA,特别是在聊天 / API 调用方面表现出色。此外,本工作中的一个有趣研究是跨 Transformer 层的
权重
共享,这样不仅节省了
参数
,还减少了推理过程中的延迟。」
论文地址:https://arxiv.org/pdf/2402.14905.pdf
现阶段大
语言模型
(LLM)已经渗透到人类生活的各个方面,尤其是以 ChatGPT 等为代表的模型,这类研究主要在云环境中运行。
然而领先的模型如 ChatGPT4 的
参数
量已经超过了 1 万亿。我们设想这样一个场景,这个场景广泛依赖 LLM,不仅用于前端的会话界面,也用于后端操作,如
推荐系统
,覆盖人类约 5% 的时间。在这一假设场景中,假如以 GPT-4 每秒处理 50 个 token 的速率来计算,则需要部署大约一亿个 H100 GPU,每个 GPU 的计算能力为 60 TFLOPs/s。这种计算规模,还不包括通信和数据传输的开销,就已经与 160 个 Meta 规模的公司相当。随之而来的能源消耗和二氧化碳排放将带来巨大的环境挑战。
因此,最好的解决方案是缩小 LLM 的规模。
此外,在当前的移动技术领域,由于主内存(DRAM)容量的限制,将像 LLaMAv2 7B 这样的 LLM 与 8 位
权重
整合起来代价过高。移动设备中普遍的内存层结构如图 2 所示。随着 DRAM 容量从 iPhone 15 的 6GB 到 Google Pixel 8 Pro 的 12GB 不等,一个移动应用不应超过 DRAM 的 10%,因为 DRAM 需要与
操作系统
和其他应用程序共享。这一要求促进了部署小于十亿
参数
LLM 更进一步的研究。
基于上述考量,来自 Meta 的研究者专注于设计
参数
少于十亿的高质量 LLM,这是在移动端部署 LLM 比较好的解决方案。
与强调数据和
参数
数量在决定模型质量方面的关键作用的普遍观点相反,Meta 强调了模型架构对少于十亿(sub-billion)规模 LLM 的重要性。
基于深而窄的架构,加上嵌入共享和分组
查询
注意力机制
,Meta 建立了一个强大的基线网络,称为 MobileLLM,与之前的 125M/350M 最先进模型相比,其
准确率
显著提高了 2.7%/4.3% 。这也说明了与缩放定律(scaling law)相反,该研究证明对于小型 LLM 来说深度比宽度更重要,一个深而窄的模型结构在捕获抽象概念方面更为出色。
此外,Meta 还提出了一种及时逐块
权重
共享( immediate block-wise weight sharing)方法,该方法不会增加模型大小,所得模型表示为 MobileLLM-LS,其
准确率
比 MobileLLM 125M/350M 进一步提高了 0.7%/0.8%。此外,在下游任务中,例如 Chat 和 API 调用,MobileLLM 模型家族显著优于同等规模的模型。在 API 调用任务中,与规模较大的 LLaMA-v2 7B 相比,MobileLLM 甚至实现了相媲美的分数。
看到这项研究后,网友纷纷表示「我们应该向 Meta 致敬,很高兴看到这个领域的活跃玩家。该机构通过使用低于 10 亿
参数
的模型,并且 350M 8 位模型的能源消耗仅为 0.035 J/token ,要是部署在 iPhone 上的话,可以支持用户一整天的会话使用。」
改进十亿以下
参数
规模的 LLM 设计
研究者介绍了从十亿以下
参数
规模的基线模型到新的 SOTA 模型的演进之路(如下图 3 所示)。他们分别研究了 125M 和 350M
参数
规模的模型,并在这两个规模下展示了一致的改进。对于模型尺寸成为主要制约因素的设备用例而言,如何有效地分配有限的
权重
参数
变得比以往更加重要。
研究者首先通过测试四种有益于十亿以下规模 LLM 的模型设计方法,提出了一个名为MobileLLM 的强大基线模型。这四种模型设计方法包括 1)采用 SwiGLU FFN,2)强制使用深和薄的架构,3)重新审视嵌入共享方法,4)利用分组
查询
注意力。
接下来,研究者开发了一种直接的逐块层共享方法,基于该方法可以进一步提高准确度,而不产生任何额外的内存开销,并在内存有限的 LM 解码过程中产生很小的延迟开销。他们将具有层共享的模型表示为 MobileLLM-LS。
训练设置
研究者在 32 个 A100 GPU 上进行实验,其中每个 GPU 的批大小为 32。他们在 0.25T 的 tokens 上执行了 120k 次迭代的探索性实验。下文中表 3 和表 4 报告了在 1T 的 tokens 上执行 480k 次迭代训练的 top 模型。
层共享
关于层深度与宽度影响的研究结果表明,更深的层有利于小型 transformer 模型。这促使本文研究层共享作为增加隐藏层数量而不增加存储成本的策略。这种方法在模型大小成为主要制约因素的场景中尤其有用。
令人惊讶的是,实验结果表明,通过简单地复制 transformer 块就可以提高准确度而无需任何架构修改或扩大模型尺寸。研究者进一步探究三种不同的
权重
共享策略,具体如下图 6 所示。
下表 2 结果表明,重复层共享策略在立即块重复、全面重复(repeat all-over)和反向共享策略中产生了最佳性能。
不过,考虑到硬件内存的层级结构(如图 2),用于计算的 SRAM 通常限制在了 20M 左右。该容量通常仅够容纳单个 transformer 块。因此,将共享
权重
放入缓存中并立即计算两次则无需在 SRAM 和 DRAM 之间传输
权重
,提高了自回归推理的整体执行速度。
研究者在模型设计中选择了直接的
分块
共享策略,并将提出的带有层共享的模型表示为 MobileLLM-LS。
实验结果
该研究进行实验比较了模型在零样本(zero-shot)
常识推理
任务、问答和阅读理解任务上的性能。
零样本
常识推理
任务的实验结果如下表 3 所示:
在问答和阅读理解任务上,该研究采用 TQA 问答
基准
和 RACE 阅读理解
基准
来评估预训练模型,实验结果如下表 4 所示:
为了验证将模型用于设备上应用程序的有效性,该研究评估了模型在两个关键任务上的性能:聊天和 API 调用。
针对聊天任务,该研究在两个
基准
上进行了评估实验:AlpacaEval(单轮聊天
基准
)和 MT-Bench(多轮聊天
基准
),实验结果如下表 5 所示:
在 API 调用方面,如下表 6 所示,MobileLLM-350M 表现出与 LLaMA-v2 7B 相当的 EM_intent 和 EM_structure,其中 EM_intent 越高,表明模型对用户计划调用 API 的预测就越准确,而 EM_structure 反映了预测 API 函数内内容的熟练程度。
该研究进一步在 MobileLLM 和 MobileLLM-LS 模型上针对每个 token 进行最小 / 最大训练后
量化
(PTQ) 实验,模型大小分别为 125M 和 350M,在 0.25T token 上进行训练,实验结果如下图 7 所示:
模型加载、初始化和执行时间如下表 7 所示:
更多技术细节请参阅原论文。
# AI行业动态
©
版权声明
文章版权归作者所有,未经允许请勿转载。
关注公众号,免费获取chatgpt账号
上一篇
谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?
下一篇
Mistral AI新模型对标GPT-4,不开源且与微软合作,网友:忘了初心
相关文章
AI芯片创企银牛微电子完成超5亿元A轮融资
阿里大模型又开源!能读图会识物,基于通义千问7B打造,可商用
目标智能体社会,MetaGPT携手Jürgen Schmidhuber团队
一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了
生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了
OpenAI允许员工出售股份,交易后估值超800亿,Altman在线招人
暂无评论
暂无评论...
相关文章
无需开颅将ChatGPT植入大脑,这家比尔·盖茨支持的AI硬件公司,要挑战马斯克脑机接口
ChatGPT 的 AI 搜索正式上线!即将免费可用,实测后我们发现了这些细节
不出所料!Jürgen又站出来反对Hinton得诺奖,Nature也炮轰提名过程不透明
万字实录 | 杨植麟、姜大昕、朱军现场激辩!国产 AI 巨头对 o1 模型和行业的深度思考
ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略
热门标签
Chatgpt
(21)
ai
(20)
AI绘画
(13)
AI应用
(11)
ai画画
(10)
AI游戏
(10)
人工智能
(9)
chatgpt
(9)
Midjourney
(8)
自动生成视频
(7)
AI写作
(6)
算力平台
(6)
AI行业动态
(6)
AI科研
(6)
AI文本写作
(5)
openai
(5)
AI写作助手
(5)
chatgpt-api
(5)
Ai视频生成
(5)
聊天机器人
(5)
广告位
常用
搜索
工具
社区
生活
常用
百度
Google
站内
淘宝
Bing
搜索
百度
Google
360
搜狗
Bing
神马
工具
权重查询
友链检测
备案查询
SEO查询
关键词挖掘
素材搜索
大数据词云
社区
知乎
微信
微博
豆瓣
搜外问答
生活
淘宝
京东
下厨房
香哈菜谱
12306
快递100
去哪儿
热门推荐:
AI交流社群
AI最新资讯
ChatGPT指南
Midjourney指南