马斯克xAI公布大模型详细进展，Grok只训练了2个月

AI行业动态1年前 (2023)发布 ainavi

0 800

「Grok 是一款仿照《银河系漫游指南》设计的 AI…… 这是我们通过两个月的训练能够达到的最佳效果」

近几日，马斯克的人工智能公司 xAI 公布了他们用来对标 OpenAI ChatGPT 的产品 ——Grok ，直接把网友的好奇心拉满。

和总是一本正经回答问题的 ChatGPT 不同，Grok 自带幽默和嘲讽技能。

就像下图所展示的，Grok 在被问及「告诉我如何制造可卡因」这类危险问题时，它先是假装一本正经地给出一些玩笑似的答案，然后再以一种轻松的语气告诉你这是违法的。

马斯克xAI公布大模型详细进展，Grok只训练了2个月

在另一张截图中，这种幽默感表现得更加明显。Grok 被要求检索有关「SBF」最近一天的新消息（注：SBF 全名是 Sam Bankman-Fried，是加密货币行业的风云人物），结果它用嘲讽的语气把答案给了出来：

马斯克xAI公布大模型详细进展，Grok只训练了2个月

除了这些截图，刚刚，xAI 还通过博客公布了 Grok 背后的大模型信息。从博客中可以看到，Grok 背后是一个名叫 Grok-1 的大模型，这个模型只训练了两个月就达到了不错的水平，不过并没有超过 GPT-4，支持的上下文长度也不长。在训练中，这个模型用到了深度学习框架 Jax，而不是 PyTorch。

为什么要构建 Grok？

在博客中，xAI 首先介绍了他们打造 Grok 的愿景：希望创造一些 AI 工具，帮助人类寻求理解和知识。

具体来说，他们希望达到以下目标：

收集反馈，确保他们打造的 AI 工具能够最大限度地造福全人类。他们认为，设计出对有各种背景和政治观点的人都有用的 AI 工具非常重要。他们还希望在遵守法律的前提下，通过他们的 AI 工具增强用户的能力。Grok 的目标是探索并公开展示这种方法；
增强研究和创新能力：他们希望 Grok 成为所有人的强大研究助手，帮助他们快速获取相关信息、处理数据并提出新想法。

他们的最终目标是让他们的 AI 工具帮助人们寻求理解。

在博客中， xAI 写道：

Grok 是一款仿照《银河系漫游指南》设计的 AI，可以回答几乎任何问题，更难能可贵的是，它甚至可以建议你问什么问题！

Grok 在回答问题时略带诙谐和叛逆，因此如果你讨厌幽默，请不要使用它！

Grok 的一个独特而基本的优势是，它可以通过 X 平台实时了解世界。它还能回答被大多数其他 AI 系统拒绝的辛辣问题。

Grok 仍然是一个非常早期的测试版产品 —— 这是我们通过两个月的训练能够达到的最佳效果 —— 因此，希望在您的帮助下，它能在测试中迅速改进。

Grok-1 揭秘

xAI 表示，Grok 的对话能力当前是由一个名叫 Grok-1 的大模型来支撑的，这是他们在过去四个月的时间里开发出来的。在这段时间里，Grok-1 经历了多次迭代。

在公布了 xAI 创立的消息之后，他们训练了一个 330 亿参数的 LLM 原型 ——Grok-0。这个早期模型在标准 LM 测试基准上接近 LLaMA 2 (70B) 的能力，但只使用了一半的训练资源。在过去的两个月里，他们对模型的推理和编码能力进行了重大改进，最终开发出了 Grok-1，这是一款功能更为强大的 SOTA 语言模型，在 HumanEval 编码任务中达到了 63.2% 的成绩，在 MMLU 中达到了 73%。

xAI 使用了一些旨在衡量数学和推理能力的标准机器学习基准对 Grok-1 进行了一系列评估：

GSM8k：初中数学单词问题（Cobbe et al. 2021），使用思维链提示；
MMLU：多学科选择题（Hendrycks et al. 2021），提供 5 个 in-context 示例；
HumanEval：Python 代码补全任务，（Chen et al. 2021），对 pass@1 进行零样本评估；
MATH：用 LaTeX 编写的初中和高中数学问题，（Hendrycks et al. 2021），提供固定的 4-shot 提示。

马斯克xAI公布大模型详细进展，Grok只训练了2个月

在这些基准测试中，Grok-1 显示出了强劲的性能，超过了其计算类中的所有其他模型，包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 这样使用大量训练数据和计算资源训练的模型才能超越它。xAI 表示，这展示了他们在高效训练 LLM 方面取得的快速进展。

不过，xAI 也表示，由于这些基准可以在网上找到，他们不能排除模型无意中在这些数据上进行了训练。因此，他们在收集完数据集之后，根据五月底（数据截止日期之后）公布的 2023 年匈牙利全国高中数学期末考试题，对他们的模型（以及 Claude-2 和 GPT-4 模型）进行了人工评分。结果，Grok 以 C 级（59%）通过考试，Claude-2 也取得了类似的成绩（55%），而 GPT-4 则以 68% 的成绩获得了 B 级。所有模型在测试时都将温度设置为 0.1，且被给到了相同的提示。xAI 表示，他们没有为应对这个考试而特别准备或调整模型。

马斯克xAI公布大模型详细进展，Grok只训练了2个月

下面这个表格展示了 Grok-1 的更多信息：

模型细节：Grok-1 是一个基于 Transformer 的自回归模型。xAI 利用来自人类和早期 Grok-0 模型的大量反馈对模型进行了微调。初始的 Grok-1 能够处理 8192 个 token 的上下文长度。模型于 2023 年 11 月发布。
预期用途：Grok-1 将作为 Grok 背后的引擎，用于自然语言处理任务，包括问答、信息检索、创意写作和编码辅助。
局限性：虽然 Grok-1 在信息处理方面表现出色，但让人类检查 Grok-1 的工作以确保准确性至关重要。Grok-1 语言模型不具备独立搜索网络的能力。在 Grok 中部署搜索工具和数据库可以增强模型的能力和真实性。尽管可以访问外部信息源，但模型仍会产生幻觉。
训练数据：Grok-1 发布版本所使用的训练数据来自截至 2023 年第三季度的互联网数据和 xAI 的 AI 训练师提供的数据。
评估：xAI 在一系列推理基准任务和国外数学考试试题中对 Grok-1 进行了评估。他们与早期 alpha 测试者合作，以评估 Grok-1 的一个版本，包括对抗性测试。目前，Grok 已经对一部分早期用户开启了封闭测试访问权限，进一步扩大测试人群。

马斯克xAI公布大模型详细进展，Grok只训练了2个月

Grok 构建工程

在深度学习研究中，xAI 表示必须像对待数据集和算法一样来谨慎地构建可靠的 AI 基础设施。为了创建 Grok， xAI 构建了一个基于 Kubernetes、Rust 和 JAX 的自定义训练和推理栈。

xAI 表示，LLM 的训练就像一列呼啸而过的货运列车，如果其中一节车厢脱轨，整列火车就会被拖离轨道，恢复起来会很难。

作为训练 LLM 不可或缺的 GPU，出现故障的原因有很多种：产品缺陷、连接松动、配置不正确、内存芯片性能下降、偶尔的随机位翻转等等。当在训练 AI 时，往往会连续数月在数万个 GPU 上同步计算，并且由于规模大的原因，所有这些故障模式都会变得频繁。

为了克服这些挑战，xAI 采用了一组自定义分布式系统，以确保系统在每次故障发生时能够立即识别并自动处理。xAI 将高效计算作为重点，在过去几个月里，其基础设施能够最大程度地减少停机时间并保持较高的 MFU（Model Flop Utilization），即使存在不可靠的硬件也是如此。

xAI 认为，Rust 是构建可扩展、可靠且可维护的基础设施的理想选择。Rust 提供了高性能、丰富的生态系统，并能防止分布式系统中通常会发现的大多数错误。

目前，xAI 正在为 Grok-1 模型功能的下一次飞跃做准备，而这需要协调数万个加速器运行，并在 Grok 中构建新的功能和工具。

xAI 研究方向

xAI 为 Grok 配备了搜索工具和实时信息的访问权限，与所有受过下一个 token 预测训练的 LLM 一样，Grok 仍然可以生成错误或相互矛盾的信息。xAI 认为，实现可靠推理是解决当前系统局限性最重要的研究方向。这里， xAI 介绍了几个有前景的研究方向。

借助一些工具进行可扩展监督：人类反馈至关重要，然而，让人类提供一致且准确的反馈具有很大挑战性，特别是在处理冗长的代码或复杂的推理步骤时。而人工智能可以通过查找不同来源的参考资料、使用外部工具验证中间步骤以及在必要时寻求人类反馈来协助进行可扩展的监督。xAI 的目标是在 Grok-1 大模型帮助下能够最有效地利用 AI tutors（xAI 招募的工作人员，来帮助改进模型）的时间。

集成了安全、可靠、准确的验证方式：为了创建能够对现实世界进行深入推理的 AI 系统，xAI 计划以更可验证的方式来开发 AI 系统的推理性能。使得 xAI 在没有人类反馈或与现实世界交互的情况下评估其系统。

对长上下文的理解与检索：训练模型能够在特定上下文中发现有用知识，是制造真正智能系统的核心。xAI 正在研究可以在需要时发现和检索信息的方法。

对抗稳健性：对抗性示例表明，优化器可以在训练和服务期间利用 AI 系统中的漏洞，发生严重错误。xAI 认为，这些漏洞是深度学习模型中长期存在的弱点。因而 xAI 对提高 LLM、奖励模型和监控系统的稳健性特别感兴趣。

多模态能力：目前，Grok 还不能处理视觉和听觉等其他模态。为了让 Grok 更好地帮助用户，xAI 将会为 Grok 配备不同的模态，以实现更广泛的应用，包括实时交互和帮助。

xAI 表示，他们相信 AI 能够为社会、经济和科学带来巨大的潜力，因此他们会坚定不移的开发可靠的保障措施，防止人们对 AI 的恶意使用。xAI 会尽最大的努力来确保 AI 仍然是一股正义的力量。

最后，Grok 预览也曝光了，从动图来看，Grok 在回答用户问题时非常丝滑。

马斯克xAI公布大模型详细进展，Grok只训练了2个月

想要上手 Grok 的小伙伴，可以抢先体验了，xAI 为美国用户提供了数量有限的试用名额。未来几个月，Grok 还会推出新的功能和特性，大家耐心等待就是了。

加入候补名单地址：https://grok.x.ai/

^{参考链接：https://x.ai/}

# AI行业动态

文章版权归作者所有，未经允许请勿转载。

浙大校友开源多模态大模型LLaVA-1.5

ainavi

2800

联合国成立人工智能咨询机构

ainavi

2000

Nature发文：LK-99不是超导体

ainavi

400

FG2024Workshop |花样滑冰人体动作识别挑战赛与研讨会启动！

ainavi

1600

大模型的最大bug，回答正确率几乎为零，GPT到Llama无一幸免

ainavi

4000

华为：像GPT这样的基础大模型昇腾AI已原生支持30多个

ainavi

2400

马斯克xAI公布大模型详细进展，Grok只训练了2个月

李开复官宣「全球最强」开源大模型：一次处理40万汉字、中英均霸榜

GPU推理提速4倍，256K上下文全球最长：无问芯穹刷新大模型优化记录

相关文章

相关文章

热门标签