AI大模型平台

MathGLM

智谱AI推数学模型MathGLM 部分表现超GPT4。它可以在不使用计算器工具的情况下,执行复杂算术运算,解答中文数学应用题,部分表现超过GPT4和ChatGPT。

标签:

MathGLM 包含 10M、100M、500M、2B 等多个参数版本,具备处理最多 12 位数字的运算能力。而且有测评结果显示,通过充分的数据训练,MathGLM-2B 可以准确执行多位数的算术运算,准确率高达 93.03%(接近 100%),显著超越 GPT-4 在相同测试数据上 18.84% 的准确率。10 亿参数版本的 MathGLM-10B 则在 5000 条中文数学应用题的测试数据集上实现了接近 GPT-4 的性能。

MathGLM 出色的表现,离不开其在模型架构、数据集等方面的一系列创新。

针对算术任务,研发团队采用 Transformer 的 decoder 架构,并使用自回归目标在生成的算术数据集上从头训练。算术训练数据集包含各类算术任务、各种运算符(含加法、减法、乘法、除法和求幂)、多种数字格式(含整数、小数、百分比、分数和负数)。研发团队还采用分步计算策略对该数据集进行了重构,并且让单个算术表达式由 2 到 10 个运算步骤组成,以方便 MathGLM 对每个中间结果进行准确计算,从而得到每个算术表达式的正确答案。

评测结果显示,MathGLM 在一个包含 9592 条测试用例、专门为算术任务量身定制的数据集上的表现,显著优于 GPT4 和 ChatGPT。

MathGLM

针对更复杂的数学问题——中文应用题,研发团队微调了一系列以 GLM 为基座模型、用于解决数学应用题的 MathGLM。

训练过程中使用了一个包含 21 万道中文小学数学题的高质量数据集 Ape210K,但其不足之处在于每个题的答案都是直接计算得出,缺乏相应的计算过程。因此,研发团队采用分步策略对 Ape210K 数据集进行了重构,方便 MathGLM 深入理解和学习潜在的计算逻辑和规则,逐步计算出每个数学问题的答案,提升最终答案的准确性。

此外,研发团队还使用 ChatGLM-6B 和 ChatGLM2-6B 作为基座模型来训练 MathGLM,赋予 MathGLM 基本的语言理解能力,使其能够有效理解数学应用题中包含的语言信息。

在 Ape210K 数据集上进行测试的结果显示,MathGLM 模型在答案准确性方面已接近 GPT-4。在一个包含 1-6 年级数学应用题的数据集 K6 上进行评测的结果显示,MathGLM 相比于其他中文模型(GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B 等),呈现出了更强的数学推理能力。

MathGLM

为方便开发者快速上手体验 MathGLM,魔搭社区第一时间推出了模型体验、推理实践教程。

MathGLM

相关导航

暂无评论

暂无评论...