mathglm

MathGLM 包含 10M、100M、500M、2B 等多个参数版本，具备处理最多 12 位数字的运算能力。而且有测评结果显示，通过充分的数据训练，MathGLM-2B 可以准确执行多位数的算术运算，准确率高达 93.03%（接近 100%），显著超越 GPT-4 在相同测试数据上 18.84% 的准确率。10 亿参数版本的 MathGLM-10B 则在 5000 条中文数学应用题的测试数据集上实现了接近 GPT-4 的性能。

MathGLM 出色的表现，离不开其在模型架构、数据集等方面的一系列创新。

针对算术任务，研发团队采用 Transformer 的 decoder 架构，并使用自回归目标在生成的算术数据集上从头训练。算术训练数据集包含各类算术任务、各种运算符（含加法、减法、乘法、除法和求幂）、多种数字格式（含整数、小数、百分比、分数和负数）。研发团队还采用分步计算策略对该数据集进行了重构，并且让单个算术表达式由 2 到 10 个运算步骤组成，以方便 MathGLM 对每个中间结果进行准确计算，从而得到每个算术表达式的正确答案。

评测结果显示，MathGLM 在一个包含 9592 条测试用例、专门为算术任务量身定制的数据集上的表现，显著优于 GPT4 和 ChatGPT。

针对更复杂的数学问题——中文应用题，研发团队微调了一系列以 GLM 为基座模型、用于解决数学应用题的 MathGLM。

训练过程中使用了一个包含 21 万道中文小学数学题的高质量数据集 Ape210K，但其不足之处在于每个题的答案都是直接计算得出，缺乏相应的计算过程。因此，研发团队采用分步策略对 Ape210K 数据集进行了重构，方便 MathGLM 深入理解和学习潜在的计算逻辑和规则，逐步计算出每个数学问题的答案，提升最终答案的准确性。

此外，研发团队还使用 ChatGLM-6B 和 ChatGLM2-6B 作为基座模型来训练 MathGLM，赋予 MathGLM 基本的语言理解能力，使其能够有效理解数学应用题中包含的语言信息。

在 Ape210K 数据集上进行测试的结果显示，MathGLM 模型在答案准确性方面已接近 GPT-4。在一个包含 1-6 年级数学应用题的数据集 K6 上进行评测的结果显示，MathGLM 相比于其他中文模型（GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B 等），呈现出了更强的数学推理能力。

为方便开发者快速上手体验 MathGLM，魔搭社区第一时间推出了模型体验、推理实践教程。

相关导航

华为盘古

华为盘古大模型以“AI for industries”为核心理念，专注于行业应用，致力于构建金融、政务、制造、矿山、气象、铁路等多个领域的行业大模型和能力集。它集合了行业知识和大模型能力，以重新定义各行各业，成为组织、企业和个人的专业助手。

DeepSeek

免费与DeepSeek-V3对话，使用全新旗舰模型，可以搜索写作阅读解题翻译

FastChat[小羊驼]

以 Meta 开源 LLaMA（直译为「大羊驼」）系列模型为起点，斯坦福大学等机构的研究人员先后在其上进行「二创」，开源了基于 LLaMA 的 Alpaca（羊驼）、Alpaca-Lora、Luotuo（骆驼）等轻量级类 ChatGPT 模型，大大降低了这类模型的研究、应用门槛，训练、推理成本一再降低。由于「二创」过于丰富，生物学羊驼属的英文单词都快不够用了，但富有创意的研究者似乎总能给他们的模型找到新名字。近日，来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣迭戈分校的研究者们又提出了一个新的模型 ——Vicuna（小羊驼）。这个模型也是基于 LLaMA，不过用到的是 13B 参数量的版本（作者表示，初步人工评测显示 13B 版本比 7B 版本模型要好不少，不过这不是一个严谨的结论）。

CodeFuse

模型集合包括CodeFuse-13B和CodeFuse-CodeLlama-34B，支持多种与代码相关的任务，如代码补全、文本转代码、单元测试生成等。值得一提的是，CodeFuse- CodeLlama- 34B基于CodeLlama作为基础模型，并利用提出的MFT框架，在HumanEval Python pass@1评估中取得了高达74.4%（贪婪解码）的好成绩，甚至超过了GPT-4（67%）的表现。

ChatGLM-6B

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数

通义千问

通义千问 - 7B（Qwen-7B）是阿里云研发的通义千问大模型系列的 70 亿参数规模的模型。Qwen-7B 基于 Transformer 在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时，在 Qwen-7B 的基础上，使用对齐机制打造了基于大语言模型的 AI 助手 Qwen-7B-Chat

相关导航

热门网址