测试分类

对标OpenAI事实性测试,这份中文评测集让o1-preview刚及格

如何解决模型生成幻觉一直是人工智能(AI)领域的一个悬而未解的问题。为了测量语言模型的事实正确性,近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集...

ChatGPT在工作中的7种用途

1. 用 ChatGPT 替代搜索引擎 工作时,你一天会访问几次搜索引擎?有了 ChatGPT,使用搜索引擎的频率可能大大下降。 据报道,谷歌这样的搜索引擎巨头,实际上...

TruthGPT官宣,马斯克这次打算重新定义AI

马斯克在接受福克斯新闻采访时,才首度公开了TruthGPT——一个更安全、更透明的类ChatGPT应用,目的是对OpenAI的路线予以修正,尝试创造OpenAI和谷歌以外的“第...

当GPT-4化身主考官:与ChatGPT处于同水平的有这些

GPT-4太强,甚至已经化身“主考官”了! 给其他市面上主流的大模型打分,结果自己给了自己最高分: 95.5。(好,给自己留点努力的空间) 不过随后就没有上90...

GPT-5根本不存在!ChatGPT之父Sam Altman首次公开表态,最新视频流出

大规模运算的使用的管控,安全标准,和部署 AI 后的监管以及经验分享是非常好的注意

Star量近8万,大火AutoGPT星标超PyTorch

AutoGPT 肯定会随时间推移而愈加完善

一网打尽!国内外50多个大模型调研汇总

自从ChatGPT出现之后,各种大语言模型是彻底被解封了,每天见到的模型都能不重样,几乎分不清这些模型是哪个机构发布的、有什么功能特点、以及这些模型的关系...