比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
本文探索了 Monarch Mixer (M2) ,这是一种在序列长度和模型维度上都是次二次的新架构,并且在现代加速器上具有很高的硬件效率。从 BERT、GPT 和 Flan-T5 等...
用50多年时间,探索最令人困惑的复杂性理论知识极限
证明问题难以解决究竟有多难?元复杂性(meta-complexity)理论研究者数十年来一直探究这个问题。近期的一系列研究成果开始给出这个问题的答案。复杂性理论研...
昆仑万维开源「天工」13B系列大模型,0门槛商用
10月30日,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并罕见地配套开源了600GB、150B Tokens的超大高质量开源中文数据集。昆仑万维「天工」...
更高清写实的人体生成模型HyperHuman来了,基于隐式结构扩散,刷新多项SOTA
论文地址: https://arxiv.org/pdf/2310.08579.pdfGithub 地址: https://github.com/snap-research/HyperHuman1. 研究背景与动机随着扩散模型的兴起,一些典型...
国内唯一全面对标OpenAI的创业公司,大模型已经出到第三代
中国大模型公司,正在进入竞争的新阶段。仅用六个月时间,国内 AI 创业公司就已经把大语言模型发展到了第三代。10 月 27 日,中国计算机大会 CNCC2023 上,智...
谷歌20亿美元砸向Anthropic:大模型军备竞赛升级
Anthropic 一年就收获了近 70 亿美元的投资。据华尔街日报、路透社等媒体报道,Alphabet 旗下谷歌公司发言人本周五表示,该公司已同意向人工智能公司 Anthrop...
多模态搜索算法如何让视频搜索更精准?腾讯独家揭秘,超详细
一文详解多模态技术在 QQ 浏览器视频搜索上的实践经验。引言视频搜索作为搜索中最大的横向垂类,在约 50% 的搜索词下都会有视频结果的展现。然而,视频资源又...
小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM。大型语言模型 (LLMs) 在各种自然语言任务中展现出了卓越的性能,但是由于训练和推理大参数量模型...
每人10万元,这13位青年人才获得2023年度字节跳动奖学金
一年一度,字节跳动奖学金计划「开奖」了。2023 年 5 月,第三届「字节跳动奖学金计划」正式发起,吸引了来自数十所高校、数百位国内优秀青年学子的报名申请...
DeepMind:谁说卷积网络不如ViT?
本文通过评估按比例扩大的 NFNets,挑战了 ConvNets 在大规模上表现不如 ViTs 的观点。深度学习的早期成功可归功于卷积神经网络(ConvNets)的发展。近十年来...