上云、代码重构一起来。
对于节奏越来越快的学术研究领域而言,arXiv 是非常重要的论文预印版平台。和维基百科一样,它是个非营利性机构。
当地时间本周四,康奈尔大学科技校区(Cornell Tech)宣布了 arXiv 获得巨额捐款的好消息。
作为一个非营利数据库,arXiv 是所有人均可以免费访问的,长期以来一直依赖人们的捐赠。康奈尔科技校区宣布,西蒙斯基金会和美国国家科学基金会(NSF)已提供了总额超过 1000 万美元的赠款以支持 arXiv。
据介绍,这笔资金将使这个拥有超过 200 万篇论文的研究存储库迁移到云端,并对其代码进行现代化改造,以确保更高水平的可靠性、容错性和可访问性。
应该过不了几天,我们加载 arXiv 上 PDF 的速度就会加快,或许可以直接在网页上就能看论文了。
「我非常感谢西蒙斯基金会和美国国家科学基金会的巨大支持,」康奈尔科技校区杰克和里拉・尼夫西院长兼副教务长 Greg Morrisett 说道。「这项投资可以确保 arXiv 服务继续扩大规模,为更广泛的受众提供服务,并更好地为科学界服务。」
康奈尔科技校区计算机科学教授 Ramin Zabih 表示:「通过对代码库进行现代化改造并过渡到云端,我们正在加强 arXiv 的基础设施建设,并确保它持续成为学术出版物共享方面的创新源泉。」
arXiv(发音为 “archive”)于 1991 年由当时的洛斯阿拉莫斯国家实验室物理学家 Paul Ginsparg 博士创立,他当时希望对大约 100 篇研究论文进行分类。当论文如潮水般涌来之后,他尝试借助计算机程序来解决问题,据说他「通过参加十多年的机器学习研讨会」学会了如何编写该程序。
Ginsparg 现在是康奈尔大学的物理和信息科学教授。
该论文平台现在由康奈尔大学图书馆负责维护和运营,是一个巨大的学术论文预印本存储库,收集了已发表和大量尚未经过同行评审过程,或不打算在参考期刊上发表的文章。
目前 arXiv 涵盖的分支学科已包括自然科学和社会科学的多个领域,包括物理、数学、计算机科学、量化生物学、量化金融、统计学、电气工程和经济学。截止到 2022 年底,在 arXiv 上的投稿已经超过了 220 万篇。
由于 arXiv 的吸引力很大,很多领域的研究人员会在学术顶会或者期刊没有录用之前,就把自己的最新研究成果「提前发表」到这个平台上。一般人们认为这样做的好处在于「占坑」和宣传:既可以保护自己的 idea,又能扩大宣传提升学者自身的影响力。与此同时,这种做法也大大加快了学界信息传播的速度。
相比之下,即使在今天节奏较快的 AI 领域,无论会议还是期刊论文从投稿到最终可见都需要数月时间的等待,有时在此期间甚至已经出现了新的方向。
因此,arXiv 逐渐成为了很多学术领域,如数学和计算机科学的首选「投稿」地点。时至今日,经常刷 arXiv 成为了不少学者的习惯。在人工智能领域内,很多被 NeurIPS、CVPR、AAAI 等顶会收录的文章曾被提前投放在 arXiv 上获得曝光。另一方面,由于其没有非常有效的筛选机制,平台上也有很多质量较低的论文,这或许会是获得新注资后 arXiv 尝试改变的方向。
大多数时候,是否被重要期刊会议接收是评价论文质量的重要标准。不过在 arXiv 出现后,也有很多被顶会遗漏的论文在学界发挥了重要的影响力,收获了众多引用。在人工智能领域里,我们可以轻易列举出一些在 arXiv 上出现且家喻户晓,但曾被 AI 顶会拒稿的文章,比如 YOLO、transformer XL、Dropout 的研究。
计算机视觉领域里著名的目标检测算法 YOLO,其论文至今被引用数已经超过 4 万,不过当初它曾被 NIPS 拒稿,修改后转投 CVPR 2016 获得了接收。
2012 年,后来的图灵奖获得者 Geoffrey Hinton 在论文《Improving neural networks by preventing co-adaptation of feature detectors》中提出了 Dropout。同年,AlexNet 的出现开启了深度学习的新纪元。AlexNet 使用 Dropout 显著降低了过拟合,并对其在 ILSVRC 2012 竞赛中的胜利起到了关键作用。可以认为如果没有 Dropout,深度学习的大发展可能会被推迟数年。
不过这篇论文被 NIPS 2012 拒绝,现在还是 arXiv 上的预印版状态。
承载了先进科学希望的 arXiv 平台,未来会发展成什么样?
康奈尔大学表示,arXiv 开发的下一阶段将包括雇用更多软件开发人员来支持现代化工作。与此同时,计算机科学系的教职员工将在 NSF 的资助下开发新的搜索和推荐技术,这些技术计划用于支撑 arXiv 的大型用户社区,且会得到最先进的隐私保证的支持。此外,arXiv 将通过生成 HTML 和 PDF 版本的内容,为视障人士提供更好的访问。
1000 万美元的资金将很大程度上增加 arXiv 的实力。相比之下,arXiv 在 2021 年的总花费为 242 万美元。
在收获捐赠新闻发出后,人们纷纷叫好,并期待预印版平台未来的进化。
参考内容:
https://news.cornell.edu/stories/2023/10/research-repository-arxiv-receives-10m-upgrades
https://news.ycombinator.com/item?id=37949656
https://medium.com/nautilus-magazine/what-counts-as-science-76ebd1f5d403