阅读新闻

2017 NIPS 哪家强?我们统计了大会发文数量谷歌和CMU稳居老大

发布日期:2019-09-21 20:25   来源:未知   阅读:

  第31届神经信息处理系统大会(NIPS)上周在加州长滩(Long Beach)举行。NIPS可以说是AI领域最有声望的学术会议之一。今年也是出席人数最多的一次。近几年NIPS的出席人数一直急剧上升。

  你可能猜到了,提交审查的论文数量也在增加。2016年论文提交共2406篇,接收了568篇论文,接收率为24%。今年论文提交共3240篇,接收了679篇,接受率为21%。

  自从我攻读博士学位以来,NIPS就一直在我的关注中。上周,我宣布加入一家新的机器学习初创公司Infinia ML,决定与Lawrence Carin合作。Lawrence是机器学习领域的重要人物,NIPS就是一个很好的例子。Lawrence的团队今年在NIPS发表了10篇论文,这是很了不起的成就。这驱使我对接收的679篇论文背后的人员以及机构做了一些分析。

  除了了解哪些研究员(例如Lawrence)被NIPS接收了论文,我很想知道哪些机构是最多产的。就像Andrej Karpathy为ICML所做的那样,我认为这是一项简单的数据挖掘任务,特别是NIPS和ICML用了同样的网站。

  在十月,当我查看接收论文初始列表时(可以在Wayback Machine上找到),格式长得是这个样子:

  这是可行的。它有我所需要的所有信息,包括论文、作者名单、所属机构等。写个脚本解析并生成我需要统计的信息应该不难。但是,这是我第一次接触不同机构所使用的各种名称。例如Google有10种不同的方式来表示,IBM有11种不同的版本。因此我需要一些手动清理。这也没啥。

  当我想获取更新后的统计信息(为了这篇文章),更大的问题来了。以上文那种完美格式呈现的接收论文最终名单不见了。有几个地方可以找到最终名单,但有一个问题:没有一个界面包含了每个作者所属机构。我做了一些搜索,但找不到其他来源。我本打算从论文里将机构提取出来,但在浏览了几篇论文之后,我发现论文并没有标准化作者栏的格式,以至于它本应该是一项快速任务,现在看起来像一个大工程。

  对我来说,仅存的另一个选择就是,期待9月份最初发布的文章列表没有太多的修改,这样一来,就可以将9月版中的机构信息应用于12月版。我可能需要配对这两个独立的数据集,并核对其不同之处,因而,数据解析工作可能会变得非常复杂。同时,这也意味着,对于9月版里面没有出现的新作者而言,我无法得到其机构信息。

  毕竟,我一直想找到的只是大概的的数据,而不是百分之百精确的统计结果,所以我继续往下进行了。

  9月份和12月份两个版本的文章数量没有变化,但是其中有部分的文章标题稍做调整,部分文章甚至把标题完全改变(这使得两个版本间的匹配非常困难)。从两个列表的679篇文章中,我能够找到完全匹配一致的560篇文章。

  此后,我又使用一些简单的规则,匹配了剩余文章中的98篇。举例来说,查对标题从前数20、15或10个字母,或者标题从后数20、15或10个字母中,看看是否可以匹配。

  最后,12月份的文章列表中只剩下21篇文章,无法从9月份的文章列表中找到相对一致的匹配标题。

  接下来进行作者匹配,从2035位作者中,我能够匹配1886位作者。QQ登上了为什么进不去QQ空间剩下来149个作者未能匹配,标记为“无组织”,仅占全部作者总数的93%。看起来又是一次不那么完美匹配,但是,对于我的目的而言,这些已经足够了。

  关于都有谁参加了类似NIPS这样的会议,我有一大堆问题,不过,其中最核心的问题是:谁是最多产的作者。如果你还记得上个世纪九十年代末期和本世纪早期是什么样子,如今发布文章就好比10-20年前的争着申请专利的竞赛。幸亏现在发表文章与知识产权(比如专利)无关,这也是我喜欢AI复兴的部分原因。

  正如我稍早提到的,杜克大学的Lawrence Carin团队在NIPS发表了10篇文章。他位于排行榜第一位,其他作者根本没法和他们比。当然,这并不意味着Lawrence是这10篇文章的第一作者,可是,他监督管理着所有的研究,并对所有10篇文章都有贡献,其研究领域囊括几个主题,有文本分析、图像合成、大脑动态局域潜力分析,让人叹为观止。

  通常情况下,一篇文章的最后一个作者就是该研究团队的负责人,或者管理着多个不同的研究项目。所以,当你看到Lawrence和象Bengio这样的其他知名人物一起出现在下表,就不会感到惊讶了。

  反过来说,文章的第一作者则通常就是做苦活累活最多的那位。有三人分别贡献了三篇第一作者文章,真的是劳模。

  现在我们来看看发表在NIPS文章量排名前五十的机构。我没有把谷歌和DeepMind放在一起,这样能看出谷歌多占比例之大。卡耐基梅隆,麻省理工,斯坦福和伯克利是前四的大学。谷歌,微软和IBM是跻身前列的公司。

  接下来,我想看看有多少机构的名字是列在文章中第一位的,因为这意味着谁带领或发起了这些研究。下图数据显示谷歌排在第四位,这说明虽然谷歌被列在很多文章上面,但他们所做的不仅仅是带领整个研究。

  最后,我想看看每个机构有多少作者。这又一次能够看出多少人在这些机构参与带了尖端的研究。在这儿,凯耐基梅隆有很大的优势。

  谷歌很明显是延伸研究方向宽度的领导者。他们的名字出现在大部分的论文中,如果你把DeepMind也加进去的话他们就是迄今为止在NIPS有最多作者的机构。

  卡耐基梅隆是在学术机构中在NIPS发表文章的领导者。他们有最多的第一作者而且除谷歌和DeepMind之外最多的人参与到文章的编制中。

  杜克大学的Lawrence Carin有在NIPS最高产的一组研究人员。他也相比其他人参与到了更多的文章。杜克大学在大学中总文章量、第一作者文章量和总作者数量排名前十。

  让我突然感到有点搞笑的,我花了好多功夫来研究这个展示着在最新的机器学习研究的世界性的学术会议,虽然好像我的任务看起来很简单,只是要把这些数字整合在一起。其实只要稍微做点努力(比如,12月的最终列表能够使用9月时相同的格式),这花了一整个周六下午时间的工作其实一个小时就能完成。

  不仅如此,公司、大学和科研机构或许也要开始标准化其文章被引用的方式。现在,发表的论文有极大的价值 -- 在未来,会有很多人频繁的做如我在这篇文章中所做的统计数据工作。一个机构多种多样的名字会给提供精确的统计数据工作带来很大的麻烦。

  下图展示了我如何把最常变换名字的机构整合到一起的小部分代码,我打赌你不知道IBM有11种拼写方法:

  强壮的男性 & 有想法的女性:分析34476个漫画角色,超级英雄中的性别透析

  2017年12月在美国洛杉矶举行的NIPS会议(神经信息处理系统大会)上,各大企业蜂拥而至招聘人工智能人才,使得这个传统上专注于学术研讨的高水平国际学术会议“沦落”成为了招聘会。12月3日,美国加州长...博文来自:人工智能快报

  编者按:今年的NIPS大会就在本月刚刚落下帷幕,微软亚洲研究院机器学习组实习生汪跃亲身参与了本次大会,并为我们带来了参加本次大会的见闻和感受。想知道大会上到底发生了什么,那就跟我们一起来看看吧。机器学...博文来自:微软研究院AI头条

  2017NIPS大会可以算得上全球声量最大、出席人数最多的AI学术会议了。大会刚刚落下帷幕,不少媒体和社区都总结了本次会议相关数据,比如,大会发文数:图:最有声望、出席人数最多的AI学术会议-NIPS...博文来自:大数据文摘

  之前介绍过《利用pyenv管理多个版本的python》,pyenv是一个非常好用的Python版本管理工具,利用它我们可以在同一台电脑上安装多个版本的Python,这个过程非常简单。Mac系统的电脑一...博文来自:python学习者的博客

  目前大部分开源数据库都是基于SQLite发展而来,如SQLBrite、OrmLite、DBFlow、GreenDao等等,还有一个是Realm框架不是基于SQLite创建,它建立了自己独特的数据库存储...博文来自:Android

  区块链是目前最火爆的科技概念,我想没有人反对吧。近期不少手机厂商也纷纷扯起区块链的大旗,推出了各种区块链手机,而且家家都说自己是“全球首款区块链手机”,看官老爷们可能很困惑。不要紧,今天带你盘点盘点区...博文来自:区块宝

  题目描述有人问现实中为什么总是男生追求女生,反过来很少。实际上女生也是想主动追求男生的,但是世俗中对于主动追求男生的女生有种歧视,这样就使得女生不大敢主动追求男生。但是面对喜欢的男生,难道就不出手么?...博文来自:wang_sj的博客

  数字货币市场能够提供场外交易的平台越来越堵,但其交易质量却愈演愈烈,在众多小肥羊中,如何挑选适合自己并安全放心的口味呢?接下来为大家介绍几个场外交易排名前列的交易平台~NO.3OKEXOKEx作为国内...博文来自:PurrPurrPurr的博客

  说到宏与函数,我们首先来了解一下它们的定义:#define定义宏#define包括一个规定,即允许把某一特定输入根据预定义的规则进行输出,宏即是一种规则与模式,也可以称为语法替换。函数在计算机中,函数...博文来自:CoolSuperman的博客

  目前有很多用于前端开发的,大家想必在这些开发工具里挑花了眼。今天小编就个人用过的几款开发工具给大家提供一些建议。 记事本用记事本来编写html语言的话,会比较麻烦,它不会给你自动补充标签,这就很苦...博文来自:的博客

  runjs是oschina旗下的一个项目,主色调以暗黑色,网站建成历史较长名可追溯到2012年08月29日,成立至今,runjs已处于无人运营状态,oschina将其精力投放于旗下更...博文来自:的博客

  通过好多次与很多司考考生沟通,发现他们的复习方法不尽相同,但有些地方是共同的,比如学到了很多知识点,但都比较零散,脑海中没有一个完整的构架。教材、讲义、真题、法条通吃,但是不知道从那儿看,该怎么看。...博文来自:laixinweidu的博客

  今天分享一种新的排序算法-----选择排序选择排序算法实现原理:以升序为例:首先假定数组首元素为数组元素中最大的元素,用maxpos来标记最大元素接着遍历数组中其他元素,并将最大值与所遍元素比较,如果...博文来自:zwq68的博客

  PATB1032:挖掘机哪家强与B1041基本类似【思路】:很典型的做hash[]来装score[sid],每个学校的分数总和做hash[]来装score[sid],每个学校的分数总和求出最大值int...博文来自:xbog的思考记录

  最近在上传一个应用到百度,rnrn被审核快搞死了,rnrn一会说图片不清晰rnrn一会说功能没描述清楚rnrn一会又说......rnrnrn问题来了,rn到底哪家上传容易一点?rn论坛

  说实话,这几天一直在找云服务器,也体验了几家的云免费服务器,某里云啊,腾某云啊,之类的,也不是说说想要什么免费云服务器或者免费虚拟主机之类的,只是想要一个用着稳定的,不玩套路的,不坑的,就行了,没有接...博文来自:MiLuDeTeZhongBing的博客

  目前,网赚市场也在不停的更替、沉淀。虽然,网赚项目有社交电商、游戏试玩、手机任务、调查问卷、挂机网赚等。如果说现在那种项目又稳定、赚钱有多?就目前来看,非社交电商莫属了!因为游戏试玩是小众,不是每个人...博文来自:的博客

  AI前线导读:对于每一个机器学习研究者和开发者来说,调参总是一个让人头疼的问题。如何在大量的参数空间内找到一个问题的最优参数呢?如今,许多业内巨头们已经发布了自动调参框架,或许可以在一定程度上缓解调参...博文来自:cpongo4的博客

  伴随着经济全球化的发展,海外游学成了近年来的热门词汇,在家庭经济条件允许的情况下,很多家长都愿意让孩子在寒暑假到海外游学一番。今年的新年来的会晚一些,中小学生的寒假则会长一些,伴随着国际游学越来越热,...博文来自:xdq159753的博客

  为了用事实说明挖掘机技术到底哪家强,PAT组织了一场挖掘机技能大赛。现请你根据比赛结果统计出技术最强的那个学校。输入格式:输入在第1行给出不超过105的正整数N,即参赛人数。随后N行,每行给出一位参赛...博文来自:信道者

  由于本人穷逼一个,只能用免费版。rn先来说说我的经历:开始一直感觉360比较厉害,所以一直用的360,直到有一天,应用要送检,才知道原来360真的只是给穷叼用的,免费版的加密等级很低啊,可是人家免费的,给你用就已经不错了。但凡是就怕比较啊!rn大家来说说那个第三方的免费加固版加固最全面吧。论坛

  1032挖掘机技术哪家强(20分)为了用事实说明挖掘机技术到底哪家强,PAT组织了一场挖掘机技能大赛。现请你根据比赛结果统计出技术最强的那个学校。输入格式:输入在第1行给出不超过105的正整数N,即参...博文来自:Jtube

  授予每个自然月内发布4篇或4篇以上原创或翻译IT博文的用户。不积跬步无以至千里,不积小流无以成江海,程序人生的精彩需要坚持不懈地积累!

  我分析了2万条饿了么、美团红包记录,这些是红包最多的APP(附数据集)

  我们可以从Alexa语音助手的错误中学到什么:用户对话界面的设计性挑战

  只看视频不动手的你可能学了门假课程,李飞飞计算机视觉成名作斯坦福CS231n作业详解重磅来袭!

  luopeng12345:博主您好,小白才接触这里,想问个问题: 1、图中不同颜色的点聚集在一起表示什么? 2、比如采用您的算法将我提取的68张人脸照片的128维数据作为data输入,然后随着我把数据从(128,68)增加到(128,100)点的颜色也增加了,这说明找到了更多的主成分吗? 3、相同颜色的点没有集中聚集就说明 降维效果不好吗? 希望能得到博主的回复,最好的祝愿送给博主!