王咏刚
作者很懒,什么都没留下

3

文章/篇

3.4万

阅读/次

拜访信息

为了给您提供更快更好的服务,在获取作者联系方式前,想对您有个简单了解. 邀请您填写如下信息

提交成功

非常感谢您的配合,我们的作者会尽快通过您的微信,
请耐心等待~

微信号

15701235851

AI领域,中国人/华人有多牛?

王咏刚
2016-12-21 · 14:35
[ 亿欧导读 ] 在2006到2016年的时间段里,近两万篇最顶级的人工智能文章中,由华人贡献的文章数和被引用数,分别占全部数字的29.2%和31.8%。从2014年,2015年开始,中国人/华人已经处于人工智能研究的领先地位。
黑科技,人工智能,AI领域,华人,个案分析,IEEE模式分析

文章来源于:王咏刚,图片来自“视觉中国”

【编者按】人工智能正在引领下一场革命,一场全球性的革命。在这场技术革命当中,中国人/华人扮演怎样的角色呢?前不久,美国白宫科技政策办公室公布全世界在AI领域的研究数据,惊呼中国已领先世界并让他们感到“eclipsed”(黯然失色)。但是,事实真的如此吗?创新工场AI工程院副院长王咏刚做了深度的文章数据分析,看看AI领域,中国人/华人有多牛?

 本文转载自公众后创新工场(ID:chuangxin2009),亿欧编辑,供业内人士参考。


人工智能这把火已经烧到了国家战略层面,连美国总统和政府机构也卷了进来。上周四,奥巴马主持白宫前沿峰会,展望美国在未来50年的发展。峰会中,白宫发布报告《国家人工智能研究与发展策略规划》(见原文链接)。相关情况,大家可以参考《连线》杂志的总统专访(Wired: Barack Obama on Artificial Intelligence, Autonomous Cars, and the Future of Humanity) 。(附,文章翻译链接:http://tech.qq.com/a/20161014/005583.htm)

这两天,自媒体没少炒作这个报告;我自己呢,倒是特别地对这个报告中的两张趋势图感兴趣。报告中说,从2013年到2015年,SCI收录的论文里,提到“深度学习”的文章增长了约六倍,同时强调,“按文章数计算,美国已不再是世界第一了。”

美国不是世界第一?谁是世界第一呢?来看报告中的两张趋势图:

深度学习论文数量变化趋势图

上图是每年SCI收录的文章里,提到“深度学习”或“深度神经网络”的文章数量变化趋势,同时按国家做了区分。数据本身是从Web of Science核心数据库里查询得到的。

有效文章数量变化图

第二张图和第一张图其他条件一样,只是增加了一个“文章必须至少被引用一次”的附加条件。也就是说,第二张图统计的文章数,是被引用过的“有效文章数”,相对来说更合理一些。

两张图里,中国都在2014年和2015年超过了美国(以及其他所有第二梯队的国家),居于领跑者的位置。

问题来了,在AI研究领域,中国人真有这么强吗?

从这些年的直觉看,中国人/华人在人工智能领域里的大牛比比皆是,吴恩达、孙剑、杨强、黄广斌、马毅、张大鹏 ……随口可以说出一大串,我自己在Google的研究团队,微软研究院等地亲眼看到的,也到处是中国人、华人的面孔。但这只是直观感受。整体来看,中国人/华人所做的科研贡献到底有多重要,对人工智能的推动作用到底有多大?白宫报告里的统计是不是科学、合理?

其实,对美国国家战略规划里的统计,我自己是有几个疑问的,主要包括:

直接搜索关键字“深度学习”、“深度神经网络”,真的能涵盖这些年人工智能领域的所有科学研究进展?像机器人、智能控制、机器视觉、无人驾驶等领域里,没有提及深度学习的文章眼见还有不少。严格按关键词匹配会漏掉多少相关文章?是否影响统计结果?

“文章至少被引用一次”,比较科学,但好像还远远不够。这种统计,真的不需要考虑SCI的影响因子吗?不考虑的话,会混进多少较差期刊上发表的比较水的论文?这些数据会不会被国内研究机构靠SCI引用数来评职称的风气污染?

在全球化时代,按国家统计,会不会有明显偏差?白宫报告没有提到被统计的文章是如何归入不同国家的。如果按作者发表文章时的所在机构,那大量在国外机构访问的中国学者会不会被算成外国人?中国人和外国人合写的文章该如何统计?如果按期刊所属国家和地区,那不同国家间的期刊水平(影响因子)差异是不是会让统计结果带有偏见?

基于此,我也想自己去做个统计。

统计前,给自己设了几条原则:

从期刊的影响因子出发,只统计影响因子高的顶尖期刊。

从Web of Science主题词出发,涵盖人工智能相关的所有科研领域,而不仅是深度学习方面的文章。

关注对象是华人,而不是用国家分类的办法去比较中国和外国——这个是我自己的选择,因为今天的学术界,国家间的合作和交流已不可忽视。类似吴恩达这样的外籍华人,其实也在为中国的人工智能发展做贡献。与其限定国家,不如从整体上看一看,地球上的华人科学家、研究者群体,到底有多厉害。

关注时间范围是2006到2016年,跨度10年左右——因为许多人说,这一波人工智能大潮是从2006后的几年时间里,才开始真正兴起的。

我的统计结果

先说说我的统计结果,一会儿会在附录一中讲讲我用的统计方法。

来看下2006到2016年间华人作者的平均贡献:

华人在AI领域的贡献占比

在2006到2016年的时间段里,近两万篇最顶级的人工智能文章中,由华人贡献的文章数和被引用数,分别占全部数字的29.2%和31.8%。近十年,华人用五分之一左右的作者人数,平均贡献了三成的顶级AI研究文章和被引用数。统计角度,这已经是超出平均水平的科研贡献了。

但平均数并不能看出华人科学家、研究者在最近几年的发力程度。来看2006到2015年间,华人贡献的文章数和被引用数的变化趋势:

华人在AI领域的贡献占比变化趋势

2006到2015年间,华人作者参与的顶级AI论文,占全部顶级AI论文数量的比例,从23.2%逐年递增到42.8%。而华人作者参与的顶级AI论文被引用次数,占全部顶级AI论文被引用次数的比例从25.5%逐年递增到55.8%(2016 年数据较少,未用于趋势比较)。

也就是说,即便只统计顶级出版物里的顶级文章,中国人/华人在人工智能领域的贡献,在发展趋势上也和白宫报告中揭示的规律如出一辙——无论从哪个角度来说,中国人/华人正在人工智能领域里发挥举足轻重的作用,而且,从2014年,2015年开始,中国人/华人已经处于人工智能研究的领先地位,占据了人工智能科研世界的半壁江山!

个案分析

会有人觉得这个统计很不可思议吗?这个结果会出乎很多人意料吗?我们还可以拿一个更具体的例子,来深入分析一下。

在顶级人工智能期刊和会议录里,我来举个大名鼎鼎的例子吧:IEEE模式分析与机器智能汇刊(IEEE Transactions on Pattern Analysis and Machine Intelligence,简称PAMI),2015年影响因子6.077,高到没朋友,想往这里投稿的同学可能都知道被接受和发表的难度有多恐怖。

我从《IEEE模式分析与机器智能汇刊》里按引用数选出2006到2016年间的前500篇论文,下面是这500篇论文的引用数分布情况:

IEEE前500文章引用

其实很恐怖的,前500篇文章最高引用数2715,最低引用数41——真顶级期刊!普通期刊难以望其项背呀。

那么,这500篇最顶级的人工智能论文里,华人科学家、研究者的贡献如何呢?先说几个数字:500篇顶级文章的作者一共1220人,其中华人科学家、研究者316人,占25.9%。所有作者单独累加计算的被引用数总和是231361次,其中,华人科学家、研究者被引用数总和是63846 次,占27.6%。如果单看2014年(当年华人的文章数、引用数均较高)的数据,华人科学家、研究者被引用数占51.8%,超过了半数。

如果只看《IEEE模式分析与机器智能汇刊》在2006到2016年间,引用数最多的10位华人作者和10位非华人作者的具体情况,也是一个很有趣的表格:

IEEE引用最多的前10华人作者情况

《IEEE模式分析与机器智能汇刊》的华人前10位大牛,与非华人前10位大牛,在每个人的总引用数上几乎不相上下。的确,最顶尖的人工智能科学家里,中国人/华人的贡献丝毫不亚于其他科学家。

另外,如果对人工智能特别是模式识别的研究领域不熟悉,那么,记住表中这20位顶尖科学家的名字吧。有兴趣的话,大家可以去搜一搜他们的简历,看看他们都在哪里工作,在哪里做研究,他们的学生、同事都是谁,相信会有很多发现。

原因?

为什么中国人/华人在人工智能领域这么强?因为数学好?因为兴趣使然?因为思维习惯?因为勤奋?因为教育?大家可能都有自己的答案。

本文不想展开讨论,列举数据和事实,才是本文的目的。

统计方法介绍

简单介绍一下我是怎么得到上面那些比例和趋势数据的。

周末,我先去Web of Science数据库里,找到Computer Science / Artificial Intelligence的主题类目,根据2015年SCI影响因子从高到低排序,取前50个出版物(包括期刊和会议录),这50个人工智能领域顶级期刊和会议录的详细列表见附录二。

然后,对每份顶级期刊和会议录,基于文章的被引用数对2006到2016年的所有文章进行排序。这个时间段里,期刊和会议录的平均发表文章数在500左右,我以500为上界,取每份期刊和会议录中,被引用数最多的文章,至多500篇。由此得到2006到2016年间的顶级人工智能相关论文共计19855篇。

接下来,基于这些文章的作者列表和被引用数目,统计华人科学家、研究者与全部文章作者之间的比例和趋势关系。

如何识别华人作者?好像没有特别好的方法。我的方法是根据英文姓名判断,如果英文姓名主要由汉语拼音、韦氏拼音或粤语拼音组成(当然还要考虑姓氏、名字二者在英文表述上的区别,以及其他一些经验规则),那么就假定这个作者是华裔。根据小样本集验证,这个判别方法的检准率大约在96%以上,检全率大约在90%左右。也就是说,会有一定数量的遗漏,也会有少量误识,但基本可以反映整体情况与趋势。

如何解决合作者问题?我是分别统计,并且不加权重的。第一作者和其他作者共享文章计数和引用计数。为第一作者增加权重是否影响整体统计结果?也许,但不会影响总体趋势数据,因为并没有证据表明,华人更多地出任第一作者,还是非华人更多地出任第一作者。至于每个作者的文章数和引用计数,是采用简单累加,还是采用比例累加(如两人合作,每人的贡献算0.5还是1),我做了全数据集的对比试验,几乎完全不影响整体结果。

本文经授权发布,版权归原作者所有;内容为作者独立观点,不代表亿欧立场。如需转载请联系原作者。

各工作岗位将被AI取代的概率

选择岗位,查看结果

制图员和摄影师

87.9%

广告

参与评论

最新文章

1、 若贵平台是网站或者APP,在进行单篇原创文章转载时,需在文章标题或者导语下方,注明文章来源以及作者名称;若寻求5篇及以上的长期内容合作,需与亿欧公司内容运营部门取得联系,并签订转载合作协议。

【若贵司平台转载亿欧公司原创文章已经超过5篇,请及时与我们联系补签转载合作协议,计算时间以2019年2月10日之后为准】

2、 若贵平台是微信公众号,在进行单篇原创文章转载时,请联系亿欧公司内容运营人员进行单篇文章的白名单开通,同样需要注明文章来源及作者名称;若寻求2篇及以上的长期内容合作,需与亿欧公司内容运营部门取得联系,并签订转载合作协议。可将公司全称(简称)、公司网址、微信公众号、微信或者电话等信息发送至hezuo@iyiou.com,会有工作人员与您取得联系。

关闭

快来扫描二维码,参与话题讨论吧!

快捷登录 密码登录
获取验证码

新用户登录后自动创建账号

登录表示你已阅读并同意《亿欧用户协议》

快捷登录 密码登录

账号为用户名/邮箱的用户 选择人工找回

关联已有账户

新用户或忘记密码请选择,快捷绑定

账号为用户名/邮箱的用户 选择人工找回

快速注册

获取验证码

创建关联新账户

发送验证码

找回密码

获取验证码
账号为用户名 / 邮箱的用户 选择人工找回

未完成注册的用户需设置密码

如果你遇到下面的问题

我在注册/找回密码的过程中无法收到手机短信消

我先前用E-mail注册过亿欧网但是现在没有办法通过它登录,我想找回账号

其他问题导致我无法成功的登录/注册

请发送邮箱到service@iyiou.com,说明自己在登录过程中遇到的问题,工作人员将会第一时间为您提供帮助

账号密码登录

乐乐呵呵@微信昵称

该亿欧账号尚未关联亿欧网账户

关联已有账户

曾经使用手机注册过亿欧网账户的用户

创建并关联新账户

曾用微信登录亿欧网但没有用手机注册过亿欧的用户

没有注册过亿欧网的新用户

先前使用邮箱注册亿欧网的老用户,请点击这里进入特别通道
意见反馈
意见反馈
亿欧公众号 亿欧公众号
小程序-亿欧plus 小程序-亿欧plus
返回顶部