美国科学家警告:机器学习技术或引发“科学危机”

来源:新华社| 2019-02-18 17:22:10| 作者:沈鹏

  新华社北京2月18日新媒体专电 英媒称,数以千计的科学家用来分析数据的机器学习技术正在产生具有误导性且常常是完全错误的结果。

  据英国广播公司网站2月16日报道,休斯敦赖斯大学的热内薇拉·阿朗博士说,越来越多使用这种系统正在导致“科学危机”。

  她警告说,如果科学家们不改进技术,就会既浪费时间又浪费金钱。她的研究成果提交给了华盛顿的美国科学促进会。

  越来越多的科学研究使用机器学习软件来分析已经收集到的数据。从生物医学研究到天文学等,这种现象发生在诸多学科领域。

  这些数据集非常大,成本也很高。不过,阿朗博士说,他们得出的答案可能是不准确甚至是错误的,因为软件识别的是只存在于数据集中而非真实世界中的模式。

  她说:“这些研究往往在另一个真正的大数据集出现时才会被发现是不准确的。有人用那些技术分析后叹道:‘哦,我的天哪,这两个研究的结果不一致。’”

  她说:“人们现在普遍认识到科学领域存在可重复性危机。我敢说,这在很大程度上源于在科研中使用机器学习技术。”

  科学中的“可重复性危机”是指另一组科学家做同样的实验时,研究成果无法再现的数量惊人。这意味着最初的结果是错误的。一项分析表明,在全世界开展的所有生物医学研究中,多达85%的研究都是白费工夫。

  这种危机愈演愈烈已20年,之所以会出现这种情况,是因为实验的设计并不完善,无法确保科学家不会欺骗自己,看到他们希望看到的结果。

  阿朗说,机器学习系统和大数据集的使用加速了这种危机。这是因为机器学习算法是专门为在数据集当中寻找有趣的东西而开发的,因此当它们在大量的数据中搜索时,它们不可避免地就会找到一个模式。

  她对英国广播公司记者说:“问题是我们真的能相信那些发现吗?”

  “那些是真正能代表科学的真正发现吗?它们能再现吗?如果我们增加一个数据集,我们会在相同的数据集中得出同样的科学发现或原理吗?遗憾的是,答案往往是否定的。”

  阿朗博士正在与休斯敦贝勒医学院的一个生物医学研究小组合作,以提高他们研究结果的可靠性。她正在开发下一代机器学习和统计技术,不仅可以筛选大量数据以便有所发现,还可以报告他们的结果的不确定程度及其可能的重复性。

  她说:“收集那些庞大的数据集非常昂贵。我告诉科学家,我的研究可能使你需要更长时间才能发表研究成果,但最终你的研究结果将经得起时间的考验。”

  “这将为科学家节省资金,而且通过避开那些错误的可能方向来推进科学也很重要。”

扫一扫,分享到微信朋友圈

责任编辑:4

看荐精选

精彩文章

“520中国”:钱塘江两岸上演视听盛宴

“520中国”“我爱你中国”“70年”……对祖国进行的一场“深情告白”闪耀钱塘两岸。

05月21日 10:41

“世界以痛吻我,我愿报之以歌”

洪润浩(中)在哈尔滨市一所特殊教育学校与学生进行交流(2018年10月11日摄)。新华社发新华社哈尔...

05月21日 10:32

青少年少看电子屏可改善睡眠

青少年在晚上适当减少使用手机等有屏幕的电子产品,有助于改善睡眠质量、缓解疲劳、减少注意力不集中等问题...

05月20日 14:00

数字化转型如何撬动企业价值?

正在天津举行的第三届世界智能大会上,5G、云计算、人工智能等诸多“黑科技”亮相,大数据驱动企业转型成...

05月19日 23:10

炎炎夏日 一起“打卡”静美茶园

5月19日无人机拍摄的羊艾茶园风光。 初夏时节,位于贵州省贵安新区的羊艾茶园风景如画。

05月19日 08:56
oumin@189.cn kanmiaochen@21cn.com liyg@21cnsales.com ibm2012cd@21cn.com Athena_1a@21cn.com 1994004509@qq.com Athena_1a@163.com