美国科学家警告:机器学习技术或引发“科学危机”

来源:新华社| 2019-02-18 17:22:10| 作者:沈鹏

  新华社北京2月18日新媒体专电 英媒称,数以千计的科学家用来分析数据的机器学习技术正在产生具有误导性且常常是完全错误的结果。

  据英国广播公司网站2月16日报道,休斯敦赖斯大学的热内薇拉·阿朗博士说,越来越多使用这种系统正在导致“科学危机”。

  她警告说,如果科学家们不改进技术,就会既浪费时间又浪费金钱。她的研究成果提交给了华盛顿的美国科学促进会。

  越来越多的科学研究使用机器学习软件来分析已经收集到的数据。从生物医学研究到天文学等,这种现象发生在诸多学科领域。

  这些数据集非常大,成本也很高。不过,阿朗博士说,他们得出的答案可能是不准确甚至是错误的,因为软件识别的是只存在于数据集中而非真实世界中的模式。

  她说:“这些研究往往在另一个真正的大数据集出现时才会被发现是不准确的。有人用那些技术分析后叹道:‘哦,我的天哪,这两个研究的结果不一致。’”

  她说:“人们现在普遍认识到科学领域存在可重复性危机。我敢说,这在很大程度上源于在科研中使用机器学习技术。”

  科学中的“可重复性危机”是指另一组科学家做同样的实验时,研究成果无法再现的数量惊人。这意味着最初的结果是错误的。一项分析表明,在全世界开展的所有生物医学研究中,多达85%的研究都是白费工夫。

  这种危机愈演愈烈已20年,之所以会出现这种情况,是因为实验的设计并不完善,无法确保科学家不会欺骗自己,看到他们希望看到的结果。

  阿朗说,机器学习系统和大数据集的使用加速了这种危机。这是因为机器学习算法是专门为在数据集当中寻找有趣的东西而开发的,因此当它们在大量的数据中搜索时,它们不可避免地就会找到一个模式。

  她对英国广播公司记者说:“问题是我们真的能相信那些发现吗?”

  “那些是真正能代表科学的真正发现吗?它们能再现吗?如果我们增加一个数据集,我们会在相同的数据集中得出同样的科学发现或原理吗?遗憾的是,答案往往是否定的。”

  阿朗博士正在与休斯敦贝勒医学院的一个生物医学研究小组合作,以提高他们研究结果的可靠性。她正在开发下一代机器学习和统计技术,不仅可以筛选大量数据以便有所发现,还可以报告他们的结果的不确定程度及其可能的重复性。

  她说:“收集那些庞大的数据集非常昂贵。我告诉科学家,我的研究可能使你需要更长时间才能发表研究成果,但最终你的研究结果将经得起时间的考验。”

  “这将为科学家节省资金,而且通过避开那些错误的可能方向来推进科学也很重要。”

扫一扫,分享到微信朋友圈

责任编辑:4

看荐精选

精彩文章

日本研发“药片式”内服体温计

这种内服体温计直径约9毫米,厚约7毫米,只有一片药片大小,内含温度感应器和微型集成电路等,外表是树脂...

03月14日 14:15

多国停飞737MAX8 波音坚持强硬态度

新华社芝加哥3月13日电(记者王强)埃塞俄比亚航空公司一架波音737MAX8客机10日发生空难事故。...

03月13日 21:39

十三届全国人大二次会议举行第三次全体会议

十三届全国人大二次会议举行第三次全体会议习近平李克强栗战书汪洋王沪宁赵乐际韩正王岐山等出席听取和审议...

03月12日 09:54

十三届全国人大二次会议主席团举行第二次会议

3月12日,十三届全国人大二次会议主席团在北京人民大会堂举行第二次会议。主席团常务主席栗战书主持会议...

03月12日 09:46

国资委:“铁塔公司”类专业化整合要多出现

新华社北京3月13日电(记者王璐)《经济参考报》3月13日刊发题为《国资委:“铁塔公司”类专业化整合...

03月13日 12:01
oumin@189.cn kanmiaochen@21cn.com liyg@21cnsales.com ibm2012cd@21cn.com Athena_1a@21cn.com 1994004509@qq.com Athena_1a@163.com