看人工智能如何改变科研
时间:2017-12-07

  如何改变人工智能研究 - 新闻 - 科学网

  在20世纪80年代后期,当神经网络这个术语捕捉到公众的想象时,粒子物理学家开始玩人工智能,他们的领域非常适合应用人工智能和机器学习算法,因为几乎每个实验都着眼于寻找微小的空间模式从复杂的粒子探测器中获得无数的类似数据,这正是人工智能所擅长的。我们花了数年的时间来说服人们,人工智能并不是一个神秘的伎俩,Boaz Klima是最早接受技术的物理学家之一,美国费米国家加速器实验室的一位研究人员说。

  粒子物理学家正试图用大能量来碰撞亚原子粒子,以便打破新材料的独特粒子,以理解宇宙的内部运作。例如,2012年,使用世界上最大的质子对撞机瑞士最大的强子对撞机(LHC)进行研究的团队发现了希格斯玻色子的长期预期,这是一个短暂的粒子,对于物理学家来说是至关重要的所有其他基本粒子如何获得质量。

  然而,这样的外来粒子不是自我标记的。在大型强子对撞机上,有一个希格斯玻色子出现在近十亿次碰撞中。与此同时,它将在十亿分之一秒内衰变成其他粒子,如光子对应物。希格斯玻色子的复制,物理学家必须承认所有这些更常见的粒子。然而,在典型的碰撞中产生的无关粒子组使得这项工作变得更加困难。

  费米实验室物理学家Pushpalatha Bhat解释说,像神经网络这样的算法能很好地滤除背景中的信号。在粒子探测器中,通常是由各种传感器组成的巨大的圆柱形组件,光子通常在被称为电磁能量计的子系统中产生粒子束。电子和强子也是如此,但它们的光束和光子稍有不同。机器学习算法通过发现描述光束的多个变量之间的相关性来区分它们。这样的算法也可以帮助区分希格斯玻色子衰变的光子对。这是大海捞针的公认问题。这就是为什么Bhat说我们也需要从数据中提取尽可能多的信息。

  但是,机器学习并不完全占据这个领域。物理学家仍然主要依靠对基本物理学的理解来确定如何搜索数据以获得新的粒子和现象的迹象。然而,劳伦斯伯克利国家实验室的计算机科学家保罗·卡拉菲拉(Paolo Calafiura)说,人工智能可能变得越来越重要。到2024年,研究人员计划升级LHC,导致碰撞率增加10倍。卡拉菲拉说,届时,机器学习将在应对数据洪水方面发挥至关重要的作用。

  分析民意

  每年有数十亿的用户和数千亿的推特和帖子,社交媒体为社会科学带来了大量的数据。与此同时,心理学家马丁·塞利格曼(Martin Seligman)说,这也创造了前所未有的机会,利用人工智能的力量来收集人类的交流。在宾夕法尼亚大学积极心理学中心,塞利格曼和全球福利项目的20多名心理学家,医生和计算机专家一起使用机器学习和自然语言处理来筛选大量数据,以衡量公众的情感和身体健康状况。

  传统上,这是通过调查完成的。然而,塞利格曼表示,社交媒体数据更低调,更便宜,而且数据量要多出几个数量级。虽然这些数据也是分散的,但人工智能提供了一种获取模式的有效方法。

  在最近的一项研究中,Seligman及其同事分析了29,000名患有抑郁症的自评Facebook用户。使用来自这些用户的28,000个数据,机器学习算法发现了更新中的单词与抑郁水平之间的联系。然后,可以仅根据更新的内容成功衡量其他用户的抑郁程度。

  在另一项研究中,该团队通过分析1.48亿条推文预测了148个县级心脏病死亡率。事实证明,与愤怒和消极情绪有关的词汇是风险因素。社交媒体的这一预测与实际死亡率相比,更接近于根据吸烟和糖尿病等前十大风险因素所预测的死亡率。与此同时,研究人员利用社交媒体来预测人格,收入和政治意识形态,并研究了住院病人的护理,神秘的经历和刻板印象。该团队甚至使用推特的外推福利,抑郁,信任和五个人格特征来创建一个地图,标识美国的每个县。

  分析语言与心理的关系正在发生一场革命。德克萨斯大学社会心理学家James Pennebaker说。 Pennebaker不是关于内容,而是关于风格。他发现在申请大学招生时使用功能词预测结果。文章和介词象征分析性思维,预测更好的成绩,代词和副词象征叙事性思维,预测更差的成绩。 Pennebaker还发现了证据显示,大多数1728年的双背叛可能是莎士比亚写的。机器学习算法根据认知复杂度和罕见词汇等因素将脚本与其他莎士比亚相匹配。现在,我们可以分析你发布的任何东西,甚至写作。 Pennebaker说,结果是人们越来越丰富的画面。

  探索自闭症的根源

  孤独症对于遗传学家来说是一项艰巨的挑战。遗传规律表明它具有很强的遗传因子。然而,已知在自闭症中发挥作用的基因的许多变体只能解释大约20%的病例。寻找可能影响自闭症的其他变种需要从其他25,000个人类基因及其周围DNA的数据中寻找线索。对于研究人员来说,这是一项艰巨的任务。为此,普林斯顿大学计算生物学家Olga Troyanskaya和纽约西蒙斯基金会寻求人工智能工具。

  Troyanskaya汇集了数百个数据集,其中特定人类细胞中的基因是活跃的,蛋白质如何相互作用以及转录因子结合位点和其他关键基因组特征位于何处。她的研究小组使用机器学习来构建基因相互作用的图谱,并将较少的证实的孤独症风险基因与涉及自闭症的数百个其他未知基因进行比较,以寻找其相似性。这项研究标志着另外2500个可能与自闭症相关的基因。去年发表的有关成果,“自然神经科学”杂志。

  然而,正如遗传学家最近认识到的那样,基因并不孤立地工作。他们的行为受到附近数百万非编码基地的影响。这些非编码碱基与DNA结合蛋白和其他因子相互作用。确定哪些非编码变体可能会影响附近的自闭症基因是一个更成问题的问题。 Troyanskaya研究生周建正在用人工智能来解决这个问题。

  作为一个培训项目(一个深度的学习系统),周显露了它在DNA元素百科全书和Epigenomics路线图收集的数据。这两个项目回顾了数千个非编码DNA位点如何影响附近的基因。 Zhou使用了一个学习系统,当评估未知的,非编码DNA的潜在活性时,这个系统可以用来寻找特征。

  当Zhou和Troyanskaya在2015年10月的“自然方法论”(Deep Methodology)中描述了DeepSEA项目时,加州大学欧文分校计算机科学家谢晓辉形容这是将深度学习应用于基因组学的一个里程碑。目前,该团队正在使用DeepSEA来研究自闭症患者父母的基因组,以梳理非编码基因的影响。 (宗华编)

  阅读更多

  科学报告(英文)