2019-08-17 23:54:01
对未来的一瞥加速计算加速粒子

对未来的一瞥加速计算加速粒子.jpg

大型强子对撞机的每次质子碰撞都不同,但只有少数是特殊的。特殊碰撞产生的异常模式的粒子 - 新的,破坏规则的物理的可能表现 - 或帮助填补我们不完整的宇宙图景。

发现这些碰撞比大肆搜寻大海捞针更难。但改变游戏规则的帮助正在酝酿之中。费米实验室的科学家和其他合作者成功测试了原型机器学习技术,与传统方法相比,该技术可将处理速度提高30至175倍。

每秒钟面对4000万次碰撞,大型强子对撞机的科学家们使用功能强大,灵活的计算机来捕捉宝石 - 无论是希格斯粒子还是暗物质暗示 - 来自普通碰撞的巨大静态。

通过模拟的LHC碰撞数据,机器学习技术成功地学会了识别特定的后碰撞模式 - 一种特定的粒子喷雾飞过探测器 - 当它翻转每秒惊人的600幅图像时。传统方法每秒处理少于一个图像。

该技术甚至可以作为外部计算机上的服务提供。使用这种卸载模型可以让研究人员更快地分析更多数据,并留出更多的LHC计算空间来完成其他工作。

对于机器学习服务如何支持已经大量数据只会变得更大的领域,这是一个很有希望的一瞥。

挑战:更多数据,更多计算能力

研究人员目前正在升级大型强子对撞机,以目前的五倍速率粉碎质子。到2026年,欧洲实验室欧洲核子研究中心的17英里圆形地下机器将产生比现在多20倍的数据。

CMS是大型强子对撞机的粒子探测器之一,CMS合作者正在进行一些自己的升级,使复杂的故事高仪器能够拍摄更复杂的LHC粒子碰撞图像。费米实验室是美国CMS实验的主要实验室。

如果LHC科学家想要保存他们在一年内从High-Luminosity LHC收集的所有原始碰撞数据,他们必须找到一种存储大约1 exabyte(大约1万亿个人外部硬盘驱动器)的方法,其中只有一条条子才能揭开新现象。 LHC计算机被编程为选择这一小部分,做出瞬间决定哪些数据足够有价值,以便下游进行进一步研究。

目前,LHC的计算系统大约每100,000个粒子事件中就有一个。但是目前的存储协议将无法跟上未来的数据泛滥,这将累积数十年的数据。升级后的CMS探测器捕获的高分辨率图片不会让工作变得更容易。这一切都意味着需要比LHC现在多10倍的计算资源。

最近的原型测试表明,随着机器学习和计算硬件的进步,研究人员希望能够在即将上线的高亮度LHC中获得数据。

“这里的希望是你可以用机器学习做更复杂的事情,也可以更快地完成它们,”费米实验室科学家Nhan Tran说,他是CMS实验的一员,也是最近一次测试的领导者之一。 “这很重要,因为升级的探测器和更繁忙的碰撞环境会使我们的数据变得越来越复杂。”

机器学习救援:推理差异

粒子物理中的机器学习并不新鲜。物理学家在对撞机实验中使用机器学习进行数据处理的每个阶段。

但是,通过机器学习技术可以将LHC数据咀嚼比传统方法快175倍,粒子物理学家正在提升碰撞计算过程中改变游戏规则的步骤。

由于平台中设计巧妙的硬件,微软的Azure ML,速度很快,这加速了一个叫做推理的过程。

为了理解推理,考虑一种经过训练识别摩托车图像的算法:物体有两个轮子和两个手柄,连接到较大的金属体上。该算法足够聪明,知道具有类似属性的独轮车不是摩托车。当系统扫描其他两轮双处理物体的新图像时,它会预测或推断出哪些是摩托车。并且随着算法的预测误差得到纠正,识别它们变得相当灵巧。十亿次扫描后,这是它的推理游戏。

大多数机器学习平台的构建是为了理解如何对图像进行分类,而不是为物理特定的图像分类。物理学家必须教他们物理部分,例如识别希格斯玻色子创造的轨迹或寻找暗物质的暗示。

费米实验室,欧洲核子研究中心,麻省理工学院,华盛顿大学和其他合作者的研究人员对Azure ML进行了培训,以确定顶级夸克的图片 - 一种短寿命的基本粒子,比质子的重量大约180倍 - 来自模拟的CMS数据。具体来说,Azure是寻找顶夸克喷气式飞机的图像,一个顶部夸克从撞击中拉出的颗粒云从真空中拉出。

“我们发送了图像,对物理数据进行了培训,”费米实验室科学家Burt Holzman说道,他是该项目的负责人。 “它展示了最先进的性能。它非常快。这意味着我们可以管理大量的这些东西。总的来说,这些技术非常好。”

推理加速背后的技术之一是将传统与专用处理器相结合,这种结合称为异构计算架构。

不同的平台使用不同的架构。传统的处理器是CPU(中央处理单元)。最着名的专用处理器是GPU(图形处理单元)和FPGA(现场可编程门阵列)。 Azure ML结合了CPU和FPGA。

“这些流程需要加速的原因是这些都是很重要的计算。你说的是250亿次操作,”Tran说。 “将其安装到FPGA上,在其上进行映射,并在合理的时间内完成,这是一项真正的成就。”

它也开始作为服务提供。该测试是第一次有人证明这种异构的,即服务架构如何用于基础物理。

在计算机世界中,使用“作为服务”的东西具有特定的含义。外部组织提供资源 - 机器学习或硬件 - 服务,用户 - 科学家 - 在需要时利用这些资源。它类似于您的视频流媒体公司提供数小时的狂欢电视即服务。您不需要拥有自己的DVD和DVD播放器。您可以使用他们的库和界面。

来自大型强子对撞机的数据通常在CERN和合作机构(如Fermilab)的计算机服务器上存储和处理。随着机器学习的提供与任何其他Web服务一样容易,可以在提供服务的任何地方(包括非现场)进行密集计算。这增强了实验室的能力,增加了计算能力和资源,同时使他们不必提供自己的服务器。

“加速计算的想法已经持续了几十年,但传统的模式是购买带有GPU的计算机集群并在实验室本地安装,”Holzman说。 “使用专门的硬件将工作卸载到农场外的想法,提供机器学习作为服务 - 按宣传方式工作。”

Azure ML农场位于弗吉尼亚州。伊利诺伊州芝加哥附近的费米实验室计算机只需100毫秒即可将粒子事件的图像发送到Azure云,处理并返回。这是一次2500公里长的数据密集旅行。

“与所有这一切相关的管道是另一项成就,”Tran说。 “将数据抽象为你刚刚发送到其他地方的东西的概念,它刚刚回来,是这个项目最令人惊喜的事情。我们不需要在我们自己的计算中心用一大堆替换所有东西。新的东西。我们保留所有这些,发送硬计算并让它稍后再回来。“

科学家期待扩大技术,以解决大型强子对撞机的其他大数据挑战。他们还计划测试其他平台,例如亚马逊AWS,谷歌云和IBM云,因为他们正在探索通过机器学习可以实现的其他目标,这在过去几年中已经有了快速发展。

“2015年最先进的模型是标准配置,”Tran说。

作为一种工具,机器学习继续为粒子物理学提供了瞥见宇宙的新方法。它本身也令人印象深刻。

“我们可以采取一些训练有素的东西来区分动物和人的照片,做一些适度的计算,让它告诉我顶夸克喷射和背景之间的区别?”霍尔兹曼说。 “这让我大吃一惊。”

人类科学
2018-12-03 16:00:02
课件视频MP3下载
2018-03-22 18:44:46
课件视频MP3下载
2018-03-11 12:00:11
课件视频MP3下载
2018-01-31 00:41:58
试题下载
2018-03-30 09:20:05
试题下载
2018-12-04 17:30:02
试题下载
2019-01-05 02:00:03
课件视频MP3下载
2018-09-17 00:33:02