软件驱动的深度学习取得了巨大成功,但现实世界是由材料构成的。研究人员正转向人工智能(AI)来帮助寻找新材料,以提供更好的电子产品和交通工具,以及运行它们的能源。
然而,尽管拥有不可否认的力量,“机器学习,尤其是深度学习革命,严重依赖大量数据,”康奈尔大学的计算机科学家卡拉·戈梅斯(Carla Gomes)说。“这不是科学的工作方式,”她说。“对我们来说,关键的下一步是整合越来越多的推理能力,并将这些大量的数据与推理能力结合起来。”
“我们所知道的机器学习对于科学发现来说是不够的,”她说。“我们还有很长的路要走。”
尽管如此,研究人员在解决材料科学问题上有了一个充满希望的开端。
材料发现的挑战之一是天文数字的成分可能具有有趣的性质。例如,“高熵合金”(HEA)结合了四种或四种以上的金属。“如果你考虑周期表中的所有元素,你会发现你有很多组合,然后是不同元素的无限组合,这使得预测非常困难,”德国马克斯·普朗克铁研究所(Düsseldorf)的博士后饶子元解释说。
尽管如此,Rao和他的同事们创建了一个多级分析来寻找具有低热膨胀的合金,这对液化天然气的低温储存和其他用途很重要。该分析利用了广泛的材料数据集,但可用的成分只是宇宙中大约10种物质的一个微小而稀疏的子集50的可能性。
在用这些数据训练了一个机器学习模型后,研究人员用它来选择有前途的候选人,通常是完全新颖的。然后,他们使用密集的密度泛函理论(DFT)计算来更精确地估计每种化合物的性质。DFT是围绕全量子力学理论广泛应用的一种捷径。事实上,DeepMind的研究人员最近使用深度学习让DFT确定电子电荷如何在竞争原子之间分布,这是一个长期的挑战。
HEA搜索的一个关键特征是主动学习,它建议检查的新作文将是最有信息量的。Rao说:“这与传统的机器学习略有不同。”传统的机器学习通常旨在提高模型的准确性。“我们也想用这个模型来预测具有非常好的性能的新材料。”
事实上,Rao和他的同事们通过实验制作和测量一些最好的候选分子,进一步完善了他们的搜索。“你需要真实世界的数据,”他说,因为“模拟数据有时是不准确的。”实验结果被折叠回模型中,循环重复六次。这项研究成功地确定了两种新的合金成分,它们的热膨胀系数很小,每度小于百万分之二。
美国能源部阿贡国家实验室纳米材料中心的Maria Chan和现任普渡大学材料工程助理教授Arun Kanakkithodi对新型卤化物钙钛矿进行了类似的研究,这种钙钛矿具有巨大的太阳能电池潜力。与健康成像等应用不同,“在材料和化学领域,我们有这样的优势,即我们可以使用量子力学模拟生成大量数据,”她说。“很多机器学习都是在模拟数据上完成的,我们可以控制不同输入的覆盖范围,我们可以控制数据的大小。”
HEA搜索的一个关键细节是主动学习,它建议检查的新作文将是最有信息量的。
Chan说,一旦一个模型经过训练,了解它是否可以概括到“至少有些”超出训练数据的输入是很重要的。“我认为这是我们至少能做的。”研究人员最终将18000种可能的化合物减少到400种,其中包括一些以前从未检测过的化合物。
其中一个非常活跃的研究领域是如何训练一个系统来改善多个属性。“这不仅仅是你关心的一件事,”陈说。“有许多重要的输出”,比如钙钛矿的稳定性、带隙和缺陷容限。虽然属性可以组合成一个单一的指标,例如强化学习,但她指出,不同属性的权重是非常重要的。
Chan说,在另一个研究方向上,“机器学习和人工智能真的有助于”材料表征,这是至关重要的,因为结构与性能密切相关。像显微镜和光谱学这样的技术往往是“逆问题”,它们试图确定是什么结构引起了观察,这与了解输入和输出关系的工具很自然地契合。
这些例子说明了机器学习对输入条件(如材料组成)和输出变量(如材料属性)之间关系的影响越来越大。Chan说:“这个算法很擅长这一点。陈冯富珍说:“科学专长是要弄清楚什么是输入,什么是输出。”“没有多少人意识到这是最难的事情。”
她说,通常情况下,“盲机器学习不像我们所说的基于物理的机器学习那样成功”,后者结合了约束、渐近行为、对称性和物理定律。
加州理工学院(Caltech)计算与数学科学教授阿尼玛·阿南德库马尔(Anima Anandkumar)表示同意:“当你只有有限的数据时,你必须将物理学纳入其中。”在工具中嵌入这些规则可以使计算更加有效。
Anandkumar和她的同事开发了“神经算子”来解决偏微分方程(PDEs),它控制着材料、流体动力学和气候科学的各个方面。“其中许多过程都需要非常精细的网格。这就是导致这些巨大计算需求的原因,”她说。她说,使用可调网格可以使计算速度提高5个数量级,但“仍然保留了精细的尺度”,这“是标准神经网络不可能实现的,因为它们在固定分辨率下运行”。
Anandkumar和她的同事Yisong Yue在加州理工学院发起了“AI4Science”计划(这个名字在其他地方已经被广泛采用)。她说,有很多科学问题可以用现成的工具来解决,所以“人工智能科学家不需要参与进来。”她指出,在许多科学问题中,“优化环境变得非常困难,而在标准的深度学习中,我们甚至不担心这一点。”
“在标准工具不起作用的地方,我认为必须进行非常深入的合作,”阿南德库马尔说。为了在这些情况下取得进展,让“在当前数值求解器如何应用于这些多尺度混沌系统方面具有深厚领域专业知识的人”以及人工智能专家构建一个复杂的框架“具有良好的泛化性,具有正确的归纳偏差,具有正确的约束”“真的很关键”。
“科学专业知识是要弄清楚什么是输入,什么是输出。没有多少人意识到这是最难的部分。”
加州理工学院应用物理与材料科学研究教授约翰·格雷瓜尔(John Gregoire)说,将人工智能应用于科学取得真正进展“需要很大的耐心”,他与戈麦斯合作了十多年。他说,针对标准数据集对其结果进行基准测试的会议和出版物压力“与其说是有用的解决方案,不如说是一种障碍”,尤其是对于计算机科学领域的早期研究人员来说。“他们中很少有人愿意接受挑战,与某个特定科学领域的领域专家交谈,以达到他们在该学科中具有影响力的程度。”
格雷瓜尔说:“各种深度学习技术在材料发现中的直接适用性并没有那么大的影响。”“我们真的需要为物理科学量身定做的方法。”他说,巨大的标记图像或数据表数据库“不是科学先验知识的样子”。
“我们将需要新的人工智能架构来解决科学中的具体问题,”格雷瓜尔补充道。“没有一种架构可以解决所有问题。”
阿南德库马尔说,目前的问题是如何“开发出更好、更强大、更可解释、更有保障的人工智能方法,真正经得起这些科学应用的考验。”
在某些情况下,成功的方法可以将神经网络与符号表示结合起来,例如,数学关系或其他规则。“你从系统中知道的任何约束都已经有了符号,因为某些量需要守恒,”她说。戈梅斯说,联合神经符号工具“在科学中更自然”,而不是“其他你不知道约束是什么的情况”。
她说:“如果你把自己的观察与先验知识、科学知识结合起来,把它们放在一起,你就能进行概括,而不是仅仅依赖数据。”“通常情况下,深度学习有(很多)层,但这些层没有意义,所以整合先验知识并不是一件小事。”
她和她的同事,包括格雷瓜尔,最近发表了一种他们称之为“深度推理网”的方法。一个关键元素是编码器的使用(类似于Rao使用的编码器),它将输入数据投射到较低维度空间。“与标准相反,我们对这个潜在空间进行了解释。”
通过加强热力学约束,该技术成功地从x射线衍射模式中识别了混合物中的相,并分离了覆盖的手写数独解决方案。戈梅斯说,有用的新方法应该“非常通用,适用于多个领域”,像线性规划或回归等主要技术一样。“这不仅仅是机器学习。这就是计算机科学的美妙之处。”
进一步的阅读
胡庆淼,杨睿,
"对更好合金的无尽探索"科学378, 26岁。(2022),https://doi.org/10.1126/science.ade5503
卡拉·p·戈麦斯,巴特·塞尔曼和约翰·m·格雷瓜尔,
材料发现的人工智能MRS Bulletin 44, 538(2019)。https://doi.org/10.1557/mrs.2019.158
Heather J. Kulik和Pratyush Tiwary,
计算材料科学中的人工智能MRS Bulletin 47, 927-929(2022)。https://doi.org/10.1557/s43577-022-00431-1
©2023 acm 0001-0782/23/04
本论文部分或全部的电子版或硬拷贝供个人或课堂使用的许可是免费的,前提是副本不是为了盈利或商业利益而制作或分发的,并且副本的第一页上必须有本通知和完整的引用。除ACM外,本作品的其他组件的版权必须受到尊重。允许有署名的摘要。以其他方式复制,重新发布,在服务器上发布,或重新分发到列表,需要事先特定的许可和/或费用。请求发布权限permissions@acm.org或传真(212)869-0481。
数字图书馆是由计算机协会出版的。版权所有©2023 ACM, Inc.
没有找到条目