人工智能在前沿科学领域已经取得了一系列颠覆性成果,新的科学研究范式正在形成,快速且深刻地影响着物理学、化学、材料学、生物学等基础科学领域。
7月7日,白玉兰科学大模型1.0版在2023世界人工智能大会闵行论坛暨智能机器人产业高峰论坛重磅发布。
(相关资料图)
上海交通大学围绕服务国家战略,在人工智能领域主动谋划,提前布局建设“ai for science科学数据开源开放平台”,目前研制出“白玉兰科学大模型1.0版”。“白玉兰科学大模型1.0版”包括三个领域模型,其中化学合成(bai-chem)代表了以分子结构为中心的学科方向,神经流体(bai-neurofluid)代表了以动力学为中心的学科方向,科学评测基准(bai-scieval)是一个跨学科、跨模态的基础模型。
今年3月,为贯彻落实国家《新一代人工智能发展规划》,科技部会同自然科学基金委启动“人工智能驱动的科学研究”专项部署工作,推进面向重大科学问题的人工智能模型和算法创新,发展针对典型科研领域的 ai for science 专用平台,布局 ai for science 前沿科技研发体系,逐步构建以人工智能支撑基础和前沿科学研究的新模式,加速我国科研范式变革和能力提升。
上海交通大学围绕服务国家战略,在人工智能领域主动谋划,提前布局建设“ai for science科学数据开源开放平台”,聚焦分子科学、能源科学、材料科学、集成电路等重大科学技术问题,致力于在ai for science领域打造跨学科研究高地、培养顶尖人才、引领科技创新、推动产业发展,加速世界级、原创性、基础性的重大科学发现。项目建设过程中,汇聚校内人工智能研究院、化学化工学院、变革性分子前沿科学中心、材料学院、机动学院等跨学科优势力量,研制了“白玉兰科学大模型1.0版”,并依托上海白玉兰开源开放研究院开源发布。
其中,“白玉兰科学大模型—化学合成(bai-chem)”依托于大模型训练技术,利用生成式人工智能技术赋能化学合成研究,是首个具备反应条件生成与“人在环路”反馈优化能力的化学大模型,加速从分子设计、反应设计、到条件生成、反应检验等化学合成全链条,潜在功能性分子(如药物分子)及其合成方案设计,从传统方法的几个月提速到几十分钟。
以抗hiv小分子设计为例,bai-chem能够在2分钟内生成超过250,000个全新的分子;并在30分钟内进一步筛选出172个潜在有效的分子,同时提供合成路线以及相应的反应条件;最终在5秒内进行验证,进一步筛选出23个可合成的潜在分子,大幅提升分子设计迭代效率。
在人机交互方式上,bai-chem平台在传统页面搜索交互的基础上,提供了化学聊天机器人和化学合成助手,支持以自然语言的方式进行连续、便捷的交互,能够基于给定的目标分子,同时提供生成式合成方案和检索式合成方案。
“白玉兰科学大模型—神经流体(bai-neurofluid)” 创建了视觉直觉学习框架,将物理启发的生成式人工智能技术用于流体粒子模型的计算与模拟,首次实现了从外部视觉表观推理内部流体动态,并可反演粘度、密度等流体属性,形成了“规律—仿真—观测”空间的闭环。
bai-neurofluid 支持跨流体属性、跨空间尺度、跨边界条件的大规模神经网络训练与推理,可以捕捉具有高泛化性的流体规律,在问题规模、模拟速度、模型泛化性、反问题求解精度等多个方面突破了现有流体数值模拟方法的计算瓶颈,十万粒子场景的模拟速度比现有流体仿真软件提升一个量级。
上海交通大学人工智能研究院于2022年提出“神经流体”方法(neurofluid),生成式人工智能拓展形成的仿真空间可以克服传统的计算机模拟方法“仿而不真”的问题,允许科学家根据实际观测数据反演仿真空间中的状态“后验信息”,通过与仿真得到的“先验信息”进行比对,对已有的科学规律进行修正,甚至通过拓展假设空间,发现新的科学现象。
“白玉兰科学大模型—评测基准(bai-scieval)”面向基础科学领域构建了首个包含动态数据的评测基准,旨在全面评估大模型的科学知识掌握水平和辅助科研能力。bai-scieval涵盖了约18000道具有挑战性的科学问题,涉及化学、物理和生物3大基础科学领域及其数十种子领域,以布鲁姆“记忆-理解-应用-分析-评价-创造”6大认知层级为参考,从基础知识、知识应用、科学计算和科研能力4方面多层级全方位评估语言大模型的科学研究能力。
评测方法采用了以客观题为主、主观题为辅的方式,全面考察模型的科学思维和应用能力。同时,bai-scieval包含了部分基于基本科学原理动态生成的评测数据,以降低数据泄露风险,保证评估结果的公正性和可信度。
记者:毛海萍
摄影:陆乾辰
上观号作者:今日闵行
标签: