- 07成都
首个亿级参数量的“谛听”地震波大模型正式发布
能“听”地震的“神兽”来了!
-
□四川日报全媒体记者 王国平
7月28日,由国家超级计算成都中心、中国地震局地球物理研究所与清华大学联合开发的“谛听”地震波大模型正式发布。这是首个亿级参数量的地震波大模型。
出席活动的四川省地震局副局长杜斌表示,此次“谛听”地震波大模型的发布不仅是地震科学技术的重大突破,也是对国家重大战略需求的积极回应。
如何练出听震“神兽”?
基于地震事件波形进行预训练,“刚出生”就比肩经验丰富的“老专家”
“谛听是中国神话传说中的神兽,可以通过听音来辨认世间万物。”中国地震局地球物理研究所副所长陈石说,“我们研发的‘谛听’,是一种大型地震学数据集以及在此基础上训练的人工智能大模型。”
发布会上,陈石如此解释“谛听”的来历:它们都是通过“听”去认识、分析自然界中的信息。
陈石说,随着我国地震监测体系的持续优化升级及近年来人工智能技术的迅猛发展,地震学研究和防震减灾工作也进入地震波大数据时代,“谛听”地震波大模型应运而生。
如何训练这只可辨识地震的“神兽”?数量足够的数据是基础性工作。最初,科研团队将2013年至2020年间的震相观测报告和国家测震台网数据备份中心的数据,经过清洗和脱敏处理后,建立1.0版本的“谛听”数据集。随着数据规模的扩大,2023年9月,国家超级计算成都中心与中国地震局地球物理研究所达成战略合作,双方合作共建地震大模型创新应用联合实验室,新一代“谛听”数据集正式落户成都。
数据集是大模型训练的基础,其规模和质量决定了模型的训练效果。“谛听”数据集不仅是国内首个,也是目前国内外规模最大、样本类型和标注最为全面的地震学专业AI训练数据集之一。
陈石介绍,1.0版本“谛听”地震波大模型基于2300万条地震事件波形进行了预训练,而中国地震台网每年产生的标注事件波形约为50万条。以此计算,刚“出生”不久的“谛听”地震波大模型已相当于拥有40多年地震信号识别经验的“老专家”。
“谛听”能干什么?
可提升地震信号识别准确率,未来还可在页岩气开采等领域应用
目前,“谛听”地震波大模型已可投入使用,可直接应用于地震信号识别、地震活动监测、大地震快速响应等领域,有望减轻地震局一线业务人员的工作压力。陈石谈道,在测试中发现,该模型可以显著提升地震信号的识别准确率和速度。
“未来,该模型的应用场景还可用于矿震监测、页岩气开采、城市地下空间结构探测、海底地震监测等多个领域。”国家超级计算成都中心常务副主任王建波说。
以寻找油气为例。目前全球95%以上的油气田发现主要依靠地震勘探。王建波说,地震波在不同介质中传播时,强度、形态等特征都不同,“谛听”地震波大模型通过学习储存石油区域的波形特点,就可推导出地下是否含有油气。
成都数据集团党委副书记、成都超算中心运营管理有限公司董事长郭黎表示,“谛听”地震波大模型的研发,不仅极大地推动了人工智能算法在地震学领域的开发、测试和应用,更为地震监测预报业务的智能化发展提供了坚实的技术支撑。
作为长期在超算领域工作的资深从业者,王建波认为,“谛听”地震学数据集正式落户国家超级计算成都中心地震大模型创新应用联合实验室,这是垂直领域专业数据和大规模算力深度融合、软硬一体的一次新尝试。
“‘谛听’地震波大模型的发布对于突破中小地震波模型性能瓶颈,提高地震大数据智能处理能力和信息挖掘水平具有重要意义。”王建波说,国家超级计算成都中心的强大算力和技术服务能力,不仅可满足中国地震局地球物理研究所等科研单位定制化的软硬一体的服务需求,更为人工智能和机器人等未来产业发展提供了坚实的平台保障。