技术交流

您当前位置:首页>>技术交流 >> 技术交流

顾及时空特征的地质知识图谱构建方法研究

发布日期:2023-03-02 发表者:邱芹军 浏览次数:1197次
       一 研究背景与现状分析
       随着地球科学大数据时代的到来,以及全球覆盖、全天候监测、全要素观测的空天地一体化地球观测系统的形成,地学数据呈爆发式增长,地学研究进入大数据时代并逐步向大数据驱动的第四科研范式转变。但数据海量、信息爆炸、知识难求的矛盾日益突出,难以满足国家高质量发展对地学知识服务的紧迫需求。
       人工智能是大数据价值挖掘与提升的关键,而知识图谱则是人工智能的重要基石之一。国际地质科学联合会(IUGS)2020年发起了一项新的倡议:IUGS大科学计划,阐述了在地球科学中运用数据驱动方法的主要机遇、优势和挑战,形成的一整套人工智能系统,将推动研究者从“在已知问题中寻求答案(Know Know)”的科研范式拓展到“在迄今未知的问题中寻求未知的答案(Unknow Unknows)”的全新范式。分散、多源、异构地球科学大数据的整合集成,智能处理、开放共享、挖掘分析,复杂地学模型的耦合与自动计算,需要统一规范、可计算、可推理的语义基础。
       地质知识图谱通过“节点-边”模式,可将地质知识组织成计算机可理解、可计算的语义网络。充分利用地质数据,群智高效获取地质知识,构建地质知识图谱,是实现地质知识服务的有效途径。
       研究的具体内容是以深时地质大数据与大知识驱动的地球科学研究为出发点,构建了融合时间、空间特性及复杂知识结构的地质知识表达框架,研究了集“图-文-数”一体的地质文本预处理、地质实体识别、地质关系抽取与融合等模型,发展了融合领域知识的面向海量地质文献的知识图谱构建方法,研发了群智协同服务平台。在国家“深时数字地球”(DDE)等项目的支持下,持续开展了地质知识图谱关键技术的研究。

邱芹军.jpg

地质知识图谱为地学数据提供强大语义基础

       二 面向文本地质知识图谱

       1 基于语料生成的深度学习地质报告分词方法
       中文分词是后续进行信息抽取的基础,地质报告资料中存在大量关于地名、空间方位、地貌、地层分布、岩性、构造、产状、地史、分析、评价等信息,传统的中文分词方法存在大量歧义及未登录词问题。为了解决这个难题,我们以词和词频作为输入,利用深度学习自主学习能力生成训练语料库,解决专业领域分词需要标注大量语料库问题。这项工作发表在计算机和地质交叉的旗舰期刊上。
       面对现有地质领域缺少公开预训练模型,导致地质文本表征能力不足、知识挖掘不充分等问题,提出以Post-training为主的中文地质预训练模型,在地质命名实体识别、关系抽取以及聚类任务上相比BERT均有提升(NER、RE任务提升了5%-10%,聚类任务中GeoBERT聚类更准确),解决了地质领域文本表征不足问题,为面向地质报告的信息抽取提供了强大表征能力。针对地名相对其他地质实体具有独特的特征,该特征提取不充分的问题,提出了基于地学预训练模型的地名识别算法。以Post-training 的方法训练地名预训练模型,然后基于该模型完成地名识别;基于地名词典特征融合,兼顾BERT学习到的语句特征直接完成地名识别。
      2 基于词向量的地质报告主题信息抽取方法
       面对地质报告内容主题比较丰富、表达方式多样化、特征提取困难;地质报告信息数据的聚增和个体之间的差异性问题,人工手动标注关键词耗时费力;关于主题提取集中在从定性的角度提取主题信息,或者词语之间的关联度缺少对主题的定量化定义等难题,对通用领域主题进行定量化定义,利用此词向量中的Skip-Gram对定义进行求解,融合领域知识提取主题信息。
       3 基于多特征融合的地质命名实体识别
       面对地质命名实体识别是大规模知识图谱构建的基础,地质领域缺少高质量标准数据集,已有方法迁移到地质领域效果较差,无法实现地质实体高置信抽取等问题,我们做了基于多特征融合的地质命名实体识别,包括融合词典、字符、偏旁部首等特征,训练GeoBERT对地质命名实体进行识别,为大规模地质知识图谱构建提供基础技术支撑。
       4 基于时空卷积神经网络的地质实体空间关系抽取
       面对相关的研究仅仅局限于地质报告本身语义特征的提取,尚未充分利用地质报告与空间数据之间的关联关系;大量的研究集中于信息抽取结果的准确率及召回率,缺乏对时空特征的科学的度量;自然语言的灵活性,以及词语的多意性、句子的结构化特征对所表达语义的多重影响等问题,我们构建了深度学习所需要的语料库,提出了融合词典的时空卷积神经网络,通过语料库搜集与预处理、相似性计算,进行模型的训练以及测试。
       5 顾及语句上下文信息的地质实体关系抽取方法
       地质三元组是构建地质知识图谱的基础。鉴于地质领域文本实体分布密度高、重叠关系多等特点,提出一种顾及上下文的地质实体关系联合抽取方法,实现端到端的方法抽取地质文本三元组。

       三 面向图件地质知识图谱
       1 地质报告地质图文信息结构化表征模型
       针对地质剖面图图件,提出构建矢量地质剖面图岩层对象化的概念,使其每个岩层具备几何特征和属性信息;针对地质报告文本信息,通过地质三元组形式进行抽取,并利用图结构形式存储和表达,为面向图件和文本的地质知识图谱构建提供理论支撑。
       2 融合多源地质数据的半自动化地质剖面图构建方法
       陈旧的地质报告记录的制图信息能够弥补钻孔数据缺乏条件下的地质制图,避免了大量的人力、物力和财力。我们重新构建地质剖面图格式以矢量格式存储,在后续的调查研究中,可实时地并且方便地进行更新,提出的融合多源数据的半监督地质剖面图构建方法解决重构难问题,为大规模地质知识图谱构建提供基础技术支撑。
       3 基于Felz聚类算法的栅格地质图件分割
       针对地质图件要素繁杂、文字符号相互叠压而无法高效地对地质图件进行语义分割等问题,提出一种无监督地质图像语义分割的方法,结合改进后的FCN模型以及Felz聚类算法,引入数学形态学中的膨胀和腐蚀操作进行预处理,提取表达和描绘区域形状的有用图像分量,为面向地质报告的信息抽取提供强大表征能力。该模型对地质图的分割精度PA可达到91.01%,mIoU、Dice分别为62.23%、67.79%,模型分割效果明显优于其他三种分割模型,充分融合了区域边缘特征以及利用了区域之间的特征关联,有效地提升了图像分割的性能。
       4 基于领域本体的矢量地质知识图谱构建
       地质图是地质知识的重要载体。对于矢量地质图数据库,其中平面地质图属性库中含有岩性信息和成矿背景,这些数据之间有着紧密的语义关系,且地质体间的空间关系蕴含丰富地质构造特征。通过知识图谱建立矢量地质图中地质对象、属性及语义关系,方便对地质图知识的表示、理解、挖掘与应用,为海量矢量地质图件的自动化理解及上下文文本管理提供技术支持。
       地质图数据库含有丰富的地质知识,其复杂的图层划分与属性库构建工作需要通过编码的形式加以整理。通过知识图谱整合多尺度地质图数据,有助于地质图的知识聚合与统一表达。使用Cypher语句可以实现对知识图谱的简单推理,包括识别断层要素,邻近地质体间的空间相对方位关系,地质体间的地质年代关系等。
       5 基于ResNet与迁移学习的地质图例识别
       针对现有的图例识别方法无法对大规模的图例进行自动化识别等问题,提出结合了SENet、迁移学习和ResNet50模型自动识别地质剖面图图例的方法。通过数据增强的方法构建了地质剖面图图例数据集,并在现有模型上进行测试,所提出的方法显著优于先前的研究以及基于深度学习的图像分类方法。

       四 面向表格地质知识图谱
       1 基于改进FCNN的表格信息抽取
       针对缺乏对地质表格中复杂表头信息的完整提取、缺乏表中地质对象、关系与上下文内容的融合等问题,提出一种基于改进FCNN的表格信息抽取方法——以注意力机制和目标提取模型,解决表格单元格大小差异较大的问题;以二值化处理和表头分割线再连接的方式,解决地质表格中不规则表头的问题,为面向地质报告的信息抽取提供强大表征能力。
       2 地质表格与上下文文本关联与对齐
       提出对表格及其上下文内容进行标记关联形成新的语义加强知识图谱的方法,采用文本匹配和统计学方法,通过基于规则过滤以及神经网络模型对文本中描述关键词的信息进行抽取和关联,形成地质知识图谱。

       五 地质知识图谱平台
       在地质知识图谱认知平台模块,将前面的算法进行了集成,研发了地质知识图谱认知平台原型,涵盖从语料库标注、实体抽取、主题抽取、关系抽取、知识图谱自动化构建及可视化等一体化功能。
(作者是中国地质大学(武汉)副研究员)