研究背景
随着框架材料(如金属有机框架MOFs、共价有机框架COFs)在催化、气体存储等领域的广泛应用,其结构-性能关系的系统性理解仍受限于数据分散与多源异构问题。传统知识整合方法依赖人工标注,效率低下且难以捕捉复杂关联。近年来,大语言模型(LLMs)在知识提取与推理中展现出潜力,但尚未系统应用于材料科学的知识图谱(KG)构建。本文提出一种LLM驱动的自动化框架,旨在解决框架材料领域知识碎片化问题,为高通量筛选与性能预测提供结构化基础。
主要内容
框架材料(FM)已被广泛研究,大量文献记录了其独特的特性和潜在应用。尽管如此,这个新兴领域的综合知识图谱尚未构建。在这项研究中,通过利用大型语言模型(LLM) 的自然语言处理能力,我们建立了一个全面的知识图谱(KG-FM)。它涵盖了FM的合成、性质、应用和其他方面,包括金属有机框架(MOF)、共价有机框架 (COF) 和氢键有机框架 (HOF)。知识图谱是通过分析超过 10 万篇文章构建的,产生了253万个节点和401万个关系。随后,它的应用已被探索用于增强数据检索、挖掘和复杂问答系统的开发。特别是在将KG与LLM集成时,结果Qwen2-KG不仅在问答中实现了比现有模型更高的91.67%的准确率,而且还提供了精确的信息源。

图 1 从文献中构建知识图谱并将其用于知识查询和增强的LLM检索和知识图谱应用的流程图
总结与展望
该研究首次将LLMs与知识图谱技术深度融合,实现了框架材料多模态数据(文本、表格、图像)的自动化抽取与关联,显著提升了知识构建效率与覆盖度。通过引入领域适配的提示工程与逻辑规则校验,解决了LLMs在专业术语和数值推理中的幻觉问题,为材料逆向设计提供新范式。未来这一方法可扩展至其他材料体系,推动材料informatics向智能化、标准化发展。
DOI:10.1038/s41524-025-01540-6