2025年第1期 | 古籍文献通用知识模型研究与设计

释放双眼,带上耳机,听听看~!
陈 涛 赵晓飞 杨 鑫 2,3 林立信 1,4

1.中山大学信息管理学院,广州,510006;

2.中国人民大学信息资源管理学院,北京,100872;

3.中国人民大学数字人文研究中心,北京,100872;

4.珠海市斗门区图书馆,珠海,519100

摘    要

Abstract

我国拥有卷帙浩繁的古籍文献,传统的古籍组织与管理方式实现了古籍资源从“藏”到“用”的转变,但“裸资源”越来越难满足数智时代的古籍利用需要。文章考察分析了古籍文献知识组织可复用本体模型,并梳理了古籍文献知识建模视角与思路,从形式特征和内容特征两个维度提出了古籍文献通用知识模型五层框架结构。为验证模型可用性,文章以《永乐大典》“湖”字册为例,构建关联数据集,探索融合关联数据的古籍文献知识图谱,实现了知识聚合与知识发现。本文立足古籍整体,构建了古籍文献通用知识组织模型,为古籍知识的关联呈现、传播共享和智慧应用提供了可选路径。
关键词

古籍 本体构建 知识图谱 关联数据 永乐大典

01
引言
古籍文献是中华民族宝贵的精神财富,也是我们坚定文化自信的重要源泉。十八大以来,习近平总书记多次提出“让书写在古籍里的文字活起来”,同时要“深入挖掘古籍蕴含的哲学思想、人文精神、价值理念、道德规范,推动中华优秀传统文化创造性转化、创新性发展”,为加快古籍资源利用提供了根本遵循 [1] 。2022年4月,《关于推进新时代古籍工作的意见》强调,“积极开展古籍文本结构化、知识体系化、利用智能化的研究和实践,加速推动古籍整理利用转型升级。”古籍文献语义化组织是其应有之义。

近年来,随着古籍保护和数字化出版工作的开展,我国积累了海量古籍数字资源。传统的古籍数字化工作侧重载体形式的转换,形成了大量图像和电子文本等非结构化资源,同时以古籍文献实体为单位对电子文本进行组织,远未深入知识元层面,虽在一定程度上满足了公众阅读需求,但使用效果和服务质量仍待提升。数智化时代,如何应用新技术和新理念提炼、展示与活化古籍蕴涵的优秀文化基因,逐渐成为新时代古籍数字化工作的主要目标和核心任务 [2] 。在数字人文领域,基于语义网技术的知识组织逐渐成为古籍资源数字化建设的重要路径,形成了涵盖平台框架、知识描述、转换等方面的完备体系 [3] ,为古籍资源深入利用提供了新途径。古籍文献是中华优秀传统文化的重要载体,对其进行语义化开发和利用是古籍知识体系建设和知识互联的基础,契合国家文化数字化战略,有助于促进古籍知识的共建、共治和共享。

02
古籍文献语义化知识组织研究现状
目前,关于古籍文献语义化知识组织的研究主要包括知识模型构建、知识库构建和知识图谱构建研究。

(1)古籍文献知识模型构建研究。不同类型的知识组织模型在古籍领域均有探索和实践,学界探讨的古籍文献知识组织模型以本体为主,根据古籍文献资源特征复用成熟模型或词表,或从古籍文本中抽取实体和关系构建知识组织模型。元数据层面,2014年文化部出台了《古籍元数据规范》,规定了用于描述古籍资源内容和外观特征的元数据元素 [4] 。本体层面,上海图书馆结合名人手稿档案特征,设计了手稿及档案本体,用于盛宣怀档案知识库与名人手稿档案库建设 [5] 。夏翠娟等 [6] 构建了面向古籍循证需求的本体词表,并用作上海图书馆古籍联合目录和循证平台的数据模型。何琳等 [7] 以CIDOC CRM模型为框架,构建了先秦古籍文献本体。徐晨飞等 [8] 构建了楚辞知识本体,并探索了楚辞本体的实例化。王晓光等 [9] 基于纳米出版物,构建了古籍注疏知识组织框架。已有知识组织模型多根据具体需要而构建,既有面向古籍文献目录或书目信息的,也有面向内容实体或文本结构的。

(2)古籍文献知识库构建研究。目前,国内外学者基于语义网、GIS等技术,面向不同资源构建了古籍文献知识库,包括家谱、医学典籍、方志等。陈涛等 [10] 探讨了方志资源本体映射方案,探索了古籍文献资源的关联数据通用实现机制。上海图书馆构建了家谱关联知识服务平台,实现了家谱知识的深度开放和服务 [11] 。李斌等 [12] 通过人工协同方法抽取《左传》文本知识要素并构建知识库,探索古籍文本历史要素的定量分析与可视化。Hyvönen等 [13] 构建了用于建模、聚合、发布和研究的手稿迁移映射系统,支持手稿发布中的协作、推理与关联,提供关联数据服务。以美国国会图书馆为代表的Digital Scriptorium联盟开发了Wikibase模型,开放在线国家联盟手稿目录数字平台,支持高效收集和丰富元数据 [14] 。古籍文献知识库构建多面向特定类型古籍,涉及外部元数据和内部知识元素的组织,已形成较为完备的方法。

(3)古籍文献知识图谱构建研究。知识图谱提供了在互联网中编码并关联碎片化知识单元的方案。欧阳剑等 [15] 从需求层、模型层、应用层3个维度构建了中国历代存世典籍知识图谱,挖掘古籍书目知识。张卫东等 [16] 以《金匮要略》为例构建领域本体,生成RDF数据集和知识图谱,探索了中医古籍知识规范表示。Zhang等 [17] 使用深度学习方法生成中药知识图谱,实现了症状聚类和可视化分析。杨凤等 [18] 提出知识元语义网络表示模型,构建了中医古籍知识图谱。此外,相关学者以不同中医典籍为基础构建知识图谱,进行医学典籍关系发现、知识定位和知识推荐 [19-23] 。高劲松等 [24] 构建了山水志史料资源领域本体,并以《沙湖志》为例构建关联数据集和知识图谱。熊晶等 [25] 融合科学知识图谱和语义知识图谱,构建了甲骨学融合知识图谱。面向古籍文献的研究中,既有使用图数据库储存方案的广义知识图谱,用于知识计算、推理,也有使用RDF储存方案的语义知识图谱,用于支持机器语义描述。

通过梳理已有研究可以发现,目前相关研究主要从文献书目和内容结构两个视角探索古籍文献知识组织。古籍形式特征是内容特征的物质基础与表达方式,内容特征是古籍文献的精髓与内核,也影响着形式特征的选择,二者相互影响,共同构成了古籍的整体性。因此,本文从形式特征和内容特征两个视角构建古籍文献通用知识组织模型并进行实例验证。其中,形式特征主要描述古籍文献外在知识,包含分类整理层和文献书目层,通常包含古籍文献的大小题名、责任者、版本、存藏机构等;内容特征主要描述古籍文献内容组织的实体与层次关联,包含组织结构层、内容实体层和知识关联层,通常包括人物、时间、地点、事件等。本文从形式特征到内容特征,对古籍文献进行深入描述和组织,利用语义网技术构建关联数据集,将古籍文献转换为结构化、可发现、可关联、可重用的数据,进而全面揭示并展现其中的语义内涵。

03
古籍文献通用知识模型设计
模型复用是知识组织模型设计的重要原则,考虑到古籍文献涉及文献书目、文化遗产和数字资源等领域,因此本文主要考察相关领域可复用本体模型,包括美国国会图书馆书目框架模型(BIBFRAME)、国际文献委员会概念参考模型(CIDOC CRM)和互联网词汇表Schema.org。
3.1 相关领域可复用本体模型考察
CIDOC CRM是文化遗产资源描述的通用模型,其特点是以事件为中心建模,在描述动态信息方面具有灵活性和适用性,类和属性定义侧重于物质文化遗产,涉及书目信息和内容特征的描述较少。BIBFRAME是书目资源描述的专门模型,核心结构为“主题-作品-实例-单件”四层,严格区分了书目资源的作品概念和载体表现,广泛应用于图书馆各类资源的语义化组织和关联发布。Schema.org是面向互联网中结构化数据的通用词表,核心特点是面向对象的属性继承,提供了丰富的类和属性。古籍文献主要涉及书目领域,CIDOC CRM和Schema.org词表均有对应书目扩展模型,分别为FRBRoo和SchemaBibEx,前者主要用于图书馆和博物馆信息集成与交换,此处仅比较BIBFRAME模型和SchemaBibEx模型,区别如下:

(1)层次结构维度。二者的核心结构均是根据书目记录功能需求(FRBR)第一组实体构建的,满足书目资源描述的基本功能需求,但BIBFRAME每层仅定义一个核心类,表达一个核心概念,SchemaBibEx模型则通过多类型分配实现书目信息分层描述,二者在层次结构上基本一致,但BIBFRAME结构清晰,更具可用性。

(2)资源揭示维度。BIBFRAME定义了丰富的类和属性,用于描述以书目信息为主的多种资源,能够较为全面揭示书目与载体信息。BIBFRAME的实体-关系模型可以较好区分古籍资源内容、载体与馆藏信息,揭示蕴含的知识元素及相互信息。SchemaBi-bEx模型词表定义尽可能复用Schema.org词表中的概念,图书馆领域的专门类和属性较少,多数与其他资源共用,只有当Schema.org词表中缺乏相关概念,才扩展新的类和属性,在资源描述深度上不如BIBFRAME。

综上所述,本研究选择BIBFRAME为主要复用模型,以其中的三级结构为核心构建古籍文献通用知识模型。针对BIBFRAME模型在书目内容结构描述和实体揭示上的不足,借鉴CIDOC CRM建模思想,以事件为核心组织古籍文本中的不同类型实体,参考Schema.org词表面向对象的类和属性继承思想,通过分类古籍资源,在顶层类中定义属性,发挥其广泛适用性,并将其用于古籍内部组织结构的描述。

3.2 古籍文献通用知识模型框架构建
本文从形式特征和内容特征两个维度出发,提出了古籍文献通用知识模型构建框架,如图 1所示。鉴于古籍分类的重要性,将其单独提出形成分类整理层。该层位于顶层,参考古籍“四部分类法”定义古籍文献类目,划定知识组织模型所囊括的对象,使所构建的本体适配于不同类型古籍文献,提升通用性,并通过分类产生一定语义。文献书目层位于第二层,用于描述古籍文献书目信息,为保证知识揭示的全面性和专门性,该层复用BIBFRAME模型中的“实体-关系”结构分层建模。文献书目层与分类整理层通过定义“古籍分类”属性联系,后者可作为其取值类。组织结构层为第三层,复用Schema.org词表 描述古籍文献中文本、 图像等内容的逻辑和物理组织结构,图像资源最小单位为单张图像,文本内容则视古籍内部卷册、篇章、条文划分而定,细化对古籍层次结构的描述。BIBFRAME模型中的“实例”可视单份古籍,定义组织结构层类与属性,关联文献书目层与组织结构层。内容实体层用于描述古籍文本中的专名实体,借鉴CIDOC CRM模型以事件为中心的思想描述“动态”的文本内容,抽象出较为固定的组织结构。将组织结构层中的文本拆分为不同的事件,定义“事件”属性,关联组织结构层与内容实体层。知识关联层用于管理与古籍知识实体关联的外部知识,增加知识可见度, 通过SPARQL联邦查询实现,旨在提高数据可维护性,由连接知识实体和外部知识的专门属性构成。
2025年第1期 | 古籍文献通用知识模型研究与设计
图1 古籍文献通用知识模型构建框架
04
古籍文献通用知识模型构建
如前所述,本文从形式特征和内容特征两个维度构建古籍文献通用知识模型,通过五个层次的语义知识组织共同描述古籍文献,以便分层描述和表示古籍知识,前者由分类整理层和文献书目层构成,后者由组织结构层、内容实体层和知识关联层构成。
4.1 分类整理层语义模型构建
古籍分类问题是我国古籍事业长期面临的一项问题。有学者指出“迄今为止古籍分类目录种类繁多,古籍分类法理念众说纷纭,比较权威的古籍分类法并非没有,却始终没有出现国标层面的古籍分类法” [26] 。姚小燕 [27] 统计了国内外233所古籍存藏机构所用分类法,发现其中“四部分类法”使用范围最广,共被107所机构采用。究其原因,“四部分类法”历史悠久,为编目人员所熟知,正如刘国钧先生 [28] 所言:“此种办法之优点,即故能不需处处学习特别之分类法,故能有整齐统一之效,而亦可省翻阅之劳。”使用该分类法也是对古籍原有整理基础的尊重,展现了古籍所处时代的思想文化面貌。“中图法”等以学科为依据的图书分类并不完全适用于古籍。

《四库全书总目提要》(以下简称《总目》)是四部分类法的代表作,阐述了各个类目的发展源流,修正了归类谬误。受学术文化水平与学科体系概况影响,《总目》在类目划分上不尽合理。《总目》所面向的是清代前的书籍,难以囊括清代至民国阶段新产生的古籍类型,如《微积溯源》等新学古籍。针对上述症结,国家古籍保护中心在《总目》基础上编制了《汉文古籍分类表》,这一方案已应用于国家图书馆、上海图书馆等代表性古籍存藏机构平台和目录编制。因此,分类整理层主要借鉴《汉文古籍分类表》, 为降低本体复杂度和提升可扩展性,本层仅采纳了其中前两层结构,不包括二级类下的各属,本体词表如表1所示。

本层自定义了顶层类ab:Category,代表“四部分类法”,其下逐层定义子类。顶层类下分别定义了经部(ab:Classics)、史部(ab:History)、子部(ab:Philosophy)、集部(ab:Literature)和类丛部(ab:Collection)五个一级子类,各部子类如表所示。由于目前尚无描述古籍分类信息的专门模型,各部及其子类主要参考古籍领域术语自定义。

表1 分类整理层本体词表
2025年第1期 | 古籍文献通用知识模型研究与设计
4.2 文献书目层语义模型构建
文献书目层采用BIBFRAME模型,由主题、作品、实例、单件4个核心类构成,用于分层描述古籍书目信息,根据古籍文献书目特征,参考古籍平台检索字段、著录规则、元数据方案和相关本体等抽取基本类与属性,如上海图书馆古籍联合目录和循证平台本体词表、中国历代人物传记资料库关联数据系统本体等,并复用BIBFRAME 2.3词表中的类与属性表示。文献书目层本体模型核心类、基本类及类间关系如表2所示。主题类(bf:Hub)、作品类(bf:Work)、实例类(bf:In-stance)和单件类(bf:Item)为本层核心类,主题与作品通过bf:hasExpression属性连接,作品与实例通过bf:hasInstance/bf:instanceOf属性连接,实例与单件通过bf:hasItem/bf:itemOf属性连接。
表2 文献书目层本体词表
2025年第1期 | 古籍文献通用知识模型研究与设计
古籍作品类(bf:Work)旨在揭示和区分特定古籍作品概念。围绕该核心类,首先复用了BIBFRAME 2.3词表中的题名、责任者等类和属性,以描述书目信息。其次根据古籍文献特征,参考shlancient本体,自定义了历史纪年类(bf:Temporal)和地点类(bf:Place)的数据属性,用于描述特殊历史纪年信息和地理位置信息,前者包括朝代(ab:dy-nasty)、年号(ab:regionTitle)、干支纪年(ab:hesb),后者包括国家(ab:country)、省(ab:province)、市(ab:city)、县(ab:county)、乡镇(ab:village)。古籍实例类(bf:Instance)旨在区别同一古籍作品的不同实例。围绕该核心类,复用了BIBFRAME 2.3表中的题名、标识符等基本类,自定义了藏印(ab:Seal)、开本(ab:Size)、字体(ab:Font)、序跋(ab:PrefaceAndPostscript)等类,共同描述古籍实例相关的书目信息。古籍单件类(bf:Item)用于描述与单件古籍收藏相关的信息,主要包括代理(bf:Agent)、责任者(bf:Contribu-tion)和物理位置/电子地址(bf:physicalLocation/ bf:electronicLocation),其中代理与责任者定义为类,后两者定义为数据属性,单件类与代理类关系为“馆藏”(bf:heldBy)。
4.3 组织结构层语义模型构建
古籍组织结构是因内容特征和表达需要而选择的特定逻辑组织方式,通过目录、章、节、类目等可见形式体现。《永乐大典》是我国古代最大的类书,引用书目众多,内容与结构形式丰富,编排方式多样,具备一定语义基础,便于抽取核心概念并建立概念结构,对其他古籍文献具有一定参考价值。因此,本层以《永乐大典》为例构建语义知识模型,保证模型的通用性。

《永乐大典》卷册根据《洪武正韵》编排,其中,一册通常包括多卷,一卷包含一条或多条事目内容,册次为在特定韵中的排序,卷次为在整部大典的排序,每一卷册均为特定事目相关的内容,以事目中实意字作为韵字,作为编排检索依据,由此形成韵目、韵字、册、卷、事目构成的多层组织结构。以 “湖”字册卷2275至卷2278为例,所描述事目为“湖州府”,“湖”字属于为平声第六部“模”韵,因此排列于“六模”中。封面注明题名、册内卷次、韵目、册次。每一韵字开头册,先释音义与出处,列举不同字体字形与异体字。正文开头注明事目标题,事目划分二级或三级事目,底层事目下逐条编排引文,正文内容由插图与文本构成,文本包括正文与注释,注释为补充说明,末页则注明责任者,《永乐大典》整体结构如图2所示。

2025年第1期 | 古籍文献通用知识模型研究与设计
图2 《永乐大典》组织结构图
《永乐大典》整体结构为韵目、韵字、单册、单卷、事目和引文。韵目与韵字是排列方式,事目可视为引文的主题,核心的实体结构为单册、单卷和引文,引文构成单卷,单卷构成单册。引文包含引书名与具体内容,是最小语义单元。根据“单册-单卷-引文”结构抽象类和属性,单册《永乐大典》与引书均可视为古籍实例,使用“等同类”属性(owl:equivalentClass)与实例类(bf:In-stance)关联,保证不同层次本体的独立性和关联性。本层主要复用Schema.org词表构建本体,组织结构层本体词表如表3所示。

韵目可视为由多个韵字构成的分类编码集,复用分类集合类(schema:Collection)和元素类(schema:ArchiveComponent)表示韵目与韵字,使用“基于”(schema:isBasedOn)属性描述二者关系,使用“名称”(schema:name)属性描述具体韵字名称。韵字音义侧重内涵描述,字形侧重外在感知,分别复用“描述”(schema:description)与“外观”(schema:ac-cessMode)表示。册卷间的关系可视为书章间的关系,复用书籍类(schema:Book)和章节类(schema:Chapter)表示,复用“组成部分”(schema:isPartOf)属性描述卷册关系。此外,单册顺序为韵内册次,单卷顺序为卷次,复用“标识符”(schema:identifier)属性表示。每一单册都有所属韵字,使用“关键字”(schema:keywords)属性连接单册类与韵字类。每一单卷中按事目组织,不同层级的事目均可抽象为分类单元,复用分类单元类(schema:Tax-on)表示事目,通过下级分类(schema:childT-axon)和上级分类(schema:parentTaxon)属性区分不同层次事目间关系。引书同样复用书籍类表示,通过“引用”(schema:citation)属性与单卷类关联。复用引用内容类(schema:Quotation)表示引文,使用属性“schema:isPar-tOf”与引书类关联,顺序使用属性“schema:identifier”表示。注释可抽象为陈述性内容,复用陈述类(schema:Statement),与引文类的关系为“组成部分”(schema:isPartOf),复用“schema:description”属性表示注释内容。

表3 《永乐大典》组织结构层本体词表
2025年第1期 | 古籍文献通用知识模型研究与设计
4.4 内容实体层语义模型构建
本节对古籍文献的内容进行组织,古籍文献的内容基本要素相同,可以实现通用。《永乐大典》中以事目为基础,将与特定事目相关的古籍内容抄录为引文,并注明引书题名。直接将引文作为最小知识组织单位,粒度仍较大,其中包含较多知识元素,可进一步细分为不同知识实体,如事件、时间、地点、主体等,以上实体虽然可以单独与引文内容关联,但直接关联只能表明引文中包含哪些知识实体,语义关系不明确。因此,本层复用CIDOC CRM模型,并借鉴其以事件为中心的建模思想构建本体,从引文中拆分出相关事件或细分条目,将事件或条目作为上层结构,从中抽取出各种知识实体,定义事件/条目与其他实体间的语义关系,实现引文的动态描述,使对《永乐大典》的组织深入知识实体维度。本层词表如表4所示。

《永乐大典》中,引文可视为可识别的结构性文本信息对象,可复用信息对象类(cidoc-crm:E73_Information_Object)表示,使用等同类属性与组织结构层中的引文类(schema:Quatation)关联。在文献书目层中,人、地、时、事等常见实体已定义用于描述古籍文献形式特征,无法与事件实体关联。为区分文献书目层与内容实体层中的实体,本层分别复用了CIDDOC CRM模型中的事件类(cidoc-crm:E5_Event),时间跨度类(cidoc-crm:E52_Time_Span),地点类(cidoc-crm:E53_Place)和人物类(cidoc-crm:E21_Person)表示上述四类实体。古籍中还包括朝代信息和细分条目信息,朝代含有历史、时间和空间意义,复用名称类(cidoc-crm:E41_ Appella-tion)表示。CIDOC CRM模型中,可用于描述细分类目的类有多个,如物理对象类(E19)、概念对象类(E28)等,但都缺乏完整的属性与其他实体相关联,事件类涵盖了“文化、社会及物理对象的状态变化”,能够囊括关于细分类目的描述性内容,因此仍使用事件类表示细分事目,复用事件类已有属性,降低本体的复杂度。此外,古籍采用历史纪年方式记录时间,所载地点往往经过数次更迭,本层自定义了公元纪年类(ab:Current-Temporal)、历史纪年类(ab:HistoricalTempo-ral),历史地点类(ab:HistoricalPlace)和现今地点类(ab:CurrentPlace),分别作为时间跨度类的子类和地点类的子类,以便精准描述时间和地点信息,并与其他知识库关联。属性层面,引文由事件构成,复用“出现于”(cidoc-crm:P12_was_present_at)属性描述二者间的语义关系。同时,以事件类为中心,复用了“标识”(cidoc-crm:P1_is_identified_by),“发生地”(cidoc-crm:p7_took_place_at),“时间跨度”(cidoc-crm:P4_time-span),“参与者”(cidoc-crm:P11_had_paticipant)四条属性,描述事件相关的朝代信息、事件信息、人物信息和地点信息。

表4 古籍文献内容注释层本体词表
2025年第1期 | 古籍文献通用知识模型研究与设计
4.5 知识关联层语义模型构建
资源描述框架为知识库扩展提供了结构化的数据基础,各古籍文献的知识关联在现有的资源描述框架下能够做到通用,《永乐大典》中的多种知识实体也可以与外部知识库关联。关联数据中,通过特定属性链接两个使用不同URI标识的相同或相近资源,从而将本地RDF资源与外部知识库关联,常用语义关联属性为owl:sameAs和rdf:seeAlso,前者用于链接两个相同实体或URI,后者多用于指示可能提供有关主题资源的附加信息的资源,即将一个资源关联到另一个解释它的资源。经相关学者的抽样统计分析,owl:sameAs属性是关联数据中使用最为广泛的语义关联属性,其通过可参引的HTTP URL提供了可以指向外部“等价”资源的可选方式,连接分布式数据集中的相同资源,支持关联数据聚合 [29] 。关联数据语义聚合将用于链接外部资源的sameAs陈述加入本地三元组中,但这一方式可能导致本地数据与外部数据无法区分、原始数据难以保护和关联资源更新不便等问题。针对上述问题,有学者提出使用专门的sameAs图管理关联的外部资源,提升知识库的可维护性 [30] 。为降低实体关联的复杂度和维护难度,本层使用owl:sameAs属性聚合《永乐大典》中的知识实体与外部知识库中资源,形成sameAs网络,并储存到专门三元组图中,并使用rdfs:seeAlso属性与相关百科知识库关联,提供具有相关性和参考性的资源。

在本体服务中心中发布所构建古籍文献通用知识模型,各层之间既可以单独使用,也可以整体应用,可以较好实现各层独立性和模型整体性的统一,实现知识模型校验、共享、检索、浏览、可视化和复用,本体结构如图3所示。

2025年第1期 | 古籍文献通用知识模型研究与设计
图3 古籍文献通用知识模型结构图
05
古籍文献关联数据与知识图谱构建
古籍文献通用知识模型的价值在于与其他语义网的联合应用。本文以《永乐大典》“湖州府”事目相关卷册为例,构建关联数据和知识图谱,验证所构建古籍文献通用知识模型的科学性和可行性。
5.1 《永乐大典》数据收集与预处理
“湖州府”相关卷册由“建制沿革”“分野”等多个二级事目构成,涵盖叙述性内容与罗列性内容。文本中除韵目、正文等常规内容外,还包含注释和描述“湖州府”地理特征的图像,较全面地体现了《永乐大典》的逻辑结构和内容层次。通过“识典古籍”平台获取卷2275至卷2278的数据,共计86叶,约68000字。对照《永乐大典》原有组织结构,核对文本、句读等内容,通过引书标注等方式细化文本数据粒度,以便实体抽取,提升内容组织的深度。

按照本文构建的古籍文献通用知识模型的五层结构进行数据收集。第一,文献书目数据。目前暂无相关数据库提供相对完整的大典书目数据,因此本文主要结合张忱石等学者整理的现存《永乐大典》现存卷目表 ① 、《永乐大典》高清影像数据库等平台,收集整理书目数据,根据文献书目层结构分别整理到主题层、作品层、实例层和单件层。第二,分类整理数据。根据分类整理层所构建“四部分类法”层级结构,《永乐大典》属于子部的类书类,此部分内容较少,分类整理层通过分类属性(ab:category)与文献书目层关联,因此直接整合到后者之中。第三,组织结构数据。组织结构数据存在于《永乐大典》内部,使用“吾与点”古籍智能平台抽取实体并进行人工审阅,获取《永乐大典》文本内容知识实体数据,包括韵目、韵字、卷次、册次、各级事目、引书、引文、注释等内容,并对文本数据进行拆分。第四,内容实体数据。内容实体主要为《永乐大典》正文中所含的事件或所列对象相关的人物、时间、地点、朝代等信息,也采用人工协同方法抽取。第五,关联知识数据。关联知识主体为外部知识库中的相同实体,以及少量百科知识库中的相关资源,通过SPARQL查询从上海图书馆开放数据平台、CBDB平台和DBpedia中获取关联资源。古籍文献通用知识模型分为五层,每个层次都可以单独组织,各层数据之间由对象属性的关系连接,最终在知识图谱中呈现。四卷《永乐大典》文本数据,所有抽出和整理的数据共1600余条,形成25张数据表。

注释:

①https://www.163.com/dy/article/GBJU42FO05508UER.html.

5.2 《永乐大典》RDF数据转化
RDF数据转化是关联数据集构建的核心步骤之一,万维网联盟(W3C)提供了多个将不同格式数据转换为RDF数据的工具。由于样本数据规模较小,此处选用Python第三方库EXCEL2RDF作为转换工具,提升三元组数据转换效率,使用OpenLink Virtuoso三元组库储存数据。本体中每个类所指代的实体均赋予单独的URI标识,将EXCEL数据转换为RDF三元组,人、地、时朝代等信息均关联到其他数据集,共转换完成三元组10558条,包含实体1912个。《永乐大典》“事件类”RDF数据转换示例,如下所示,格式为RDF/Turtle。
2025年第1期 | 古籍文献通用知识模型研究与设计
5.3 《永乐大典》知识图谱构建
根据储存方式不同,相关学者将知识图谱划分为基于RDF储存的语义知识图谱和基于图数据库储存的广义知识图谱 [31] ,前者指关联数据技术,后者主要使用Neo4j图数据库开发。虽然二者均可以用于知识的表示、揭示、储存、链接、计算等场景,但在技术堆栈、功能侧重、概念特点、数据储存等方面均存在明显不同。关联数据以RDF三元组为数据单元,表达单个知识实体,以便在互联网中发布和关联知识,从而提高知识的可见度和可用性,通过配置SPARQL端口进行语义化知识查询。广义知识图谱无须严格采用资源描述框架,其数据结构为图结构,侧重知识的结构化表达,使用cypher查询语言进行推算,不支持直接数据交互。鉴于知识图谱在知识推理、可视化展示等方面的独特优势,本文使用《永乐大典》关联数据在Neo4j图数据库中构建知识图谱。

通过图数据库环境部署、URI约束创建、图初始化、数据映射、三元组导入、数据校验与查询等流程,将RDF数据映射到Neo4j图数据库可以解析的属性图结构中,生成知识图谱,如图 4所示。该图谱共包括2107个节点及4701条关系,可识别三元组数量与Virtuoso数据库一致,节点标签与RDF数据中的资源类型保持一致,节点间关系和节点属性与本体中的对象属性和数据属性一致。

2025年第1期 | 古籍文献通用知识模型研究与设计
图4 《永乐大典》(湖字册)知识图谱
5.4 《永乐大典》知识图谱实例分析
知识图谱不仅能反映知识元素及其关系,还可以挖掘隐性知识和关系,无须查询和阅读原文本。实现多文本之间的“远读”,提高检索效率。以本体模型为基础,知识图谱直观呈现了复杂的语义关系,无论是采用三元组还是图模型储存数据,都可以在知识图谱中实时查询知识实体间的关联。此处,以《永乐大典》“建制沿革”事目为例,查询与其相关的所有事件,并按照引文顺序和事件顺序排序,Cypher查询语句如下,部分查询结果如表5所示。
2025年第1期 | 古籍文献通用知识模型研究与设计
表5 《永乐大典》“建制沿革”事件查询结果(局部)
2025年第1期 | 古籍文献通用知识模型研究与设计
使用上述语句,共查询得到相关事件139条,其中前10条事件均来自卷2275第一条引文,通过单个节点图谱,发现其三级主题分别为“湖州府一”“建制沿革”和“乌程县”。以上事件按时间排序,从公元前222年至公元602年,由此可快速梳理出《永乐大典》中关于湖州府下辖的乌程县的建制沿革,无须查阅涵盖注释的原文本。由于本体模式层的描述粒度已深入到文本层,对于缺乏详细内容目录的《永乐大典》,基于知识图谱的语义查询具备高效、准确的特征。本案例所使用的节点包括实例、引文、事件和时间四类,不同节点间包含“具有引文”“包含事件”“相关时间”三种关系。与传统关系型数据库相比,知识图谱每个节点可以直接连接到其他节点,更快速地执行关联查询或语义查询。
06
结语
本文从知识组织和数字人文视角,探索了古籍语义通用知识模型的构建过程,融合关联数据与知识图谱的古籍多维度知识组织路径。古籍文献中的知识要素可根据知识组织的粒度和蕴藏的深度划分为多个不同层次,不同层次中蕴含着具有相同特性和语义关系的知识。现有《永乐大典》等古籍文献的在线服务平台以观看和浏览功能为主,主要为公众提供图像、文本层面的服务,较少涉及古籍文献知识元层面的组织与复用,本文可为古籍文献的知识化、语义化提供语义层面的思路,与现有平台优势互补,同时为编制古籍词表与知识本体的工作提供参考,推动中华优秀文化资源的智慧化传播、创造性转化与创新性发展。

古籍文献领域内知识的传播、关联、共享和重用都需要一个通用的知识组织模型。本文立足古籍文献整体,探索从形式和内容两个视角,对古籍知识内容进行全方位、多层次、多角度组织,构建通用的古籍文献通用知识模型,在互联网中开放,作为古籍知识组织的参考模型。通过构建关联数据集和知识图谱,本文探索了面向所有古籍资源的语义化知识组织方案,探索了古籍资源从数据化到数字化,再到数智化的路径,提供了《永乐大典》知识库构建的雏形。

然而,知识模型构建是一个反复迭代的过程,本文以单一古籍为例,可能无法满足其他领域的知识描述需求。未来将采用人机协同的方式,提升知识抽取效率,大规模添加实例数据,结合国际图像互操作框架,探索古籍文本图像跨模态组织,以知识库作为中间件,探索跨模态的知识元解析、语义分析、关联挖掘、可视化呈现、精准关联。

参考文献
[1] 郝平.深刻认识古籍事业发展的意义和机遇[N].人民日报,2022-06-06(9).(Hao P.Deeply understanding the significance and opportunity of the development of ancient books[N].People’s Daily,2022-06-06(9).)

[2] 雷珏莹,侯西龙,王晓光.数智时代古籍数字化再造的逻辑与进路[J].数字人文研究,2022,2(2):46-56.(Lei J Y,Hou X L,Wang X G.The logic and approach of digital reconstruction of ancient books in the data intelligence era[J].Digital Humanities Research,2022,2(2):46-56.)

[3] 陈涛,夏焱,杨鑫,等.语义技术驱动的古籍资源互联互通框架设计与实现[J].图书馆论坛,2024,44(6):119-127.(Chen T,Xia Y,Yang X,et al.Semantic technology-driven framework for interconnectivity in ancient book resources:Design and implementation[J].Library Tribune,2024,44(6):119-127.)

[4] 李明杰,张纤柯,陈梦石.古籍数字化研究进展述评(2009—2019)[J].图书情报工作,2020,64(6):130-137.(Li M J,Zhang X K,Chen M S.Review on the research progress of the digitization of ancient Chinese books(2009-2019)[J].Library and Information Service,2020,64(6):130-137.)

[5] 牛力,展超凡,高晨翔,等.人物事件导向的多模态档案资源知识聚合模式研究[J].档案学通讯,2021(4):36-44.(Niu L,Zhan C F,Gao C X,et al.Research on multi-modal archives resources knowledge aggregation model based on person event[J].Archives Science Bulletin,2021(4):36-44.)

[6] 夏翠娟,林海青,刘炜.面向循证实践的中文古籍数据模型研究与设计[J].中国图书馆学报,2017,43(6):16-34.(Xia C J,Lin H Q,Liu W.Designing a data model of Chinese ancient books for evidence-based practice[J].Journal of Library Science in China,2017,43(6):16-34.)

[7] 何琳,陈雅玲,孙珂迪.面向先秦典籍的知识本体构建技术研究[J].图书情报工作,2020,64(7):13-19.(He L,Chen Y L,Sun K D.Research on ontology building methods of Chinese ancient books[J].Library and Information Service,2020,64(7):13-19.)

[8] 徐晨飞,倪媛.基于屈原作品的楚辞知识本体构建思路及实现方法[J].数字图书馆论坛,2015(5):14-21.(Xu C F,Ni Y.Knowledge ontology construction and realization of Chu Ci:A literature work from Qu Yuan[J].Digital Library Forum,2015(5):14-21.)

[9] 王晓光,翁梦娟,侯西龙,等.古籍注疏的知识表示与语义化建模研究[J].中国图书馆学报,2023,49(3):75-91.(Wang X G,Weng M J,Hou X L,et al.The knowledge representation and semantic modeling of ancient books commentaries[J].Journal of Library Science in China,2023,49(3):75-91.)

[10]陈涛,张靖,赵宇翔,等.数字人文实践中特藏资源的关联数据实现机制探索——以方志资源为例[J].情报理论与实践,2022,45(7):180-187,147.(Chen T,Zhang J,Zhao Y X,et al.Exploration on the realization mechanism of linked data of special collections in digital humanities practice: Case study of local Chronicles[J].Information Studies:Theory & Application,2022,45(7):147,180-187.)

[11]夏翠娟,刘炜,陈涛,等.家谱关联数据服务平台的开发实践[J].中国图书馆学报,2016,42(3):27-38.(Xia C J,Liu W,Chen T,et al.A genealogy data service platform implemented with linked data technology[J].Journal of Library Science in China,2016,42(3):27-38.)

[12]李斌,王璐,陈小荷,等.数字人文视域下的古文献文本标注与可视化研究——以《左传》知识库为例[J].大学图书馆学报,2020,38(5):72-80,90.(Li B,Wang L,Chen X H,et al.Digital humanity based ancient text annotation and visualization:A case study on Zuozhuan knowledgebase[J].Journal of Academic Libraries,2020,38(5):72-80,90.)

[13]Hyvnen E,Ikkala E,Koho M,et al.Mapping manuscript migrations on the semantic web:A semantic portal and linked open data service for premodern manuscript research[M]//Lecture Notes in Computer Science.Cham:Springer International Publishing,2021:615-630.

[14]Koho M,Coladangelo L P,Ransom L,et al.Wikibase model for premodern manuscript metadata harmonization,linked data integration,and discovery[J].Journal on Computing and Cultural Heritage,2023,16(3):1-25.

[15]欧阳剑,梁珠芳,任树怀.大规模中国历代存世典籍知识图谱构建研究[J].图书情报工作,2021,65(5):126-135.(Ouyang J,Liang Z F,Ren S H.Research on the construction of knowledge graph of large-scale Chinese ancient books[J].Library and Information Service,2021,65(5):126-135.)

[16]张卫东,张晓晓.中医古籍数字资源知识组织与可视化研究——以《金匮要略》为例[J].情报科学,2022,40(8):107-117.(Zhang W D,Zhang X X.Research on knowledge organization and visualization of digital resource based on TCM ancient literature:Taking synopsis of the golden chamber as an example[J].Information Science,2022,40(8):107-117.)

[17]Zhang C,Zhang H,Wu H.Method for visually analyzing Chinese medicine ancient books based on knowledge graph:2023-697471[P/OL].[2024-04-08].https://webofscience.clarivate.cn/wos/alldb/full-record/DIIDW:2023697471.

[18]杨凤,侯鉴宸,邢琛林,等.基于知识元标引与知识图谱的中医古籍知识表示、获取与发现研究[J].中国中医基础医学杂志,2023,29(6):954-959.(Yang F,Hou J C,Xing C L,et al.Research on knowledge representa-tion,acquisition and discovery of ancient Chinese medicine books based on knowledge element indexing and knowledge graph[J].Journal of Basic Chinese Medicine,2023,29(6):954-959.)

[19]王明强.中医古籍不孕症知识图谱的构建、挖掘与应用研究[D].北京:中国中医科学院,2022.(Wang M Q.Research on the construction, knowledge mining and application of infertility knowledge graph in ancient books of traditional Chinese medicine[D].Beijing:China Academy of Chinese Medical Sciences,2022.)

[20]曾子玲.基于古籍的阴虚证知识图谱构建及其关键技术研究[D].北京:中国中医科学院,2022.(Zeng Z L.Construction of knowledge map of Yin deficiency syndrome based on ancient books and research on key technologies[D].Beijing:China Academy of Chinese Medical Sciences,2022.)

[21]卢克治.基于中医古籍的知识图谱构建与应用[D].北京:北京交通大学,2020.(Lu K Z.Construction and application of knowledge map based on ancient Chinese medicine books[D].Beijing:Beijing Jiaotong University,2020.)

[22]林睿凡.基于本体方法构建唐本《伤寒论》知识图谱[D].北京:中国中医科学院,2021.(Lin R F.Knowledge graph of Tang-dynasty-version treatise on febrile diseases constructed based onontology method[D].Beijing:China Academy of Chinese Medical Sciences,2021.)

[23]Liu L,Li X B.Research and construction of marine Chinese medicine formulas knowledge graph[C]//2021 IEEE International Conference on Bioinformatics and Biomedicine.Houston,TX,USA.Piscataway:IEEE,2021:3853-3855.

[24]高劲松,周树斌,高颖,等.山水志史料资源语义知识关联与多维知识发现研究[J].情报资料工作,2023,44(5):82-92.(Gao J S,Zhou S B,Gao Y,et al.Research on semantic knowledge association and multidimensional knowledge discovery of landscape Chronicles historical resources[J].Information and Documentation Services,2023,44(5):82-92.)

[25]熊晶,焦清局,刘运通.基于多源异构数据的甲骨学知识图谱构建方法研究[J].浙江大学学报(理学版),2020,47(2):131-141,150.(Xiong J,Jiao Q J,Liu Y T.Oracle bone studies knowledge graph construction based on multi-source heterogeneous data[J].Journal of Zhejiang University(Science Edition),2020,47(2):131-141,150.)

[26]鲍国强.中国古籍编目标准化工作的回顾与展望[J].古籍保护研究,2020(2):49-62.(Bao G Q.The review and prospect of the standardization of the cataloguing of Chinese rare books[J].Studies of Preservation and Conservation of Ancient Books,2020(2):49-62.)

[27]姚小燕.中国古籍分类现状及研究综述[J].大学图书馆学报,2023,41(5):75-82.(Yao X Y.The current situation and research summary of classification of Chinese ancient books[J].Journal of Academic Libraries,2023,41(5):75-82.)

[28]刘国钧.中国现在图书分类法之问题[J].图书馆学季刊,1927,2(1):73-77.(Liu G J.Problems of current book classification in China[J].Library Science Quarterly,1927,2(1):73-77.)

[29]贾君枝,李晓.关联数据中owl:SameAs网络分析[J].数据分析与知识发现,2017,1(10):77-84.(Jia J Z,Li X.Analyzing owl:SameAs network in linked data[J].Data Analysis and Knowledge Discovery,2017,1(10):77-84.)

[30]Li D, Shinavier J, Finin T, et al.owl:sameAs and Linked Data: An Empirical Study[EB/OL].[2024-12-25].https://ebiquity.umbc.edu/paper/html/id/473/owl-sameAs-and-Linked-Data-An-Empirical-Study.

[31]陈涛,刘炜,单蓉蓉,等.知识图谱在数字人文中的应用研究[J].中国图书馆学报,2019,45(6):34-49.(Chen T,Liu W,Shan R R,et al.Application of knowledge graph in digital humanities[J].Journal of Library Science in China,2019,45(6):34-49.)

作者简介
陈涛,副教授,硕士生导师,研究方向为数字人文、关联数据等;

赵晓飞,硕士研究生,研究方向为数字人文等;

杨鑫(通讯作者),博士研究生,研究方向为数字人文等,Email: yangxin371@ruc.edu.cn;

林立信,硕士研究生,研究方向为数字人文等。

* 原文载于《信息资源管理学报》2025年第1期, 欢迎个人转发,公众号转载请联系后台。

* 引用格式

陈涛,赵晓飞,杨鑫,等.古籍文献通用知识模型研究与设计[J].信息资源管理学报,2025,15(1):139-153.

给TA打赏
共{{data.count}}人
人已打赏
国学百科

2024年中國書畫拍賣成交Top10排行榜

2025-6-27 21:54:01

国学百科

2025年古籍书画收藏拍卖市场新趋势

2025-6-27 21:54:42

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索