《黑龙江档案》2017年第1期:知识图谱在我国档案学研究中的应用现状与评价
作者:档案馆编辑 2018-01-18 09:20:04 来源:

摘   要:本文选取了中国知网(CNKI)数据库收入的22篇关于运用了知识图谱的档案学文献为研究对象。全面分析了目前档案学界的使用情况,以及介绍了几款当前档案学界常用的知识图谱绘制软件。最后提出知识图谱在档案学应用中还存在的困难及解决方案。

关键词:知识图谱  档案学研究  应用现状  应用评价

    随着档案学科的发展,计量学、统计学在档案学研究中的应用已经相当普遍了。计量学和统计学的运用对归纳总结已有的研究成果,分析研究热门和前沿领域以及对研究学科的未来发展趋势是十分必要的。然而早前档案学研究运用计量学、统计学的知识,主要是词频统计、文字描述和简单的表格列举等方法。这样在研究过程中不仅要耗费大量的心力,而且还会出现人工误差和可视化效果差等问题。知识图谱的运用可以很好地解决这些问题。知识图谱是文献计量学与科学计量学领域的一种重要研究工具和图形绘制,以可视化方式显示科学知识的发展进程与结构关系,揭示科学知识及其活动规律。国内引入知识图谱的时间不算长,在笔者所能找到的文献中,档案学领域最早运用知识图谱的文献是在2010年,是贺颖与祝庆轩合著的《基于科学知识图谱的档案学基础理论进展研究(1999——2008年)》。

    一、数据的收集

    本文笔者选取中国知网(CNKI)数据库收入的相关文献作为主要研究对象。首先笔者限定检索结果的学科类别为“档案学、档案事业”,以“知识图谱”作为检索词,对主题、题名、关键词分别进行检索。经过筛选和去重后得到22条结果。其中最早的一篇文献发表于2010年。检索时间截止于2015年11月。

    二、知识图谱在档案学中的运用现状

    (一)知识图谱在档案学应用中涉及的主题。在笔者收集到的22篇运用了知识图谱的文献中,其中有9篇主题是关于档案学研究现状、热点及前沿问题。时间跨度有针对当年的热点研究或跨越多年(5——20年)的全景透视。可见,目前知识图谱在档案学中的运用主要是针对档案学学科整体现状、热点及前沿的研究。或者是关于档案学特定主题的现状、热点及前沿研究。如表1所示。

表1  知识图谱在档案学运用中涉及的主题


主题

文献数量(篇)

主题

文献数量(篇)

档案学研究现状、热点及前沿

9

科技档案管理研究

1

档案数字化、数字档案馆及档案馆网站建设研究分析

4

档案鉴定理论、工作研究

2

电子文件管理研究

 

2

档案职业研究

1

档案学基础理论研究

2

知识图谱在档案学中的应用综述

1


 

    1.展示发展趋势与研究进展。贺颖、祝庆轩通过使用Ucinet6.0软件,对1999——2008年来源于CNKI数据库中,关于档案学四大基础理论——文件生命周期理论、文件连续体理论、整理理论、价值鉴定理论的研究进展进行分析。采用SVD数据图制作出档案学基础理论与关键词之间的聚类关系。从而梳理出档案学基础理论的发展脉络。

    2.识别研究热点与前沿。识别研究热点的方法有很多,如词共现法、词频统计分析法和共被引聚类方法。卢小宾和高欢基于Web of Science,利用Citespace通过关键词分析和共被引分析,得出国际上档案学的研究热点主要有对档案保护技术的研究和对档案与政府信息关系的探讨。并且得出如下结论:(1)档案学研究分布广泛,机构多元;(2)档案学研究内容不断丰富;(3)档案学研究基于技术进步和社会变化而创新、发展;(4)研究热点更多的是档案学运用理论与运用技术研究;(5)档案学研究具有开放性和包容性。热点与前沿在概念上还是有差别的,不能一概而论。热点是指某时期引人注目的问题,是人们稳定集中的研究领域和主题。前沿是指未来的发展趋势和方向的问题,是近几年刚兴起的具有一定探索性和前瞻性的研究领域和主题。关于热点问题,学者们更倾向使用词频统计等方法来探究。一般来说,某个词或某个问题被使用或提出的频次越多,说明探讨该问题的人越多,也就是所说的热点问题。而针对前沿问题的探测,Citespace软件中就有专门的突发词探测法,运用突发词探测技术和算法,依靠词频的变动趋势而不仅仅是频次的高低,来确定该领域的前沿问题。赵跃将来源于CNKI的548篇核心期刊和硕士学位论文文献数据进行可视化分析,利用CitespaceIII的突发词探测技术和算法,来确定数字档案馆研究的6个主要前沿领域:(1)“本体”与数字档案馆。(2)“大数据”与数字档案馆。(3)“云计算”与数字档案馆。(4)“知识服务”与数字档案馆。(5)“集成管理”与数字档案馆。(6)“评价认证”与数字档案馆。然而很多时候某领域的研究热点和研究前沿是有所交叉的。马海群、姜鑫利用NetDraw的关键词共现分析,以来源于CSSCI数据库2002——2010年间发表的996篇档案学被引文献为研究对象,绘制了中国档案学研究主题的知识图谱。他们将2002——2010年拆分成4个时间段,分别进行图谱的绘制。发现主要的研究热点分别是:现行文件、电子文件、电子文件和数字档案馆相关技术、政府信息公开和公共档案馆建设。而前沿研究领域是:电子文件、数字档案馆、档案信息化、政府信息公开。可见某一时期学科的研究热点也有可能就是该时期的研究前沿。

    3.识别核心作者群及其之间的互引关系。奉国和、李媚婵以1998——2012年CSSCI数据库中有关档案学研究的3 637条文献为研究对象,利用Citespace绘制作者共被引知识图谱,网络节点选择为Cited Author,数据抽取对象为top10。从绘制的图谱中可以发现作者冯惠玲被引频次最高,处于网络中的重要节点。被引频次排在第二的作者是吴宝康。而利用Citespace,将年份改为2008——2012年,发现冯惠玲、胡鸿杰等学者的被引频次依旧很高,但吴宝康等学者的被引频次大大降低,说明这几位学者的影响力逐渐降低。

    (二)文献发表的年度分布。运用知识图谱的档案学文献量,从2010——2015年总体上呈波动上升的趋势。从最少2010年的1篇到2014年达到最多7篇。这显示知识图谱在档案学中的应用还处于起步阶段,由于知识图谱在文献计量中可视化的优越特性,所以在未来知识图谱在档案学中的运用还会呈继续上升的趋势。

    (三)知识图谱在档案学中应用涉及的主要绘制软件。目前已经开发并且可用的知识图谱绘制软件有许多款,国内档案学者运用的较多的是Citespace、Ucinet、Pajek、VOSviewer、Bibexcel和SPSS等。其中Citespace尤其受到国内档案学者的青睐,主要原因是Citespace是由英籍华人陈美超博士的团队研发的程序,其中文数据的兼容性强,且陈美超博士与中国学者陈悦、刘则渊等有诸多合作,这也促进了知识图谱及绘制工具Citespace在中国学术界的推广和使用。

    三、知识图谱在档案学应用中存在的困难与解决方案

    (一)绘制软件选择困难。知识谱图概念引入中国大约就是在2005年,陈悦、刘则渊的《悄然兴起的科学知识图谱》一文引起了国内学者对知识图谱的关注。至今,虽然已经过去了10年,但国内还未出现评价这些工具和软件功能优劣势的有效方法和标准。因此,学者在选择知识图谱工具时难免会出现跟风现象。虽然市面上绘制知识图谱的软件有许多种,但它们在功能上有一定的倾向性。如Pajek适合处理大数据集的网络信息,它能够快速处理大型的复杂网络。Ucinet提供大量的数据管理和转化工作,但并不包含可视化的过程,它可以与软件Mage、NetDraw和Pajek集成在一起,从而实现可视化。Citespace在“突发词检测”算法方面有独特的优势。因此,在绘制软件的选择上:1.学者必须要对常用的知识图谱软件有个系统的认识,然后针对所探究的主题进行选择。2.将知识图谱运用在档案学的先行者们,也就是最早运用知识图谱的一批档案学者。可以发挥优势,针对学科特性,为知识图谱在档案学中的运用建立统一的、系统的框架。3.加强不同专业间的合作,可以与计算机学领域和图书情报领域的学者合作,充分学习和运用知识图谱的相关理论和技术。

    (二)对中文数据的兼容性差。一方面由于多数知识图谱绘制工具是外国学者开发的,因此这些软件主要支持的是外文数据库,对中文数据库的兼容性不强。从中文数据库中导出的数据通常需要进行格式转化,如Citespace支持转化后的CSSCI格式。而有些软件根本不支持中文数据。另一方面,中文数据库如CNKI中导出的数据就没有引文数据这一项内容。而往往在知识图谱的绘制过程中这又是相当重要的一栏数据。如果没有引文数据,那么绘制软件的许多项功能将不能实现。要解决这个问题,笔者认为:1.需要国内学者自行开发适合于中文数据的知识图谱绘制软件。目前已经有学者将自行开发的软件运用于知识图谱的绘制,不过主要是针对数据的处理和数据格式的转化。2.要依赖于中文数据库导出数据功能的完善,这样才能有效地使用知识图谱绘制工具。

    (三)误差无法识别,结果解读偏颇。在通过各种绘制软件来进行图谱的绘制过程中,完全是依赖于绘制软件自身的算法对成千上万条的数据进行计算得出结果。而其中是否存在误差以及误差的大小,人工是无法识别的。而在得出图谱后,学者的解读主要是依赖于主观的判断,缺少对其进行验证的过程。且数据量的大小,时间跨度的长短也会影响最后结果的解读。如果图谱的数据量过大,就会导致图谱上的信息过于密集,甚至无法看清图谱上的内容。这样必定会影响结果的解读。对于这个问题,学者在绘制图谱时:1.可以选择权威、可信度高的绘制软件,提高结果的可信度。2.深入学习如何制作更为美观的知识图谱,这一方面有利于读者的查阅,另一方面也有助于学者对知识图谱结果的解读。可以通过修改阈值、时间跨度等,绘制出多张图谱来进行比较。

    目前,多数档案学者对知识图谱的运用还处于观望或学习的状态,笔者认为宁可不用也不能滥用。虽然知识图谱的使用对学科知识领域发展及其研究热点、前沿和趋势的探测有诸多优势。但如果不能深入学习知识图谱及其绘制工具的理论和使用方法,那很可能会导致知识可视化工具的“滥用”和“误用”。因此,除了学习档案界使用知识图谱的领军人物的研究成果外,对知识图谱绘制工具的理论和使用方法的系统学习也是必不可少的。另外,在知识图谱的运用方面,图书情报界的使用更加普遍。同样的笔者限定检索结果的学科类别为“图书馆学、图书馆事业、情报学、情报工作”,以“知识图谱”作为检索词,对主题、题名、关键词分别进行检索。经过筛选和去重后得到400余条的结果。可见,图书情报界的学者对知识图谱的使用已经更加深入。因此,图书情报界学者的研究成果也是值得我们学习和借鉴的。

参考文献

1.贺  颖.祝庆轩.基于科学知识图谱的档案学基础理论进展研究(1999-2008年)[J].图书情报工作,2010.1

2.卢小宾.高  欢.基于Web of Science的档案学研究热点分析[J].档案学通讯,2015.3

3.赵  跃.我国数字档案馆研究热点与前沿知识图谱分析[J].档案与建设,2014.6


作者:福建师范大学社会历史学院  翁冬婷












网站地图 | 关于我们  纪检监察组监督举报电话:0451-88628276 电子邮箱:sjwzsbbjjz@163.com

网站标识码:2300000056 | 黑ICP备14006409号 |

黑公网安备 23010302000386号

主办单位:黑龙江省档案局 技术支持:东北网络台

地址:哈尔滨市南岗区文昌街48号 电话:0451--87701820