官方微信

学生活动报道

DH新青年 | 波兰数字人文的历史、现实与反思

2023-03-07

本期作者

何思源,中国人民大学信息资源管理学院2020级信息资源管理专业博士研究生,中国人民大学数字人文研究中心学生研究员。

微信图片_20230727222830.png

对任何学科来说,学科史都是重要的研究议题。尤其是在数字人文这一新兴领域,学科史的梳理显得尤为重要。目前,国内学界主要关注美国、英国、澳大利亚等国家的数字人文发展概况,对波兰等东欧国家的关注较少。本文是对波兰科学院文学研究所副所长Maciej Maryl撰写的《我们如何数字化——波兰数字人文的近期发展》(“How We Became Digital——The Recent History of Digital Humanities in Poland”,发表在2022年明尼苏达大学出版社出版的Global Debates in the Digital Humanities一书中)的缩编,旨在为国内学者提供一些波兰数字人文的基本信息。

一、波兰数字人文的历史脉络

人文计算在波兰学界有着悠久传统,但受制于技术和经费,发展缓慢。20世纪90年代,波兰人文学科(尤其是文学、文化和历史领域)将重心置于1989年东欧剧变前因政治原因和审查制度而没有解决的研究议题,人文计算的发展陷入停滞。20世纪90年代中期,波兰图书馆界的数字化工作开始起步,出现了波兰文学虚拟图书馆、波兰互联网图书馆以及专门用于管理数字馆藏的软件——dLibra。同时,一些长期的词典编纂和书目项目开始上线,如《波兰文学书目》《波兰词汇数据库》《世界斯拉夫语言学出版物书目数据库》等;也出现了文本整理软件Magik,但由于当时的学界尚未做好准备,因此该软件并没有找到合适的用户。

2010年后,数字人文在波兰呈爆发式增长的态势。第一,召开了一系列关于数字人文的会议,包括:2007年和2009年在卢布林天主教大学举办的“电子波兰语研究”研讨会,2008年在华沙大学举办的“网络(中)的文本”研讨会,2012年在玛丽亚·居里-斯克沃多夫斯卡大学举办的“人文学科的数字转向”研讨会,2013年在华沙大学举办的数字历史学家研讨会,2013年在波兰科学院文学研究所举办的“参与式文化的文本”研讨会中关于波兰数字人文的小组讨论,2012—2013年在卢布林、波兹南和华沙举办的THATCamps(研究人员、软件开发人员、文化遗产专业人员及其他相关人员的非正式研讨会),2016年在克拉科夫举办的数字人文组织联盟(ADHO)年会,2017年在弗罗茨瓦夫举办的公共语言资源和技术基础设施(Common Language Resources and Technology Infrastructure,CLARIN)年会等。第二,建立了第一批数字人文中心,如波兰科学院文学研究所数字人文中心、华沙大学数字人文实验室等。第三,开始与欧洲研究基础设施联盟(European Research Infrastructure Consortium,ERIC)下的欧洲数字人文网络和项目建立合作,如公共语言资源和技术基础设施(CLARIN)、艺术与人文领域的数字方法网络(Network for Digital Methods in the Arts and Humanities,NeDiMAH)、艺术与人文领域的数字研究基础设施(Digital Research Infrastructure for the Arts and Humanities,DARIAH),并设立了CLARIN的波兰分部——CLARIN-PL,及DARIAH的波兰分部——DARIAH-PL。其中,CLARIN-PL已经提供了强大的语言学服务,与CLARIN-ERIC提供的服务一致;DARIAH-PL仍在建立过程中,但由于采取了开放式会员政策,已成为欧洲最大的DARIAH之一,包括大约18家机构,已设立考据学、语言学、图像学、音乐学和考古学等方面的工作小组。此外,第一轮人文计算浪潮中的项目也得到了更先进的工具的支持。在语料库及其搜索引擎方面,出现了波兰语国家语料库、词汇数据库管理软件Inforex等;在文本分析工具方面,计算文体学小组开发了R语言“stylo”包,为计算文体学和作者身份识别领域的分析提供了整套工具;在在线馆藏方面,波兰数字国家图书馆“Polona”重新启动,并从扫描内容库转变为用户驱动的数字馆藏环境。


二、波兰数字人文的现实发展

为呈现波兰数字人文的发展现状,在此重点介绍两项调查的结果。

第一项调查是2014年6月开展的“波兰数字人文项目调查”,由波兹南超级计算机和网络中心、波兰科学院文学研究所共同开展,旨在描述波兰数字人文发展概况,明确现有的工作、资源和能力,为DARIAH-PL的建立提供支持。调查对象主要是有意建立DARIAH-PL的学者和机构,总样本数为80。调查内容主要围绕数字人文项目展开,涉及项目名称、网站、日期、资金来源、机构和参与人员,项目的状态、类型与成果,以及项目发展愿景、未来的潜在合作者等内容。同时,受访者需要进一步提供项目描述,解释项目成果、已开发的软件以及该项目与其他项目的联系等。

首先,从学科分布来看,波兰数字人文研究的先驱性学科为语言学、文学研究、历史学,如表1所示。其次,从项目成果类型来看,以研究工具、数据库/语料库等为主,如表2所示。再次,从项目类型来看,可分为4类:一是开发研究工具或基础设施,即开发语言分析工具、文本转录工具等特定研究软件,或建设能够赋能后续研究的实验室;二是仅使用数字媒介以标准格式(如词典、字典、语料库等)发布研究成果,以供其他研究人员使用;三是建立存储库(即特定类型文本的全文数据库);四是数字研究项目,即在数字领域进行研究或使用数字工具进行研究。各类研究项目的数量及占比如表3所示。综上,波兰数字人文研究的重点是建立基础设施和资源库,从而为未来更先进的、数字驱动的研究奠定工具和资源基础。

微信图片_20230727222830_1.png

表1 波兰数字人文研究的学科分布

微信图片_20230727222830_2.png

注:每个项目可能对应1个或1个以上的成果类型。

表2 波兰数字人文研究的项目成果类型

微信图片_20230727222830_3.png

表3 波兰数字人文研究的项目类型

第二项调查是2015年开展的“数字方法调查”,由波兰科学院文学研究所数字人文中心与波兹南超级计算机和网络中心共同开展,使用的是DARIAH-EU开展的“数字方法调查”的波兰文版本。调查对象主要是有意建立DARIAH-PL的学者和机构,经过滚雪球抽样,总样本数为152。

从学者使用的数字工具来看,波兰样本与欧洲样本(1782名受访者)没有任何的显著区别。例如,波兰学者较少使用书目管理工具或个人数据库,欧洲样本亦是如此。这表明,虽然波兰数字人文在全球主流数字人文之外,但依然表现出相似的发展状态。

从学科分布来看,波兰的数字人文学者主要由语言学家、文学家、历史学家组成,如表4所示。这与第一项调查的结果一致;也与欧洲样本一致,语言学、文学和历史学三个主要学科领域相同,但顺序略有不同,波兰数字人文学者中语言学家的比例较高。

微信图片_20230727222830_4.png

表4 波兰和欧洲数字人文研究的学科分布

从研究者的所属机构分布来看,在波兰,38.4%的受访者隶属于研究中心,而欧洲样本只有24.3%的受访者隶属于研究中心。这可能是因为波兰科学院的艺术研究所、计算机科学研究所、历史研究所、文学研究所和斯拉夫研究所均为波兰数字人文领域的积极参与者。这些研究中心曾长期致力于书目、词典等的相关研究项目,能够为当前的数字人文研究提供基础。

从研究者专业层级来看,在波兰,大多数受访者是助理教授或讲师(29.6%),正/副教授、准教授(reader)和高级研究员共计占比22.5%;而欧洲样本则有所不同,大多数(26.6%)是正/副教授,助理教授或讲师占比为17.2%。博士研究生在波兰样本中占26.1%,在欧洲样本中占24.9%。而且与欧洲同行相比,波兰的受访者往往更年轻,从事研究的时间更短。有3—10年研究经验的学者在波兰样本占34.9%,在欧洲样本中占29%;26—35岁的学者在波兰样本中占41.5%,在欧洲样本中占30.4%。由此可推论,波兰的数字人文学科更多地是由年轻学者推动。


三、思考与总结

波兰数字人文研究的地域性特征并不明显,这是因为波兰卷入数字人文浪潮时,受到已经确立的“全球”数字人文的影响。当然,波兰数字人文发展也有本地化的一面。语言和文化方面的障碍可能会导致特定数字人文社群在全球数字人文社群内“不可见”。例如,如果数字人文学者的研究对象是一位杰出的波兰作家,那么其研究成果的受众将会比研究对象为英语或法语作家的受众少。语言方面的问题将会进一步导致技术能力的局限,因为缺乏用于特定语言的专业工具也会阻碍数字人文研究。由于波兰语具有高度的转折性,需要专门的软件进行分析,所以2013年以来,CLARIN-PL一直致力于开发语言学的相关工具,以便波兰学者进行更复杂的数字人文研究,并尤为关注那些没有丰富计算机和语言学知识的用户。从全球数字人文的“小型参与者”或“后来者”的视角来看,需要加强数字人文研究的多样性和包容性。例如,2019年发布的《关于学术交流中多语言问题的赫尔辛基倡议》倡导对那些基于本地语言的基础设施给予更多的支持;再如,欧洲社会科学和人文学科研究领域的开放式学术交流(Open Scholarly Communication in the European Research Area for Social Sciences and Humanities,OPERAS)也是支持多元性和包容性的基础设施。


文字  何思源

排版  高宇博 刘为之