官方微信

学术期刊

迈向新文科的数字人文——第三届中国数字人文大会综述

2022-07-26

转载请注明“刊载于《数字人文研究》2022年第1期”;参考文献格式:彭韵筑,王润琦.迈向新文科的数字人文——第三届中国数字人文大会综述[J].数字人文研究,2022(1):3-12.全文PDF已在编辑部网站http://dhr.ruc.edu.cn上发表,此处注释及参考文献从略。


迈向新文科的数字人文

——第三届中国数字人文大会综述

彭韵筑  王润琦

摘  要:构建学科融合的新型人文科学,一直是当代学者的不懈追求。由南京大学与中国索引学会主办的“时代经纬:迈向新文科的数字人文”学术研讨会2021年11月6—7日在线上召开。本文采用计量和分析的方法对会议的内容进行了梳理。论文发表分为主旨演讲、分组报告、青年学者论坛、数字基础设施建设报告四部分,大会同时面向全球征集数字人文优秀项目并进行评奖,充分展现出2021年中国数字人文学界的研究、建设成果与反思。此外,本次大会借助商业平台开创性地举办了“数字人文开放数据创新研究大赛”,积极探索了人文科学产学研一体化路径。从这次会议,可以看到在数字浪潮下数字人文学科所提供的机遇,可以促使人文、社科、理工科学者在研究内容和研究范式上进行多方面、多重的合作与创新。遗憾的是,因受到新冠肺炎疫情的影响,大会在国际交流方面没能达到预期效果。


关键词: 数字人文;新文科;变革与反思;会议综述


作者简介:彭韵筑,南京大学历史学院世界史专业硕士研究生; 王润琦,南京大学历史学院世界史专业硕士研究生,南京大学数字史学研究中心成员。


0 引言


数字人文回答了如何在新一轮科技革命所引发的重大知识生产变革中建设新型人文科学的重要命题:它综合了科学理性与人文诗性的研究框架,直面技术挑战的人文关怀;回到对象本身的数据研究和刻画社会场景的数字描绘,提供远读与近读的深入路径;以人文批判视野谨慎审视技术的高速发展,赋予技术以内涵;培养人文素养、科学思维和技术能力兼具的新时代人才,塑造改变社会的力量。


在此背景下,“时代经纬:迈向新文科的数字人文”学术研讨会2021年11月6—7日在线上召开。本次会议由南京大学人文社会科学高级研究院与中国索引学会主办,是中国索引学会数字人文分委会2021年会,也是“中国数字人文”的第三届年会。本次会议从多重维度就若干具体议题邀请国内外学者及专业人士展开脑力激荡与学术交流,以期描绘数字人文当代图景,深入探讨数字人文知识生产范式。本次会议分为论文、项目、数据竞赛三个部分,多线并行,本文将分别进行梳理,将会议内容整理后进行总结性陈述,呈现中国数字人文的研究进展,为相关各方提供借鉴与参考。


1 大会基本情况

1.1

议题设置

本次会议的具体议题包括但不限于:数字人文与新文科建设,数字人文内涵与边界,数字人文的过去与当下,数字人文反思与评估,时空地图与人文世界,数字历史叙述的有效与有限,档案与记忆的数字重塑,人文与传播计算模型建构,艺术与遗产的未来,情感主题的文本分析,数字人文在亚洲;牵涉文学、地理、图情档、历史、传媒、艺术、文博等众多学科。除此之外,针对人才培养和基础设施两个重要方面,本次会议还分别设置了青年学者论坛以及数据基础设施建设专场,为数字人文的未来发展探寻新的方向。


1.2

作者和论文主题分析

本次会议共收到来自84个机构的223位作者(含合作者)的125篇论文投稿。投稿者数量居前十位的机构分别是:南京大学、北京大学、中国人民大学、武汉大学、南京农业大学、北京师范大学、上海大学、清华大学、华中师范大学、中国社会科学院。投稿者所在机构还包括港澳及海外院校9所、公司5家。可以看出,数字人文研究已经不再局限于最早开始尝试的几所高校,而是呈现出扩散的态势。


本次大会的最终入选作者,包括主旨演讲嘉宾和论文与海报作者,达172人。数字人文研究的一个重要特征便是合作,一篇文章或者一个项目往往需要多名不同学科背景的学者共同完成,除去3篇主旨演讲报告,会议论文和海报共有91篇,从图2可以看出,合作文章仍然占据了半壁江山。


640.png

图 1  会议论文合作情况统计


从学科背景来看,本次大会172名作者来自信息管理、图书馆、历史、文学、地理、建筑、艺术等多个领域,具体分布见图3。其中多达65人是从事数据挖掘、数据清洗、文本分析、建模与数据库建设的专家和学习者。


640 (1).png

图 2  参会作者研究领域


论文的标题与关键词昭示着论文的研究主题,对其中的高频词进行统计和分析有助于掌握会议内容的整体情况。就此,本文对本次会议发表的论文、海报、主旨演讲的标题与论文关键词进行了词频分析。可分的标题词共有271个,其中38个词频大于等于33,去除如“分析、研究、相关”等无意义的词语,合并同源或近义词后,得到高频标题词28个,如图3所示。


640 (2).png

图3  会议主题演讲、论文、海报标题词频统计


会议论文的关键词共有282个,其中词频大于或等于3的词有28个。同样经过筛选与合并后,得到高频关键词23个,如图4所示。


640 (3).png

图4 会议论文关键词词频统计


可以看出,标题词和关键词有很高的重合度。带有明显学科特征的高频词有“历史”“文化遗产”“地图”“图书馆”4个,一定程度可以体现目前数字人文研究的主要展开领域,其中又以历史学领域最为突出。“文本/文本分析”“可视化”“建模”和“语义”代表着数字人文研究的几种基本方法。“算法”和“网络”成为高频词,则体现出前沿计算机技术与人文社科领域的深入交融。而“数据库”的高频出现,也体现出基础设施建设一直是数字人文的核心工作之一。


2 各项议题发表情况

2.1

主旨演讲

会议伊始,三位分别来自信息管理、社会学和艺术学领域的著名学者进行了主旨演讲。武汉大学信息管理学院的马费成教授以“当代人文社会科学研究的新场景与新视野”为主题,阐述了数字技术为人文社会科学研究在研究范式、研究视野、研究伦理以及研究体系上带来的机遇与挑战,以及未来数字人文研究所需要关注的问题。清华大学社会学系的罗家德教授以“社会科学理论介入大数据研究的几个新方向”为题,介绍了数据介入社会科学所带来的方法论的变革,并针对数字人文研究的学科壁垒与理论内卷提出倡议,提出应更进一步地强调学科的开放与交叉融合。南京大学艺术学院周宪教授从“数字人文与范式的转型”出发,以数字人文史研究为典型代表,深刻探讨了当下数字方法与数字工具对人文科学的知识生产方式、人文学科的理念所产生的深刻影响,并针对数字技术在人文领域的快速扩张,提出了六点反思,阐述了数字人文与传统人文的关系、计算性与思想性的关系等。


2.2

分组报告

根据入选论文的具体内容,大会分组报告按10个主题组织:数字人文与新文科,时空地图与人文世界,数字人文视野下的情感、话语与思想,档案与记忆的数字重塑,艺术与遗产的未来,数字历史叙述的有效与有限,文学与数字人文,数字人文视野下的植物与空间,数字人文与传播计算,数字人文下的GLAMs。但从以下回顾可看出,仍然有未被这些主题所覆盖的论文,例如,计算社会学、计算政治学领域的文章。也存在部分论文与所在小组主题不完全匹配的情况,以下为叙述便利,仍然按组别分别回顾。


(1)“数字人文与新文科”。“新文科”战略的提出体现了中国文科发展的新时期、新阶段,应对的是在传承中国传统、经典文化的同时对接新一轮科学技术革命所带来的学科交融要求。该组报告的几篇文章从不同的角度和方法,分析了国内外数字人文研究的现状,提出发展建议。南京理工大学赵宇翔《从信息素养到算法素养:数字人文视域下LIS研究的新议题》一文探讨了LIS(Library and Information Science)学者在数字人文方向下面对的研究机遇,以及算法示能性和算法素养相关议题。北京大学梁兴堃在优化Uzzi等人(2013)关于论文新颖性和传统性的测量方法的基础上,对2000—2019年CSSCI收录的图书馆学、情报学领域全部70207篇论文的新颖性、传统性进行了测量,并分析了二者与学科影响力之间的关系,展示了我国图情领域守正创新的特点。上海大学王丽华等人选取了国际数字人文中心网络(CenterNet)上收录的美国各数字人文中心进行调研,分析了典型的数字人文项目的合作特征,强调各领域学者应加强跨学科合作。陕西师范大学的张光伟分析了典型的数字人文研究和项目实践中体现的计算思维的环节和流程,并希望将其抽取出来,形成一种具备较强可操作性的数字人文实践及新文科建设方法。南京航空航天大学的秦萍等人则是通过 Web of Science 源数据,利用微观引文主题“Digital Humanities”文献,集合知识可视化软件 Pajack 和社会网络工具 Ucnet,对美、英、德、加、澳、中六个国家的数字人文领域的研究现状进行了系统分析,绘制出各国数字人文研究高频关键词及共词网络图;并通过引文主题下的知识图谱分析及国内外数字人文平台分析,提出了国内图书馆开展数字人文服务的若干建议和对策。


(2)“时空地图与人文世界”。该组报告主要介绍了数字人文方法在历史地理研究中的实践与成果。复旦大学韩昭庆以其主持完成的数字化福克司版康熙《皇舆全览图》初稿为案例,探讨古地图数字化的意义。天津大学沈孙乐等为支持明清官式建筑保护全生命周期管理中知识的表示和管理,提出了一种建筑遗产知识的本体建模方式和新的赋予遗产信息互操作性的方式。南京师范大学的沈婕提出了一种面向文化遗产保护的叙事地图架构,探讨如何从人文空间数据出发,设计叙事地图的维度模型以及表达机制与方法,构建面向文化遗产保护的叙事地图架构并实现其可视化。云南大学潘威以“数字历史黄河”地名库为例,提出了一种引入时态地理信息系统(TGIS)的设计与搭建专项历史地名库的方法。南京大学陈刚分析了“图绘江苏”数字文化遗产建设的项目内涵及学术价值,探究其揭示的江苏方志舆图的时空分布、演变和所重塑的江苏历史文化图景。海南大学李文化等人以《癸亥年更流部》为文本对象,综合运用航海学、地理学和应用数学等学科方法,从多学科交叉融合的数字人文视角对更路簿进行综合研究,提出了更路系列计算模型。南京大学邱玉倩以不同时期的数字化历史地图为研究对象,通过空间句法理论分析了南京鼓楼区的道路网络演变进程,进一步研究城市空间形态变迁与其功能的关联性。中国人民大学杨谦雅等介绍了“乾隆南巡”专题档案资源库的建设过程,提出从时间、空间和主题三个叙事维度构建数字人文视域下专题档案的开发利用的实现路径。南京大学杨璐嘉通过构建中国私家藏书楼的时空数据模型,展现了唐代至民国间六个历史时期中国私家藏书楼分布中心的时空演变历程,探讨了其空间分布格局及与自然环境、人文因素之间的互动关系,揭示了其时空演化规律。厦门大学陶嘉洋利用地理信息系统(GIS),计算出古代安溪地区手工业作坊至闽南贸易海港的理论成本最低陆运路线,并参考文献所见福建地区交通路线,探析宋元以来作为经济腹地的安溪地区与闽南贸易海港之间的贸易路线。


(3)“数字人文视野下的情感、话语与思想”。该组主要探讨通过数字人文方法分析各类文本蕴含的情感、思想、观念等深层次信息。山东大学苗威等以东北边疆史为案例,提出古史体系建构中数字人文实践的三个层次:技术与数据的分层次积累,网络数据平台的综合构建,以及团队建设与人才凝聚。江西师范大学的左家莉则结合计算语言学领域的热点问题,指出自然语言处理领域最近备受关注的数据“偏见”(bias)问题,同样需要引起数字人文学者的关注和警惕。清华大学的胡悦聚焦《人民日报》50年来100多万篇政治内容文章,分析中国政府的政治语言框架战略。同样来自清华大学的刘凯然通过分析电子游戏《十字军之王》(Crusader Kings)中玩家所构建的“拜占庭历史”,探讨电子游戏自身的技术特性在历史叙事建构过程中发挥的作用。南京大学黄紫荆以南京大屠杀的珍贵史料《拉贝日记》为例,基于Transfomer模型,建立了一种考虑远程上下文、具体语境的情感分类模型,并结合时序分析、地图映射对《拉贝日记》中拉贝的个人画像进行了可视化。


(4)“档案与记忆的数字重塑”。该组则侧重于探讨如何利用数字化技术对历史记忆进行保护与重构。中国人民大学牛力等以“吴宝康学术名人知识库”为例,提出了传统叙事之外的学术名人档案知识化复合研究路径。吉林大学邓君从图情学科知识组织的视角探索近代报刊的重组再构,有助于推动近代报刊的数据开发、利用与共享。武汉大学侯西龙等人针对文化遗产图像的资源,提出多源异构图像关联数据聚合与语义组织的方法,利用关联数据、知识图谱、IIIF等技术开发了“海外博物馆里的中国——文物数字图像关联数据聚合平台”,探索对海量文化遗产图像资源的知识挖掘、可视化分析与叙事重构。中国人民大学加小双等在对国内外档案领域的数字人文项目进行广泛调查的基础上,选取13个典型项目进行时间、空间、信息等维度的编码分析,进而集中探究数字人文赋能档案资源体系建设的作用机制与发展路径。南京大学李梦月聚焦历史建筑遗产的非空间化保护,引入文学叙事相关理论,从地图时空坐标系、地图逻辑、地图信息传输效果三个层面,提出“时空切片—叙事结构—叙事评价”的历史建筑文化地图叙事性构建理论框架与方法。武汉大学姜婷婷等人围绕“人—数字化—记忆”三个关键维度进行理论梳理,最终整合形成“数字记忆空间”理论框架,以明确数字记忆空间的构建模式与发展方向,为后续相关实践提供理论依据与实践指导。


(5)“艺术与遗产的未来”。该组主要集中探讨数字人文在艺术领域的实践。北京大学高明讨论 Kubikat 书目检索系统中的关键词体系是如何从目录卡片转化为数字的关键词体系,从而探讨如何在中国利用 Kubikat 中的德语关键词和中国的经、史、子、集图书分类系统来建立中国艺术史图书馆。南京大学陈静等提出了基于 CascadeRCNN 检测模型的传统纹样识别算法,利用深度学习算法来辅助普通大众识别出传统纹样。北京大学朱子彤对吕班拍摄的电影和其关联文献,分别运用 Darwin 视频标注工具和Citespace 工具(Video Annotation Tool)进行可视化分析,以此寻求将吕班电影风格特点相关分析与电影图像本身的结构进行可视化联系,尝试为电影研究提供新的路径。南京艺术学院的秦翼对上海孤岛时期《申报》的电影广告进行了数据标注,分析了该时期古装、时装片的生产趋势、国产影片的总体增长趋势及影片轮次投放等情况。英国伦敦大学学院赵珂基于可视化和叙事学的理论,以“邂逅春天——数字江南文化”项目为案例,探索DSV在博物馆CH中的应用前景。南京大学张轩慧等从任务特征的角度研究文化遗产众包(CHC)的志愿者参与不平衡问题,提出了原则性的定性因果推理方法与缓解问题的设计框架。上海图书馆夏翠娟、南京大学陈静等人构建了一种结合专家经验和文本分析算法结果的核心知识本体,实现对于不同来源、不同种类的非物质文化遗产核心知识的体系化构建、结构化组织和语义化描述,使得锦类、绣类、年画类三大工艺主题文本得到了有效的可视化呈现。江苏师范大学包艺等人以南阳地区的汉画乐舞图像为研究对象,通过对“中国汉代图像信息数据库”中描述画像石画面的术语文本、墓葬组合关系、所属墓葬及断代年份的统计与量化分析,对南阳地区的汉画乐舞图像作了综合性研究。西北大学万翔等人通过计算机辅助分析技术,以标准网格为基础描述岩画物理形态,确定岩画画面内的最小组成元素以及不同元素的组合,进而能够以一种相对客观、科学的角度描述岩画内容,解析岩画的意义组成。


(6)“数字历史叙述的有效与有限”。北京大学王林旭等人提出了一个基于通用时间本体 OWL-Time 、面向古代中国历法的中国时间本体——中国传统时间本体(ACTO),并以《资治通鉴》为例,验证该时间本体的有效性与应用边界。上海师范大学的蒋杰作了《我们需要什么样的数字历史:经验与反思》的报告,立足既有的研究和经验,探讨了数字史学的定义、性质和功能。南京师范大学的吴静认为数字技术不仅为人文研究提供了技术工具支撑,数字权力和数字技术逻辑更决定着集体记忆的输出样式和传播内容,并完成对遗忘能力的消弭。湖南大学战蓓蓓从自身参与及了解的数字人文项目出发,讨论数字人文和历史学科结合的种种经验,认为数字人文远景发展很可能要超越人文学科研究的范围。上海科技大学的邹亚文从计算工具的使用、跨学科领域的工作模式、数字项目的保存和新时期历史学家的培训四个方面详细讨论了历史学家面临的更深层次的挑战。南京大学赵小萱采用条件随机场方法(Conditional Random Field,CRF)挖掘《拉贝日记》中《日本士兵在南京安全区的暴行》这一文件中的相关事件信息及其发生地,提出了一套完整的从文本中挖掘地理实体及其相关信息并进行可视化展示的方法与流程。


(7)“文学与数字人文”。华东师范大学的王峰基于其团队的技术实践,分享了在自然语言处理工作上的经验,并认为社会计算是数字人文当前非常有价值的部分,研究应该与专业的独特性相结合。北京师范大学李绅等根据文本形式及语义特征,进行文体的相似度计算和自动聚类,验证了计算机在处理古代文体分类问题上的可行性。南方科技大学刘洋提出了基于词频动力学分析的对叙事文本的远读和可视化方案,即通过分析文本的关联词频时序图,直观体现文本叙事主线、逻辑推演、故事高潮、解谜收束等结构性特征。北京大学的李山雨等基于词向量主题模型(Embedded Topic Model, ETM)对《水浒传》中人物话语的内容主题进行分析,以期利用这些主题从新的角度揭示人物形象并把握小说叙事的宏观结构。中国社会科学院赵薇等人采用多特征建模、文本聚类、机器学习和网络分析等方法,聚焦民国时期出版的上千篇散文诗译介和创作文本,探索新文学奠基期文类惯习定型的普遍规律,以期构建一个较全面的文学场域图景。北京大学李佳纯等人从短语、条目、篇章维度对《论语》在儒家典籍中的复用情况进行计量和可视化,并呈现自先秦两汉至晚清民国各个时期的关键儒学代表人物对儒家思想的关注和侧重。中国科学院郝雪丽等以文史学者对敦煌诗歌写本群知识图谱可获取、可认知和可利用为目的,从图谱组织、图谱开发和图谱应用三方面做介绍,并探讨了数据库建设与智慧服务的开发。南京农业大学孙燕等以《春秋左氏传》的注疏文献《春秋左传正义》中的引书为研究对象,对其进行标注整理,并完善引书资源库,基于此构建典籍引书知识图谱。大连外国语大学的柳青秀等以日本著名作家川端康成《雪国》的两种汉译本为对象,使用计量方法研究“文风能否被翻译”的问题。清华大学郝若辰等参照多方相关研究来衡量语料选择与声律统计的标准,使用清华大学开发的“古典诗歌声律分析系统”,在“元兢-崔融声病”与平仄律两个规则体系中,对初盛唐作品分诗体、分时段、分创作群体进行统计,得到了唐朝永明至景龙时期从四声系统到平仄律的演进脉络。


(8)“数字人文视野下的植物与空间”。南京农业大学王东波等介绍了中国古代典籍文本智能处理平台Sikuaip,平台使用sikuBert和sikuRoberta模型,提供古文自动分词、自动分类、词性标注、实体识别、自动断句和标点功能,旨在为数字人文研究者提供高质量的文本处理服务。武汉大学马永强等在翻译语料的预训练模型微调的基础上构建了基于Transformer的“文言文—现代文”翻译模型(WHUIMS-Trans),该引擎在文言文语法理解、翻译结果流畅性等方面的表现达到甚至超过主流商业翻译工具。南京农业大学吴梦成等注意到植物在我国古代典籍中的特殊地位和研究价值,实验获得了调和平均值最高为80.57%的SikuRoBERTa模型,可作为古汉语典籍植物命名实体自动识别的最佳模型。中国人民大学马开颜等以挖掘文学作品中典型植物意象为基本目标,尝试引入文本挖掘、可视化等技术,实现文学作品中植物与特定主题、用语的隐性联系的显性化。南京农业大学李惠等以《方志物产·云南卷》素材库为语料,利用传统文献学与计算机技术相结合的跨学科方法,结合物产的元数据信息,使用深度学习、文本分析、社会网络分析等,实现了自动辨析模糊物产名称、考辨物产“同名异物”与“同物异名”现象。


(9)“数字人文与传播计算”。复旦大学周葆华基于 2000—2020 年 SSCI 传播学期刊的论文,运用耦合分析、关键词共现分析、共引分析等计算方法,绘制智能传播研究的知识地图。中山大学梁玉成对所收集到的微观数据进行信息拓展,使其成为可以代表1948—1996 年中国各年代的个体数据,以新古典地位获得模型为基础,通过计算揭示出国家的理性与非理性的边界,挖掘被淹没的社会群体的命运,并提出一种新的历史研究方法。北京师范大学王芳蕾等以 2021 年国际重大政治事件,包括缅甸军事政变、海地总统遇刺、乍得总统参战牺牲、马里军事政变等作为研究案例,利用全球事件、语言和语调数据库(GDELT)收集相关的海量新闻数据,使用信息论和统计分析得出重大事件报道与被关注的数学规律。北京师范大学何兆阳等提出了一种基于相对熵(或KL散度),用海量新闻媒体数据量化政治不稳定及其时空演化的方法。上海大学夏凡等以Twitter 为例,利用Python爬取其中有关数字人文的账户数据和博客数据并进行分析,研究社交媒体对数字人文的影响。


(10)“数字人文下的GLAMs”。GLAMs指代galleries(美术馆)、 libraries(图书馆)、 archives(档案馆)、 museums(博物馆)。中山大学的肖鹏提出了两个问题:不希望被定义的数字人文是如何“被定义”的,被排斥在当前主流叙事体系之外的数字人文实践是否有价值、是否有必要存在,并以“国学大师”为代表的一系列“墙角处”的数字人文实践为例进行讨论;认为要有意识地与当前的学术范式进行“搏斗”和“反抗”,警惕学术共同体的固化。华东师范大学的邓璐芗等介绍了“历史跨度全球视野中的老子学说及其大数据分析”项目,即结合数字人文理念、方法、技术及基础设施建设,有组织、多学科、多维度地推进老子相关研究。浙江大学林如诗等以基于CAG数据库的奥古斯丁学术研究史梳理项目为案例,总结出图书馆员与人文学者在资源受限下的全流程、多要素数字人文合作机制。伦敦大学国王学院邱劼认为“数字鸿沟”,尤其是欠发达地区的基础设施兼容性问题,可能是部分人无法享用博物馆数字遗产的主要原因之一,并分析了当今的数字馆藏系统和数字策展人的工作如何影响和促进数字遗产的共享。


2.3

青年学者论坛

本次大会的青年学者论坛,以“数字视野下的文史疑案”为主题,讨论了“古书文本源流”和“曹雪芹卒年相关问题研究”两个案例。中国人民大学的严承希作了题为《儒家典籍的互文性初探⸺以“十三经”为例》的报告;来自龙泉寺的贤超法师利用自然语言处理技术探索了《汉语同源文本的自动对齐》;南开大学文学院的张昊苏博士作了题为《曹雪芹卒年研究综述与可视化呈现》的报告;南开大学文学院的吕相漪同学则是从《四松堂集》入手,报告了《<四松堂集>数据可视化与曹雪芹卒年问题探析》。


2.4

聚焦数据基础设施建设

数据基础设施建设专场以4场报告为中心。数据库是针对某一特定领域或特定主题的信息资源库或知识库,是支持深层次人文研究的重要资源。因此,什么是好的数据库、如何构建好的数据库成为数字人文研究的热点问题。来自北京元引科技的朱厚权介绍了“中国历代人物传记资料库”(CBDB)项目,提出产学研融合的建设模式,展现出科研成果可持续商业化的意义和价值。北京汉王数字科技黄岩岩以国家图书馆地方志和山海经专题知识库为例,探索深度学习、神经网络等人工智能技术在数据库建设中的应用。来自中国知网的成鑫指出,以全面的知识资源体系、先进的技术架构以及应用架构为基础的“人文研究知识服务平台”能够为数字人文的探索、实践、创新提供一种平台建设的思路。来自阿法迪公司的苏阔从智慧图书馆智能化终端方向揭示了智慧图书馆如何将图书馆串联成为一个物联网智慧空间。


2.5

评述

本次会议内容丰富、角度全面,从理论建构、实践应用、基础设施建设等方面展现出2021年中国数字人文领域的研究和建设成果。除此之外,还有许多学者对于数字人文研究的现状进行了反思,例如中山大学肖鹏对于非主流范式下的数字人文实践的关注,体现出当下学者对于“学术共同体”的反思;湖南大学战蓓蓓提出,数字人文的进一步发展应该考虑大众传播、及推广和应用的可能性,同样也是关注到了社会公众的作用;南京师范大学吴静则是重新审视数字技术在数字人文研究中的地位和意义。总而言之,从本次会议可以窥见全球数字化浪潮的一角,数字人文所提供的机遇可以促使人文社科学者本身在方式、内涵、目的等方面进行多重反思,也有可能打开我们的视野,让我们看到人文社会科学为人类精神世界服务的更多可能路径。


3 优秀数字人文项目


本次会议面向全球征集中文或中国主题的数字人文优秀项目,共有10个项目参评,其中9个来自高校研究机构,还有一个来自西安地图出版社。从作者团队的学科背景而言,10个项目中有4个来自信息管理领域, 4个来自历史地理领域,2个来自图书情报领域。参选项目可分为四类:第一类是文本分析工具,共2个;第二类是历史地理信息平台,共5个;第三类是艺术遗产数据库,共2个;第四类是知识库建构平台,共1个。


评审专家分别从题材、创意、视觉设计、整体逻辑四个方面对参选项目进行评审打分。题材、创意、设计单项分最高者分别发放最佳题材奖、最佳创意奖、最佳视觉设计奖;综合题材、创意、设计、整体逻辑四项评分,总分最高者颁发最佳项目奖。


最终获得最佳项目奖的是复旦大学历史地理研究中心的“中国历史地理信息平台”(http://timespace-china.fudan.edu.cn/)。该平台是基于“中国历史地理信息系统”(CHGIS)及各类历史GIS数据资源构建的统一时空框架数据库和信息服务平台,包括五大模块:CHGIS、古旧地图、时空框架、数据库、资源中心可实现各类多元异构空间和非空间数据的存储、管理、发布、共享、分析、可视化和综合应用,支撑历史地理和多学科交叉综合研究,推动科研学术创新。


获得最佳视觉设计奖的是中山大学图书馆的“徽州文书数字人文平台”。徽州文书是20世纪中国民间历史文献领域的重大发现,由其形成和推动的徽学研究成为中国人文社会科学研究的重要领域。中山大学图书馆收藏徽州文书33万余件,共有100多万余页图像资源。平台通过基础知识库、文献知识库、本体机构库等提供徽州文书的知识服务,这同时也是新文科的重要尝试。


获得最佳创意奖的是中国人民大学信息资源管理学院的“北京记忆——京剧脸谱”项目。当前针对京剧脸谱文化保护与发掘的网站多关注表层“物化”作品,忽略了非物质文化内涵,。而该项目以推动京剧脸谱文化的“活态”传承为宗旨,探索利用多种数字资源建设技术,如构建适应京剧脸谱图像的元数据标准,利用机器学习开展脸谱图像的语义标注,利用标签辅助提升交互式搜索体验等技术,搭建多维度、交互式、寓教于乐的京剧脸谱网站,实现从脸谱的纹饰、符号、色彩、性格特征从发全方面呈现京剧脸谱的文化价值。


获得最佳题材奖的是中山大学信息管理学院的“本体服务中心”项目。本体是知识库的骨架,是描述一个领域的术语集合,也是数字人文项目顺利实施的基石和保障。然而,目前公开发布的本体却少之又少,缺少统一的本体平台是其主要原因之一。“本体服务中心”(http://www.usources.cn/ont)平台采用语义网技术和框架构建,采用图数据库对本体实现总分结构存储,并对本体中的术语进行高效索引,实现了本体资源的在线注册、编辑、检索、发布、下载、呈现于一体,并提供API接口供机器远程调用。该平台的构建将给本体设计带来便利和高效,也将成为数字人文研究中必不可少的数据基础设施之一。


总体而言,本次会议参选的项目数量上比少,来源也基本局限于高校之中,较为匮乏,难以满足参会者交流学习的需求。这固然有本次会议宣传渠道较窄的原因和疫情的影响,但也在一定程度上体现出数字人文研究在国内的传播尚不够广泛。


4 数据竞赛

4.1

基本情况

本次会议开创性地设置了“数字人文开放数据创新研究大赛”,与“和鲸数据科学协同平台”合作,鼓励海内外数字人文研究者及数据分析爱好者利用各种数字人文新技术对开放数据进行具备人文性的探索研究与应用,希望借此促成数字领域与人文领域研究者的深度协作,培育出新一代在数字与人文之间融通无间的DH学人,夯实中国的数字人文研究领域人才与成果基石。


本次比赛设置8个赛道:①保守或融贯:重审《学衡》杂志中新文化运动思想与立场的历史定位;②《建康实录》文本挖掘及六朝人物关系时空分析;③《拉贝日记》中《日本士兵在南京安全区的暴行》文件文本挖掘处理;④明清时期文献中的色彩知识探秘;⑤南京市政府出让住宅用地及其地价的时空建模与可视化研究;⑥中国历代人物传记资料库;⑦识别古书中隐藏的社会偏见;⑧宋元学案学术传承数据分析。由参会论文或项目作者提供数据集和赛题,供选手们探索研究。


竞赛吸引了356支参赛团队共432位参赛者,最后有效提交33份。中国参赛者选手来自中国53个城市,排名前五的城市为北京市、广州市、武汉市、南京市和上海市。外国参赛者来自美国、南非、日本、新加坡和印度。


参赛者中在校生277人(占比:56.3%)、在职人员155人(占比43.7%)。在校生参赛者来自79所高校,人数排名前五位的国内高校为暨南大学(47人)、武汉大学(18人)、中国人民大学(18人)、华中科技大学(12人)和安徽财经大学(11人);涉及海外高校有新加坡国立大学、西蒙菲莎大学、雪城大学等。在职人员参赛者来自业界40余家公司,厦门华禹智能研究院有限公司、中国科学院计算技术研究院、北京科码先锋互联网技术股份有限公司、软通动力信息技术(集团)股份有限公司和中通服创发科有限责任公司等企业的职员居多。


4.2

获奖作品

本次大赛共决出10支获奖团队,包括1个一等奖、3个二等奖和6个三等奖。


一等奖“一头倭瓜”团队来自“《拉贝日记》中《日本士兵在南京安全区的暴行》文件文本挖掘处理”赛道。团队期望通过数据挖掘和数据可视化回答以下问题:这份报告总体上记录了哪些信息?具体发生了哪些事件?随时间变化的趋势如何?具体涉及哪些人?人物关系如何?具体涉及哪些地点?地理分布如何?为此,她们构建了大量的地图和关系网络。


二等奖之一“年轻人不讲武德的团队”出自“南京市政府出让住宅用地及其地价的时空建模与可视化研究”赛道,团队成员来自中国空间技术研究院。他们在空间覆盖全面、时间跨度大的南京市住宅用地数据上,利用变化趋势分析、数据分布、相关性分析等技术,对南京城市居住用地时空分布规律、居住用地价格影响因素进行分析。二等奖之二“datapie”同样出自南京地价赛道,该团队以南京市为研究区,采用理论研究与实证分析相结合、统计分析与比较分析相结合、GIS空间分析方法与空间计量方法相结合的方法,对南京市住宅用地块价格时空演变及其影响因素进行研究。二等奖之三“dfqqfb的团队”出自“《拉贝日记》中《日本士兵在南京安全区的暴行》文件文本挖掘处理”赛道,通过研究《拉贝日记》节选开发日记史料资源,从知识抽取的角度,形成时间、空间、事件类别、人物等多元素可视化图谱,形成一套完整的对日记类文本进行知识抽取的研究流程。


三等奖之一“wengmj的团队”依旧是出自“《拉贝日记》”赛道,在基于史料的基础上,对文本中日本暴行的事件数据进行处理和分析,并形成了可视化数据图。三等奖之二“太热施肥伏特的团队”出自“明清时期文献中的色彩知识探秘”赛道,该组探究了明清文学中出现了哪些颜色词、色彩与社会阶层之间的关系、延续两代的流行色等问题,并进行了一系列可视化呈现。三等奖之三“胡雪颖的团队”出自“宋元学案学术传承数据分析”赛道,以《宋元学案》为底层数据库,利用Python环境构建知识图谱并得出其学术趋势特点。


三等奖之四“挖掘机大队”来自“识别故事中隐藏的社会偏见”赛道,通过一系列的数据挖掘方法,从三个方面探究了隐藏在470本19世纪西方英文虚构小说中的性别偏见。三等奖之五“毕之爱吃鱼的团队”来自“宋元学案学术传承数据分析”赛道,尝试结合数字人文技术提出一种基于社会网络分析和隐性知识转移理论的《宋元学案》学术传承研究方法,以帮助人文学者通过数字人文技术的辅助,尝试去解决并回应前人研究的不足之处。最后一个获奖项目“yomorning的团队”出自“中国历代人物传记资料库”赛道,该团队以人物传记资料库、《宋元学案》以及《宋代官职词典》为数据来源,基于人名、官职、官位等级提取并整合不同数据库中的数据进行统计学描述、社会网络分析及相关性分析。


4.3

评述

这是中国数字人文大会首次依托商业平台开展数据分析竞赛,由于完全面向社会,因此参赛选手大多缺乏一定的数据分析能力,少数选手甚至第一次使用Python进行数据分析,因此显得参赛门槛较高,有效提交数较少。但不可否认的是,这种新颖的形式激发了社会公众对于数字人文的兴趣,有利于数字人文的蓬勃发展和广泛传播。竞赛吸引了来自国内外各地的在读学生和在职人员参与,打破学术共同体的围墙,实现了学术资源和社会公众的交互,也让更多的数字人文爱好者、学习者获得实践训练、锻炼研究能力。并且,本次竞赛还引发了意料之外的教育教学实践。暨南大学的刘倩老师在其“数据挖掘与分析”课堂上,将竞赛作为课程作业布置给学生,让初学程序分析的同学们从实践中学习,最终产生了两支获奖团队。


5 数字人文研究现状:趋势和反思


作为国内数字人文领域最知名的学术会议之一,中国数字人文大会汇集了各领域的数字人文学者,代表着该领域的最前沿动向。总的来说,国内数字人文发展趋势良好,除了人民大学、南京大学等老牌研究中心外,不断有来自高校和社会的新鲜血液补充进来,与2020年数字人文年会相比[1],本次会议参会论文在数量和议题上都更加丰富,参与的高校和机构也更多;在研究主题和研究方向上,呈现出百花齐放的态势,除图书馆、档案、信息管理、历史、计算语言学、统计学等数字人文已经较为活跃的领域外,文学、艺术、文化遗产、博物馆、传播社会学、计算机等领域的学者也开始关注并积极参与到了数字人文相关研究中。毫无疑问,本次会议为国内外数字人文领域专家学者以及学习者提供了跨学科交流平台和新的研究工具,也为新文科建设在形成新的研究范式和思维模式方面提供了有益尝试。


作为国内最早的数字人文专委会之一,同时也是中国大陆“数字人文机构联盟”的官方会议,中国数字人文大会也在促进机构合作、交流方面发挥了积极的作用。机构联盟的参与机构及机构成员在会议组织、评审、主持及研讨方面承担了大量的工作,起到了非常好的宣传、引导和示范效果。这也显示了中国数字人文作为一个研究领域、一个学术共同体的雏形。


然而,此次会议因为受到疫情的影响,在国际交流方面没有能达到预期效果,颇为遗憾。希望后续的数字人文大会能进一步开拓国际合作与交流,在世界数字人文的大合唱中奏响中国旋律!


校对:魏寒秋

排版:郝李臻