照片的声音是什么样的?—— 作为联觉视听数字人文方法的数字图像可听化
转载请注明“刊载于《数字人文研究》2022年第4期”;参考文献格式:迈克尔·J·克莱默. 照片的声音是什么样的?——作为联觉视听数字人文方法的数字图像可听化[J]. 数字人文研究, 2022, 2(4): 63-73.全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。
摘要
计算机具有将像素、形状和其他视觉材料特征转化为声音的能力。通过视觉与听觉之间的数据关联行为,一个以视觉为来源的声波组合得以生成,这是一种新的人工制品(artifact)。它精确地与原作数据相关联,从而提供了一种新的方式感知原作的形式、内容和背景。虽然它看起来似乎是将视觉对象扭转为一个听觉对象,但矛盾的是,它使观察者能够以更精确的方式重新观察视觉证据。通过跨越影像与音频、视觉与听觉之间的典型界线,一种具生产性的、联觉(synesthetic)的批判成为可能。通过对数据进行数字转置,听取和观察视觉作品,可以更好地进行近读,实现更具说服力的解释及更深入的理解背景。基于作者早期关于图像故障、可听化处理的学术工作,文章对美国著名歌手琼·贝兹1960年代初在加州伯克利希腊露天剧场演出的一张照片进行了研究。这张照片出自作者对伯克利民谣音乐节和美国西海岸民谣音乐复兴历史的研究项目。在此,数字图像可听化处理的使用尤为有趣。尽管不能魔术般地还原出照片里的音乐,但是我们可以更切近地关注照片中的“声音幽灵”。数字图像的可听化技术虽然无法还原音乐本身,但是在观察照片中贝兹如何创作音乐时,它确实有助于放大性别、权力、具化、场面、表演、等级制度和表现等问题。通过耳朵和眼睛来对图像进行多重意义的扫描,可以产生一些意想不到的感知,从而支持更具启发性的分析。由数据、信号、图像、声音、历史和人类感知构成的“赛博格舞蹈”在数字图像可听化中出现了,这激发了对视觉材料的新审视。照此,视听数字人文的联觉模式为激活学术想象力提供了一条充满希望的新途径。
关键词
联觉视听;数字人文;数字图像可听化;琼·贝兹
作者简介
迈克尔·J·克莱默(Michael J. Kramer),纽约州立大学布拉克波特学院历史系助理教授,Email:mkramer@brockport.edu; 朱子彤(译者),北京大学艺术学理论专业博士研究生,Email:zztnikki@stu.pku.edu.cn。
在照片(图1)中,我们可以看见著名的民谣歌手琼·贝兹(Joan Baez)正在加州大学伯克利分校赫斯特希腊露天剧场(Hearst Greek Theatre)表演。当然,我们是听不到她声音的。这张照片摄于1960年代初的一个夏夜,它包含了一个正在产生音乐声音的时刻,但作为一件人工摄影作品,它仍然是沉默的。从画面上看,这幅照片在视觉上传达了一种表演规模的盛大感。它由一位不知名的摄影师从观众席高处拍下,我们从拥有8500个座位的剧场的舞台右侧俯视站在强烈白色聚光灯下的贝兹,只能看到远处舞台上一串朦胧的轮廓。你能认出她那身标志性的衬衫和及膝裙,深褐色的长发,还有她那把木吉他,但这就是全部。她在一个仿照埃皮达鲁斯(Epidaurus)古剧场的空间里演唱,这个剧场由报业大亨威廉·赫兹(William Randolph Hearst)赞助,于1903年开放,以服务于伯克利成为新的民主源泉,也即“西方的雅典”(Athens of the West)这一理想。如果你知道这张照片的一些背景,你也许会认为自己看到的是一个年轻、激进的女人,刚刚走出十几岁的青涩,就已经成为民谣音乐复兴的名人。如果你了解贝兹的音乐,那么当你看这张照片时,可能耳边会响起她标志性的高音颤音,还有那木吉他弹拨的微弱回声。如果你还了解旧金山湾区,那么也许还记得那里春夏夜晚的宜人清爽或通彻寒意,以及从海湾朝着伯克利山脉涌去的薄雾。否则,即便你得到那些声音和感知资源,对你而言,那也只是一个无声的图像。
那里是否存在比眼睛所看到的更多的东西?如果是这样,视听数字人文(Audio Visual DH)是否可以帮助我们获得它,或者至少更有效地思考那些记录进行中的音乐表演或声音制作的照片呢?我们无法像复原出土文物那样神奇地还原琼·贝兹表演中的声音(至少目前还做不到),但我所谓的“数字图像可听化”策略却提供了一个例子,展示了对于蕴含声音的照片(实际上是所有照片)中,计算如何推进更好的近读,实现更有说服力的解释以及更深入的背景理解。尽管考古学家和部分从事数字人文的历史学家都对恢复或模拟过去的声学环境感兴趣,但我所说的图像可听化,更多地出自媒体研究对于“数字照片是什么”的关注。当一张照片经过光学扫描并转化成图像文件时,我们可以将图像的像素、形状和其他特征与声音相关联,进而创建图像的音频版本。就像媒体研究学者沃尔夫冈·恩斯特(Wolfgang Ernst,2013)所指出的,“对于计算机来说,声音和图像之间的差异,如果拿来计算的话,也只能算作是数据格式之间的差异。”转置的(transpositional)可能性对于视听数字人文的联觉模式而言很有用。正如恩斯特所说的,“数字内存(digital memory)忽略了声音数据和视觉资料数据之间的审美差异,使一个界面(针对人类的耳朵和眼睛)模仿另一个界面”。图像有许多方面是我们可以对其进行可听化处理的,而且可以肯定的是,(视觉与听觉之间)本质上并不存在一个必然比另一个更好。正如泰勒·阿诺德(Taylor Arnold )和劳伦·蒂尔顿(Lauren Tilton)在他们称之为“遥观”的大型视觉语料库相关研究中指出的那样,“原始像素强度在脱离背景的情况下不具备任何有意义的信息”(Taylor Arnold,2019)。尽管如此,即使是对于一个图像——也许尤其是对于一个图像,通过人工制品带来的陌生化(defamiliarization ),经验数据的多元模式可以生产出新的知识(Viktor Shklovsky,2017)。

图1 琼·贝兹在赫斯特希腊剧场的表演(伯克利民谣音乐节藏品,未注明日期,可能是1963年,摄影师未知)
“陌生化”是指对文本进行有目的地疏远,以便能更敏锐地观察其内在运作和更深层次的含义。它起源于一种新的现代主义文学分析,与贝托尔特·布莱希特(Bertolt Brecht)的 “间离效应”(distancing effect)或超现实主义艺术创作中的策略,又或瓦尔特·本雅明(Walter Benjamin)为应对 “可技术复制时代”(age of technological reproducibility)而努力发展的异化美学分析新模式相去不远(Bertolt Brecht,1964;Walter Benjamin,1968)。图像可听化方法还结合了数字人文长期以来对“变形”(deformance)的关注。在“变形”的情况下,改变文本的策略行为产生出新的版本,并由此揭示出与原文的差异。实际上,我们有时甚至会质疑”原作/原文”(original)这一概念的含义(Jerome McGann,2012;Mark Sample,2012)。在某种程度上,所有数字人文工作的努力,即使是最致力于实证主义统计分析的工作,都不免产生对经验记录的歪曲。正如丽莎·吉特尔曼(Lisa Gitelman)所说的,“原始数据是一个矛盾的说法”,所有的数据“都永远是新的”(Lisa Gitelman,2006;Lisa Gitelman,2003)。当然,确有事实尚待发掘,但当涉及对图像和声音的分析时,事实往往是多角度、多声部的,而且极少是不证自明的。通过积极和批判性地与作为数据产生的表征及通过数据产生的表征打交道,在听取和观看图像的过程中使用计算机作为辅助,我们可以寻求对所研究材料的更全面、更丰富的解释。我们可以更深入地倾听所看到的东西。
将图像数据可听化是为了翻转当代对数据可视化的迷恋,在这种痴迷中,任何类型的数据都被转换成弗朗科·莫莱蒂(Franco Moretti)的著名结论:图表、地图、树状(Franco Moretti,2007)。假设我们不再优先强调视觉,那么观者——现在是听者,可以在视与听之间来回切换。这将视听二元的两半置于相互对话之中。毕竟,如果我们已经在创建数字制作的频谱图时将声音可视化,为何不把像素信息也可听化呢?当人们将视觉感知和听觉感知结合在一起,用新的联觉分析模式来研究照片时,新的细节和新的解释可能性、想法、意义和含义就会显现。从这样的角度来看,图像可听化提供了一种未被充分开发的、探索性的声音策略,可以带来关于视觉资料的新发现。正如凯文·L·费格逊(Kevin L. Ferguson)在《数字人文辩论 2019》(Debates in the Digital Humanities 2019)中所说,“在数字时代重新思考我们的观察实践……需要投资于实验性的理论方法,这与DH工作中经常选择的定量数据的理性主义运用背道而驰”(Kevin Ferguson,2019)。如果我们从统计学的膨胀以及视觉的“专制”转向对人工制品表征更具冒险性的数字考量,如果我们接受弗雷德·吉布斯(Fred Gibbs)和特雷弗·欧文斯(Trevor Owens)对于基础性数字人文的呼吁——更具批判意识和创造性地扩展 “数据解释学”,那么我们可以激活耳朵及眼睛,更准确、更具启发性地感知关于过去更全面的解释图景(Fred Gibbs,2013)。
我曾在其他地方论证过,数字图像可听化为追求对档案照片的全新历史理解提供了一种挑衅性的方法。我早期的文章尤其关注图像故障( image glitching)和可听化处理是如何产生对于美国民谣音乐复兴中种族问题的全新解释视角的(Michael Kramer,2018b)。在本文中,我把眼睛和耳朵朝向了1960年代初民谣复兴高峰期音乐演出中的性别、空间、表演和民主问题(Micheal Kramer,2018a)。最让我震惊的,仍然是数字图像可听化放大摄影表现中的利益关系的能力。当其像素态存在被转化为声音时,视觉资料就在一个不同的寄存器中活跃起来。听到我们正在观看的东西,要求我们重新看待一张照片,产生新的看法。耳朵帮助眼睛重新定位感知。这种新的知觉为产生更有洞察力的解释提供了机会。作为一个实验,我将贝兹的照片放入程序员米歇尔·罗奇克(Michel Rouzic)创建的应用程序 Photosounder中。Photosounder从左到右读取图像,并将像素的亮度与粉红噪声的频率关联起来,较低的、较安静的音高由较暗的像素产生,而较高的、较喧嚷的音高由数字图像的较亮区域产生。有一些可以操作的参数,但总的来说,这是一个非常简单的图像声化处理软件,仅仅是提示了可以做的一些变化试验。即便如此,最后得到的一种图像声波X射线带来的不是拍摄照片时贝兹正在创作的音乐,而是对于我(的耳朵)来说,她在希腊露天剧场表演中的空间与性别的动态。
图像可听化的一大极具吸引力的特点就是声音把空间转化为时间——通过对照片中捕捉到的空间关系进行时间排序,创造出一种强化的空间联系。二维的照片现在具有了听觉深度和临场感。这是一个有效的方法,可以用来思考受众和表演者之间关系的品质,而照片可能会使这些关系字面化、扁平化,甚至模糊不清,或者只是以视觉形式模糊地暗示。对我而言,最有效的参数是音阶频率的对数基数(logarithmic base)。当设置为较高音阶,声化处理到达舞台中央贝兹的身影时,它产生了更多的低语;设置为较低的音阶时,它则产生了一系列的啁啾声和哨声。然而,除了聚光灯下的贝兹,画面中的黑暗大部分都安静得有趣。毕竟,无声也是图像可听化和视听数字人文分析的一部分。声音喃喃低语,穿过照片的黑暗区域。只有到达贝兹被照亮的身影时,才会产生一个小的声音气泡,此时音阶频率对数设置为2.0(图2);或者爆发出一组疾速的风声、回响的口哨声,此时音阶频率对数设置为大约1.2(图3)。仿佛是为了宣告她幽灵般的存在,远离摄影师所在的圆形剧场的顶部,这两种声波提醒我她在舞台上的动态,一个在强烈的白色聚光灯下的遥远身影,却又是众人瞩目的中心。

图2 使用Photosounder应用程序对琼·贝兹在赫斯特希腊剧场演出的照片进行声化处理(音阶频率对数设置为2.0)

图3 使用Photosounder应用程序对琼·贝兹在赫斯特希腊剧场演出的照片进行声化处理(音阶频率对数设置为1.2)
随着越来越多地听这些声音和察看照片,有两个主题萌生了。第一,尽管民谣复兴理想是一个分散的、公共的民主运动,但可听化强化了贝兹——舞台上的新晋名人与观众之间的区别。第二,我开始思考贝兹作为一位女性表演者在复兴运动中的地位。就第一个主题而言,可听化增强了这不是“康巴亚”(Kumbaya)般的篝火晚会,而是一场规模宏大的精彩表演的印象:舞台上的明星吸引了所有人的注意力,观众倾听和注视着在强烈白色聚光灯下的她。可以与另一张可能取自同一场音乐会之前或之后的观众图像的声波进行比较(图4和图5)。在那张图中,声波非常嘈杂,可听化处理拾取了许多头部、衬衫、聚光灯和圆形剧场的图形。这就是分散的关注点,离散的嗡嗡声是人们在共同专注于一场传统的音乐会表演之前或之后的情况反映。综合来看,这两张照片的图像可听化展示了希腊露天剧场的贝兹照片如何反映了1960年代初期民谣复兴的关键张力。一方面,它寻求反商业和反等级,将音乐制作从表演者和观众之间的权力差异转移到音乐交流的共同体验上。而另一方面,它的流行也带来了愈加传统的表演模式,确切地说是娱乐,明星和被动的观众之间存在着所有不平衡的一项商业工作。也许成了复兴运动标志性女性人物的贝兹尤其深陷这种紧张的关系中。
第二个关于性别的主题是从图像可听化中迸发出来的。有时候,她试图追随皮特·西格(Pete Seeger)的脚步,适应进步、激进的政治事业,或遵循其众人自娱演唱会的传统;有时候,她又接受了一个遥不可及的复兴偶像的角色。图像声波提醒我们,在露天剧场的舞台上她作为一个表演者所承受的矛盾。在一种声波中,她只是一阵低语;在另一种声波中,她则是一串哨声。无论哪一种,更大的黑暗都几乎将她吞没在希腊露天剧场的史诗般的空间中。然而,她也是图像中唯一产生声音的部分,尤其是在哨声中。这提醒我们,是贝兹独自坚持在我们从照片中瞥见的唯一的麦克风前,吸引了所有听众的注意力。她是聚光灯下唯一的人物。除了转化自舞台前部和舞台侧面一条照明走道的快速低语外,在声波中我们只能听到她。

图4 琼·贝兹音乐会上的观众(伯克利民间音乐节藏品,未注明日期,可能是1963年,摄影师未知)

图5 使用Photosounder应用程序对琼·贝兹音乐会上的观众照片进行声效处理(音阶频率对数设置为2.0)
那么,在这个特殊的实验中,图像本身产生的声音是什么呢?声波的质地,一种如幽灵般沉闷回荡,另一种则是短促的哨声,使我思考起贝兹这个人和贝兹这个表演者之间究竟有何不同,一个人如何总是潜伏在另一个人之中。在一场引人入胜的演出中一种频谱消失了,贝兹本人的在场提供了一种具身的(embodied)真实性,奇怪的是,这种真实性又是空洞的(disembodied)。声波为我放大了一幅图景:一位年轻女性在民谣复兴的高峰期被推到聚光灯下。她不得不在民谣复兴的环境中与性别限制进行博弈。因而,贝兹能够大声疾呼,召集听众,讲述她的音乐真理,并公开阐述进步的政治理念。与此同时,她在复兴运动中的地位也在被削弱。几年后,人们会从在她与鲍勃·迪伦(Bob Dylan)在舞台上和在音乐事业中的关系看到这一点,她是在这张照片拍摄时开始与他一起演出的。在鲍勃·迪伦自由地重塑自己,宣称自己是高度现代主义的艺术家的时候,贝兹却经常被限制在女友、和声歌手等性别化角色上,或是被置于民谣运动中的“圣母玛利亚”这种刻板印象中(Joan Baez,2009;David Hadju,2001)。
这些思考都只是因为像素亮度产生的粉色噪声?有些人可能会抱怨说,我对声波的解读过度了。另一些人也许会争辩说,以批判的眼光来看,可听化所揭示的是图像已经可视化的东西。这两种考量都是准确的。检视可听化处理过程时大做文章,并非是为了脱离对图像数据的语境化解释,而是为了更探究地、细致地、充满洞见地 [ insightfully,或者现在可说是“充满洞听地”(insoundfully)?] 解读构成摄影作品的数据。通过从视觉形式到听觉形式的转变,人们可以更接近作品本身所包含的内容的丰满度,及它所暗示的某些意义和含义。由单纯的视觉研究转向图像与声音之间、视觉与影像之间的联觉活动,可以进行更加丰富的分析、更大胆的探索,即使是对一张照片。
总体而言,以数字方式听取和观看照片,可以更多地触碰到图像所捕捉的隐含的表演性、情感、空间、具化和背景这些维度。正如用非数字方法观察非洲侨民(African Diaspora)照片的艺术史学家蒂娜·M·坎普特(Tina M. Campt)所写的那样,“当听的实践不仅仅是关于听觉,而是对不同水平的照片可听性的调适”,此时出现的是 “对影响性和冲击性的声波频率的调适”(Walter Ong,1982;Edmund Carpenter,1960),数字图像可听化也是如此。人的感觉中枢并不是整齐地被切分于眼与耳之间的!通过视觉和听觉的协同获得新的感知是可能的。正如坎普特所说,“听取”图像能“跨越景象与观察者的距离,得到一种融合看、感觉、被影响、被接触和被感动的合奏”(Tina Campt,2017)。坎普特最感兴趣的是在她研究的照片中辨识出黑人的逃亡及其未来的主体性。通过把数字计算的力量引入这个方案,图像可听化扩展了她所勾勒的蓝本,即把摄影数据不是作为经验事实的总和,而是作为多维意义的来源进行处理,让人可以深入图像中不太容易辨识的方面。
本文所提出的数字图像可听化方法,也为数字人文研究的“遥读”和“近读”提供了一条交叉途径。就像艾伦·刘(Alan Liu)在2012年所预测的那样,“数字人文的下一个前沿领域,将是在技术和理论上探索如何在遥读和近读之间进行协调”(Alan Liu,2012)。声音可以传达出音色、音调、不同元素之间的相关性等微妙特质,以及视觉、文本或统计数据无法有效呈现的其他类型的信息(Margaret Schedel,2014)。声音在协调遥读和近读之间的鸿沟方面也表现出了特殊性,因为它代表着时间。这将允许海量的信息压缩成一个快速信号,使人们可以大规模地听取。矛盾的是,通过在时间上呈现数据,它也产生了放大细节的能力,迫使观察者更慢地进入细节,就像我对贝兹的照片进行多次可听化处理一样。数字图像的可听化能够处理大大小小的数据,它要求我们追寻真相时,不能诉诸对客体作过分简单化和简约化的论断。在沉浸式的“声学空间”中——埃德蒙·卡本特(Edmund Carpenter)和马歇尔·麦克卢汉(Marshall McLuhan)这么称之,“视觉隔离”而“声音融合”,正如另一位学者沃尔特·翁(Walter Ong)的著名论述。翁认为,“在一定的距离内,视觉将观察者置于他所看到的东西之外”,而“声音会像潮水一样涌向听者”(Veit Erlmann,2014;Jonathan Sterne,2013;Jonathan Sterne,2012;Alexandra Supper,2014;Alexandra Supper,2015;Alexandra Supper,2016;Emily Thompson,2002;Emily Thompson,2013)。一些学者,如艾米莉·汤普森(Emily Thompson)、乔纳森·斯特恩(Jonathan Sterne)、威特·埃尔曼(Veit Erlmann)、亚历山大·苏破(Alexandra Supper)和卡琳·比斯特福德(Karin Bijsterveld),他们已经将感官简单地分割成两个离散的实体,这就是为什么从联觉的角度思考两者之间的相互作用,可能是最有成效的视听数字人文策略。数字图像可听化将我们带入图像的形式和内容中,但由于我们是以联觉的方式进行的,它也将使我们与所听到和所看到的东西疏远,将我们置于视觉和听觉之间的中间和中介空间——一个用于思考、解释和知识发现的富有成效的感知区域。
最后,数字图像超声波化处理展现了一个范例——视听数字人文是如何作为数字人文领域的一部分显而易见地推动了数字历史和档案思维研究。通过增强对过去档案中闪现的的情感和感觉的洞察,我们也许会意识到贝尚妮·诺维斯基(Bethany Nowviskie)所呼吁的“具思辨性的收藏”(speculative collections),积极活跃地利用数据库来激活作品中沉睡的意义(Bethany Nowviskie,2016)。随着贝兹创作音乐的照片转化为声音,一种“档案的现场感”(archival liveness)被唤起至我的眼睛和耳朵,这是汤姆·肖菲尔德(Tom Schofield)和他的同事们设想数字技术所能够实现的(Tom Schofield,2015;Megan Ward,2019)。图像可听化不只是平铺直叙地再现档案知识,也不是仅仅通过档案的表面视角回顾过去,而是更深入、更精确地挖掘数据,将档案知识转化成新的钥匙。它打开了历史的证据记录,以了解那些单凭视觉判断可能存在、也可能不存在的东西。我们无法听到贝兹在1960年代初那晚在希腊露天剧场的表演,但随着我们对她的照片进行可听化,我们能够更有力地听到她的音乐创作内含的利害关系。数字图像的可听化能使图像的内容和背景都变得生动起来。性别、权力、具化、场面、表演、等级制度、表现等问题都浮现出来。在数据、信号、图像、声音、历史和人类感知的“赛博格舞蹈”中,图像可听化在影像和音频之间联觉回旋,以一种全新的视听方式激活了作品的数据。如此,也激发了学术界的想象力。
校对:陈嘉禾
排版:冯田田