开通VIP,畅享免费电子书等14项超值服
首页
好书
留言交流
下载APP
联系客服
2024.04.14北京
横组合/纵聚合邻近性/相似性测地距离/欧氏距离转喻/隐喻网络科学
而目前,放眼文本分析的文、理两个领域,各自存在一些局限性:就人文领域的符号学而言,虽然许多学者都认同其在揭示人类思维方式的本质特征中的基础作用,并宣扬双轴关系的思想具有很强的科学性,那么到底如何展现,如何对文本中的语义做出量化的操作?这就一筹莫展了;就自然科学所涉的文本分析、语义网络等技术领域,似乎对“结构”“符号”等用词又信手拈来,该领域对人文学者特别在意的用词内涵尚缺足够的关照,如符号系统中由邻近性、相似性而生的修辞及意义是如何产生的,能否“嵌入”网络分析?
一、文本分析中的符号学“双轴关系”
信息传播的内容经由符号化的过程,变为有意义的讯息。由此,从传播学的基本理论共识出发,所谓文本分析,首先是“符号分析”,譬如:
这里的纵聚合和横组合,即符号学“双轴关系”中“双轴”的两种组构方式。在结构主义和符号学的发展历史上,对双轴关系的解释,源于瑞士结构主义语言学家——费迪南·德·索绪尔。这方面的后继者之一是罗曼·雅各布森,他是俄国早期形式主义的代表人物,大力倡导“结构主义符号学”。对其观点述介如下:
横组合和纵聚合分别依据“邻近性原则”和“相似性原则”,将“文本”中的语义单元或要素关联起来,即形成“结构”暨语言的系统,其中有一系列二元成对的概念,参考表1。
表1符号学“双轴关系”中基本的二元成对概念
图1横组合轴与纵聚合轴构成的“双轴关系”[3]
何谓纵聚合?以“僧敲推月下门”为例:这句话显现出来的是“僧”不是“尼(姑)”,是“敲”而不是“推、开”;未显现出来的成分(“尼”“推、开”)就如同在表层相应的结构位置之下潜藏的纵深处的语义单元那样。而语句(或叙事)的每个纵深位置的显现或未显现的基本单元或要素,因为某层面或程度上的“相似性”,又可能彼此替换(互相代替)、指涉,或联想而譬喻,所以纵聚合的构成如同遵循了一种相似性原则。同样地,回溯到符号语言学层面:这种相似性原初体现为语法(尤其是句法功能)、词性(词类属性)的相似,如同为主语/名词,同为谓语/动词,同为宾语/名词的一系列词汇。因为句法功能相同,又可以将如上“相似”看成是句段层面的“结构等价”[5],譬如:
其中的所谓相似性,在更宽泛的范畴内,即语法层面,即认为:“在(如上)这四个横组合中,'张三’'李四’'王五’'赵六’是一束纵聚合关系,'唱’'演’'开’'喝’是另一系列纵聚合关系,而'小曲’'京剧’'汽车’'啤酒’又是另一束纵聚合关系。”[6]
凡处在一束的语义单元,诸如小曲和京剧,诸如前文中提及的动作“敲”“推”“开”(月下门),哪怕是像“汽车”“啤酒”两种看似无关的事物,在结构主义语言学家的眼中,都是“相似的”。
如上从语言学层面对双轴关系的阐释,似乎让人感到稀松平常,那是因为普通人都具备双轴关系的思维,是“无意识”的;但是,雅各布森曾从医学的角度观察双轴思维出错的病人,通过“反证”得出了双轴关系的科学性。[7]
说到双轴关系对文本分析的关联,不妨再从文艺性的修辞层面着眼。如后人对雅各布森关于双轴关系的理论,还有这样的陈述:
“平面的”运动把词语组合在一块,“垂直”(即图中垂直于横组合轴的纵轴)运动则从语言现有的库存或“内部贮藏室”中选择具体的词。组合的(或句段的)过程表现在邻近性(把一个词置于另一词的旁边)中,它的方式因而是转喻的。选择的(或联想的)过程表现在相似性(一个词或概念和另外的词或概念的“相似”)中,它的方式因而是隐喻的。因此可以说,隐喻和转喻的对立其实代表了语言的共时性模式(它的直接的、并存的、“垂直的”关系)和历时性模式(它的序列的、相继的、线性发展的关系)[8]的根本对立的本质。[9]
他提到修辞中关于转喻和隐喻的问题,简言之:邻近性原则对应转喻,相似性原则对应隐喻。那么,涉及隐喻、转喻的修辞的问题则是双轴关系所带来的主要启发点之一。
如果文本中语义单元关系的建立须“有理有据”的话,那么,结合符号学家皮尔士关于“理据性符号”的分类,符号可以分为两种,一是指示符号(index),二是像似符号(icon)。[10]前者是“符号与对象因为某种关系——尤其是因果、邻接等关系——而能相互提示”,即对应邻近性原则;后者之所以能够指向对象,“靠的是'像似性’(iconcity,这个概念约等于'相似性’):'一个符号代替另一个东西,因为与之相似(resemblance)’”。而“像似符号与对象之间的关系,类似隐喻关系;正如指示符号与对象之间,类似转喻(或提喻)关系”。[11]总之,语义相互指涉的思维方式,就其“有理有据”的一面来看,确切地体现在“转喻”和“隐喻”两种情况中。[12]
转喻和隐喻,如果从广义回归狭义,则对应符号具体的文学性的修辞示例。把该问题说清楚,将有利于返回抽象的层面,理解双轴关系的普适性。
1.隐喻
在双轴关系和符号修辞学领域,隐喻是广义的,它既包括狭义的隐喻,又包括比喻、明喻等更常见的情况,譬如,根据符号和对象之间在“造型”上的相似而将二者进行本体和喻体的配对,如“汽车甲壳虫般地行驶”把汽车比作甲壳虫,就是一个隐喻。关于隐喻的缘由,不妨再以图2-1示意如下。
图2-1
2.转喻
诸如“白宫在考虑一项新政策”就是一个转喻。“而转喻则以人们在实实在在的主体(总统)和它'邻近的’代用词(总统生活的地方)之间进行的接近的(或'相继的’)联想为基础。”[15]示意如图2-2。
图2-2
白宫和总统之所以能够形成本体、喻体的配对,是因为它们存在空间上的邻近性;[16]经由“总统”(作为一个语义单元或节点)而可达“新政策”。“白宫”和“新政策”之间的关系(主→谓→宾)是间接的,即具有暧昧的修辞意味。再者,通常所谓的“借代”也是转喻,如“十几把雪亮的刺刀向犯人们走来”。
修辞,不仅仅可以是“喻”的层面,还可以不谈喻的层面,而从更抽象的双轴关系来看“遣词造句的逐字推敲”(姑且也视作修辞),即回到本文开头借用传播学论述中关于文本的符号分析:符号是“如何从一系列纵聚合中被挑选出来,并与其他符号构成一个横组合”。譬如,到底是“僧推月下门”还是“僧敲月下门”,下文对此会有进一步的阐释。此外,隐喻和转喻在有些情况下,没有绝对的界限,或可以相互转换,这便涉及了更多的不确定性的甚或艺术性的问题,本文对此暂不讨论。
其实,早在索绪尔提出双轴关系时,就将其纳入结构主义语言学的四个核心二元对立(能指/所指,言语/语言,共时/历时,横组合/纵聚合)中。然而,“只有这一对(横组合/纵聚合)在今日符号学运动中仍然具有强大的发展潜力”。双轴关系的根本性意义在于,它在元理论的层面揭示了符号表意活动的本质,即“任何符号表意活动,小至一个梦,大至整个文化,必然在这个双轴关系中展开”。[17]索绪尔还提出,“语言符号的价值在与系统内其他符号的对立关系中产生。对立关系可以分成两类,即(横)组合关系和(纵)聚合关系”。雅各布森则“把索绪尔符号学理论中的二元对立思想进一步发展,使其成为符号学中的一项根本原则,并提出了关于隐喻和转喻的理论”。[18]
总之,在符号学视野中,小到一句言语,大到一种叙事,都可以称作文本。它不同于计量语言学、计算机技术领域作为文字的文本,后者基本等同于符号学中狭义的文本概念,或语言学中的相对保守的文本概念。但正是因为索绪尔及其语言学的问题可以上升到符号学的更抽象而广阔的层面加以讨论,由此,广义的文本的定义是“任何符号的表意(横)组合”。[22]厘清文本的定义和异同,则有利于进一步的文、理对话。
二、网络科学的两个领域:社会网络和语言网络(包括语义网络)
1.从结构主义到社会网络
结构主义在社会学领域体现为结构功能主义,它们从认识论到方法论,也派生出诸如社会网络分析的实证定量研究方法。这种方法是指用代表行动者(比如社会中的人,同译actor)的节点和代表关系类型(比如社交关系)的边连接形成的“社群图”,来表征各种社会关系并对其加以量化研究。结合社会学的基本理论模型,社会网络分析可用于分析“社会结构”,即“一个群体或者一个社会中的各要素相互关联的方式”。[23]
因为认识论上同源于结构主义,所以社会网络分析及其揭示社会结构的方法论思想,与结构主义符号学对语段乃至叙事的分析有异曲同工之处——可从不同学科领域的文献及其观念的陈述中寻找因由并互参:
第一,在符号学的文本分析中,“一个'因素’(即语义单元)进入(纵)聚合段的基本条件,不是'意义上可以取代’,而是'结构上可以取代’(structurallyreplaceable)(横)组合中的这个成分,即可以在文本系统中占据相同位置”[24];这种“相同的(纵聚合的)位置”中,语义单元之间理论上存在相似性。
第二,在社会网络分析中,关于行动者(actor)的角色和位置(role&positions)的研究,主要是结构等价(structuralequivalence)、块模型分析等——网络中,如果两个行动者“与他者具有同样的或非常相似的关系”,那么就称二者是结构等价或近似等价的;“结构等价的行为人完全可以互相替代”。[25]这些行为人之间具有相同(或相似)的角色、位置和社会“功能”。在笔者看来,这里的“可以互相替代”和上一段的“结构上可以取代”,表达的是基本相同的意思。就此,属于一束纵聚合中的语义单元之间的关系就应该能通过结构等价来形容。
结构等价这一理论问题主要被社会网络而非复杂网络领域的学者热烈讨论。社会网络分析的学者斯坦利·沃瑟曼还有这样的陈述:“由于地位是建立在行动者子集之间联系的相似性上的,而不是建立在邻接性、接近度或可达性基础上的,因而这个理论概念(指的是'结构等价’)及其网络术语上的形式化,与凝聚子群概念非常不同。占有相同地位的行动者,彼此之间不需要有直接的或者间接的关系。”[26]他有意地提醒了要注意“相似”和“邻接”(邻近)的区别。
第三,基于如上沃瑟曼的话,从社交网络的角度看待邻近性和相似性会更形象:人与人之间的距离,譬如可能是“物理距离”或“心理距离”。在社交网络中,物理距离即人之间的社交关系是否邻近,可通过测地距离表示,就好比甲认识丙是一种直接的社交关系,而甲认识乙、乙又认识丙,那么甲丙之间是间接的社交关系,即甲→乙→丙,这是人际距离的一种表征;而如果甲和丙同时认识乙、丁、戊,又同时不认识己、庚,那么甲和丙实际上“镶嵌”在同样的社会关系网中,则有可能揭示出一种情形:不管甲、丙是否认识,但从关系网上,他们是可能志趣相投的,即须物以类聚、人以群分,他们的角色、位置相同,潜在的心理距离可能是很近的。下文会基于“僧敲月下门”给出一个例子:僧、尼之间的关系恰就像甲、丙之间的关系一样,他们没有直接的邻近关系(如不可同居一个寺院修行),但都是佛门出家人、都吃素、无婚姻等等。这种相似性在下文中则可通过表征结构等价的欧氏距离等体现出来。
第四,再回到语义单元的相似性问题,相似性真可以被量化吗?在符号学界,前文述及的莫里斯其实早就提示了这个问题,即“像似程度”之说,改进了皮尔士的像似性定义。
第五,既然社会网络提到“角色”一说,本文还须略提结构主义符号学中的叙事分析的问题。结构主义人类学家列维·斯特劳斯将双轴关系用于分析神话故事的深层结构,他的分析完全可以呼应从索绪尔到雅各布森关于双轴关系、隐喻和转喻的理念。斯特劳斯的后继者格雷马斯又提出行动者(actor,与社会网络分析中的“行动者”同译)和行动位(actant)的区分。“行动者指的是出现在叙事中的实际人物,他们可以是各种各样的人物,位于叙事的表层结构。行动位指的是根据人物在叙事中体现出的'功能’,是抽象的,位于叙事的深层结构。”[27]同处一个行动位的,则功能相同,属于一束纵聚合,并可推论其结构等价。那么,叙事分析中的角色关系和角色的叙事功能就好比分析社会网络中的人际关系和人的社会角色的功能那样。[28]另一位后继者托多洛夫还提出,像分析主→谓→宾等语法那样分析叙事结构。[29]持有这种观念上的准备,则有利于读者接受笔者在下文举出的动物分类的例子。总之,从叙事和角色的层面再来理解社会网络分析和结构等价的问题,会显得更为直观。
既然结构主义又延伸到社会网络分析领域,而社会网络分析和语言网络、语义网络(SemanticNetwork)研究都基本属于网络科学范畴,它们也有诸多共性,那么,如果将社会网络中关于结构主义的意识转向语言网络、语义网络,结构主义的语言学及符号学中的双轴关系就可能与实证量化研究的模型结合,进一步在网络分析中显现出来。但是,当下符号学界似乎并没有充分地注意到这一点。赵毅衡在其《符号学:原理与推演》中,虽强调了双轴关系潜力很大,但也并没有详述双轴关系的潜力究竟何在?这恰是本文试图探讨的。另一方面,既然双轴关系的价值体现在对人类思维方式的一种高度抽象与概括之上;而当代计算语言学领域,各种算法与建模研究都力图对人类语言和思维方式进行模仿;那么双轴关系以及关于邻近性—相似性、转喻—隐喻等理念是否被网络科学和语言网络的研究者注意到?能对语言网络形成怎样的启示?
在此之前,先把此处“语义网络”的所指说清楚。
2.语言网络、语义网络的基本界说
语言网络和语义网络两个概念,在计量语言学领域显得关系更为密切,对其联系与差异归纳如下:后者可以作为前者对语言所构成的复杂网络模型处理的一种特殊情况。[31]也由此,语言网络的称谓显得较为笼统,而语义网络(SemanticNetwork)则多为诸领域所知。但是本文所指的“语义网络”概念又区别于“语义网”(SemanticWeb)。
不同于人文学科的文本分析,语义网络可谓自然科学领域中“文本分析”的一种方式。究其原有的概念,它常用作知识表示的一种形式:“知识的语义网络表现为某一领域知识概念之间关系的网式图。它由节点和弧(就是边)构成:节点表示知识的基本概念,弧表示节点间的联系……这种表示方法符合人类联想记忆的思维模式。”[32]再就笔者浅识,语义网络的内涵在理工的自然语言处理、知识图谱及图情学等领域,它是一种有向标记图;而在与人文社科关系更密切的计量语言学领域,它的界定则宽泛而模糊了,如就本文图3所示,可能有向,又不一定有标记。这样的网络被该领域的学者又称为“语言网络”中的字同现网络/字共现网络。而鉴于本文试采用了一种较抽象的哲学视角(结构主义和符号学),这二者之间就没有本质的区别了,下文述及图3时,会进一步阐释。其后讨论则首先来自计量语言学领域的这种理解,因为这样更容易和符号学形成对话。
因而可以说,语义网络属于复杂网络范畴,对其研究则是网络科学的一个延伸领域。[33]“复杂网络”除了可以表现为语义网络之外,在宏观社会科学领域可表现为反映社会关系和社会结构的社会网络。在社会网络中,节点表示人或社会组织,关系表示社会关系;在语义网络中,节点可表示语言中的基本单元,如字、词等,而从目前计量语言学的发展来看,用于构建语义网络中的关系即“边”的,主要是语义单元之间的先后组合衔接关系,譬如:
她在桌子上放了本书。桌子上的书掉到了地上。书的封面破了。
图3字共现网络的构建原理示意[34]
原句中凡是根据语序前后邻接的两个字,在图中都用线连接起来。句号隔开的,因是断句,则不用连接。这样的语义网络也被称为“字共现网络”(或字同现网络),其共现是指两个汉字在上述文本中的句内邻接关系,也被称为“线性相邻”。[35]这不禁让人想起双轴关系中的邻近性原则,下文会对此详述。
但是这个层面的语义网络存在一个问题,就是它分析的“颗粒度”过细,细到了把每个字视作节点,网络结构显得过于细密而繁琐,对于分析语义单元的功能而言,事倍功半。如果根据词法、句法结构再做适当的归并与调整,可以变为:
她|在|桌子|上|放(了)|(一)本|书|。|桌子|上(的)|书|掉到(了)|地(上)|。|书|(的)|封面|破(了)。
竖线用于划分单元,可以用箭头替换,生成新的“结构凝练”的网络。可见每个作为节点的单元基本上对应一个词类或句法成分,如她—代词(或视作名词);主语,放—动词、谓语;桌子—名词、宾语,等等。其实,在计量语言学领域,汉语语言网络中字之间的前后衔接关系通常就包括字—字同现关系和词—词边界关系。笔者如上处理的思路实际上在凸显以词—词边界关系做分词依据,就如同自然语言处理(NLP)的词网格(wordlattices)方法以及对实体和关系的抽取那样。经过这样的处理,一个语言网络(字共现网络)就更符合语义网络的特征了。
即这种诸如“主→谓→宾”的编排方式,可以进一步推广到很多领域,实现语义网络的建构。而且它和结构主义符号学分析语段乃至叙事的方法更相像了。再看一个例子:
鲸、海豹、熊、猫都是哺乳动物。哺乳动物通常体表都有毛、生活在陆地上,但是,鲸却体表没有毛,而且生活在海洋(水)中,而海豹既生活在陆地上,又生活在水中。其实,生活在水中的常有鱼和贝类,但是,贝类没有脊椎,而鱼和哺乳动物都有脊椎。总之,无论身体特征还是生活习性有何异同,它们都属于动物的范畴。
本段话虽然只是说明文,但可以像分析“叙事结构”那样,对其所包含的信息加以提炼,以主语→宾语的基本关系模式建立起来,箭头方向表明主语到宾语之间的(谓语)关系。提炼结果如图4。
图4关于动物分类的语义网络图[36]
对于如上语段,可通过人工编码提取其中的实体和关系,或者说,生成对应“主→谓→宾”的语法成分(或者说是有功能意义的成分),并以节点和边的网络搭建起来,可以说,它提炼出了如上说明文的内在结构。
国内语言网络研究中,尚未见借用双轴关系的讨论;笔者发现日本东京电子通信大学情报学学者内海彰所著的《基于复杂网络方法的分布式语义模型研究》(AcomplexNetworkApproachtoDistributionalSemanticModels)[37]倒是初涉并融入了双轴关系、邻近性和相似性的讨论,该例或具有典型性,既给以启发,又尚有待商榷之处。该文基本将语言网络中的词共现网络译作语义网络了。提出“语义关系的两种类型——横组合(syntagmatic)与纵聚合(paradigmatic)是解释语义网络结构和动态(dynamics)的关键因素。现有的语义网络研究中,这种特点并没有得到妥当的处理,或者说根本没有得到注意”。
从如上对其观点的提炼来看,横组合与纵聚合分别直接、间接地和“词与词共现”的矩阵有较大关系,而和“词于文档中共现”的矩阵似乎关系不大(笔者则暂弃之而不讨论)。且内海彰原文的观点尚有前后不一致的地方。如果从符号学双轴关系的内涵来看内海彰对语义网络的构建的话,那么他的观点可再做商榷调整。就其中存在的问题,先梳理两条如下:
第一,作者紧扣共现的思维,将“共现”分出几种情况,如(1)二者于文档中共现,(2)于一定范围内截取的语段内共现(awindowofsomewords),(3)毗邻共现(acontextwindowofsizetwo,twowordsoneithersideofthetargetword)。诚然,在网络分析的原属领域,共现能够直白地反映相似性问题,它的思想和“结构等价”是相通的。而“共现”这个概念特别容易混淆邻近性和相似性,他想用共现来解释邻近性,但他提出的最后一种毗邻共现才是笔者最认同的横组合,符合邻近性原则(在下文中会提出笔者具体的解释)。第二,根据双轴关系的思想,邻近性的问题须强调一种前后有序关系,譬如行文的顺序(即“写作、阅读、分析文本的思维逻辑”)、叙事的逻辑、主→谓→宾的先后逻辑、因果逻辑等。那么,相应的矩阵应该是有向、非对称的,即语义网络乃至语言网络应首先更宜作为有向的网络图(如图3、4);而他的词与词共现矩阵是无向的,在毗邻共现的情况下也如此,这一点或许须要做出调整。
如果避开共现思维的影响,那么,图3所谓的字共现网络,倒不如也撇开“共现”这个词眼,直接称为“字邻接”(或毗邻)网络,它反映的也许就是横组合。若将这一点认识扭转过来,邻近性和相似性的异同则更可能得到厘清,下面将进一步解释。
四、基于双轴关系对语义网络的另一种建构与描述
内海彰没有说出横组合与纵聚合如何以表层、深层的方式共存,以及如何以量化的方式从表层结构进入深层结构;对于延伸到转喻和隐喻的修辞的问题,也没有展开介绍。而他关于“类”的例证没有远离前文对隐喻的界说。所以,笔者继之也以“动物分类”的例子(即图3对应的案例)从双轴关系看语义网络,并试回答如上问题:
1.横组合关系
图3、4那样的语义网络,因为符合语段或叙事的“线性地”展开的逻辑,所以,其表征的就可以是横组合关系。对图4的网络分析中,譬如,猫→哺乳动物→脊椎的顺向关系就决定了猫和脊椎之间存在可达的路径,且边数为2,测地距离为2。这个数值能够成为句段中或叙事结构中基本单元的邻近性程度的指标,距离愈小,愈邻近。[42]通过有向图的“可达性”,更易看到生成句段、生成话语和叙事的横组合的可能性,甚至是转喻的可能性。结合图4,又如:
再如,如果在原图中增加一个节点“人”、一种关系“吃”,形成如下路径:
人→[吃]→鱼→[住在]→水(中)。
那么,诸如此模式就可以演绎成“(人)靠山吃山,靠水吃水”的转喻,即吃水实际上指的是吃鱼;其转喻生成的语义是:这些人过着樵夫或渔民的生活。这类转喻以及邻近性的程度,是可以在语义网络图中像统计测地距离那样被发现的。
2.纵聚合关系
另一方面,在社会网络的理论中,关于行动者的角色和位置(role&positions)的研究,尤其体现在结构等价(structuralequivalence,或称结构同型)分析中。[43]网络中,如果两个行动者“与他者具有同样的或非常相似的关系”,那么就称二者是结构等价或近似等价的;“结构等价的行为人完全可以互相替代”。则两者之间具有相同(或相似)的角色、位置和社会功能。戴维·诺克判断结构等价的条件和内海彰判断纵聚合的条件基本一样,无非一个提到的是语义网络中的词,一个提到的是社会网络中的行动者/角色。
再看符号学领域是这样认为的:“一个因素进入聚合段的基本条件,不是'意义上可以取代’,而是'结构上可以取代’(structurallyreplaceable)组合中的这个成分,即可以在文本系统中占据相同位置。”结合社会网络的理论,结构上能取代不正是因为结构上得先是等价、同型的吗?而社会网络和语义网络的原理基本相通,所以,有信心认为,纵聚合轴中的语义单元或要素是“结构等价”的,它同于社会网络分析中的结构等价,便也可以通过网络科学的方法量化操作。
基于如上论断,为了将双轴关系中的这句话可操作化,在1-模网中,可以采用测量“结构等价”的方法之一如欧氏距离,来测算哪些要素更相似而适于纳入纵聚合轴关系中。[44]
首先,将图4还原成语义网络的矩阵表达方式如表2:
表2邻接矩阵(根据横组合原则)
欧氏距离的测算方法出现得较早,其原理简单,且用欧氏距离的公式表征相似性,显得形象、易懂[45]:
公式1网络中的欧氏距离表达式
上式实际上是考虑到多重关系的情况的。不论把图4看做一个多重关系网络(其中包含“是”“住在”“有”三重关系),还是简化为一个一重关系网络,即该式又可以简化为
在不考虑关系的权重的情况下,根据这种算法所得的结果是一样的。dij是节点(行动者)i和j之间的欧氏距离,图中有g=12个点,分别协同计算i、j和除了自身之外其他(g-2)个点之间的关系。(xik-xjk)表示i、j是否向相同的其他点发出关系,(xki-xkj)表示i、j是否接收到相同的其他点发入的关系。可见,如果i、j和其他点有或没有出入关系的情况趋向一致,那么dij的值就会更小,即欧氏距离愈近。譬如,表1的熊、猫(只需要看阴影部分,中间的空白区域反映的是熊、猫之间是否有邻接关系),并没有收到其他点发入的关系,而同时向3个点发出了关系,即二者间距离为
基于欧氏距离的公式,可批量地对所有点对之间求得相似性,即量化的相似度值的大小,并生成一个新的矩阵,在网络科学中,这样的矩阵恰好也被命名为相似(性)矩阵(表3)。这样,基于同样的文本数据源,横组合轴和纵聚合轴中的关系就可以分别被邻接矩阵和相似矩阵表达出来了。
表3距离→相似性矩阵(反映纵聚合关系)[46]
这个矩阵和内海彰的“词与词共现”的矩阵在结构等价的思想上基本一致,只不过表3基于表2(1-模有向网络)而生成。它是沿左上、右下对角线“对称”的,所以仅仅显示右上方的格值即可;左下方的格值与相应的右上方对称位置的一样。节点之间的关系则变为无箭头方向且多值(不是0或1的二值化)的了,距离值越大,相似性越小。
如果试从修辞的角度来看,在提及的动物中,熊和猫因为具有相同的生活习性、体表特征,且都属于哺乳动物,所以,它们是“类似”的、结构等价的。这种等价和双轴关系中的相似性原则如出一辙,犹如物种“熊猫”的称谓反映该原则的构词方式那样——熊、猫本身就相似,又可用于比作大熊猫(一种譬喻的方式);作为相似的句子成分,也可占据同样联想的“纵聚合”的位置。
五、对符号学“反哺”的可能性
语义网络作为量化的方法,它的另一优势则在于对文本拆解并重组后的可视化效果:图4在节点位置布局的图示效果方面,采用了多维尺度分析的方法,该方法对图的可视化效果是,图布局中,点之间越靠近,则越具有相似性。[48]还可通过“聚类分析”[49]的“树形图”对其相似性关系和聚类次序展示如图5。
图5根据相似性矩阵数据生成的聚类分析树形图
这张图更能给我们一个生成纵聚合关系的参考,愈是靠近左边而聚为一类的,其在纵聚合轴中更有可能相互替代,譬如,毛和陆地可能形成隐喻,就如同鳞和水域容易形成隐喻那样。[50]
1.语言语段层面
回顾本文首先提到的关于符号分析中“僧敲月下门”的例子:
图6由“僧敲月下门”联想的语义网络社群图
在僧的聚合轴位置,还可以换成其他具有不同相似性的语义单元,譬如尼姑、道士等;将一些值得作为分类参考的语义要素加入其中,即让其“在场”,如是否有婚姻、是否吃素等。然后对构造的语义网络采用多维尺度的视图方式(参考图6中所有蓝色点构成的网络布局)。再结合数据分析:僧、尼姑在设想的语义网络关系中,也是较为相似的,或称处于(近似)等价的位置。所以,理论上可以用尼姑替换僧。或许在那首古诗的情境中,相应位置上还可以换成道士,如图中的界线所划出的群落那样……但是,如果再换成欧氏距离更远的基督徒、素食主义者,恐怕就显得颇有“违和”感了。通过这种方法,我们可以看到不同的事物所处语境的亲疏关系。
2.影像和叙事层面
图7电影《母亲》中的一个隐喻蒙太奇的语义网络
这个例子和图2-1的异同在于,他们都描述了两个节点的结构等价,但图7中,两个节点间同时还存在电影中镜头的组接,即横组合关系,这样,便结合了图2-1、图2-2所反映的模式。这种“相似性取邻近性而代之”的情况,则反映了雅各布森的关于诗意生成的观点。[52]
3.音乐曲谱的和声分析层面
值得补充的是,更有可信度的研究领域可以体现在音乐曲谱的和声分析方面。上海音乐学院汤亚汀教授倒是就文本分析做出这样的述说:“音乐亦是一种形式语言,亦属一种符号系统,可分析各种乐思之间的横向进行关系(横组合)和纵向同时性与再现关系(纵聚类),故可用结构主义—符号学的语言学分析模式。”[53]与此结合,如果把音乐文本看做线性叙事,具体表现为一系列和声语汇的横组合的话,那么,对于一部音乐作品,可以通过这种横组合形成的表层结构描绘和声“语言”所呈现出的“言语”外观,如图8。
图8基于莫扎特钢琴奏鸣曲K310(a小调)和声分析标记节点形成的语义网络图
对和声语汇的横组合的分析是线性的,犹如曲式学层面的一种观照。但是,从双轴关系的角度来看,是否可以对反映深层结构的纵聚合进行分析?笔者认为,这个问题在理论上是可行的,而在实际操作中还有待进一步探索。就理论可行性而言,恰如上文的推理那样——“同为某个语法成分的汉语语词(字)是相似的”,同理,同为一种功能标记的和声语汇,也同处一个等价类,“同处一个等价类的”和声语汇也“会向其他等价类发出或接收趋于一致的关系”。从一般意义上的功能和声,一直到20世纪现代音乐作曲家的重要代表勋伯格等提出的所谓“和声的结构功能”中,可提炼出一种思路:相同或相似功能位置的和声材料,如同属于主功能,或下属、属、重属功能的,因为结构上等价而可以相互替代,这便符合结构主义和符号学双轴关系关于一个因素进入聚合段的基本条件的理念。那么,就可以通过网络科学中关于“结构等价”的各种算法与指标,对这类问题进行操作化,譬如通过欧氏距离,可测量和声语汇之间的相似度关系。
综上,不论是文字或文学语言,还是影视蒙太奇语言、音乐和声语言,既然都可以用双轴关系加以解析,那么,就都有可能以语义网络分析加以操作化演绎。其内在一致性则归因于结构主义和符号学双轴关系的元理论基础。
六、总结与应用领域的讨论
因着共同的结构主义认识论,在符号学和语义网络分析中,就如上论述,总结数对相互对应的概念如下表4。
横组合轴上的关系基于邻近性原则,对邻近性的测度指标可能是语义网络图中的测地距离,对应邻接矩阵;纵聚合轴上的关系基于相似性原则,对相似性的测度指标可凭网络结构中的欧氏距离(欧氏距离仅是关于结构等价的算法之一)为例加以描述,对应相似矩阵,即通过结构等价分析实现测度的目标,它也是网络分析中挖掘深层结构的重要范式——这样,文本中的符号学双轴关系就能够找到一种量化操作的路径,文本词源为text、编织品、网络的譬喻也通过语义网络科学地显现出来了,这从一个新的角度为双轴关系的科学性提供佐证。
表4符号学“双轴关系”和语义网络中基本的二元成对概念
目前国内尚鲜有将双轴关系和计量语言学、语义网络融合的尝试,语义网络的价值也没有见诸符号学,而是集中在语言学领域。而双轴关系和语言学也是关系密切的,所以,不难预见符号学与语义网络、计量语言学融合研究的潜力。一个明确了的网络结构,可以通过网络科学的一系列算法和指标加以描述。这样的探索研究会涉及更深入的数理知识,限于篇幅与学识有限,不在此文展开。
总之,如果从两个学科互相借鉴的角度,结合应用领域做些补充说明:
第一,语义网络在细分节点时,“颗粒度”的大小非常重要,粒度过细会“遮蔽”(粒度过粗也会“疏漏”)纵聚合所揭示的文本的深层结构。每个节点最好是一个独立的类、实体、概念、名词性成分,或能承担一个词性或句法功能。从叙事分析的启发来看,每个节点最好是一个语义单元、一个“行动者”(社会网络分析和叙事学恰好共用这个概念),能作为要素或承担一个角色功能,上文中的和声标记就是一个比较典型的例子。同理,在细分语义关系类型时,也要有所取舍,这之中必然涉及主观因素,如同具有一定的艺术性那样,会仁者见仁、智者见智。
第二,目前的语义研究,可能不经意地规避了符号学双轴关系的一些核心思想,譬如,基于双轴关系的修辞问题。在语义网络中,为了避免语义传达的暧昧性,科学家尤其提到语义“消歧”,比如,苹果电脑和作为水果的苹果之间应该区分开来,或将“白宫在考虑一项新政策”判为错。[55]但是,在艺术家心目中,或者说,从符号学的角度来看,对于苹果和苹果电脑之间的关系,如果简单地做出消歧处理,其横组合的、修辞(转喻)的成分就容易被抹杀(下文第四点会详加解释)——这是背离人类自然语言的联想性(包括横组合、纵聚合)的思维方式的。
第三,国内理工科领域在文本分析或文本挖掘、在分析文本结构的问题上,通常只是采用相似度(相似性)的算法,而可能觉得横组合是稀松平常的,从而导致语义要素中的邻近性问题,几乎被挤兑掉了。[56]内海彰的研究中可能也存在这个问题。再如,一些学者认为,“相似度则为邻近性(proximity)”[57],可能从符号学来看,这便将两种关系混淆了。这种混淆的影响也延伸到笔者凭以举例的社会网络分析领域,如著名学者刘军教授将社会网络分析延伸到“意义网络”领域,而又称“'相似性’(similarity)、'接近性’(proximity)或者'距离’测度给出了测量网络位置的比较完善的描述”。[58]其实,其所谓的接近性是指譬如欧氏距离接近而已,而不是测地距离接近。其数学原理是,反映结构等价的距离越近,则越相似,接近性越小则相似性越大,它们是一个指标的正反两种视角罢了——同样也没有结合符号学双轴关系所真正揭示的邻近性和相似性两个角度。因而试问:既然是研究“意义网络”,要不要顾及一下同有“意义学”之称的符号学双轴关系的基本观念?
最后,笔者的述评并没有直接从符号学跳到语义网络,而恰是先经由社会网络分析过渡。其原因在于:从符号学到修辞、再到叙事、再到社会网络分析、再到语义网络,这样的类比和推演的过渡在逻辑上比较紧凑,易于接受理解;纵观全文,用结构主义的叙事分析中的角色关系类比社会网络中的角色关系,再用结构主义语言分析中的主→谓→宾语法关系类比语义网络中“主→谓→宾”关系(元数据模式)——宏观和微观的层面都能寻得互鉴。
向上滑动查看注释:
[2]胡正荣、段鹏、张磊:《传播学总论》,北京:清华大学出版社,2008年,第171页。
[3](英)特伦斯·霍克斯:《结构主义和符号学》,瞿铁鹏译,上海:上海译文出版社,1997年,第18、78页。
[4](英)特伦斯·霍克斯:《结构主义和符号学》,第77页。
[5]笔者认为它和社会网络分析中的结构等价如出一辙,故用此称谓,下文会进一步解释。
[6]杨沐:《回顾结构主义》,《中央音乐学院学报》2002年第1期。
[7]这主要体现在雅各布森对“失语症”的研究。他发现:在“相似性错乱”的病人身上,思维的横组合能力仍然保留,但病人失去了处理隐喻思维的能力;在“邻近性错乱”的病人身上,思维的纵聚合能力仍然保留,但病人失去了处理转喻思维的能力。转引自(英)特伦斯·霍克斯:《结构主义和符号学》,第77—78页。赵毅衡也在其《符号学:原理与推演》中,对雅各布森的论证做更详实的介绍。参见赵毅衡:《符号学:原理与推演》,南京:南京大学出版社,2016年,第76页。
[8]笔者认为,这里还可以包括“前因后果”,下文引用的皮尔士的观点对此有佐证。
[9](英)特伦斯·霍克斯:《结构主义和符号学》,第77页。
[10]“如果说索绪尔、雅各布森代表了符号学的语言学模式,那么美国哲学家、逻辑学家皮尔士则代表了符号学的另一种模式——逻辑—修辞学模式。”参考赵毅衡:《符号学:原理与推演》,第13页。
[11]分别引自赵毅衡:《符号学:原理与推演》,第80、76、187页。
[12]笔者对此命题加了“有理有据”的这一个条件,实际上,还有一种情况是“任意武断”,暂不在本文的讨论范围内,详参赵毅衡的《符号学:原理与推演》中第三章“任意性与理据性”。
[13](英)特伦斯·霍克斯:《结构主义和符号学》,第77页。
[14]赵毅衡:《符号学:原理与推演》,第79页。
[15](英)特伦斯·霍克斯:《结构主义和符号学》,第76—77页。关于转喻,还可以将其简单看做语文学习中的“借代”,以局部代整体,即局部和整体之间的关系也是邻近性关系。
[16]双轴关系的原理还认为,两个对象在空间上的邻近,也易于形成横组合关系,正如记叙文对人物和环境的交代中,写作者会根据对象在空间上的邻近关系依次、线性地写作。“只有语言这种线性展开的符号文本才有纵横(即索绪尔说的'序列关系’)……在楼房建筑、飞机驾驶、衣装搭配等符号(横)组合中,符号文本的组合是立体的、多维的。”赵毅衡:《符号学:原理与推演》,第158页。
[17]赵毅衡:《符号学:原理与推演》,第156页。
[18]张凤:《文本分析的符号学视角》,哈尔滨:黑龙江人民出版社,2008年,第2、37页。这里的二元对立不宜理解成辩证法中常所谓的矛盾双方的二元“对立”,更宜理解成,在差异和对比中各自彰显意义。
[19]赵毅衡:《符号学:原理与推演》,第158页。
[20]结构主义的基本内涵是:“事物的真正本质不在于事物本身,而在于我们在各种事物之间构造,然后又在它们之间感觉到的那种关系。”(英)特伦斯·霍克斯:《结构主义和符号学》,第8页。
[21](英)特伦斯·霍克斯:《结构主义和符号学》,第13、15页。
[22](英)特伦斯·霍克斯:《结构主义和符号学》,第40—44页。定义中没有提及纵聚合,原因在于,聚合轴隐藏在纵深处。这里的符号则不一定是文字,又有可能是对对象(如叙事中的角色或相对独立的意义单元)分析后的“编码”。
[23](美)戴维·波普诺:《社会学》,李强等译,北京:中国人民大学出版社,1999年,第8页。
[24]赵毅衡:《符号学:原理与推演》,第157页。
[25](美)戴维·诺克、杨松:《社会网络分析》,李兰译,上海:格致出版社、上海人民出版社,2017年,第122页。
[26](美)斯坦利·沃瑟曼、凯瑟琳·福斯特:《社会网络分析:方法与应用》,陈禹、孙彩虹译,齐心校,北京:中国人民大学出版社,2012年,第267页。
[27]张凤:《文本分析的符号学视角》,第52页。
[29]吴中杰:《文艺学导论》,上海:复旦大学出版社,2014年,第252页。
[31]根据刘海涛的观点,采用不同方法或从不同层面构建的语言的复杂网络模型,都可以称作语言网络,其又有静态、动态之分,所谓动态语言网络,“是基于语言单位及其在语言的实际使用中的种种关系来建立的”。它就既包括下文将提及的字共现网络,又可包括“动态语义网络”。刘海涛:《计量语言学导论》,北京:商务印书馆,2017年,第123—125页。
[32]马费成、宋恩梅、赵一鸣编著:《信息管理学基础》,武汉:武汉大学出版社,2021年,第203页。
[33]复杂网络简言之即呈现高度复杂性的网络,其重要的特点之一即节点数目巨大,可至“大数据”的量级。“而网络科学所要研究的是各种看上去互不相同的复杂网络之间的共性和处理它们的普世方法”。汪小帆、李翔、陈关荣编:《网络科学导论》,北京:高等教育出版社,2012年,第22页。
[34]陈芯莹:《语言网络中的汉语单字词演化》,刘海涛编:《计量语言学研究进展》,杭州:浙江大学出版社,2018年,第187页。
[35]丛进:《基于网络方法的现代汉语二字词形成机制研究》,刘海涛编:《计量语言学研究进展》,杭州:浙江大学出版社,2018年,第160—185页。
[37]就本部分及下文引号所划出的内容,若未注明,均出自此文。尤其见诸此文中两个位置:一是AnalysisofDSMNetworks\MaterialsandMethods,二是DynamicsofDSMNetworks\SemanticRelation。AkiraUtsumi,“AComplexNetworkApproachtoDistributionalSemanticModels,”PLOSONE,August21,2015.
[38]词与词共现的矩阵是一个1-模网络对应的、对称的矩阵。行与列皆对应同一系列词,矩阵的格值为两词在一定范围(awindowofsomewords)内共现的频次,这里的一定范围尤其指最狭窄即语句最短的情况(awindowofsizetwo),即毗邻共现。详参其文AnalysisofDSMNetworks\MaterialsandMethods处的交代。
[39]这里的“相似”系直译,但容易造成误导。实际意义详参下文。此处的“共现”宜理解为:两词在语段中左右毗邻即在语义网络中有边关系。
[41]赵毅衡:《符号学:原理与推演》,第158页。
[42]该图中仅容纳了“是、有、住在”三种语义关系,如果再包括“吃”的关系模式,那么就可以在“动物”和“水”之间加上箭头关系,随之,其他节点之间的关系可能也会有所调整。这只不过涉及哪些关系“在场”、哪些关系“不在场”。比如,如果纳入熊→[伤害]→人,而事实上不存在猫→[伤害]→人的关系,下文关于熊和猫完全结构等价的统计结果就不成立了,须加以注意。
[43]罗家德:《社会网分析讲义》,北京:社会科学文献出版社,2005年,第185页。
[45](美)斯坦利·沃瑟曼、凯瑟琳·福斯特:《社会网络分析:方法与应用》,第267页。其实在二维空间或三维空间中,欧氏距离就是直观可见的点之间的直线距离,即它的公式就是解析几何中的点之间距离公式的计算;只不过在数学上可以将这种距离拓展到多维变量的情况,即向量空间中距离的计算罢了。而公式1是针对二项变量的情况对欧氏距离公式的一种变形(假设某个维度上的坐标值要么是0,要么是1)。
[46]该方阵的数据不再是0或1的情况,且根据主对角线呈对称分布——则体现为多值、无向。为清晰表示,以右上方呈现,保留小数点后两位。左下方则省略。
[47]赵毅衡:《符号学:原理与推演》,第79页。
[49]聚类分析是一种多变量统计分析方法。它和图5的树形图的基本原理是,先将相似度最大节点聚为一类,然后依次根据相似度递减聚类。
[50]可能这种说法会受到置疑,毛和陆地、鳞和水也有可能有转喻关系。在人文学科的修辞活动中,隐喻和转喻常常相互关涉,难以绝对厘清,详参下一注释。
[51](法)马赛尔·马尔丹:《电影语言》,何振淦译,北京:中国电影出版社,2006年,第82页。
[52]在人文学科的修辞活动中,隐喻和转喻常常相互关涉,难以绝对厘清,由此,在符号修辞领域,雅各布森认为,诗意的生成,则通过“相似性取邻近性而代之”,暗含着“任何转喻都略具隐喻的特征,任何隐喻又都带有转喻的色彩”。(英)特伦斯·霍克斯:《结构主义和符号学》,第79页。
[53]汤亚汀:《音乐人类学》,转引自王耀华、乔建中编:《音乐学概论》,北京:高等教育出版社,2005年,第268页。
[54]这种方式的和声分析最好选用古典主义时期的作品,因为其和声语汇、和声节奏较为清晰,分析的信度高。而之所以选择莫扎特的这首a小调奏鸣曲,是因为此时期的小调奏鸣曲主部、副部关系普遍是关系大小调的,如主部为a小调,副部为c大调,这样,可以统一用c调的调号记谱并以此为基础做编码更清晰的和声标记。为此,采用罗马数字的音级和声标记法,而将所有的调性和和声统一纳入c调的音级关系中,则不易招致转调而换用音级标记的麻烦。譬如,对于主调和声T,在图中标记为VI;对于D,标记为V/VI。
[55]如果在语料库中,白宫和总统之间、总统和(新)政策之间皆有高频的(高权重的)毗邻关系,那么计算机本应该有可能将如上话语看做转喻而不是判作有歧义。
[56]这一点其实也“情有可原”,因为即使在人文学科领域,如果缺乏对双轴关系中邻近性原则的理解,也很容易将转喻挤兑掉,即认为所有的“喻”都是本体和喻体之间的联想罢了。然而,转喻和隐喻在思维方式上,是双轴的“二元对立”。
[57]姜维:《文本分析与文本挖掘》,北京:科学出版社,2018年,第86页。
[58]刘军:《社会网络分析导论》,北京:社会科学文献出版社,2004年,第213页。笔者曾几次向西安交通大学的刘军教授请教,颇受其启发,也知晓其近年研究转向“富含'意义’的'关系’存在”,但刘老师若能进一步留意双轴关系的参考性,由此提请不吝赐教。
[60](美)约翰·斯科特、彼得·J.卡林顿编:《社会网络分析手册(上卷)》,刘军、刘辉译,重庆:重庆大学出版社,2018年,第379—399页。
[61]杨斯洛:《中外图书情报学科知识图谱比较研究》,北京:科学出版社,2015年,第13—19页。
[62]赵毅衡:《符号学:原理与推演》,第67页。
[63]杨斯洛:《中外图书情报学科知识图谱比较研究》,第13—19页。
[64]如学者马瑞敏《基于作者学术关系的科学交流研究》一文对互引网络、共引网络(含同被引、耦合)的机理进行了比较分析,仅对后者的情况,称其为知识结构研究。本段所谓的互引网络,尤其强调的是学者之间的相互引证关系网络。参考马瑞敏:《基于作者学术关系的科学交流研究》,北京:科学出版社,2015。
[65](美)约翰·斯科特、彼得·J.卡林顿编:《社会网络分析手册(上卷)》,第13—19页。
[66]关于第五点,笔者在博士学位论文《基于期刊文献关系的我国音乐学“学术网络”研究:一种知识图谱的视角》(中国传媒大学,2021年)的第六章有较具体的讨论。读者可详参与批评指正。