本文原刊于《开拓与创新——宋史学术前沿论坛文集》,中西书局2019年。
作者简介:
耿元骊,辽宁大学历史学院教授。
欧美地区特别是美国、英国、法国历来有收藏、研究东亚文献、文物的传统,对中国古代图书、地图、文物等方面的收藏和研究尤为重视。据调查,美国现存中文善本线装古籍不少于70万册[1],总数量则有接近400万册[2]。欧洲所藏中文古籍数量不及美国,粗略估算有200万册左右[3]。而文物方面就更难给出一个相对准确的数量估计,据说全部海外藏中国文物约1000万件[4],美国近30年流入约230万件,加拿大藏约20万件[5]。
1978年,美国学者首先尝试用计算机编制中文古籍索引,这是中文古籍数字化的先行者[6]。但是在之后20多年当中,古籍数字化工作并未取得明显进展。直到20世纪90年代中期以后,随着存储成本降低,互联网快速发展,技术进步带来强大数据处理能力和无限量存储空间,推动了各个公共图书馆(大英图书馆、美国国会图书馆等)、博物馆(大都会博物馆、盖蒂博物馆等)、大学(哈佛大学等)、企业及私人基金会等等纷纷投身于古代中国文史资源的数字化建设工作。经过近40年的辛苦工作,同样形成了数量亦称得上庞大的古代中国文化遗产数字化资源。据笔者的初步统计,欧美目前约有数百种各类型含有古代中国内容的数字资源(王国强所编《中国(汉学)研究开放获取学术资源集》多有收入,可在其微博@陆浑戎置顶免费下载),其中尤以古籍书目、古籍文本数字化、文物图像数据库、关系型数据库、数字人文等几方面最具优长。当然,这样分类较为简略,很多数据库包括多方面功能,既有目录的作用,也同时提供文本全文或者图像数据,有的还附带专用数字人文工具。以下简略概述之。
[1]沈津:《美国主要东亚图书馆所藏中国古籍文献及其展望》,台湾《“国家”图书馆馆刊》2001年第1期。
[2]刘家真:《中华古籍数字化的国际合作》,《图书情报知识》2013年第5期。
[3]钱存训:《欧美各国所藏中国古籍简介》,《图书馆学通讯》1987年第4期。
[4]闻哲:《1000万?中国文物流失海外知多少》,《人民日报海外版》2007年1月29日。
[5]刘瑞平:《海外中小博物馆及重要私人收藏的中国文物举要》,《中国文物报》2016年5月31日。
[6]陈东辉:《二十世纪古籍索引编制概述》,《文献》1998年第2期。
一、古籍书目数据库、文物目录数据库
大学图书馆如哈佛大学燕京图书馆亦建设了自己的古籍线装图书编目,初期即有约1800种,详情可在哈佛大学中国研究导航网页[10]查阅。剑桥大学建设了一个中国丛书综合目录[11],包括中国近代现代丛书目录、中国丛书广录、中国丛书综录、中国丛书综录续编等四部目录书。哈佛大学CBDB项目建设了一个中文文本电子资源目录跨库查询系统[12],提供了10万余条古籍出处数据,以后会成为综合各大馆藏目录和古籍数据库目录的开放资源。普林斯顿大学建设了所藏中国善本书目录[13],并可查阅详细版本信息。斯坦福大学“Socrates:StanfordOnlineCatalog”[14],可以检索该校中国图书目录。加州大学(洛杉矶)的在线目录,[15]可以检索该校收藏中国古籍。旧金山大学亚太中心利玛窦中西文化历史研究所建设了利玛窦研究所藏书楼书目(TheRicciInstituteLibraryOnlineCatalog),[16]著录了约85000种图书,50000种数字典藏数据。
另外,台湾“国家”图书馆,建设了一个世界范围内的“中文古籍联合目录”[17]。在欧美方面,目前可以分别检索到多伦多大学、法兰西学院、法国国家图书馆、芝加哥大学、哈佛大学、加州大学(伯克利)、耶鲁大学、哥伦比亚大学、康奈尔大学、普林斯顿大学、国会图书馆、华盛顿大学、梵蒂冈图书馆、伦敦大学亚非学院、莱顿大学、巴伐利亚图书馆、德国国家图书馆、莱比锡大学、捷克科学院、里昂图书馆、牛津大学、里昂第三大学、鲁汶大学、华沙大学、加州大学(洛杉矶)等欧美图书馆和大学、研究机构所藏中文古籍书目。慕尼黑大学、比利时皇家图书馆、波兰亚捷隆大学、匈牙利科学院所藏中文古籍目录正在该网站建设之中。
加州在线档案馆(OAC)[18]免费向公众提供著录信息入口,信息本身来自加州大学10个校区以及全加州图书馆、档案馆、各类学会等200多个机构,包含大批中国资料,多以近现代内容为主,古代内容较少。由美国HenryLuce基金会支持,耶鲁大学为主建设了“丝绸之路项目:重聚高昌宝藏”(TheSilkRoadProject:ReunitingTurfan'sScatteredTreasures)数据库[19],搜集了3310条数据,提供标题、编号等,对高昌资料编目较为详细,同时提供了研究书目和高昌国政治体系等专门内容。在博物馆方面,如大英博物馆[20]、盖蒂博物馆[21]、大都会博物馆[22]、弗利尔美术馆[23]、巴黎吉美博物馆[24]、维多利亚和阿尔伯特博物馆[25]等藏有中国文物较多的博物馆,均有自己的收藏文物检索网页。
[2]沈津:《北美地区中文古籍文献整辑工作近况举要》,《汉学研究通讯》24卷4期,2005年。
二、古籍图像、文本数据库
欧美地区的中国古籍全文图像扫描和数字化工作,与中国大陆、台湾地区相比,已经相对落后。除了哈佛大学等具有雄厚财力的机构之外,大多数藏有中国古籍的机构似已放缓了图像扫描和文字识别的步伐。
三、文物图像、照片和地图数据库
德国柏林普鲁士文化基金会建有“乾隆朝战争铜版画”[9]图像数据库,有64幅图像,可提供高清大图浏览,这批数据也同时收入了世界图书馆的在线馆藏[10]。JSTOR数据库原本只收录刊物,但自2000年以后逐渐建立ARTstor图像资料库[11],以“Chinese”为关键词,目前可以检索出大约2000条数据,通过AdobeFlash插件方式在线浏览高清大图。纽约公共图书馆的“DigitalCollection”[12],以“chinese”为关键词,可搜到3021件藏品,提供约800*800PX的图像下载。由英国联合信息系统委员会(JISC)支持,不列颠学院(TheBritishAcademy)、英国艺术与人文研究理事会(AHRC)和布里斯托大学等建立的“VisualisingChina”数据库[13],收藏了从1850年到1950年的中国照片约8000张,其中1850-1911年约2600张。芝加哥菲尔德博物馆建有中国拓片数据库(ChineseRubbings)[14],提供部分拓片最大约800*800PX图像下载。
在大学方面,哈佛大学建有中国拓片专题网页[19],有大约2600方墓志拓片,目前可提供小、中、大、超大四种图像下载,最高可达约1100*2400PX。加州大学(伯克利)也建有中国拓片数据库(ChineseStoneRubbingsCollection)[20],有超过1500张拓片,提供最高约1100*1500PX的图像下载。耶鲁大学的中国基督教大学图像数据库(ChinaChristianCollegesandUniversitiesImageDatabase)[21],收集了10629张老照片,其中大部分已经数字化。莱顿大学数字图书馆[22],数字化收藏了中国古代艺术品图像以及早期照片,数量不多,目前可提供约1700*2600PX的图像下载。杜克大学数字馆藏(DigitalCollections)[23]以“china”为检索词,共有5353条,其中包括了手稿和照片。在山东传教50余年的高第丕(TarltonPerryCrawford)夫人MarthaFosterCrawford的日记手稿亦在其中。
芝加哥大学“DigitalScrollingPaintingProject”[32],收集了宋元明清时期的84幅手卷,提供在线高清大图浏览。里德学院(ReedCollege)建有一个19世纪台湾的图像数据库(Formosa:19thCenturyImages)[33],有数百张图像。明尼苏达大学图书馆的“MingGazetteerImages”[34],从明代各类地方志收集了郡县全图1010幅。加州大学建设了一个“WorldImages”[35]数据库,以“Chinese”为关键词,有727件藏品,大部分内容是关于古代中国的。华盛顿大学建有“RobertHenryChandlessPhotographs”[36]数据库,收藏了1898-1908年间中国各地照片287张。欧柏林学院(OberlinCollege)建有“OberlininShansidigitalcollection”[37]数据库,收藏有中国各个时期的图片810张,大部分是近代照片。
在老地图收藏和数字化上,哈佛大学也走在前面,建有哈佛大学地图收藏(HarvardMapsCollection)[38]数据库。其中的“ArmyMapServiceSeriesL500ofChina”[39]大多是1950年代的老地图。哈佛大学“SouthCentralChinaandTibet:HotspotofDiversity”专题[40],提供了10幅历史地图。德州大学(奥斯汀)建有一个“HistoricalMapsofChina”数据库[41],收藏了1860到1967年间中国地图70余幅,提供最大约1500*1200PX图像下载。华盛顿大学也收藏了一批老地图“SkinnerMapCollection”[42],其中中国地图有500多幅,多数为18、19世纪地图。美国国会图书馆地图数据库[43],收录了17733幅地图,以“China”为关键词,可检索出558幅,最早为1769年地图。
后来你成为牧民赶来云海繁星
脚旁驮岁月的白驹
将漫生春草嚼咀
当你站于隆冬爱河边俯身朝下望去
有人破冰做你一生倒影
你会凝视他如同另个自己
直到你的热泪都化作潮汐爱即永恒汛期
最终你所历风雪开遍梅花鹿背脊
落日坠成腕上胎记
来世便凭此再遇
当你仍是虔诚滋养着参天铁树的泥
有人做撼动你一生马蹄
你会信奉他如同整个奇迹
直到悬河千言汇入那句——
“爱你是我的壮举。”
四、关系型数据库与数字人文工具
欧美关于中国古代内容的数字资源,最大贡献还不是各类文本、图像类数据库建设,而是在数据方法和数字人文思路的导向上。特别是哈佛大学发起的中国历代人物传记资料库(CHINABIOGRAPHICALDATABASEPROJECT,CBDB)[1]项目,更是引领了关系型数据库的发展潮流,也是迄今为止自身最有学术含量的数据库,网站并提供中英双语同步更新。
CBDB数据库最早建设思路来自研究宋代社会经济史的郝若贝教授(RobertM.Hartwell,1932-1995),他从80年代就开始把宋代人物的传记资料录入到计算机里面,同时自己编写软件来阅读和使用这些数据。与其他人不同的是,郝若贝极有远见要建立起人物之间的关系,所建立数据库里面包括各种人物的完整信息,如生卒年、亲属、门生、履历等等,利用这些材料,学者可以进行深入的研究与分析。郝若贝教授去世后,他遗留的数据库捐赠给了哈佛—燕京学社。由包弼德(PeterK.Bol)教授领导组织,结合了历史学、文学、计算机、网络等多个学科的专家,不断更新与完善了郝若贝教授的数据库,目前哈佛大学和北京大学、台北“中央”研究院合作,共同推动这个项目继续向深入发展。到2016年4月,已经收入了37万人的传记资料,同时仍然在不断扩充,目标是收录全部民国以前的人物数据。
在CBDB数据库当中的检索,并不像其他文本数据库那样只有关键词的检索。它的检索是开放而且是多重的,可以进行复杂条件的检索。比如它可以查询出生在“苏州”的所有人,或者查询哪些人是通过何种方式获得官职,或者是某个职务的任职者,最低任职年龄与最高任职年龄等等。通过这些查询,就可以为历史研究提供最基本的数据,特别是为社会网络分析提供最佳材料,同时可以基于所有现存材料去分析一组问题,乃至多重组的问题。比如可以讨论宋代的女性死亡年龄、生育年龄,以及她们与丈夫的年龄差,出嫁与家庭所在地的距离等等。因为得到的数据准确而且相对完全(局部错误不足以影响全局判断),学者就可以把更多的精力用于分析和思考。
由莱顿大学等合作开发的码库思(MARKUS)[9],是一个自动标记工具,它可以快速在古籍文本上标记出人名、地名、年号、官名。这个工具本身没有任何文本收录,所有需要标识的文本都需要用户自行上传。当面对大量文本需要批量找出其中人名、地名、年号、官名的时候,码库思就可以发挥作用。当然机器自动标识的错误极多,需要人工阅读修正。网站本身所提供的修改界面操作较为繁琐,不适合大批量快速操作。CBDB项目组经理王宏甦设计了基于Chrome的快捷操作插件,可以大幅度提高工作效率。TheSieveOnline[10]是码库思的一个插件,可以用来在线对比同书的不同版本,对比发现文本中字词和通用蒙学书籍用字范围的不同,提供《百家姓》、《千字文》等以供选择。加州大学(尔湾)由AndrewW.Mellon基金会支持,建立了一个明代政府官名的众包翻译项目(Minggovernmentofficialtitles:ACrowd-TranslationProject)[11],通过网络整理、编辑网络免费版《明代官名辞典》。
五、欧美古代中国资源数字化建设的几点思考
首先是欧美中国古代数字资源大多免费,除商业公司外,图书馆、大学等均免费向社会提供文献资源,特别是用公款投入的几乎全部免费。这既值得赞赏,又应该大力推广并学习。国内比较成熟的大型数字化资源多为商业公司建设,几乎没有大型古籍数字化建设项目免费向公众开放,免费古籍数字化网站大多是网友自发建设,也几乎没有图书馆、大学、博物馆将馆藏古籍、文物扫描拍照并无偿向公众开放。古籍、文物都是中华民族祖先创造的伟大遗产,而且是人类文明的瑰宝,无论保存在哪里,都应该加以保护和传承。特别是由政府投入的项目,理所应当应该全部免费向社会公众开放。建议今后凡是有政府资金投入的古籍整理、文物图像扫描数据库项目,必须免费向社会公众开放,这应该成为国内学术界获得政府资金的一项基本规则。
其次,欧美古代中国数字资源建设最早是图像扫描和文字识别,引领了八九十年代的古籍数字化潮流。但由于批量扫描工作的学术含量不足,后续利用情况又不尽理想,导致很多大学、图书馆纷纷停止或者放缓了批量扫描工作步伐。但是这是非常可惜的事情,只有扫描了足够多的书,并加以文字识别,才会形成更多更好的文本数据或专门的数据库,才有更多的可能去推动学术研究进步。如果没有数量的上的逐步积累,就很难形成学术品质上的不断突破。希望欧美图书馆、大学等机构能继续加强古籍数字化建设,将全部馆藏扫描,并提供长期免费的下载。同时也希望国内的网友按需阅读,理性下载,不要导致国外机构采取技术手段反制,影响其他人的使用。
第四,美国仍然引领着中国古代文化遗产数字化的前沿发展趋势。特别是关系型数据库建设和数字人文的发展方向,仍然由欧美学术机构引领,中国大陆的学术机构在古代资源数字化方面暂时还无法总体性超越美国。虽然中国大陆和台湾在扫描图像和文字识别方面发展势头迅猛,但是古代资源数字化的发展方向是关系型数据库建设和数字人文,而这些方面中国大陆相对还较为落后。希望中国大陆学术机构也能建设出类似于CBDB这样优秀而免费的关系型数据库,或参与合作,推动更多的高校和学者投身到数字人文,建设出更多更好的数据库和工具。当然,欧美中国文化遗产数字化和数字人文的发展,两岸三地华人在其中发挥了重要作用,贡献极大,居功甚伟。几乎每个取得成功的项目背后,都有一群华人在默默奉献。
地址:山东省曲阜市静轩西路57号曲阜师范大学科技楼孔府档案研究中心