耿元骊:欧美地区的古代中国数字资源概述20190905(总第1056期)

本文原刊于《开拓与创新——宋史学术前沿论坛文集》,中西书局2019年。

作者简介:

耿元骊,辽宁大学历史学院教授。

欧美地区特别是美国、英国、法国历来有收藏、研究东亚文献、文物的传统,对中国古代图书、地图、文物等方面的收藏和研究尤为重视。据调查,美国现存中文善本线装古籍不少于70万册[1],总数量则有接近400万册[2]。欧洲所藏中文古籍数量不及美国,粗略估算有200万册左右[3]。而文物方面就更难给出一个相对准确的数量估计,据说全部海外藏中国文物约1000万件[4],美国近30年流入约230万件,加拿大藏约20万件[5]。

1978年,美国学者首先尝试用计算机编制中文古籍索引,这是中文古籍数字化的先行者[6]。但是在之后20多年当中,古籍数字化工作并未取得明显进展。直到20世纪90年代中期以后,随着存储成本降低,互联网快速发展,技术进步带来强大数据处理能力和无限量存储空间,推动了各个公共图书馆(大英图书馆、美国国会图书馆等)、博物馆(大都会博物馆、盖蒂博物馆等)、大学(哈佛大学等)、企业及私人基金会等等纷纷投身于古代中国文史资源的数字化建设工作。经过近40年的辛苦工作,同样形成了数量亦称得上庞大的古代中国文化遗产数字化资源。据笔者的初步统计,欧美目前约有数百种各类型含有古代中国内容的数字资源(王国强所编《中国(汉学)研究开放获取学术资源集》多有收入,可在其微博@陆浑戎置顶免费下载),其中尤以古籍书目、古籍文本数字化、文物图像数据库、关系型数据库、数字人文等几方面最具优长。当然,这样分类较为简略,很多数据库包括多方面功能,既有目录的作用,也同时提供文本全文或者图像数据,有的还附带专用数字人文工具。以下简略概述之。

[1]沈津:《美国主要东亚图书馆所藏中国古籍文献及其展望》,台湾《“国家”图书馆馆刊》2001年第1期。

[2]刘家真:《中华古籍数字化的国际合作》,《图书情报知识》2013年第5期。

[3]钱存训:《欧美各国所藏中国古籍简介》,《图书馆学通讯》1987年第4期。

[4]闻哲:《1000万?中国文物流失海外知多少》,《人民日报海外版》2007年1月29日。

[5]刘瑞平:《海外中小博物馆及重要私人收藏的中国文物举要》,《中国文物报》2016年5月31日。

[6]陈东辉:《二十世纪古籍索引编制概述》,《文献》1998年第2期。

一、古籍书目数据库、文物目录数据库

大学图书馆如哈佛大学燕京图书馆亦建设了自己的古籍线装图书编目,初期即有约1800种,详情可在哈佛大学中国研究导航网页[10]查阅。剑桥大学建设了一个中国丛书综合目录[11],包括中国近代现代丛书目录、中国丛书广录、中国丛书综录、中国丛书综录续编等四部目录书。哈佛大学CBDB项目建设了一个中文文本电子资源目录跨库查询系统[12],提供了10万余条古籍出处数据,以后会成为综合各大馆藏目录和古籍数据库目录的开放资源。普林斯顿大学建设了所藏中国善本书目录[13],并可查阅详细版本信息。斯坦福大学“Socrates:StanfordOnlineCatalog”[14],可以检索该校中国图书目录。加州大学(洛杉矶)的在线目录,[15]可以检索该校收藏中国古籍。旧金山大学亚太中心利玛窦中西文化历史研究所建设了利玛窦研究所藏书楼书目(TheRicciInstituteLibraryOnlineCatalog),[16]著录了约85000种图书,50000种数字典藏数据。

另外,台湾“国家”图书馆,建设了一个世界范围内的“中文古籍联合目录”[17]。在欧美方面,目前可以分别检索到多伦多大学、法兰西学院、法国国家图书馆、芝加哥大学、哈佛大学、加州大学(伯克利)、耶鲁大学、哥伦比亚大学、康奈尔大学、普林斯顿大学、国会图书馆、华盛顿大学、梵蒂冈图书馆、伦敦大学亚非学院、莱顿大学、巴伐利亚图书馆、德国国家图书馆、莱比锡大学、捷克科学院、里昂图书馆、牛津大学、里昂第三大学、鲁汶大学、华沙大学、加州大学(洛杉矶)等欧美图书馆和大学、研究机构所藏中文古籍书目。慕尼黑大学、比利时皇家图书馆、波兰亚捷隆大学、匈牙利科学院所藏中文古籍目录正在该网站建设之中。

加州在线档案馆(OAC)[18]免费向公众提供著录信息入口,信息本身来自加州大学10个校区以及全加州图书馆、档案馆、各类学会等200多个机构,包含大批中国资料,多以近现代内容为主,古代内容较少。由美国HenryLuce基金会支持,耶鲁大学为主建设了“丝绸之路项目:重聚高昌宝藏”(TheSilkRoadProject:ReunitingTurfan'sScatteredTreasures)数据库[19],搜集了3310条数据,提供标题、编号等,对高昌资料编目较为详细,同时提供了研究书目和高昌国政治体系等专门内容。在博物馆方面,如大英博物馆[20]、盖蒂博物馆[21]、大都会博物馆[22]、弗利尔美术馆[23]、巴黎吉美博物馆[24]、维多利亚和阿尔伯特博物馆[25]等藏有中国文物较多的博物馆,均有自己的收藏文物检索网页。

[2]沈津:《北美地区中文古籍文献整辑工作近况举要》,《汉学研究通讯》24卷4期,2005年。

二、古籍图像、文本数据库

欧美地区的中国古籍全文图像扫描和数字化工作,与中国大陆、台湾地区相比,已经相对落后。除了哈佛大学等具有雄厚财力的机构之外,大多数藏有中国古籍的机构似已放缓了图像扫描和文字识别的步伐。

三、文物图像、照片和地图数据库

德国柏林普鲁士文化基金会建有“乾隆朝战争铜版画”[9]图像数据库,有64幅图像,可提供高清大图浏览,这批数据也同时收入了世界图书馆的在线馆藏[10]。JSTOR数据库原本只收录刊物,但自2000年以后逐渐建立ARTstor图像资料库[11],以“Chinese”为关键词,目前可以检索出大约2000条数据,通过AdobeFlash插件方式在线浏览高清大图。纽约公共图书馆的“DigitalCollection”[12],以“chinese”为关键词,可搜到3021件藏品,提供约800*800PX的图像下载。由英国联合信息系统委员会(JISC)支持,不列颠学院(TheBritishAcademy)、英国艺术与人文研究理事会(AHRC)和布里斯托大学等建立的“VisualisingChina”数据库[13],收藏了从1850年到1950年的中国照片约8000张,其中1850-1911年约2600张。芝加哥菲尔德博物馆建有中国拓片数据库(ChineseRubbings)[14],提供部分拓片最大约800*800PX图像下载。

在大学方面,哈佛大学建有中国拓片专题网页[19],有大约2600方墓志拓片,目前可提供小、中、大、超大四种图像下载,最高可达约1100*2400PX。加州大学(伯克利)也建有中国拓片数据库(ChineseStoneRubbingsCollection)[20],有超过1500张拓片,提供最高约1100*1500PX的图像下载。耶鲁大学的中国基督教大学图像数据库(ChinaChristianCollegesandUniversitiesImageDatabase)[21],收集了10629张老照片,其中大部分已经数字化。莱顿大学数字图书馆[22],数字化收藏了中国古代艺术品图像以及早期照片,数量不多,目前可提供约1700*2600PX的图像下载。杜克大学数字馆藏(DigitalCollections)[23]以“china”为检索词,共有5353条,其中包括了手稿和照片。在山东传教50余年的高第丕(TarltonPerryCrawford)夫人MarthaFosterCrawford的日记手稿亦在其中。

芝加哥大学“DigitalScrollingPaintingProject”[32],收集了宋元明清时期的84幅手卷,提供在线高清大图浏览。里德学院(ReedCollege)建有一个19世纪台湾的图像数据库(Formosa:19thCenturyImages)[33],有数百张图像。明尼苏达大学图书馆的“MingGazetteerImages”[34],从明代各类地方志收集了郡县全图1010幅。加州大学建设了一个“WorldImages”[35]数据库,以“Chinese”为关键词,有727件藏品,大部分内容是关于古代中国的。华盛顿大学建有“RobertHenryChandlessPhotographs”[36]数据库,收藏了1898-1908年间中国各地照片287张。欧柏林学院(OberlinCollege)建有“OberlininShansidigitalcollection”[37]数据库,收藏有中国各个时期的图片810张,大部分是近代照片。

在老地图收藏和数字化上,哈佛大学也走在前面,建有哈佛大学地图收藏(HarvardMapsCollection)[38]数据库。其中的“ArmyMapServiceSeriesL500ofChina”[39]大多是1950年代的老地图。哈佛大学“SouthCentralChinaandTibet:HotspotofDiversity”专题[40],提供了10幅历史地图。德州大学(奥斯汀)建有一个“HistoricalMapsofChina”数据库[41],收藏了1860到1967年间中国地图70余幅,提供最大约1500*1200PX图像下载。华盛顿大学也收藏了一批老地图“SkinnerMapCollection”[42],其中中国地图有500多幅,多数为18、19世纪地图。美国国会图书馆地图数据库[43],收录了17733幅地图,以“China”为关键词,可检索出558幅,最早为1769年地图。

后来你成为牧民赶来云海繁星

脚旁驮岁月的白驹

将漫生春草嚼咀

当你站于隆冬爱河边俯身朝下望去

有人破冰做你一生倒影

你会凝视他如同另个自己

直到你的热泪都化作潮汐爱即永恒汛期

最终你所历风雪开遍梅花鹿背脊

落日坠成腕上胎记

来世便凭此再遇

当你仍是虔诚滋养着参天铁树的泥

有人做撼动你一生马蹄

你会信奉他如同整个奇迹

直到悬河千言汇入那句——

“爱你是我的壮举。”

四、关系型数据库与数字人文工具

欧美关于中国古代内容的数字资源,最大贡献还不是各类文本、图像类数据库建设,而是在数据方法和数字人文思路的导向上。特别是哈佛大学发起的中国历代人物传记资料库(CHINABIOGRAPHICALDATABASEPROJECT,CBDB)[1]项目,更是引领了关系型数据库的发展潮流,也是迄今为止自身最有学术含量的数据库,网站并提供中英双语同步更新。

CBDB数据库最早建设思路来自研究宋代社会经济史的郝若贝教授(RobertM.Hartwell,1932-1995),他从80年代就开始把宋代人物的传记资料录入到计算机里面,同时自己编写软件来阅读和使用这些数据。与其他人不同的是,郝若贝极有远见要建立起人物之间的关系,所建立数据库里面包括各种人物的完整信息,如生卒年、亲属、门生、履历等等,利用这些材料,学者可以进行深入的研究与分析。郝若贝教授去世后,他遗留的数据库捐赠给了哈佛—燕京学社。由包弼德(PeterK.Bol)教授领导组织,结合了历史学、文学、计算机、网络等多个学科的专家,不断更新与完善了郝若贝教授的数据库,目前哈佛大学和北京大学、台北“中央”研究院合作,共同推动这个项目继续向深入发展。到2016年4月,已经收入了37万人的传记资料,同时仍然在不断扩充,目标是收录全部民国以前的人物数据。

在CBDB数据库当中的检索,并不像其他文本数据库那样只有关键词的检索。它的检索是开放而且是多重的,可以进行复杂条件的检索。比如它可以查询出生在“苏州”的所有人,或者查询哪些人是通过何种方式获得官职,或者是某个职务的任职者,最低任职年龄与最高任职年龄等等。通过这些查询,就可以为历史研究提供最基本的数据,特别是为社会网络分析提供最佳材料,同时可以基于所有现存材料去分析一组问题,乃至多重组的问题。比如可以讨论宋代的女性死亡年龄、生育年龄,以及她们与丈夫的年龄差,出嫁与家庭所在地的距离等等。因为得到的数据准确而且相对完全(局部错误不足以影响全局判断),学者就可以把更多的精力用于分析和思考。

由莱顿大学等合作开发的码库思(MARKUS)[9],是一个自动标记工具,它可以快速在古籍文本上标记出人名、地名、年号、官名。这个工具本身没有任何文本收录,所有需要标识的文本都需要用户自行上传。当面对大量文本需要批量找出其中人名、地名、年号、官名的时候,码库思就可以发挥作用。当然机器自动标识的错误极多,需要人工阅读修正。网站本身所提供的修改界面操作较为繁琐,不适合大批量快速操作。CBDB项目组经理王宏甦设计了基于Chrome的快捷操作插件,可以大幅度提高工作效率。TheSieveOnline[10]是码库思的一个插件,可以用来在线对比同书的不同版本,对比发现文本中字词和通用蒙学书籍用字范围的不同,提供《百家姓》、《千字文》等以供选择。加州大学(尔湾)由AndrewW.Mellon基金会支持,建立了一个明代政府官名的众包翻译项目(Minggovernmentofficialtitles:ACrowd-TranslationProject)[11],通过网络整理、编辑网络免费版《明代官名辞典》。

五、欧美古代中国资源数字化建设的几点思考

首先是欧美中国古代数字资源大多免费,除商业公司外,图书馆、大学等均免费向社会提供文献资源,特别是用公款投入的几乎全部免费。这既值得赞赏,又应该大力推广并学习。国内比较成熟的大型数字化资源多为商业公司建设,几乎没有大型古籍数字化建设项目免费向公众开放,免费古籍数字化网站大多是网友自发建设,也几乎没有图书馆、大学、博物馆将馆藏古籍、文物扫描拍照并无偿向公众开放。古籍、文物都是中华民族祖先创造的伟大遗产,而且是人类文明的瑰宝,无论保存在哪里,都应该加以保护和传承。特别是由政府投入的项目,理所应当应该全部免费向社会公众开放。建议今后凡是有政府资金投入的古籍整理、文物图像扫描数据库项目,必须免费向社会公众开放,这应该成为国内学术界获得政府资金的一项基本规则。

其次,欧美古代中国数字资源建设最早是图像扫描和文字识别,引领了八九十年代的古籍数字化潮流。但由于批量扫描工作的学术含量不足,后续利用情况又不尽理想,导致很多大学、图书馆纷纷停止或者放缓了批量扫描工作步伐。但是这是非常可惜的事情,只有扫描了足够多的书,并加以文字识别,才会形成更多更好的文本数据或专门的数据库,才有更多的可能去推动学术研究进步。如果没有数量的上的逐步积累,就很难形成学术品质上的不断突破。希望欧美图书馆、大学等机构能继续加强古籍数字化建设,将全部馆藏扫描,并提供长期免费的下载。同时也希望国内的网友按需阅读,理性下载,不要导致国外机构采取技术手段反制,影响其他人的使用。

第四,美国仍然引领着中国古代文化遗产数字化的前沿发展趋势。特别是关系型数据库建设和数字人文的发展方向,仍然由欧美学术机构引领,中国大陆的学术机构在古代资源数字化方面暂时还无法总体性超越美国。虽然中国大陆和台湾在扫描图像和文字识别方面发展势头迅猛,但是古代资源数字化的发展方向是关系型数据库建设和数字人文,而这些方面中国大陆相对还较为落后。希望中国大陆学术机构也能建设出类似于CBDB这样优秀而免费的关系型数据库,或参与合作,推动更多的高校和学者投身到数字人文,建设出更多更好的数据库和工具。当然,欧美中国文化遗产数字化和数字人文的发展,两岸三地华人在其中发挥了重要作用,贡献极大,居功甚伟。几乎每个取得成功的项目背后,都有一群华人在默默奉献。

地址:山东省曲阜市静轩西路57号曲阜师范大学科技楼孔府档案研究中心

THE END
1.6月14日,中国文物报图书专刊栏目刊发...来自Memor深刻数字博物馆...Memor深刻数字博物馆 24-06-20 18:06 发布于 四川 来自 大保保文博iPhone客户端 6月14日,《中国文物报》图书专刊栏目刊发图书评论,向全国读者推介了由重庆史学者编撰的学术著作——《对话初心:图说巴渝地区早期共产主义运动》(以下简称《对话初心》)。该书周勇主编,刘婧雨、颜毅著,2023年10月由重庆出版社出版...https://weibo.com/7500182610/OjT9AfLUY
2.“破圈”之后:博物馆数字文创的潜在问题与发展之道博物馆不妨尝试拓宽思维,开启数字文创的“新玩法”,如联名款、数字盲盒、可交互式NFT,等等,与科技、游戏等不同行业进行跨界合作,打造各具特色的数字文创产品,让数字文创为公众的日常生活增光添彩。 刊于6月28日《中国文物报》6版 编辑:卢阳范一苇 审核:冯朝晖...https://www.d-arts.cn/article/article_info/key/MTIwMjUwOTM1MDODz4VmsKyocw.html
3.《国家宝藏》数字舞美与华夏古韵的震撼碰撞上周《人民日报》正版更是在开播前发文,期待节目播出,期待节目让文物活起来。在十九大期间,节目更得到《环球人物》《中国文物报》等20多家媒体的重点关注。 主持人张国立开场即说到:“如此炫酷的开场,一看就知道我们是一个年轻的节目。”将一档讲“古董”的节目打造得“炫酷”、“年轻”,舞美效果带来的视觉冲击和...http://www.szzs360.com/topic/szwm/3/index.htm
1.金色海昏——汉代海昏侯国历史文化展构建由文博专业人员和设计专业人员组成的文创开发团队,力求在品类上突破传统“老三样”,在形式上更趋生活化,以创新的理念赢得消费信赖。例如海昏侯博物馆将3D打印技术应用于文创产品中,以弥补传统设计的不足;DIY明信片打破固化的选择模式,成为互动+文创的全新尝试。 (来源:《中国文物报》2021年3月23日4版)...http://www.hhh.gov.cn/index.php/article/3918.html
2.古代青铜器中的兔形器和纹饰中国文物报中国文物报 | 杨曙明 正文快照: 青铜器是中国最为重要的历史文化遗产之一,为中国古代文明的重要标志。兔子是人类最早驯化的野生动物之一,与人类的生产生活密切相关。商周时代是青铜器的鼎盛时期,青铜器中出现了大量的鸟兽形象和纹饰,兔形的文字、形象和纹饰也开始出现。商代晚期的青铜器上出现有兔形文字 ...https://wap.cnki.net/touch/web/Newspaper/Article/CWWB202301310061.html
3.“紫禁城里过大年”数字文化节开幕中国文物报记者 翟如月 1月12日,“欢乐冰雪季·‘紫禁城里过大年’数字文化节”开幕式在国家体育场(鸟巢)举行。 数字文化节从1月12日(腊月初二)持续至2月24日(正月十五),融传统年俗体验、数字互动体验、非遗手作体验、买卖街市集体验于一体。“紫禁城里过大年”数字馆是本次文化节的最大看点,馆内九组主题场...https://m.thepaper.cn/newsDetail_forward_26030095
4.文保课上的数字妙用六是文物古迹保护工作的“六步”:文物调查、评估、确定各级保护单位、制订保护规划、实施保护规划、定期检查规划。原则上所有文物古迹保护工作都应当按照此程序进行 。 七是中国文物保护必须遵守的“七字真经”——“不改变文物原状”的原则,这是以法律形式确定的文物保护基本原则,是在任何情况下都不允许违背的“七字...https://www.glysyw.com/html/sydt/2016/0311/1297.html
5.腾讯和故宫一起,要将10万件文物数字化啦!还有...数以万计的数字化工作要做的事情还有很多很多。腾讯希望共同探索出文物数字化采集、保护、展览的最佳方案,并共同推动数字化采集行业标准的建立,为全球文博行业的发展贡献中国智慧。 人工智能、云计算、大数据+故宫=? 答案是——在云上升级数字文物库。 首先,助力打造线上博物馆平台。 https://cloud.tencent.com/developer/article/1646879
6.“佛罗伦萨与文艺复兴:名家名作”展的特色设计由中国国家博物馆与意大利文化遗产与活动部文化遗产开发司联合举办的“佛罗伦萨与文艺复兴:名家名作”展7月6日国博百年馆庆前开幕,并于12月3日进行了部分展品更换。该展开幕以来,受到社会公众广泛关注。除了文艺复兴名家名作本身所呈现的人文主义精神内涵和精湛的艺术技巧外,展览在形式设计和数字技术应用方面体现的个性...https://www.chnmuseum.cn/yj/xscg/xslw/201812/t20181224_36428.shtml
7.“腾博基金”二期成果发布《策展笔记》带你感受中华文明长卷两...在今年国际博物馆日,联合央视文艺、国家宝藏、中国文物报推出互动小程序“繁星时光镜”,通过AI技术,让博物馆特色馆藏文物通过AI数字人、AI文创等多元的演绎形式,向公众呈现古老文明与现代科技碰撞出的火花。 未来,“腾博基金”将联合各方继续努力,为坚定文化自信,深化学术研究,创新展览展示,培养博物馆优秀人才,推进...https://www.donews.com/news/detail/4/4507587.html
8.2024文化遗产保护数字化国际论坛在京开幕来源:中国文物报 7月16日,以“重塑:数字遗产新质生产力”为主题的2024文化遗产保护数字化国际论坛(CHCD2024)在北京中关村国际创新中心开幕,来自全球20个国家和地区200余个文化机构、高校和企业的300多名代表参加论坛。论坛由清华大学、北京市海淀区人民政府、国际古迹遗址理事会数字遗产专委会联合主办。 https://www.hubpd.com/hubpd/rss/cmmobile/index.html?contentId=864691128458165603