耿元骊:欧美地区的古代中国数字资源概述20190905(总第1056期)

本文原刊于《开拓与创新——宋史学术前沿论坛文集》,中西书局2019年。

作者简介:

耿元骊,辽宁大学历史学院教授。

欧美地区特别是美国、英国、法国历来有收藏、研究东亚文献、文物的传统,对中国古代图书、地图、文物等方面的收藏和研究尤为重视。据调查,美国现存中文善本线装古籍不少于70万册[1],总数量则有接近400万册[2]。欧洲所藏中文古籍数量不及美国,粗略估算有200万册左右[3]。而文物方面就更难给出一个相对准确的数量估计,据说全部海外藏中国文物约1000万件[4],美国近30年流入约230万件,加拿大藏约20万件[5]。

1978年,美国学者首先尝试用计算机编制中文古籍索引,这是中文古籍数字化的先行者[6]。但是在之后20多年当中,古籍数字化工作并未取得明显进展。直到20世纪90年代中期以后,随着存储成本降低,互联网快速发展,技术进步带来强大数据处理能力和无限量存储空间,推动了各个公共图书馆(大英图书馆、美国国会图书馆等)、博物馆(大都会博物馆、盖蒂博物馆等)、大学(哈佛大学等)、企业及私人基金会等等纷纷投身于古代中国文史资源的数字化建设工作。经过近40年的辛苦工作,同样形成了数量亦称得上庞大的古代中国文化遗产数字化资源。据笔者的初步统计,欧美目前约有数百种各类型含有古代中国内容的数字资源(王国强所编《中国(汉学)研究开放获取学术资源集》多有收入,可在其微博@陆浑戎置顶免费下载),其中尤以古籍书目、古籍文本数字化、文物图像数据库、关系型数据库、数字人文等几方面最具优长。当然,这样分类较为简略,很多数据库包括多方面功能,既有目录的作用,也同时提供文本全文或者图像数据,有的还附带专用数字人文工具。以下简略概述之。

[1]沈津:《美国主要东亚图书馆所藏中国古籍文献及其展望》,台湾《“国家”图书馆馆刊》2001年第1期。

[2]刘家真:《中华古籍数字化的国际合作》,《图书情报知识》2013年第5期。

[3]钱存训:《欧美各国所藏中国古籍简介》,《图书馆学通讯》1987年第4期。

[4]闻哲:《1000万?中国文物流失海外知多少》,《人民日报海外版》2007年1月29日。

[5]刘瑞平:《海外中小博物馆及重要私人收藏的中国文物举要》,《中国文物报》2016年5月31日。

[6]陈东辉:《二十世纪古籍索引编制概述》,《文献》1998年第2期。

一、古籍书目数据库、文物目录数据库

大学图书馆如哈佛大学燕京图书馆亦建设了自己的古籍线装图书编目,初期即有约1800种,详情可在哈佛大学中国研究导航网页[10]查阅。剑桥大学建设了一个中国丛书综合目录[11],包括中国近代现代丛书目录、中国丛书广录、中国丛书综录、中国丛书综录续编等四部目录书。哈佛大学CBDB项目建设了一个中文文本电子资源目录跨库查询系统[12],提供了10万余条古籍出处数据,以后会成为综合各大馆藏目录和古籍数据库目录的开放资源。普林斯顿大学建设了所藏中国善本书目录[13],并可查阅详细版本信息。斯坦福大学“Socrates:StanfordOnlineCatalog”[14],可以检索该校中国图书目录。加州大学(洛杉矶)的在线目录,[15]可以检索该校收藏中国古籍。旧金山大学亚太中心利玛窦中西文化历史研究所建设了利玛窦研究所藏书楼书目(TheRicciInstituteLibraryOnlineCatalog),[16]著录了约85000种图书,50000种数字典藏数据。

另外,台湾“国家”图书馆,建设了一个世界范围内的“中文古籍联合目录”[17]。在欧美方面,目前可以分别检索到多伦多大学、法兰西学院、法国国家图书馆、芝加哥大学、哈佛大学、加州大学(伯克利)、耶鲁大学、哥伦比亚大学、康奈尔大学、普林斯顿大学、国会图书馆、华盛顿大学、梵蒂冈图书馆、伦敦大学亚非学院、莱顿大学、巴伐利亚图书馆、德国国家图书馆、莱比锡大学、捷克科学院、里昂图书馆、牛津大学、里昂第三大学、鲁汶大学、华沙大学、加州大学(洛杉矶)等欧美图书馆和大学、研究机构所藏中文古籍书目。慕尼黑大学、比利时皇家图书馆、波兰亚捷隆大学、匈牙利科学院所藏中文古籍目录正在该网站建设之中。

加州在线档案馆(OAC)[18]免费向公众提供著录信息入口,信息本身来自加州大学10个校区以及全加州图书馆、档案馆、各类学会等200多个机构,包含大批中国资料,多以近现代内容为主,古代内容较少。由美国HenryLuce基金会支持,耶鲁大学为主建设了“丝绸之路项目:重聚高昌宝藏”(TheSilkRoadProject:ReunitingTurfan'sScatteredTreasures)数据库[19],搜集了3310条数据,提供标题、编号等,对高昌资料编目较为详细,同时提供了研究书目和高昌国政治体系等专门内容。在博物馆方面,如大英博物馆[20]、盖蒂博物馆[21]、大都会博物馆[22]、弗利尔美术馆[23]、巴黎吉美博物馆[24]、维多利亚和阿尔伯特博物馆[25]等藏有中国文物较多的博物馆,均有自己的收藏文物检索网页。

[2]沈津:《北美地区中文古籍文献整辑工作近况举要》,《汉学研究通讯》24卷4期,2005年。

二、古籍图像、文本数据库

欧美地区的中国古籍全文图像扫描和数字化工作,与中国大陆、台湾地区相比,已经相对落后。除了哈佛大学等具有雄厚财力的机构之外,大多数藏有中国古籍的机构似已放缓了图像扫描和文字识别的步伐。

三、文物图像、照片和地图数据库

德国柏林普鲁士文化基金会建有“乾隆朝战争铜版画”[9]图像数据库,有64幅图像,可提供高清大图浏览,这批数据也同时收入了世界图书馆的在线馆藏[10]。JSTOR数据库原本只收录刊物,但自2000年以后逐渐建立ARTstor图像资料库[11],以“Chinese”为关键词,目前可以检索出大约2000条数据,通过AdobeFlash插件方式在线浏览高清大图。纽约公共图书馆的“DigitalCollection”[12],以“chinese”为关键词,可搜到3021件藏品,提供约800*800PX的图像下载。由英国联合信息系统委员会(JISC)支持,不列颠学院(TheBritishAcademy)、英国艺术与人文研究理事会(AHRC)和布里斯托大学等建立的“VisualisingChina”数据库[13],收藏了从1850年到1950年的中国照片约8000张,其中1850-1911年约2600张。芝加哥菲尔德博物馆建有中国拓片数据库(ChineseRubbings)[14],提供部分拓片最大约800*800PX图像下载。

在大学方面,哈佛大学建有中国拓片专题网页[19],有大约2600方墓志拓片,目前可提供小、中、大、超大四种图像下载,最高可达约1100*2400PX。加州大学(伯克利)也建有中国拓片数据库(ChineseStoneRubbingsCollection)[20],有超过1500张拓片,提供最高约1100*1500PX的图像下载。耶鲁大学的中国基督教大学图像数据库(ChinaChristianCollegesandUniversitiesImageDatabase)[21],收集了10629张老照片,其中大部分已经数字化。莱顿大学数字图书馆[22],数字化收藏了中国古代艺术品图像以及早期照片,数量不多,目前可提供约1700*2600PX的图像下载。杜克大学数字馆藏(DigitalCollections)[23]以“china”为检索词,共有5353条,其中包括了手稿和照片。在山东传教50余年的高第丕(TarltonPerryCrawford)夫人MarthaFosterCrawford的日记手稿亦在其中。

芝加哥大学“DigitalScrollingPaintingProject”[32],收集了宋元明清时期的84幅手卷,提供在线高清大图浏览。里德学院(ReedCollege)建有一个19世纪台湾的图像数据库(Formosa:19thCenturyImages)[33],有数百张图像。明尼苏达大学图书馆的“MingGazetteerImages”[34],从明代各类地方志收集了郡县全图1010幅。加州大学建设了一个“WorldImages”[35]数据库,以“Chinese”为关键词,有727件藏品,大部分内容是关于古代中国的。华盛顿大学建有“RobertHenryChandlessPhotographs”[36]数据库,收藏了1898-1908年间中国各地照片287张。欧柏林学院(OberlinCollege)建有“OberlininShansidigitalcollection”[37]数据库,收藏有中国各个时期的图片810张,大部分是近代照片。

在老地图收藏和数字化上,哈佛大学也走在前面,建有哈佛大学地图收藏(HarvardMapsCollection)[38]数据库。其中的“ArmyMapServiceSeriesL500ofChina”[39]大多是1950年代的老地图。哈佛大学“SouthCentralChinaandTibet:HotspotofDiversity”专题[40],提供了10幅历史地图。德州大学(奥斯汀)建有一个“HistoricalMapsofChina”数据库[41],收藏了1860到1967年间中国地图70余幅,提供最大约1500*1200PX图像下载。华盛顿大学也收藏了一批老地图“SkinnerMapCollection”[42],其中中国地图有500多幅,多数为18、19世纪地图。美国国会图书馆地图数据库[43],收录了17733幅地图,以“China”为关键词,可检索出558幅,最早为1769年地图。

后来你成为牧民赶来云海繁星

脚旁驮岁月的白驹

将漫生春草嚼咀

当你站于隆冬爱河边俯身朝下望去

有人破冰做你一生倒影

你会凝视他如同另个自己

直到你的热泪都化作潮汐爱即永恒汛期

最终你所历风雪开遍梅花鹿背脊

落日坠成腕上胎记

来世便凭此再遇

当你仍是虔诚滋养着参天铁树的泥

有人做撼动你一生马蹄

你会信奉他如同整个奇迹

直到悬河千言汇入那句——

“爱你是我的壮举。”

四、关系型数据库与数字人文工具

欧美关于中国古代内容的数字资源,最大贡献还不是各类文本、图像类数据库建设,而是在数据方法和数字人文思路的导向上。特别是哈佛大学发起的中国历代人物传记资料库(CHINABIOGRAPHICALDATABASEPROJECT,CBDB)[1]项目,更是引领了关系型数据库的发展潮流,也是迄今为止自身最有学术含量的数据库,网站并提供中英双语同步更新。

CBDB数据库最早建设思路来自研究宋代社会经济史的郝若贝教授(RobertM.Hartwell,1932-1995),他从80年代就开始把宋代人物的传记资料录入到计算机里面,同时自己编写软件来阅读和使用这些数据。与其他人不同的是,郝若贝极有远见要建立起人物之间的关系,所建立数据库里面包括各种人物的完整信息,如生卒年、亲属、门生、履历等等,利用这些材料,学者可以进行深入的研究与分析。郝若贝教授去世后,他遗留的数据库捐赠给了哈佛—燕京学社。由包弼德(PeterK.Bol)教授领导组织,结合了历史学、文学、计算机、网络等多个学科的专家,不断更新与完善了郝若贝教授的数据库,目前哈佛大学和北京大学、台北“中央”研究院合作,共同推动这个项目继续向深入发展。到2016年4月,已经收入了37万人的传记资料,同时仍然在不断扩充,目标是收录全部民国以前的人物数据。

在CBDB数据库当中的检索,并不像其他文本数据库那样只有关键词的检索。它的检索是开放而且是多重的,可以进行复杂条件的检索。比如它可以查询出生在“苏州”的所有人,或者查询哪些人是通过何种方式获得官职,或者是某个职务的任职者,最低任职年龄与最高任职年龄等等。通过这些查询,就可以为历史研究提供最基本的数据,特别是为社会网络分析提供最佳材料,同时可以基于所有现存材料去分析一组问题,乃至多重组的问题。比如可以讨论宋代的女性死亡年龄、生育年龄,以及她们与丈夫的年龄差,出嫁与家庭所在地的距离等等。因为得到的数据准确而且相对完全(局部错误不足以影响全局判断),学者就可以把更多的精力用于分析和思考。

由莱顿大学等合作开发的码库思(MARKUS)[9],是一个自动标记工具,它可以快速在古籍文本上标记出人名、地名、年号、官名。这个工具本身没有任何文本收录,所有需要标识的文本都需要用户自行上传。当面对大量文本需要批量找出其中人名、地名、年号、官名的时候,码库思就可以发挥作用。当然机器自动标识的错误极多,需要人工阅读修正。网站本身所提供的修改界面操作较为繁琐,不适合大批量快速操作。CBDB项目组经理王宏甦设计了基于Chrome的快捷操作插件,可以大幅度提高工作效率。TheSieveOnline[10]是码库思的一个插件,可以用来在线对比同书的不同版本,对比发现文本中字词和通用蒙学书籍用字范围的不同,提供《百家姓》、《千字文》等以供选择。加州大学(尔湾)由AndrewW.Mellon基金会支持,建立了一个明代政府官名的众包翻译项目(Minggovernmentofficialtitles:ACrowd-TranslationProject)[11],通过网络整理、编辑网络免费版《明代官名辞典》。

五、欧美古代中国资源数字化建设的几点思考

首先是欧美中国古代数字资源大多免费,除商业公司外,图书馆、大学等均免费向社会提供文献资源,特别是用公款投入的几乎全部免费。这既值得赞赏,又应该大力推广并学习。国内比较成熟的大型数字化资源多为商业公司建设,几乎没有大型古籍数字化建设项目免费向公众开放,免费古籍数字化网站大多是网友自发建设,也几乎没有图书馆、大学、博物馆将馆藏古籍、文物扫描拍照并无偿向公众开放。古籍、文物都是中华民族祖先创造的伟大遗产,而且是人类文明的瑰宝,无论保存在哪里,都应该加以保护和传承。特别是由政府投入的项目,理所应当应该全部免费向社会公众开放。建议今后凡是有政府资金投入的古籍整理、文物图像扫描数据库项目,必须免费向社会公众开放,这应该成为国内学术界获得政府资金的一项基本规则。

其次,欧美古代中国数字资源建设最早是图像扫描和文字识别,引领了八九十年代的古籍数字化潮流。但由于批量扫描工作的学术含量不足,后续利用情况又不尽理想,导致很多大学、图书馆纷纷停止或者放缓了批量扫描工作步伐。但是这是非常可惜的事情,只有扫描了足够多的书,并加以文字识别,才会形成更多更好的文本数据或专门的数据库,才有更多的可能去推动学术研究进步。如果没有数量的上的逐步积累,就很难形成学术品质上的不断突破。希望欧美图书馆、大学等机构能继续加强古籍数字化建设,将全部馆藏扫描,并提供长期免费的下载。同时也希望国内的网友按需阅读,理性下载,不要导致国外机构采取技术手段反制,影响其他人的使用。

第四,美国仍然引领着中国古代文化遗产数字化的前沿发展趋势。特别是关系型数据库建设和数字人文的发展方向,仍然由欧美学术机构引领,中国大陆的学术机构在古代资源数字化方面暂时还无法总体性超越美国。虽然中国大陆和台湾在扫描图像和文字识别方面发展势头迅猛,但是古代资源数字化的发展方向是关系型数据库建设和数字人文,而这些方面中国大陆相对还较为落后。希望中国大陆学术机构也能建设出类似于CBDB这样优秀而免费的关系型数据库,或参与合作,推动更多的高校和学者投身到数字人文,建设出更多更好的数据库和工具。当然,欧美中国文化遗产数字化和数字人文的发展,两岸三地华人在其中发挥了重要作用,贡献极大,居功甚伟。几乎每个取得成功的项目背后,都有一群华人在默默奉献。

地址:山东省曲阜市静轩西路57号曲阜师范大学科技楼孔府档案研究中心

THE END
1.中国美术报周一读报 |《中国美术报》2024年第39期导读 2024-11-18 22:24 国际公共艺术成果发布活动暨研讨会在上海大学举行 2024-11-18 22:22 广州美术学院附中建校 70 周年发展大会举行 2024-11-18 22:22 刘开渠先生作品捐赠仪式即将在中国国家画院举办 2024-11-18 22:21 ...https://www.163.com/dy/media/T1474450295139.html
2.中国文化报(含手机数字报)订阅网国内外报纸杂志一站式订阅服务(已被浏览12336次) 出版周期: 日报 单价:¥1.50 主办单位: 国家文化部 编辑出版: 中国文化报社 订阅选择 订期市场价订阅价折扣 全年订¥364.00¥364.00无 商品描述 主要栏目 版权信息 国际标准刊号: 国内统一刊号: CN11-0089 邮发代号: 1-115 国外发行代号: D1037 ...http://edingyue.cn/sub/user/doviewproduct.action?id=102655
3.黄山日报数字报刊平台30年来,笔耕不缀,在《中国文物报》、《名城报》、《安徽日报》、《安徽科技报》、《江淮时报》、《江南游报》、《旅游晨报》、《黄山日报》、《黄山工作》等报刊发表文章200余篇。 为了总结过去,指导未来,从中选取66篇文章出一本小册子,取名《南乡草》,册子分五个部分,第一部分工作思考,调研文章;第二部分...http://www.hsdaily.cn/html/2016-06/06/content_3_1.htm
4.“破圈”之后:博物馆数字文创的潜在问题与发展之道博物馆不妨尝试拓宽思维,开启数字文创的“新玩法”,如联名款、数字盲盒、可交互式NFT,等等,与科技、游戏等不同行业进行跨界合作,打造各具特色的数字文创产品,让数字文创为公众的日常生活增光添彩。 刊于6月28日《中国文物报》6版 编辑:卢阳范一苇 审核:冯朝晖...https://www.d-arts.cn/article/article_info/key/MTIwMjUwOTM1MDODz4VmsKyocw.html
1.中国文物报202411《中国文物报》(数字报)的作品(含标题及编辑所加的版式设计、文字图形等),未经中国文物报社授权不得转载、摘编、改编或以其他方式使用,授权转载的请注明来源及作者。Copyright Reserved 2024 版权所有 国家文物局主管 中国文物报社主办 京ICP备 19002194号-6 网站管理:中国文物报社有限公司 技术服务电话:86-10-8407...http://www.zhongguowenwubao.com/portal/DigitPager/paper/publishdate/2024-11-08
2.北京市文物局.北京市文物局关于中古陶(北京)拍卖行有限公司举办第141期线上文物拍卖会审核的批... 2024-11-18 .北京市文物局关于北京适珍国际拍卖有限公司举办骨董珍玩(一百二十四)线上文物拍... 2024-11-18 .北京市文物局关于北京玄和国际拍卖有限公司举办2024年第十八期中国书画专场线上拍... 2024-11-18 .北京市文物局...https://wwj.beijing.gov.cn/bjww/362749/362751/cs88/index.html
3.成都博物馆2016年目标工作总结报告全国性报刊专题《人民日报》、《中国文化报》、《中国文物报》、《光明日报》《经济日报》等报道共计7次。省市级报刊专题介绍博物馆及其活动109次。省市级平面媒体《四川日报》、《华西都市报》、《天府早报》、《成都日报》、《成都商报》、《成都晚报》、《新城快报》等报道共计102次。新媒体报道共889条,包括...https://www.cdmuseum.com/gonggao/201911/1039.html
4.“云游长城”上线高精度数字还原长城中国文物报记者 李瑞 6月11日,由国家文物局指导,中国文物保护基金会、腾讯公益慈善基金会主办的“云游长城”线上发布会在北京、深圳两地举办,“云游长城”系列公益成果正式上线。国家文物局副局长顾玉才,中国文物保护基金会理事长刘玉珠,腾讯公司有关负责人出席并讲话。 https://m.thepaper.cn/newsDetail_forward_18546928
5.博物馆数字展示研究国家文物局重点科研基地(湖南省博物馆)主任...“博物馆数字展示研究国家文物局重点科研基地”是2008年由国家文物局批准成立,依托于湖南省博物馆,采用“开放、流动、联合、竞争”的运行机制,实行依托单位领导下的课题制管理和主任负责制的行业重点科研基地。科研基地的主要研究方向为:图像图形技术、网络信息技术、数字技术在文化遗产领...https://www.hnmuseum.com/zh-hans/aboutus/%E5%8D%9A%E7%89%A9%E9%A6%86%E6%95%B0%E5%AD%97%E5%B1%95%E7%A4%BA%E7%A0%94%E7%A9%B6%E5%9B%BD%E5%AE%B6%E6%96%87%E7%89%A9%E5%B1%80%E9%87%8D%E7%82%B9%E7%A7%91%E7%A0%94%E5%9F%BA%E5%9C%B0%EF%BC%88%E6%B9%96%E5%8D%97%E7%9C%81%E5%8D%9A%E7%89%A9%E9%A6%86%EF%BC%89%E4%B8%BB%E4%BB%BB%E6%8B%9B%E8%81%98%E5%85%AC%E5%91%8A-0
6.农业文化遗产及其保护6篇(全文)[1]古物·文物·文化遗产[N].中国文物报, 2009年文化遗产日专刊, 2009-6-12, (1) . [2]刘海莉.对不同地域《茉莉花》演唱风格的探析[J].东北师范大学硕士学位论文, 2007. 农业文化遗产及其保护 第6篇 一、保靖县非物质文化遗产传承与保护存在的问题 ...https://www.99xueshu.com/w/ikeyafc3jgtp.html
7.文保课上的数字妙用文保课上的数字妙用 零是文物保护理念中的“零介入或最小介入”(minimum intervention),也就是尽量少的对文物本身进行干预,通过创造一个适宜的最佳保存环境,最终达到长期保护的目的,从而避免新技术新材料对文物可能产生的消极影响,保持文物的最真实存世状态。这与当前国际上倡导的文物预防性保护(preventive conservation)...https://www.glysyw.com/html/sydt/2016/0311/1297.html
8.腾讯和故宫一起,要将10万件文物数字化啦!还有...数以万计的数字化工作要做的事情还有很多很多。腾讯希望共同探索出文物数字化采集、保护、展览的最佳方案,并共同推动数字化采集行业标准的建立,为全球文博行业的发展贡献中国智慧。 人工智能、云计算、大数据+故宫=? 答案是——在云上升级数字文物库。 首先,助力打造线上博物馆平台。 https://cloud.tencent.com/developer/article/1646879