【转载】张燚明 | 红色文献数据库:现状、问题与展望

本文作者:张燚明(中国人民大学历史学院讲师、中国人民大学数字人文研究院研究员)

凝结中国共产党辉煌历史的红色文献,是红色资源的重要组成部分。红色文献数量巨大、分布广泛、种类多样,具有很高的历史价值与现实教育意义。历经时代沧桑的红色文献,面临资源分散、老化损毁严重、管理不善等困境,“保护修复工作困难重重”。对于红色文献,“最合适的保护手段和利用,就是数字化”。

21世纪以来,随着信息技术的发展,基于web1.0技术建设的红色文献数据库问世。建党百年之际,中共中央决定在全党开展党史学习教育,促使各级科研单位、图书馆、档案馆和高等院校纷纷依托自身红色文献资源积累,在飞速发展的计算机技术加持下,推出一系列风格多样的红色文献数据库。党的二十大提出“坚持理论武装同常态化长效化开展党史学习教育相结合”的要求,进一步促进红色文献数据库健康有序发展。一批内容丰富、检索便捷、阅览流畅、人机互动体验良好的红色文献数据库上线运营,受到党政机关工作人员、历史研究者及广大群众的广泛好评。

近年来,笔者一直参与“抗日战争与近代中日关系文献数据平台”“中国红色文献档案资源库”等多个红色文献数据库的文献收集、技术开发与资源整合等工作,积累了较为丰富的建设经验。本文通过对国内已建成的各类型红色文献数据库的调研,在肯定已有成果的同时,指出存在的问题,并就未来的发展方向提出展望。

一、综合型红色文献数据库概览

综合型红色文献数据库是指红色图书、红色期刊、红色报纸和红色档案等多文种并存的数据库。综合型红色文献数据库可实现跨库检索,依据不同文献种类的特点配置文献浏览页面,便于读者一站式获取文献内容。

“跟着总书记学党史数据库”由人民网主办。该库紧密围绕习近平关于党史的系列重要论述,收录习近平相关讲话、文章、书信、指示、活动、考察等内容,文献种类丰富,内容全部选自《人民日报》、新华社等权威媒体报道,翔实可信。该库可实现“标题”“内容”以及年份检索,支持全库模糊检索,检索结果高亮显示。读者点击检索结果,可以直接跳转到文献发布的新闻网页,并可全文复制。

2010年上线的“中国共产党思想理论资源数据库”由人民出版社开发。目前,该库包含14个图书子库,其中“中共党史库”共有文献1487种(册),“革命时期出版图书库” 共有文献1650种(册),“国际共运资料库”共有文献576种(册),“历史知识库”共有文献4180种(册)。该库全文数据权威准确,检索功能较强,是当今“我国高校馆和省级公共图书馆较多选择订购的商业型党史党建类数据库”。该库可通过“语句”“章节”或图书名称等进行普通检索和高级检索,文献阅读页面内置检索框,实现文献内检索功能,便于读者精确定位。点选文献阅读页面正上方的“选择文字”,即可对页面内的全文信息进行复制。依托人民出版社多年的积淀,该库的全文数据经过严格的人工审校,正确率极高。

“党史资料库”是人民网搭建的综合型党史文献资料平台,包含党章党纲、会议、文献、简史、人物、著作、纪念馆(地)、资料、书刊和音视频图集等板块。读者可点击上述板块的超链接,跳转到相应的网站上:如点击“历次党代会”,即跳转到人民网主办的“中国共产党历次全国代表大会数据库”;点击领袖人物,即跳转到人民网主办的“党史人物纪念馆”网站;点击理论著作与领导人文选,即跳转到中共中央党史和文献研究院“成果总库”。“党史资料库”将既有文献平台整合到一起,为读者提供一站式文献导航,在方便读者使用的同时避免数据库的重复建设。

国家社科基金“抗日战争研究专项工程”核心项目——“抗日战争与近代中日关系文献数据平台”于2018年9月上线运行,是涵盖图书、档案、期刊、报纸、图片和音视频等文献种类的综合型平台,截至目前已上线文献超过8000万页。平台设有“红色文献”板块,集成各种类型的红色文献近7000种。平台致力于与高等院校、文博机构、开国将领后人及民间收藏家合作,推出一批红色文献专题库,为海量红色文献提供数字化处理与呈现的可能。平台采用Elastic Search引擎提高检索速度,“二次检索”和“高级检索”界面的设置方便读者找到心仪文献。平台采用IIIF(国际图像互操作性框架)技术,为读者提供快捷平滑的阅览体验。值得一提的是,平台一直坚守“公益共享”的理念,免费浏览和下载,以期实现史料公平。

“中国历史文献总库·红色文献数据库”由国家图书馆出版社开发。该库已上线红色图书6300余种,红色期刊100余种,红色报纸70余种,在综合型红色文献数据库中数据量最大。该库在首页设置检索框,由普通检索与高级检索组成,可对图书、报纸和期刊进行跨库检索。根据不同文献种类的特点,该库设置了各具特色的文献阅读页面。在报纸阅览页面中,所选篇目由人工标引的红色框线圈出,令使用者一目了然。图书和期刊文献图片居于文献阅览页面正中,右边栏显示文献信息以及调整页面的功能选项,左边栏为该书(或该期刊物)的目录和全文检索框。值得一提的是,在国家图书馆多年的积累与“中国历史文献总库”成熟的数字化开发经验基础上,该库大部分文献已实现全文检索,方便读者利用。

“革命文献与民国时期文献联合目录”数据库由国家图书馆民国时期文献保护工作办公室建设,是包含图书、报纸和期刊的综合型红色文献数据库。该库源自2012年启动的革命文献与民国时期文献保护计划,目前“发布书目数据30万条,馆藏数据70万条,其中5万余条书目包含目次与全文,可免费提供公众阅览使用”。该库提供多种模糊检索模式和高级检索模块,文献阅览界面简洁大气,图像清晰度高。

“全国报刊索引”数据库借助上海图书馆丰富的馆藏资源,精选3000余种期刊、30余种报纸和3000种图书的电子资源,汇集成“中国近代文献资源全库——红色文献专题”数据库。该库提供“正文”“图片”“广告”三种文献检索模式,“有利于全面揭示期刊内容,弥补了很多红色文献库的不足之处”。该库独有的智能检索以大模型为基础,提供问答式检索服务。该库在检索结果页面左边栏设置“聚类”选项,供读者按“全文状态”“文献来源”“主题词”等13个维度对检索结果开展二次筛选。检索结果页面还提供“图谱可视化”和“数据可视化”两种工具,使读者直观了解检索结果的时空分布状况。在“全国报刊索引”多年深厚积淀的基础上,“中国近代文献资源全库——红色文献专题”呈现的电子文献清晰度较高,部分文献可全文检索。

“红色历史文献库”由北京爱如生数字化技术研究中心于2014年开始研发,以党的重要历史文献为核心,现已上线报纸10种、期刊150种、纪实文献40种,共有文献图像约100万页。该库可以“字词”“标题”“作者”为字段,提供毫秒级全文检索,并能在文献阅读页面进行“页内检索”。该资料库一直以来沿用“三窗点选式”阅读页面,中间为文献影像,左边栏为该期文献缩略图,右边栏为全文识别结果,高亮显示读者的检索内容,便于读者对比阅读。

“红色文献数据库”由上海睿则恩信息技术有限公司研制,目前收录《红色中华》《新中华报》等红色报纸和期刊共140余种。该库可实现对文献“标题”“著者”“关键词”“附注信息”“内容简介”等维度的检索,还设置了“高级检索”和“著者检索”两个专业检索模块,使读者能够准确高效地获得检索结果。

“中国红色文献档案资源库”是中国人民大学在2022年启动的重大规划项目。在中国人民大学信息资源管理学院团队的主导下,业已完成第一期资源库的建设并试运行。该库共承载红色图书6538册、红色期刊4250期、红色报纸16821期,另有多份红色家书与档案,资源共计219万页。该库设计团队力求融合新技术,以市面上成熟的大模型为基座,用千万字级纯净红色文献语料对其加以训练,开发出一款红色文献档案资源智能分析与问答的大语言模型,实现了“基座模型+红色档案文献”的融合。预计该大语言模型将随着红色文献语料的不断丰富,进一步提升回答准确率和应答速度。

总而言之,综合型红色文献数据库文献种类丰富、文献数量众多,跨库检索方便快捷,检索与呈现技术都处于领先地位,受到读者的广泛使用。

二、专题型红色文献数据库概览

在综合型红色文献数据库之外,还有一批专题型红色文献数据库。它们或围绕某一文献种类,或围绕某段历史时期,或围绕某片地理区域,或聚焦于某个历史事件或历史人物,收集并呈现红色文献。

中共中央党史和文献研究院“成果总库”是以图书为主的专题型数据库。该库分为“经典著作编译”“党和国家领导人著作”“党史研究重大成果”“党和国家重要文献”“年谱·传记·手迹·画册”五个模块,全面呈现中共中央党史和文献研究院编著和出版的经典党史图书。该库文献阅读页面图像清晰,在flash插件的帮助下,能实现目录页导航、书内全文检索及文字复制等功能,权威性极高。

“中国人民大学红色文献平台”是国家社科基金项目“延安时期红色文献的整理与研究”成果之一,于2021年12月上线运行。该平台目前以中国人民大学图书馆馆藏1100余册红色图书的数字化全文为基础,同时呈现红色文献书目数据1.22万余种,时间横跨1921年至1950年,并不局限于延安十三年时期。该平台包含四个子库,即“书目统一检索库”“全文数据库”“专题红色数据库·党建”“专题红色数据库·教育”,现已实现跨库检索。

由中华书局开发的“红色经典报刊库”是“晚清民国文献平台”内的重点子库,收录1915年至1949年中国共产党直接或间接领导及参与创办的报刊,共150种、6200余期,包括《新青年》《共产党》《布尔塞维克》《八路军军政杂志》等重要历史文献。读者可通过“全文”“书刊名”“章节名”“章节内容”“作者”“高级检索”等方式进行检索,检索结果页面响应速度快。该库还提供约2.6亿字全文数据供读者使用。

“中共党史期刊数据库”是“大成故纸堆数据库”八个子库中的一个,收罗了1949年以前由中共创办和参与创办的期刊共计300多种、1万多期,包括《解放》《激流》《斗争》等。该库以“按篇检索”和“按刊检索”为逻辑主体,设置“题名”“作者”“刊名”等普通检索模式及高级检索模块,检索结果可直接点击跳转到文献阅读界面。

“延安时期中共中央机关报全文数据库”是延安大学图书馆历时八年开发的报纸类专题型数据库。该库以《红色中华》《新中华报》《解放日报》三种中共中央机关报为核心,完成了“8508万字、14034个版面、11万余篇文章的录入、校对和分类标引工作”。该库首页设置检索栏,提供“全部”“全文”“题名”“作者”“主题词”“关键词”等检索选项,以列表形式呈现检索结果,上方设置“高级检索”按钮,左侧设置“检索聚类”选项,可以对检索结果进行二次筛选。该库文献阅读页面以图文并茂的形式呈现:左侧为报纸原图,可查看大图;右侧为全文数据,与报纸图像对应,在该库主办方的精细校对下保障准确率。

谷浪远景(北京)科技发展有限公司开发了多款专题型红色文献数据库。“中共党史经典文献数据库”收罗了党的重要历史文献、历次党代会重要文献、中央领导人及老一辈革命家的著作与传记等图书200余卷,文字量达1.8亿字。“红色报刊档案数据库”以《解放日报》《新中华报》《八路军军政杂志》《群众》四种报纸和期刊为核心文献,提供可检索文献条目20余万条、文献图片3万余幅。

同样由谷浪远景承建的“中华人民共和国国史数据库”是一款专题型数据库,共收录近300卷文献资料、2亿余字、图片3万余幅。读者可进行全文检索和关键词检索。库内文献由中央档案馆和当代中国研究所等机构整理,包含毛泽东、周恩来、邓小平等党和国家领导人发出的指示和电文、重要法律法规文本、《人民日报》重要社论以及各个行业机构的发展大事记等。

“延安时期文献档案数据库”是由陕西人民出版社出品的专题型数据库。该库以陕西人民出版社2014年出版的《红色档案——延安时期文献档案汇编》为基础,整合延安时期图书、期刊、报纸、政府档案等22种文献,涵盖政治、经济、社会各方面。值得一提的是,该库将《陕甘宁边区政府文件选编》14卷共约4000万字的全文数据提供给读者检索与复制,“成为研究延安时期陕甘宁边区政府的各项工作的第一手资料”。

“陕甘宁边区红色记忆多媒体系列资源库”由陕西省图书馆建设,包含“人物库”“事件库”“延安精神库”“革命旧址、遗址、纪念地”“研究文献库”五个子库。其中,“人物库”共收录历史人物300位,并特别为28位历史人物设置了“生平简介”“个人著述”“史料文献”等11个模块,以此分别呈现历史文献。“事件库”收录自1937年9月6日陕甘宁边区政府建立到1950年1月19日西北军政委员会成立期间的诸多史实。“延安精神库”全景式呈现延安精神的内涵、地位、作用和现实意义。“革命旧址、遗址、纪念地”数据库以图文并茂的形式展现陕甘宁边区留存至今的红色文化旅游资源。“研究文献库”收录2015年以前出版的陕甘宁边区历史文献与研究成果。每个子库都设置搜索栏,供读者进行全文搜索、浏览和下载。

“湖南红色记忆多媒体资源库”是原文化部全国文化信息资源共享工程建设项目,由湖南省图书馆开发,内容以1919 年以来湖南革命、建设、改革时期的红色文献为主,首页设置检索栏和高级检索按钮,并在各模块内设置检索框实现全文检索与复制。“广西红色历史文化”数据库由桂林市图书馆建设,将红色文献与红色旅游、红色文物、红色博物馆联合呈现,地方特色突出。

吉林一直致力于积累和呈现东北抗日联军的电子文献。早在2005年,吉林省图书馆就建有以全文形式呈现的“东北抗日联军斗争史”数据库。近年来,吉林省图书馆又推出 “东北抗联数据库”“吉林省红色历史文化专题数据库”等。其中,“东北抗联数据库”设置“抗联背景”“机构沿革”“人物志”“大事记”“相关资料”“历史记忆”“影视作品”等多个模块。其中,“历史记忆”呈现历史照片3472幅,既展现东北抗联战士英勇抗敌的风采,也展现了身处日本殖民者统治下东北同胞的艰苦生活,史料价值很高;“影视作品”收录《八女投江》《赵一曼》等多部反映抗联历史的经典电影。“东北抗联精神数据库”由吉林省委党校开发,设有“研究著作”“研究论文”“视频资料”“抗联百科”“抗联图片”等栏目,读者可通过“名称”“摘要”“关键词”“作者”“来源”“参考文献”等要素进行检索。

“西安事变数据库”由陕西省图书馆于21世纪初建成。该库设置“人物志”“史料辑录”“历史图库”等13个模块,共收录文本1500万字、图片4000多幅、视频30多部,计万余条数据。需要特别指出的是,该库包括935条电文、52条新闻报道、20条演讲宣言、19条电话记录、17条信函、11条决议指示、8条方案调查表和2条审判记录的全文数据,均可免费复制使用。

“毛泽东文献数字资源平台”是由韶山毛泽东图书馆推出的公益性数据库。毛泽东著作版本资源是该库的一大特色,近1500种新中国成立前毛泽东著作版本的电子版供读者免费阅览,其中“《新民主主义论》收录了130个版本,《中国革命与中国共产党》收录了95个版本,《论人民民主专政》收录了60个版本”,“《六大以来:党内秘密文件》《六大以前:党的历史材料》《两条路线》等都是首次向读者全文免费开放”。这批数字文献的分辨率高达600dpi,其中约500种还被制作为可360度3D展示的电子书,进一步提升阅读体验。该库“资源检索”栏在首页醒目显示,可按“任意词”“题名”“作者”“关键字”进行检索,并提供高级检索界面。该库检索结果页面提供“导出分析报告”功能。

综上可知,相较于综合型红色文献数据库,专题型红色文献数据库因其关注领域更为聚焦,特色更加鲜明,文献的专业性和指向性更强,同样受到读者的喜爱。

三、红色文献数据库存在的问题

笔者认为,目前红色文献数据库存在红色文献定义模糊、重复建设现象严重、开放程度不高以及商业化和公益运营的选择等问题。

红色文献数据库建设的首要问题,在于红色文献的概念模糊。对于红色文献的内涵、年代和介质的界定,学界尚无准确定义。一般认为,红色文献主要指“1919年至1949年中国共产党领导人民在革命、建设和改革中创造的一切文字记录和图像与录音资料”。旧民主主义革命时期和新民主主义革命初期,由资产阶级民主革命者推介宣传马克思、列宁的文献,是否应视为红色文献?在1921年建党前,由缔造党的革命家所著或所译的旨在介绍当时各种社会思潮的文献,虽非直接展示马列主义思想,却能从中感悟出他们坚定共产主义理想的心路历程,这类文章是否应视为红色文献?20世纪三四十年代,社会主义思潮在世界流行,由国统区知识分子自发翻译或写作、介绍社会主义道路与思想的文献,是否应视为红色文献?由苏区、敌后抗日根据地和解放区发行或发布的纸币、票据、证照、宣传告示等纸质物,同样通过文字和图像承载着大量历史信息,它们是否应视为红色文献?新中国成立后出版的各种文献与史料,是否都应视为红色文献,抑或需要重新确立标准?这些问题都亟待学界系统思考与重新厘定。

红色文献数据库建设的重要难题,在于严重的重复建设现象。笔者认为,重复建设现象有三种表征。其一是文献的重复建设。如各红色文献数据库均收录有《新青年》《向导》《布尔塞维克》等经典红色期刊以及《解放日报》《新华日报》等经典红色报纸。经典文献不可谓不重要,但若只关注经典文献,则会阻碍数据库拓展文献来源的步伐。1931年至1932年,《工运指南》杂志曾发表刘少奇的多篇文章,是研究其工运思想的重要史料。但笔者查遍各红色文献数据库,均未发现此刊。这种情况,绝非孤例。其二是数据库的重复建设。目前,专题型红色文献数据库大多将注意力集中在延安十三年时期。这一历史时期虽有文献种类丰富、纸本保存更为完好等客观优势,但多个同质性数据库并立的现状业已造成资源浪费。与此同时,市面上却没有一种以土地革命战争时期苏区文献为核心的红色文献数据库,实属可惜。其三是职能不清造成的重复建设。一些红色文献数据库还兼顾呈现革命文物和革命遗迹,与线上博物馆的职能重合,导致网站架构复杂化,反而影响检索和浏览等基本功能,给读者带来不便。

红色文献数据库建设的制约因素,在于文献的开放程度不高。据有关学者调查,截至2021年5月,在32家省级公共图书馆中,有17家拥有自建的红色文献数据库。但经笔者查询,其中仅湖南省图书馆 “湖南红色记忆多媒体资源库”、陕西省图书馆“陕甘宁边区红色记忆多媒体系列资源库”和桂林图书馆(省级)“广西红色历史文化”数据库等对全网读者开放,其他数据库只能在馆内IP范围内浏览。版权保护、数据安全以及技术和管理层面的滞后,都是制约红色文献数据库向广大读者开放的现实因素。

红色文献数据库建设的主要矛盾,是商业化与公益性的选择。目前,大多数红色文献数据库采用商业化运营模式。在持续收益的推动下,商业化红色文献数据库文献量更大,更新速度更快,网站技术迭代更频繁,读者使用体验更好,进一步促进了自身的良性循环。但日益高涨的数据库使用费,使其不能为经费拮据的高校、科研机构以及广大个人用户所使用。有的商业化数据库为保护数据安全,不但需要安装定制开发的阅览器,还要限定机构用户的物理IP和文献访问权限,给读者带来麻烦。公益性数据库的经费基本来自各级政府的支持及学术项目的资助。这类经费支持力度很大,但往往具有周期性。这就导致绝大多数公益性红色文献数据库面临技术迭代滞后与文献更新缓慢的窘境,有的甚至一经上线便不再维护,渐渐无人问津。

四、红色文献数据库的前景展望

笔者认为,即便在发展过程中面临诸多难题,红色文献数据库的整体发展趋势是良性的,是充满生机的,是大有可为的。

推动合作,促进红色文献数据库建设事业的大联合。在中央层面建立红色文献数据库建设的联席机制,在牵头单位的指导和协调下形成合力。打通行政部门、科研院所和高等院校,从红色文献联合目录入手,摸底各单位红色文献保存状况,从源头避免重复扫描与重复入库。在国家社科基金、省部级人文社会科学基金的政策倾斜下,统一部署红色文献数据库的项目申请、建设推进、成果验收及项目间合作等工作,并重点支持公益性数据库的持续运营与内容更新。红色文献数据库建设事业的大联合,必将有效避免重复建设与资源浪费。

打破壁垒,促进红色文献数据库技术标准的统一化。底层技术标准不统一,是造成各红色文献数据库无法实现互联互通、跨库检索的根本原因。解决问题的突破点是厘定数字化元数据标准规范。元数据是进行知识组织和资源开发的底层工具,在红色文献数据库建设中起到基础性作用;高质量的著录与标引,是实现数据库文献信息可靠、检索快速精准的关键。建议有关部门邀请中共党史、历史学、图书情报档案、计算机等各领域专家,共同商讨推出具有权威性的“红色文献数字化建设规范”,明确红色文献的时空范围、内容类型、价值等级,根据红色文献自身特点厘定元数据标准和著录规范,为各单位开展红色文献数字化工作提供依据。红色文献数据库技术标准的统一化,必将在真正意义上实现红色文献资源的共建共享。

加强融合,促进红色文献数据库融入学术生态环境。比如,由各档案馆、图书馆建设并部署的红色文献数据库,如能通过VPN馆外访问等方式,在保障数据安全的前提下,向广大用户尤其是教育科研用户开放使用,则能发挥更大效用。再如,由红色文献数据库开发单位引入“众包”模式,允许科研工作者与高校师生参与红色文献尤其是红色档案的整理、甄别和著录工作,则可以提升数据库的学术活力与社会参与度。另外,笔者期待高校及科研机构将参与建设红色文献数据库作为成果纳入科研人员的考评体系中,使那些牺牲个人科研时间而积极投身数据库建设、服务于广大同行需求的科研人员更有“获得感”。红色文献数据库融入学术生态环境,必将使得广大学者在更加公益开放的环境下,以建设数据库为荣,以使用数据库为乐。紧跟发展,促进红色文献数据库与数字人文相融合。红色文献数字化,绝不是简单地将物理形式的文献以电子图片的形式加以呈现,更应该与数据库建设、纯净语料积累、数字人文技术等相联动。在具有完全自主知识产权的国产大语言模型帮助下,实现对红色文献文本的高效识别与自动校对,由此构成的纯净语料库,是深挖红色文献利用潜力的基石。对纯净语料进行关系抽取和主题建模,构建以人物、事件和地点等多要素联动的知识图谱和思维导图,提升红色文献的语义检索与可视化分析能力。基于纯净语料构建的红色文献智能体,将实现红色文献智能检索、智能问答和智能分析等功能,成为未来党史研究的“基础设施”。红色文献数据库与数字人文相融合,必将赋能中共党史学科高质量发展。

(本文发表于《中共党史研究》2025年第6期,注释从略)

Views: 9