【数字人文】中共党史研究语料智能体的构建经验与思考
“AI驱动下的中国近现代史研究新范式”专题
导言
张燚明
中国人民大学历史学院
2025年11月1日,由中国人民大学中华文明研究院、历史学院、数字人文研究院共同主办,民国史研究院、数字清史实验室协办的“智识重构:AI驱动下的数字人文与中国近现代史研究新范式”学术研讨会在中国人民大学通州校区召开。来自中国人民大学、北京大学、清华大学、中国社会科学院、国家图书馆、上海图书馆等高校与科研机构,以及国内领先科技企业的70余位专家学者与会,围绕人工智能如何深度赋能中国近现代史研究展开深入研讨。
本次学术研讨会全面响应国家文化数字化战略,深入关注新技术驱动下中国近现代史研究的新面向,以中国近现代史、计算机技术、信息资源管理等多学科交叉为依托,旨在回应时代发展、科技变革对历史学研究产生的深刻影响。主题演讲环节,学者们围绕“智能体与中国近现代史研究”“新一代中国近现代历史文献数据库开发”“数字人文的教育实践”三大核心议题,呈现出在AI技术赋能下的中国近现代史研究新工具与新方法。六个平行分会场报告显示,AI技术已不再停留于概念,而是在盘活海量史料,催生新的问题意识与研究路径,切实地融入研究流程。在圆桌讨论中,学者们一致认为:人工智能时代的到来,正推动中国近现代史研究经历一场从方法论到认识论的“智识重构”。一个深度融合技术思维与史学素养,兼具宏观量化洞察与微观深度解读的新阶段正在开启。
感谢《数字人文研究》为本次会议提供的学术平台支持,使得会上的三篇文章得以发表,以飨读者。南开大学历史学院马思宇副教授以《中共党史研究语料大模型的构建经验与思考》介绍了他的团队在中共党史文献OCR识别、父子分段性模型知识库构建上的探索,提出了推动大模型从“辅助工具”向“党史研究新基础设施”演进的目标。陕西师范大学历史文化学院张光伟老师以《〈盛宣怀档案〉智能分析系统的构建与史学应用——从检索增强到智能体推理》一文,展现了基于 Agentic RAG(代理增强检索)范式的多个智能体在意图理解、资料检索、资料总结、问题评估与文章撰写等历史学研究过程中的协同与合作,为AI构建了历史学者“对抗性伙伴”的未来图景。华中师范大学历史文化学院安高怡同学的《本地化智能史料管理系统的构建方法与实践》依据个人实践经验,为历史学研究者和小型学术团队提供了一种结合Obsidian知识管理软件、OCR识别软件和私有云服务等技术的私属化数字人文研究工作平台,具有很强的实操性和可复制性。
三篇文章都清晰地呈现出,中国近现代史学界正在借助以AI技术为代表的信息技术新工具,透视其中前所未见的结构、关联与模式,并在用实际行动,共同缔造走向人机协同、互为启迪的研究新范式。
与此同时,我们欣喜地看到,正是在以完整自主知识产权的国产大语言模型为代表的人工智能技术实现历史性突破的2025年,一批跨学科、跨媒介、跨领域的研究成果问世,为传统史学研究注入新的生命力。我们满怀期待,一个在史学专用智能体主导下、在基础大语言模型辅助下、在智能化史学数据库服务下,中国近现代史研究的新未来,正向我们阔步走来!


中共党史研究语料智能体的构建经验与思考
马思宇 王亚星 肖桐月 李庚辰
摘要 中共党史研究面临史料碎片化、传播形式单一、教育个性化不足等核心痛点。针对此,研究构建了中共党史研究语料智能体,其核心创新在于提出党史文献专属 OCR 适配方案与父子分段式知识库构建模式,形成 “以 OCR 适配转化为基础、父子分段知识库为核心、四大功能模块(智能问答、词云图、知识图谱、思维导图)为支撑” 的技术框架。文章剖析了语料智能体开发中的关键问题解决策略及功能模块实现机制,提炼技术适配、知识结构化、需求导向的构建经验,同时探讨了语料处理、校对工具、知识库发展等现存问题,为技术赋能党史研究深化提供参考。
关 键 词 党史研究;史料转化;知识库构建;数字人文
作者简介 马思宇,南开大学历史学院副教授,Email:masynku@126.com; 王亚星,南开大学计算机学院副教授; 肖桐月,南开大学历史学院2022级本科生; 李庚辰,郑州大学电气与信息工程学院2024级硕士研究生。
中共党史作为一门兼具历史与政治属性的重要学科,其研究、传播与教育工作始终面临时代提出的新挑战。随着信息技术高速发展,传统党史研究工作模式在多个层面暴露出局限性,形成亟待解决的痛点。
中共党史研究以史料为根基,数字时代下,研究者面临“数据洪流”与“信息孤岛”并存的矛盾困境。中共党史的文献资料、档案、口述史、回忆录等史料浩如烟海,分散于各级档案馆、图书馆、研究机构乃至个人收藏中,给研究者和学习者开展系统性、跨机构资料整合带来巨大挑战——需耗费大量时间进行“寻宝式”资料搜集。而复杂历史事件的脉络梳理、人物关系构建、思想演变追踪等深度研究工作,常因史料不全或关联性难发现而受阻。历史学面临的大数据挑战既是机遇,也对传统研究方法提出挑战,需新工具处理和分析。面对海量非结构化文本史料,传统的人工阅读、手动摘录等处理方式效率低下,无法支撑大规模文本挖掘与量化分析。关键词提取、命名实体识别、事件关联分析等是深化研究的关键步骤。尽管已有研究探讨利用深度学习技术在中共党史文献中进行命名实体识别的可能性,但目前尚未出现公开、广为人知且专门用于整合分散中共党史研究语料的平台。
党史学习和研究的核心目标是把握历史发展宏观脉络、理解事件间因果联系、形成深刻历史洞察与分析能力。传统教学模式与以考试为导向的评估方式,使学习停留于“事件表层”的死记硬背,难以引导学生开展批判性思考与深层次分析。无论是专业研究者还是普通学习者,常只能被动接受既定知识框架,对历史的理解易停留在“时间—地点—事件—人物”的表层记忆,缺乏对背后深层原因、复杂关联及长远影响的深度解读与批判性思考。
针对上述痛点,以人工智能和知识库技术为核心的语料智能体,为中共党史研究的范式革新带来巨大潜力。
语料智能体构建的第一步,是大规模史料的数字化与结构化。通过OCR技术,将数以亿计“不可检索”的图像文字转化为“可复制、可检索、可分析”的结构化文本,彻底打破信息获取的物理壁垒,为后续所有智能分析奠定数据基石。
智能问答、知识图谱等功能,可帮助研究者和学习者摆脱繁重的史料查找与初步整理工作。使用者能像与专家对话般,快速定位特定信息、自动梳理人物关系网络、生成事件发展脉络图,从而将更多精力投入更高层次的分析、阐释与创新性研究,显著提升研究效率与深度。
词云图、思维导图等可视化形式,能将枯燥的文字史料转化为生动、直观、可交互的知识形态,增强党史内容的吸引力。语料智能体按需生成、千人千面的特性,可提供定制化学习路径与知识解读,引导用户从“被动看”转向“主动问”,从“记事件”转向“懂逻辑”,有效深化对党史的系统性认知。

南开大学马思宇副教授
1 中共党史研究语料智能体的核心技术基础
构建高质量党史研究语料智能体,首要任务是将海量纸质或扫描版文献转化为机器可读的文本数据,这一过程的核心是OCR技术。
1.1 OCR技术方案的适配性设计
通用OCR工具处理格式复杂、图文混排的历史文献时,常因丢失版面结构信息导致上下文语境割裂,表现欠佳。本研究选用在复杂文档处理中表现优异的MinerU方案,并针对党史文献特性进行深度适配。

图1 MinerU方案流程示意图
在结构分析方面,党史文献具有严谨编撰逻辑与特定内容形式,如中央文件选集中的层级标题、正文段落、注释及嵌入的档案缩影等。MinerU方案能精准识别并还原这些结构信息,有效维持文献的逻辑完整性与上下文连贯性。该系统具备良好的元素拆分能力,可将正文文本与图片、表格、手写批注等非文本内容有效分离,在提取文本的同时保留其原始位置信息,为后续多模态分析与知识关联奠定基础。
在输出与验证机制上,系统支持将识别结果输出为Markdown、JSON、LaTeX等多种格式,满足从人工阅读到程序化处理等不同下游任务需求。更重要的是,针对历史文献识别中难以避免的误差,MinerU提供可视化验证后台,通过Layout与Span视图辅助人工校对,让审核人员能直观比对原始图像与识别文本在版面、层级及内容上的一致性,显著提升OCR转化的数据质量与可信度。
此外,系统具备涵盖84种语言的多语言识别能力,这对处理涉及共产国际等相关史料中的俄文、德文、英文等外文文献尤为重要。该特性确保多语种党史资料能被完整、准确地转化为文本并纳入统一知识体系,为后续深度分析与智能化研究提供坚实基础。
1.2 OCR转化的系统性成果
在MinerU方案技术支持下,中共党史研究语料智能体在文献数字化转化方面取得系统性、规模化成果。目前已完成752册核心党史文献的OCR转化,共生成351240615个有效字符,为构建覆盖广泛、内容翔实的党史智能知识库奠定坚实数据基础。
转化成果全面覆盖党史研究多个核心领域:在中央文件方面,完成《中共中央文件选集》(58册)及长江局、香港分局、西北局等各大中央局的文件汇集,为研究党中央决策过程与组织运作提供权威一手材料;在专题史料类方面,转化内容涉及财经、军事、区域史等方向,如《中国革命根据地 北海银行史料》《山东革命根据地财政史料选编》等,为特定领域深入探索提供结构化素材;在研究著作与编年史料类方面,处理《中国共产党编年史》《中共党史参考资料》等系统性较强的学术成果,助力构建清晰历史脉络;此外,《星火燎原》系列等红色经典文献也被完整转化,其中包含大量革命亲历者的珍贵回忆,大幅丰富史料的表现维度与情感厚度。
大规模OCR转化的核心价值,在于实现党史文献从“静态图像”到“智能文本”的质变。转化后的文本具备可检索、可复制、可计算的特征,让研究者能在亿级字数中快速定位目标内容,显著提升资料利用效率。这些高质量文本为后续知识抽取、关系挖掘、智能问答乃至多模态党史知识图谱的构建,提供标准化、结构化的数据原料,标志着党史研究在方法论层面迈入数字化与智能化新阶段。
2 中共党史研究语料智能体的开发与功能实现
2.1 核心问题与解决策略
在中共党史研究语料智能体构建过程中,研究团队着力解决三个制约系统效能与可靠性的核心问题。
一是针对用户提问多样性与统一处理困境的调度策略。党史研究用户需求呈现高度异质性,涵盖从具体史实查询到宏观脉络梳理等多种类型。为同时满足不同任务需求,研究引入智能问题分类与调度机制。该机制的核心是内置语义意图识别器,能将用户自然语言提问自动归类至“思维导图生成”“知识图谱构建”“词云图制作”及“知识库问答”四大预设任务类型。分类完成后,系统随即调用适配的专用处理引擎。例如,针对概念关联性分析请求,系统会优先启动知识图谱构建模块,而非通用问答流程。这种基于分类的智能调度策略,既有效化解多样化需求与统一处理模型间的张力,又通过专业化分工显著提升任务执行准确性与系统整体响应效率。
二是针对长文本史料碎片化局限的层级处理方法。中共党史文献普遍篇幅长、逻辑结构复杂,直接进行端到端整体处理易导致关键信息丢失与语义连贯性断裂。为解决长文本分析中的“碎片化”难题,研究设计层级拆分整合方法:系统先对每个文本片段进行深度的实体、关系及事件抽取,再通过融合算法将片段层级的分析结果进行整合与逻辑校验,还原文本的整体叙事脉络。这一“分而治之,合而为一”的多轮迭代处理流程,有效保障从庞大文献中抽取知识的完整性与逻辑一致性,为后续深度分析奠定可靠基础。
三是针对生成式AI过度依赖与质量风险的控制流程。尽管生成式AI在内容生成上展现出强大能力,但其固有的“幻觉”现象、信息冗余及格式不确定性等风险,直接关乎研究的严谨性与准确性。为避免过度依赖原始生成结果,本研究平台建立“自动筛选—格式化—迭代增强”三阶段严格质量控制管道:首先对生成式AI的初始输出进行事实性错误筛查与冗余信息过滤;其次利用预设标准化模板对内容进行强制性结构化重组,确保输出符合学术规范;最后支持基于用户反馈或自检规则的多轮迭代优化,持续修正与提高内容质量。这套流程将生成式AI的创造力与可控规范化处理相结合,显著降低质量风险,确保最终输出结果的可靠性、可用性与严肃性。
2.2 父子分段式模型知识库构建
知识库构建质量是决定中共党史研究语料智能体效能的核心基础。为实现史料价值的高效挖掘与精准呈现,研究设计“父子分段式知识流水线模型”。该模型的核心是通过语义层级的精细划分与智能关联,平衡检索精准性与语境连贯性,满足党史研究对细节考证与宏观脉络分析的双重需求。
模型的核心逻辑建立在语境连贯与精准匹配的平衡机制上。该模型将文献在结构上划分为“父块”与“子块”两个层级:父块以完整语义章节(如文件全文、书籍章节)为单位,核心作用是充当“背景知识库”,确保回答任何具体问题时都能获得充分上下文信息支持,维持叙事逻辑的完整性与准确性;子块是对父块内容的深化,从父块中提取高密度关键语义片段(如核心论述、事件要点),专门服务于精准语义匹配。当用户提出问题时,系统先在子块层面快速定位,实现关键信息“精准匹配”;锁定相关子块后,立即回溯并加载其所属的整个父块原文,完成“上下文补全”。这种“子块定位、父块补全”的协作机制,是从碎片化信息中还原历史原貌、避免断章取义的关键。
在技术实现上,模型的存储与检索机制依赖向量化嵌入与双向检索的深度融合。具体流程始于“高质量语义索引”:所有文本块均通过向量化嵌入技术转化为数值向量,建立丰富的语义关联网络;子块向量被存入向量数据库,实现基于语义相似度的高效检索。检索过程并非单一模式,而是结合关键词匹配与向量语义搜索的“双向检索”策略,灵活适配用户对史实的精确查询与对脉络的关联探索等不同需求。最终通过“自适应知识响应引擎”,系统能将检索到的结构化知识智能调度至问答、词云、知识图谱或思维导图等不同功能模块,生成符合用户指令的最终成果。这套从索引、检索到响应的完整技术链,共同支撑语料智能体对党史知识进行多维度、深层次挖掘与呈现的能力。

图2 知识库构建流程示意图
2.3 四大功能模块的实践应用
在构建坚实的结构化史料知识库后,平台集成多种人工智能与自然语言处理技术,开发出四项核心功能模块(智能问答、词云图、知识图谱、思维导图),从不同维度提升党史研究的效率与深度。
智能问答模块是高效直接查询的核心工具。其工作机制是先在专属党史史料向量知识库中进行语义检索,锁定最相关的原始文献片段,再将这组经过验证的史料作为上下文提供给大语言模型整合与精炼,生成既有针对性又有文献支撑的答案。例如,当问及“唯物史观的基本原理”时,系统能精准援引《中共党史参考资料》中的具体论述,明确指出经济基础决定上层建筑等核心观点,有效避免通用模型可能产生的事实谬误,增强答案的可靠性与可溯源性。
词云图模块通过高频要素的可视化呈现文献重点。该功能对文献进行全文本分析,自动统计人物、地点、关键术语的频率,生成以字体大小代表权重的视觉图表。例如,分析早期共产主义运动文献时,能迅速凸显“毛泽东”“陈独秀”“共产主义小组”等核心词汇,帮助研究者快速捕捉文献的核心议题与关键历史角色,适用于对陌生文献集的初步评估。
知识图谱模块致力于揭示历史进程中隐含的复杂关联。它运用知识图谱实体抽取技术,自动从史料中识别并建立“人物—事件”“事件—地点”等多种实体关系对,以可视化网络图谱呈现。以研究“武汉共产主义小组”早期活动为例,系统能自动构建关系网络,清晰展示陈独秀作为主要联系人,及董必武、陈潭秋等核心成员的构成谱系,并链接至相关事件节点,辅助研究者洞察组织动力学与广泛的社会连接。
思维导图模块专注于对文献脉络进行系统性总结。该功能通过解析文献的内在逻辑结构或事件演进序列,自动生成层级清晰的树状导图。在处理《中国共产党组织史资料》这类宏大文献时,系统能以“文献编纂背景”“核心内容体系”“史料价值”等作为主干,拓展出“组织沿革”“领导成员”等次级分支,将巨量文本信息浓缩为逻辑严谨的“认知地图”,助力研究者高效把握全局,并为学术汇报和教学提供结构化底稿。
2.4 应用实例:国民革命中工人阶级作用的多维度智能分析
假设我们想运用《中共党史研究》《党史研究资料》《中共党史参考资料》《中共党史大事年表(1921-1981)》等史料开展关于工人阶级在国民革命中作用的相关研究,但不知从何入手,中共党史研究语料智能体能通过以下几个步骤,形成工作流界面,将静态的史料转化为动态、可视、可深挖的研究资源,为研究者提供研究灵感、核心思路与体系化支撑。

图3 中共党史研究语料智能体工作流示意图
第一步,从智能问答切入,快速定位核心观点。用户首先可以在模型的智能问答框中输入一个具体问题,例如:“近代工人阶级在国民革命中扮演了什么样的角色?”模型会立刻在内部语料库中进行检索和智能分析,并生成一段凝练、准确的摘要(图4)。

图4 智能问答界面示例
这段输出不仅提炼了工人阶级的阶级特性、力量来源,还指出了核心策略。几秒钟内,用户就从模糊主题获得了基于《党史研究资料第2集》《党史研究资料第3集》等史料库内史料的结构化观点,远比逐篇翻阅高效,为后续研究奠定立论起点与史料依据。
第二步,利用知识图谱功能,构建历史关联网络。核心观点明确后,我们希望更深入地理解“工人阶级”与当时其他历史要素如人物、组织、事件等的复杂关联。这时,用户可以利用模型的知识图谱功能。针对知识库中的指定史料,如《中共党史研究》2005年第3期,智能体能自动识别并抽取文本中的关键事件及要素,并通过连线反映它们之间的关联性。这张图谱不仅将线性的文本论述转化为一张可视化的网络,而且通过密集的节点和连线,直观地展示了工人阶级的发展与壮大是如何与政治力量、关键事件等各个因素紧密相连的。这种可视化方式有助于用户发现单篇阅读中容易忽略的间接关联,能够更全面地理解工人阶级在国民革命中的作用和影响,从而激发新的研究思路。
第三步,深入解析指定史料,构建脉络框架。在明确了核心观点并构建了历史关联网络后,用户可以进一步利用智能体深入解析指定史料,构建详细的脉络框架。以《中共党史研究》2005年第3期为例,模型将自动提取该史料中的关键章节和主题,生成一份思维导图,以树状结构展示史料的主要内容及其相互关系,每个分支代表一个主题或子主题,分支间的连线表示它们之间的逻辑联系。通过这种结构化的展示,用户能够一目了然地了解史料的总体框架,更清晰地理解单一史料的内容和结构,为后续研究提供坚实的基础。


图5 解析史料形成思维导图
总结而言,通过这个具体的案例,我们可以看到中共党史研究语料智能体如何将一个研究主题的研究过程重塑为一条高效、深入的路径:从智能问答快速聚焦,到知识图谱揭示深层关联,再到思维导图整合脉络。它不再是简单的文献检索工具,而是一位能够与研究者进行深度互动、提供认知支持的“智能研究助理”,极大地提升了中共党史研究的深度与效率。
2.5 中共党史研究语料智能体的构建经验总结
通过本次构建实践,研究团队深刻认识到,成功打造适用于中共党史研究的专业语料智能体,需在技术适配性、知识结构化与需求导向性三个层面进行系统化设计。
在技术适配性层面,核心经验是必须以党史文献的独有性为出发点进行技术选型与优化。以OCR技术为支撑,重点针对党史文献中常见的多格式混排、结构复杂、图文并杂等特点,选用并优化具备结构还原与元素拆分能力的专业方案,在数字化过程中有效保留文献的原始语境与逻辑层次。通过知识库构建环节,突破传统存储模式局限,创新性引入“父子分段”模型,兼顾党史研究把握整体脉络与考证微观史实的双重需要。
在知识结构化层面,语料智能体的关键价值是将原本分散、非结构化的海量史料,转化为系统化、可关联、可推理的知识体系。通过层级化处理,以“父—子”分段策略从技术上弥合史料碎片化与研究系统性之间的张力,使每一次查询结果都能兼顾细节准确与语境完整。通过文本向量化与知识图谱技术的结合,不仅实现语义层面的关联计算,更显式构建人物、事件、组织之间的复杂关系网络,支持研究者进行脉络推演与跨文献关联挖掘,大幅提升党史知识的组织效率和智能水平。
在需求导向性层面,语料智能体的生命力体现在对研究、传播、教育等多元场景需求的精准响应。在研究侧,智能问答与知识图谱功能有效缓解传统研究中信息检索慢、脉络梳理难的问题,助力学者聚焦深层分析与理论创新;在传播侧,通过词云、可视化图谱等交互形式,将党史内容转化为生动、可参与的数字体验,显著增强对年轻学习群体的吸引力;在教育侧,依托思维导图与个性化学习路径生成功能,支持学习者开展自主探究,推动党史学习从被动接受转向主动建构,有效促进深层次认知与价值内化。
3 现存问题与发展方向
尽管中共党史研究语料智能体的构建已取得初步成果,在史料处理、知识检索与脉络梳理等方面展现出一定优势,但发展仍处于初级阶段,面临来自数据基础、技术深度等方面的挑战。清醒认识这些现存问题,据此规划未来发展方向,是推动该语料智能体从“可用”走向“好用”“实用”的关键。
3.1 语料库建设的核心难题
语料库是语料智能体运行的根基,其质量直接决定语料智能体认知的准确性与深度。当前,语料库建设面临的核心难题集中于数据清洗与标准化环节。
首先,数据清洗与标识工作异常复杂。中共党史文献时间跨度大、来源广泛,其中充斥大量历史专有名词,如“苏维埃”“赤维埃”“边区”等。还有异体字、旧式标点及特定历史时期的表述方式等。对这些内容进行精准识别和标准化处理,是确保语料智能体正确理解史料语义的前提。例如,若不能将“赤维埃”准确映射为标准术语“苏维埃”,会导致相关史料在检索和关联时被遗漏。更为棘手的是敏感信息的标识问题:党史研究具有高度的政治性和严肃性,部分文献内容涉及需谨慎处理的历史细节或个人评价,这要求在语料入库前建立一套精细、符合学术规范与相关规定的标识体系,实现对特定信息的自动化识别与管理,避免生成内容出现偏差。
其次,缺乏适配党史文献特点且高效的专业化校对工具。目前,OCR转化后的文本校对工作仍高度依赖人工,成本高昂且效率低下。通用OCR校对工具难以有效识别上述历史术语和特殊表述的错误。因此,亟待开发一套融合“历史术语库”与“上下文语义校验”的智能校对系统。该系统能基于党史知识的上下文逻辑,自动提示或修正可能的识别错误,将研究人员从繁重的基础校对劳动中解放出来,大幅提升语料构建的效率与准确性。
3.2 知识库的深化方向
现有知识库主要以文本史料为核心,为实现从“文献检索工具”到“综合研究平台”的跨越,知识库的深化需向多模态融合与跨库关联迈进。
多模态融合是提升认知维度的必然要求。党史是立体而鲜活的,仅依靠文本难以全面呈现其丰富内涵。将历史照片、档案手迹、领导人讲话录音、纪录片等图像、音频、视频资料纳入知识库,并进行有效多模态关联,能大幅丰富语料智能体的知识体系。例如,当研究者查询“开国大典”时,语料智能体不仅能提供文字报告,还能关联展示相关历史影像、照片和新闻公报,构建更全面、更生动的历史场景,助力具象化的历史感知与研究。
跨库联动是打破数据壁垒、拓展史料边界的关键路径。当前,各级党史研究机构与革命纪念馆多建有特色数字资源库,但彼此独立,形成“数据孤岛”。未来,语料智能体应致力于构建统一的数据接口标准,实现与这些权威外部数据库的有机联动。通过安全、规范的协议,语料智能体可检索并调用外部库的专有资源,在不重复建设的前提下大幅拓展史料覆盖范围,为研究者提供“一站式”党史资料服务,真正实现研究资源的整合与共享。
3.3 未来展望
面向未来,中共党史研究语料智能体应在解决现存问题的基础上,朝着功能深化、技术融合与生态构建的方向持续演进。
在功能深化上,可探索个性化推荐机制:基于用户的研究兴趣和行为数据(如专注于“延安时期经济史”或“早期工人运动”),主动推送相关的史料、研究成果乃至分析工具模块,实现从“人找资料”到“资料找人”的转变。进一步可发展辅助研究生成功能:自动生成论文提纲、文献综述初稿,并自动完成史料引文的标注与校对,将语料智能体从研究助手升级为研究伙伴。
在技术融合上,可积极探索人工智能与党史研究的深度结合,特别是引入数字人文的研究方法。例如,对长时段的党报社论进行文本挖掘与情感分析,以量化方式观察特定政治概念或表述的演变趋势;利用社会网络分析技术,自动梳理历史人物、事件、组织之间的复杂关系网络,发现传统定性研究中难以察觉的模式与规律,为党史研究开辟新范式。
在生态构建上,最终目标是形成可持续的研究逻辑闭环。一方面,建立党史学者深度参与机制,将语料标注、模型优化与功能设计各环节的党史学者参与融入平台开发全链条,贴合学术前沿与实际需求,提升学术严谨性;另一方面,打造成果共享平台:鼓励用户将基于语料智能体产生的研究笔记、可视化图谱、分析报告等,在遵守规范的前提下进行分享与协同,汇聚集体智慧,形成开放、协作、共进的党史研究新生态。
4 结语
中共党史研究语料智能体通过“史料OCR转化—知识库构建—功能模块实现”的技术路径,有效破解传统党史研究中的效率与深度难题,为技术赋能数字人文研究提供实践范式。其核心经验在于“技术适配党史特性、知识服务研究需求”,而语料处理、跨模态融合等问题仍需持续突破。未来,需以“学术严谨性”为前提、“用户需求”为导向,推动语料智能体从“辅助工具”向“党史研究新基础设施”演进,助力中共党史研究的数字化、体系化、创新化发展。
转载请注明“刊载于《数字人文研究》2026年第1期”;
参考文献格式:马思宇,王亚星,肖桐月,等.中共党史研究语料智能体的构建经验与思考[J].数字人文研究,2026,6(01):32-42.
全文PDF已在知网、万方及编辑部网站(http://dhr.ruc.edu.cn)上发表,此处注释及参考文献从略。
Views: 6
