数智时代下中共党史研究的展望
自2022年末生成式人工智能ChatGPT发布后,全球范围内对人工智能的关注度居高不下。这引发公众对于新一轮技术浪潮会如何重构现有知识生产方式、工作生活方式的热烈讨论,而学术界则亟须直面智能技术对研究范式、史料处理与理论创新的系统性重塑。《史学理论研究》《历史研究》相继推出人工智能与历史研究的专题笔谈,《近代史研究》开设“大数据与近现代史研究”栏目,都引起学界广泛关注。在可预见的未来,数字技术、人工智能与历史学的结合,必将是历史学发展的一个重要创新增长点,也是学科发展的重要趋势之一。
回溯近百年来技术驱动学术转型的历程,从计算机革命催生的计量史学与人文计算,到互联网大规模文本化时代衍生的数字史学,每一次技术跃迁都重塑着历史研究的认知维度。以关系型数据库构建史料文献矩阵、以历史地理信息系统重构历史空间叙事、以社会网络分析揭示历史群体关联、以自然语言处理技术支撑的史料语义挖掘、以知识图谱赋能关联与因果推理等,已然构筑起数字人文研究的“技术谱系”。当数字技术与人工智能进入深度融合的“数智时代”,历史研究面临从“数字辅助”走向“智能共生”的新阶段。
整体而言,梳理史料、厘清史实、历史解释等一直是包括中共党史学者在内的历史学者的核心工作,学科根基始终未变。但随着新技术手段不断被引入史学研究,数字技术在辅助研究者提出新问题、梳理材料、回应经典命题等方面展现出独特能力与优势。在数智化浪潮与史学守正创新的张力中,中共党史研究同样面临范式转型的临界点。技术赋能并非对考据实证的背离,更不是“唯技术论”,而是拓宽党史材料利用边界。本文认为,通过夯实党史文献的数字化工作、构筑党史材料主题量化数据库以及探索大语言模型的学术化应用,可以有效缓解人工考据在处理超大规模文本时的局限,进而推动党史研究向全景可及、多维可算、深度可思的范式跃迁。
一、全景可及:夯实党史文献的数字化工作
数据库是数字人文研究中最重要的基础设施,其他相关研究或多或少都是在此基础上扩展而来的。目前,研究者日常所接触的大部分数据库属于文献型数据库,即在数字化文献的基础上开发文献浏览、检索及其他扩展功能,方便研究者阅读史料。长期以来,囿于研究资料获取和使用不便的现实,许多历史学者不得不独自埋头伏案,在繁芜散碎的故纸堆中艰难爬梳,消耗大量学术精力,因此近十年来各类文献型数据库大发展所带来的巨大进步意义不言而喻。对年轻学者而言,收藏各种电子版史料或图书,综合利用各种在线数据库搜罗史料,俨然已成为一项基本技能。
在文献数字化的浪潮中,大量中共党史资料得以数字化,供学者利用。近年来,各个机构和单位积极响应中央学习“四史”号召,结合自身馆藏建立众多特色红色文献专题库,针对红色文献的开发与利用也成为业界一大热点。有学者统计,目前使用率较高的红色文献资源数据库多达16种,按照文献类型可分为综合库、图书库、报刊库等。数据库产品实现了海量文献的浏览与检索,大大满足了党史研究者的基本需求,改变了以往的研究方式。但诸多问题也随之而来,如数量多、精品少,图像多、全文少,收费多、免费少。重复性建设比比皆是,文献内容大同小异,检索阅览技术缺乏差异化。
由于数据版权等限制,目前已上线的党史文献型数据库资源还不能满足党史研究者的需求。就开发而言,一旦数据规模达到一定级别,其建设与后期维护成本巨大。商业数据库开发完成后,一般针对单位用户销售,且需要通过收回成本以形成良性循环。但这种模式无形中提升了读者的使用门槛,一般研究者无力承担,高校或研究机构也不会购买过多数据库资源。笔者曾参与建设的“抗日战争与近代中日关系文献数据平台”项目,截至2025年底,上线各类材料总量8000万余页(其中逾6000万页可开放获取),因其文献种类全、数量大、质量高、公益免费而受到各界高度关注。值得一提的是,该平台在红色文献搜集、整理与发布方面也做了大量工作,不仅上线多种重要红色报纸、期刊、图书等史料,而且聚合组成多个红色文献专题库供学界使用。
虽然现阶段各类数据库资料仍面临资源碎片化、文本非结构化及利用机制不畅等现实瓶颈,但文献型数据库在未来依然承担着提升史料可及性、为学界提供基本史料阅读保障的重要角色。这不仅对学术研究大有裨益,而且为思想舆论领域的正本清源工作提供文献依据。有鉴于此,文献型数据库在以下几个方面需要得到继续扩展。一是打通数据壁垒,避免重复建设。这需要由权威部门统一组织与协调,整合相关资源,建立大型中共党史文献数据服务平台,并建立统一的元数据规范与资源互操作标准,实现跨平台的史料集成,并兼顾各方权益,做好数据权限管理,尽量实现信息的开放获取。二是持续扩大史料来源,发挥平台聚合属性。不便迁移的党史资料可以采用外链方式,不便公开的资料可以采用仅展示信息元数据的方式,让读者可以按图索骥,寻找出处。三是优化学术体系。随着数字技术发展和数据库普及,一些重要党史数据资源在利用频次上要比纸本高得多,将史料整理成果整合成数据库发布也远比整理后结集出版更为复杂。文献型数据库既是学术基础设施,也应当被认定为学术成果,而非视为纯粹的技术工作。四是构建中共党史基本文献全文库。自20世纪80年代起,党史学界系统整理了大量珍贵文献资料,其规整的排版格式为OCR技术识别提供了便利条件。建议党史研究相关机构优先对高频使用的重要文献实施全文数字化,分阶段构建结构化语料库。这类经过系统整理的优质数据,在人工智能技术深度应用的当下具有不可估量的价值。
总之,文献型数据库的最大价值是显著提升史料的可及性,实现史料阅读场景由线下到线上的转换,促进学术研究普及化、公平化。但这种利用方式并未从根本上改变传统史学研究模式,也并未改变史料的运用方式,仅改变了史料的获取方式和物理形态。这种转变虽不完全契合数智时代的题中之义,但人工智能依然必须依赖文献型数据库,尤其是全文数据库提供的“纯净”数据,以提供底层的数据保障。因此,持续夯实文献数字化工作,依然是基础中的基础。
二、多维可算:构筑党史材料主题量化数据库
与文献型数据库不同,量化数据库依据不同主题,可涵盖各种历史主体,如人物、事件、机构、民族、国别、文献和物产等。依照一些学者的定义,量化数据库研究方法是指“各种搜寻能够涵盖一定地域范围、具有一定时间跨度的整体性大规模个人或其他微观层面信息的系统(一手)资料,并将这些资料按照一定数据格式进行电子化,构建成适用于统计分析软件的量化数据库并进行定量研究的方法”。换言之,量化数据库是基于具体对象的结构化元数据的组合,可通过数据分析软件实现统计、聚合、对比等多维度分析,在此基础上探求历史事实。这明显区别于传统基于文献的史学研究,更偏向于社会科学化的研究方式,是一条实现“数据驱动”的研究路径。
之所以称之为“数据驱动”,核心在于数据能够在驱动问题发现、驱动过程论证、驱动结果检验等方面发挥重要作用。值得强调的是,其驱动的核心恰恰是历史学科中的史料考辨、分析论证等传统研究手段,实现“数据证据”与“史料证据”的“二重证据”相结合,并不是脱离史料和历史情境的“空中楼阁”,更不是完全架空历史的“游戏模型”。
笔者认为,量化史学应包含三个“量”的含义。一为计量,各类元数据组织在一起后,可以通过软件或程序进行统计学意义的计量分析,从数据中观察到以往较难发现的历史现象,生发出有意义的问题意识。二为数量,量化研究追求最大限度地采集有效的微观数据,这有别于以往历史学大量基于个案的考察,而以观察大规模、长时段、宽场域内的趋势见长,因此量化研究所要求的数据规模或一些极端数据也会对最终测量结果产生直接影响。三为变量,影响历史趋势变化的原因错综复杂,而对多种变量之间相互影响的测算,其结果能够为该类分析提供直接的证据。但需特别注意的是,这类基于社会科学方法的测定及诠释,不能立即转化为具备历史学意义的学术结论,仍需研究者密切结合相关史料与个案研究,实现数据测算与史料分析的统合,从而达到进一步的论证或丰富。
量化历史研究在中国虽然相较欧美起步偏晚,但近年来持续提速、稳步推进,在这一过程中也有不少党史研究者呼吁将这些方法引入党史研究领域。数字人文的不断发展也促使研究者对相关基础设施的精细化、专业化程度提出更高需求。与之相对应,各数据库也在尝试提升数据质量,以期与学术研究深度融合,从数据提供迈向数据服务。目前学术类主题量化数据库建设还远远不够,主要原因有两点:一是成规模、结构化或半结构化、能够快速转换的一手材料可遇不可求;二是量化数据库本身的数据颗粒度更细,对数据结构的组织设计要求更高,对数据生产者、业务功能开发者的素质要求也相对更高,导致项目周期更长、成本更高。
中国共产党是组织严密的马克思主义政党,开会、填表等活动本就是组织生活的重要一环,党内各级组织也会编制各类统计信息。一些特定时段、特定范围的专题化、成规模的制式化材料,例如人物履历表、工作调动表、组织学习登记表、入党申请表、会议记录等可以作为研究型数据集的基础材料,具备潜在开发价值。围绕特定研究对象构建专题数据库,可以推动量化研究甚至人工智能开发,既是接合人文社群与技术脉络的界面,也是承载人文批判与技术转型的基石,具有独特的方法论意义。
此外,一些经过整理的半结构化材料也应得到重视。以中共组织史资料为例,在过往研究中常将其作为重要工具书以资参考。笔者倡导发起的“中共组织史专题数据库”以《中国共产党组织史资料》为中心,构建量化数据库模型,并提出构建方案和初步实践。以量化数据库深度挖掘组织史资料的巨大价值,有助于梳理机构之间的相互联系,还原纷繁复杂的组织发展面貌。研究者如果带着特定问题,基于多个维度数据有效摘选,就可以针对目标对象实现清晰直观的数据呈现,例如研究机构发展沿革、个人或群体的工作经历、工作职位在组织中的演进等。基于数据呈现或计算的结果,有助于厘清部分史实、补充历史细节,更重要的是可以直观反映和系统分析数据,帮助研究者生发新的、有价值的问题意识。
除组织史资料外,基于《人民日报》等媒体上同类型报道构建主题事件数据集,基于党史人物传、人名录构建党史人物数据集,基于红色文献各种版本构建出版物数据集等,都是现实可行的开发路径。有研究者以1949年后的省级领导为研究对象,结合年龄、性别、民族、籍贯、教育背景、党籍、党龄等维度,构建统计模型分析其流动情况,阐述领导个人特质与流动之间的关联,随后又基于各省人口、财政等经济数据,构建经济表现与干部流动的关联模型。这虽是政治学领域典型的模型化研究,但对党史研究也很有启发。
总之,成规模的数据基础可以有效弥补当前党史研究中整体性研究薄弱的现状。传统党史研究多聚焦典型人物或事件,面对超大规模的组织演进议题时,仅凭人工阅读难以梳理形成全景式认知。量化数据库通过整合长时期、宽场域、多层次的微观数据,能够揭示出隐没在史料中的群体特质与演变规律,为相关研究提供量化支撑。在“中共组织史专题数据库”中,由数十年间地县级以上干部所组成的中共干部群体的完整数据集,既可以实现从中观角度整体考察干部群体的各种特征,也可以从中共革命史中最为关键的几个时期出发,依照组织属性与层级进行数据分类,打通不同类别群体与同级党组织的联系。此外,还可以从职能分配、沿革变迁、人员流动等多个维度抽取数据进行计算。基于量化数据的启示,研究者更有机会发现新的问题或切入点,以开展进一步研究。
著名史学家邓广铭提出研究中国史有“四把钥匙”——职官、年代、地理、目录,历经半个多世纪仍彰显着方法论的生命力。数智时代下的中共党史研究也可循着这四个方向构建中共党史学术基础设施体系:“中共组织史专题数据库”致力于还原中共组织发展的数据谱系;锚定党史文件、大事记、日记等资料中的时间数据,可构筑中共历史大事年代时序体系;中共党史地理信息系统有助于重塑党史发展的空间格局;持续推进史料电子化与发布,加强资源整合,有助于建设党史基本文献总目录甚至全文库;等等。所有方向不仅大有可为,而且能为党史研究未来的持续推进与扩展提供坚实的数据支撑。
党史研究者历来重视时空因素,基于时空数据的整理可以直观有效地呈现研究对象的发展样态。应星等学者结合“地理大区”的视角,利用历史地理信息系统构建中共革命及其组织的核心区域,还就红军在各地方的崛起问题作出精到总结。姚霏则基于上海地区红色旧址的地理位置信息,探讨上海中共早期组织的发展样态,勾勒出中共从只能被动依赖优势空间环境、规避恶劣空间环境到主动利用不同行政区划间的权力缝隙,从寓所机关合一、群聚性到有组织、有总体规划的机构设置演变历程。
基于实体之间关联的整理同样潜力巨大。关系计算不是基于量化数据的多维运算,而是基于向量的图计算。社会关系网络也已开始运用到党史研究中,例如有研究者基于层次类聚树状图与网络分析等量化研究方法研究早期旅欧中国共产主义组织。社会关系网络分析可包含多个实体与多种关系类型,能够直观体现各种事物之间的关联,便于研究者更快速地把握关键信息点,挖掘以往可能想象不到的关联关系。例如,笔者组织学生根据《中国共产党组织史资料》中太行区委的组织机构和人员任职信息,通过Gephi软件,形成太行区委社会网络示意图。重要的人物和组织逐步聚拢,形成太行区委的中心组织网络。同时,该软件还支持根据时间生成不同的组织网络,可以直观呈现中共晋冀豫省委到太行区委的组织演变过程。对实体关系的梳理,既可以构建主题对象的知识图谱,也可以进一步为基于人工智能的开发提供数据基础。
总体而言,量化数据库等方法在中共党史研究中的应用前景广阔。以笔者过往项目经验看,在项目筹备阶段,数据结构设计十分重要,直接决定后续工作的难度及成效。信息组织设计需要结合材料本身和需求,反复调研,确定技术方案。数据形成之后,具体的可视化实现方式非常多样,研究者可以综合利用不同工具和手段来呈现,达到“一图胜千言”的效果。未来借助日益成熟的人工智能技术,这些以往成本高昂且过程复杂的信息整理与呈现工作有机会大幅简化。
三、深度可思:探索大语言模型的学术化应用
当前,人工智能技术正深刻影响着人文社科研究范式。大语言模型的应用引发学界广泛关注,技术赋能与学科本位的碰撞,既催生出跨学科研究的新可能,也提出诸如人机协同的边界界定与伦理规范等新命题。目前,相当一部分历史学者在日常研究中,尤其在逻辑梳理、归纳整理、文本翻译、语言润色等特定场景中已经用到大语言模型。
笔者认为,人文学者在利用人工智能之前,首先需要树立一种观念:人工智能不应被简单视为某种具备特定用途的工具、方法或路径,而应定位为一种可资开发的智力资源。正如石油通过精炼衍生出能源、材料等多元产品,构筑起庞大的石化产业体系,深入生活方方面面,人工智能这种智力资源同样具备多维度开发潜力。这种资源型认知有助于突破工具论局限,为史学研究开辟更广阔的创新空间。
大语言模型能完成类似于人类思维理解、归纳、翻译、推理与生成等任务,其交互与思维推理的过程常常快速而合理,但对准确性则不甚在意,以至于为实现逻辑表达、形成完整互动而偏离甚至编造事实(这其实也是人类日常交流的一种常态),从而形成被广为诟病的“幻觉”问题。对于以“求真”为核心目标的历史学者而言,这种事实偏失风险是无法接受的,甚至可视为“一票否决”项。不过,个别的“幻觉”也可以给学者提供一些启示,扩展思路,需要辩证看待。
需要强调的是,现今各厂商对大语言模型优化、调校的方向是让模型“更快速”“更聪明”,这与历史学科“重积累”“求真实”的特性存在偏差。历史学家中当然不乏天才,但潜心深耕、踏实勤奋、能“坐得冷板凳”常是学界更为推崇的品质。举例而言,若一位历史学教授需要挑选学生,一位天资聪颖但历史积累一般,另一位资质中等但史料研读积累极为深厚,这位教授有相当的可能性会选择后者重点培养。学术积累十分重要,何况老一辈学者在长期阅读与思考当中内化而成的对史料的“感觉”这种真切存在却无法言表之物,目前人工智能还无法做到。我们必须认识到二者在根本发展方向上的差异,“博观而约取”的大语言模型何时能够真正实现历史学者所追求的“厚积而薄发”,是其在历史学界取得突破性进展的关键。
为尽力克服大语言模型的“幻觉”问题,目前较主流的技术方案有两种:一是以某个模型作为基座,定向“投喂”专题数据集继续训练,形成针对特定任务的新模型,这称为模型微调;二是不改变模型本身,而是将大模型接入外部专题知识库,限定大模型读取与分析的范围,这称为检索增强生成(RAG)。笔者尝试基于RAGFlow(一款国产开源的RAG框架)在本地工作站部署RAG系统。该系统的特点是提供多样化的文本智能处理功能,可自由配置各种模型,并提供应用程序接口,方便集成到其他系统。在限定的文献中,笔者很快找到主题材料,快速实现基于语义的智能文本检索与基于特定问题的智能问答,且答案包含史料出处。此外,美国哥伦比亚大学蒋俊彦团队正在开发的CommonTale项目,旨在建立基于中国近现代历史文献的大型RAG知识库系统。该项目尝试纳入部分地方党史资料、文史资料、地方志、组织史资料等文献,实现智能问答、深度检索等功能。不过,RAG技术目前暂时还存在很多局限,面对海量党史材料文本,如何提升现有模式的准确度,或结合其他手段混合检索以实现调优,都是需要攻克的难题。
再以内容检索为例,结合笔者过往项目经验,在传统检索面临“查全”与“查准”的两难权衡时,历史学者通常更倾向于前者。进入数智时代,相较于大语言模型的文本理解与生成能力,历史学者常常更关注其信息搜索能力,希冀实现由传统的基于关键词的检索跃升为基于自然语言的检索。RAG技术应用于历史行业的一个理想目标,就是学者可基于特定议题快速形成包含史料出处的史料长编,从而大大节约自己在史料搜集与整理方面的精力。至于后一步,即大模型理解这些史料而后分析生成文本,历史学者反倒不甚关注,甚至部分历史学者对大语言模型的理解与生成能力存在天然的不信任,更倾向于在自主阅读史料中得出结论。
在构建中共党史文献AI知识库、实现基于人工智能的党史材料开发与党史研究的探索过程中,我们还应该重视党史材料的几种独特属性。
第一,近现代史料浩如烟海,尽管中共党史材料所占的比重相当有限,但整理程度较高,这主要体现在两个方面:一是精选性强,二是文本化率高。这些经过系统整理的权威文本,为构建高质量数据库奠定了可靠基础:一方面,目前已经建设的一些红色文献全文数据库数据可以直接为大模型所利用;另一方面,目前已出版的党史资料集中,影印类型的比例要远小于近现代史其他领域的史料。这些资料集大多是横排简体版式,即便还未文本化,许多红色文献也已完成高质量扫描,其清晰度、完整性也都优于其他近现代文献,识别难度更低,准确度也更高,这意味着可以更为高效便捷地构建AI知识库。总之,这些优质且干净的数据集,在大语言模型时代的价值不可估量,也是中共党史材料开发在数智时代先行一步的关键所在。
第二,中共党史材料相较于其他领域史料的另一个特点是常常具有较强的政治敏感性。在当前复杂的国内外环境下,数据安全既是国家战略要求,也是研究机构版权保护、研究者个人隐私保护的要求。研究者在使用在线工具时需关注信息安全,尤其是涉及境外大模型产品时更应谨慎。同时,在使用国内大模型产品处理部分党史材料相关文本时,可能会被厂商内容审核机制“误伤”。例如,笔者通过API调用阿里云Qwen2.5模型处理一些公开出版的党史文献时,输出数据的完整性就很成问题。此类非技术性因素在古代史、世界史研究中较少出现,却成为近现代史尤其是党史研究的特有难题。国外大模型虽能完成处理任务,但存在使用门槛高、成本昂贵等现实制约,数据安全更难以保障。随后,笔者在本地工作站部署开源模型,将相关任务接入本地模型处理,有效解决了上述问题。
第三,党史文献中普遍存在同一文件被多部资料集收录的现象,这种重复性既反映出核心文献的权威性,也为数字人文研究提供了独特机遇。如“地方革命历史文件汇集”保留了大量中央与地方组织之间的往来文件,传统人工比对的方式极耗精力,而利用文本语义向量匹配技术则可高效识别相似文本,构建中央至地方的文件传播网络,为研究政令传达机制、政策落地的接受度甚至变通路径提供了新的分析维度,即便仅将其用来从事文本考证也有一定意义。此外,研究者可以利用AI对党史文件中高频出现的固定文本结构(如各种组织报告、公文等)进行结构化解析,尝试归纳其中规律,构建标准化模型,还可以学习特定时期党史文件中的程式化表达,有助于辅助判断党史文件的生成机制与权力运作特征。至于党史文献的版本问题,不同于古代史领域一些史料在流传过程中誊抄讹误等状况,一些党史经典文本的变更常常是有意为之。采用算法标记修订痕迹,就可以辅助研究者追溯文件形成与流变的过程,揭示政策表述的细微调整,以便探究其背后的演变逻辑。
除构建AI知识库的RAG技术外,AI智能体(或称为Agent)也是目前大语言模型发展的主要方向之一。随着MCP协议(模型上下文协议)发布,AI智能体在2025年驶入发展快车道。开发者可以借助通用协议将模型接入大量外部工具,让大模型从“思考者”变成“行动者”,极大地扩展大语言模型的应用边界。再以“中共组织史专题数据库”建设为例,中共组织史资料中虽然包含大量人事任职数据,但是关于人物本身的信息相当缺乏。在过去,这种信息补充的工作量难以想象,但利用大语言模型则可在单机上实现初步整理。笔者结合MCP集成工具,实现了“读取数据库提取人名—网页查询—数据采集—元数据抽取—填写入库”的整个工作流程,大为简化原本十分复杂的信息著录工作。因此,大语言模型为小型团队甚至个人构建专题数据集提供了可能性,有机会完成以往需要多领域学者共同协作、耗费高昂成本才能完成的工作。有编程能力的党史学者可以利用AI辅助编程,普通研究者也可借助如Dify等低代码平台,以可视化、拖拽式的交互操作实现组建工作流的需求。
第四,大语言模型在图像、音频、视频等多模态资源的处理上也显示出惊人能力。近现代摄影、录音、制图制表等技术发展,留存下大量非文本类史料,学界较少关注利用,中共党史材料中的图像等信息也大多用于教学或展览呈现。传统基于深度学习、卷积神经网络等技术的图像分类、目标检测、版面识别任务等已相当成熟,而新型多模态大模型在整理分析党史图像材料、推动党史研究等方面的前景更为广阔。另外,多模态大模型还能实现文生图、文生视频等功能,笔者曾利用AI,将郑超麟关于中共五大会场黄陂会馆的描述文本自动生成分镜脚本及提示词,尝试重现中共五大会场。限于经验不足,目前效果仍有提升空间,未来期待进一步优化。
四、值得重视的一些问题
无论是夯实文献库基础,还是扩展计量维度,抑或是发挥人工智能效能,未来党史学界可以扩展的工作还有很多。在党史材料开发过程中,研究者还需要注意一些问题,其中既包含人文社科领域普遍存在的共性议题,也有因党史研究的独特属性而更为突出的专项挑战。
一是注意筹备过程中的数据缺失及不平衡问题。笔者在构建量化数据集的过程中,深切体会到相关材料“多者恒多,少者恒少”。尽管这种情况并非党史研究所独有,但研究者必须留意,在分析时兼顾数据统一性与历史特殊性。例如,研究者在处理人事数据时,虽然每条记录或节点在统计意义上是平行等价的,但很显然,重要人物或核心节点在历史发展中的意义绝不可能被这样简单抹平。这就警示研究者,量化分析必须结合历史背景,避免将数据现象直接等同于历史真实;一旦观察有所偏失,脱离历史情境,就可能会倒果为因。笔者曾整理“地方革命历史文件汇集”的文件总目录,将文件往来关系转为关系链(如“中共湖北省委致中央信”抽取为“湖北省委”→“中共中央”),再将结果全部导入Neo4j图数据库。从结果来看,中共中央自然成为整个关系网络的中心节点,各个省委成为次级中心节点,其中“满洲省委”“周保中”等节点尤为突出,但这个状况很显然是文献整理的差异性所致(《东北地区革命历史文件汇集》多达70册)。这警示我们,基于史料文本的量化研究必须考量史料编纂特性、史料来源特性,文件关系网络所呈现的“东北中心”现象,实质上是文献整理规模的映射,而非历史活动的真实反映。
二是注意在开发过程中的跨学科开放与合作问题。跨学科研究需要突破学科间的信息壁垒,但数字人文项目多由计算机、信息管理等学科主导,人文学者尤其是党史研究者的参与度、话语权、利用率都还很不足。这种合作存在单向性及不平衡性:技术团队侧重工具开发,而人文学者更关注具体问题。人文学者涉足数字人文面临双重挑战,既要克服技术理解障碍,又需适应团队协作模式。多数研究者能熟悉各种文献型数据库,检索整理电子化史料已属不易,深入参与技术开发则力有未逮。
笔者参与数个项目的深切体会之一,就是作为业务需求方的历史学者与作为方案提供方的工程开发人员之间在沟通上存在鸿沟,前者长期习惯于独立研究、独立发表的方式,对后者工程项目式的团队协作模式并不熟悉,而数字项目实际落地的关键恰恰需要偏于流程化协作的工程化思维。党史研究因其对数据安全与政治敏感性存在一些更独特的需求,在合作开发中更需审慎权衡。这要求数字人文合作必须建立兼顾学术需求与技术支持的沟通机制,在确保信息安全的前提下探索协同创新路径。
三是注意立论过程中向本学科回归的问题。目前,许多数字人文研究往往存在数字性有余而人文性不足的倾向。与此同时,学科之间的明显联系并不总是促成合作,而是经常会导致更进一步的画地为牢,这是因为每个学科都试图强化其独立性与特异性。在保持本学科自主性的基础上将二者实现有机融合是关键。数据揭示的现象、趋势或关联,如同原始史料般需要历史学转化,才能超脱于朴素认知,形成对史实的系统性阐释。数据认知仅仅是起点,关键在于回归历史学本位的深度阐释,而这个回归过程决定着该项研究最终是党史主题的社科研究还是社会科学化的党史研究。
笔者在整理中共各省委建立之前各个区执行委员会的沿革数据时,发现其整体呈现某种同步特征,推测这背后或许存在中共中央甚至共产国际统一规划或调整的因素。循此线索,笔者得以考证梳理区执委发展的四个阶段和几处关键转变节点,以此探讨中共早期地方组织体系制度设计的变化,从而印证了数据背后的历史逻辑。假如缺乏以史料为支撑的历史学阐释,即便能有一些数据发现,也很难突破既有历史认知。
四是注意成果推介中的评价问题。除开上述的信息壁垒、技术壁垒,党史学者还有心理壁垒需要克服。部分党史学者长期浸淫于传统史学训练,对数字化研究成果持审慎态度,视之为脱离史料实证而对历史进行模型化表达的“不扎实”“追热点”的空中楼阁。实际上,社会经济史领域已普遍运用量化方法,但在政治史研究中仍需进一步融合探索。包括中共党史在内的政治史研究恰恰是史学研究中较为核心的领域,其在方法论上的选择也相对传统。因此,在推进数字党史研究过程中,需要重视学术评价体系的适应性调整。
青年党史学者利用数字化方法开展跨学科研究时,应注重平衡方法创新与史学本位,尽力深化研究,面对方法论争议时则需保持良好平和的心态,互相理解,以扎实研究建立学术信度,逐步推动数字史学范式的学科认同。一些高校或党史研究机构可以适当倾斜资源,突破既有党史专题数字资源建设模式,扶持面向人工智能的史料开发项目,把握党史材料在数智时代先行一步的机遇,努力打造数字党史学术基础设施。此外,党史专业期刊可尝试鼓励相关研究,构建数字党史信息交流与学术评介平台,推动党史研究在数智时代的范式转型。
五、结语
放眼当下,似乎各行各业都在积极应对人工智能热潮。在不远的将来,掌握基本AI技能,很可能会像掌握Windows系统、Office办公软件基本操作一样普遍,成为新时代必备的社会生存技能。以大语言模型为代表的人工智能可以提升数据处理效率、降低成本,有机会从根本上改变劳动密集型的数据生产现状。与此同时,广度更全的全文数据与深度更细的量化数据,可为需要优质数据集支撑的大语言模型提供关键助力。三者相辅相成、良性互动,通过优势互补抵消潜在局限,共同为学术研究注入新动能。
数智时代的党史学者正通过技术手段对海量史料进行结构化处理,借助各种技术路径发掘新的研究视角与问题意识。但我们需要清醒地认识到,这种基于算法逻辑的数字认知,绝不能简单地直接拿来作为历史认知,否则可能滑入将复杂历史事实简化为数学模型的“赛博历史学”误区。党史研究领域的突破,依然有赖于历史学者充分发挥学科本位优势,通过史料批判甄别数据真伪,借助挖掘个案突破数据表象,运用历史逻辑回应数据疑问。这种“数字认知—历史认知”的双向验证机制,既包含对数据结论的史学验证,也涵盖基于史学智慧的数据再解读,更涉及理论范式与经验事实的多维对话。在此螺旋上升的认知迭代过程中,传统史学方法论的阐释力与数字技术的解析力形成良性互动,推动历史认知不断突破既有边界(见下图)。当技术赋能使史料获取日趋便捷,史学研究的核心竞争力将愈发体现为问题意识的创新性、阐释框架的原创性以及理论建构的深刻性——这些根植于人文传统的核心素养,正是数字时代历史学者无可替代的学术根基。
最后,我们欣喜地看到,越来越多党史学者正积极面对技术变革,身体力行地支持与推动数字史学发展,乃至投入建设专题文献库、构建结构化数据集等实践,推动研究方法创新。部分高校历史院系已开设Python编程、数字人文基础课程,培养复合型研究人才。数智时代下的党史研究在保持学科特质的基础上,完全有机会在研究范式、成果形态、传播方式等方面实现系统性升级,为推动学科发展提供坚实的学术支撑。
来源:《中共党史研究》(2025年第6期)
