數智時代下中共黨史研究的展望

作者:李磊 馬思宇    發布時間:2026-05-21   
分享到 :

自2022年末生成式人工智能ChatGPT發布后,全球范圍內對人工智能的關注度居高不下。這引發公眾對於新一輪技術浪潮會如何重構現有知識生產方式、工作生活方式的熱烈討論,而學術界則亟須直面智能技術對研究范式、史料處理與理論創新的系統性重塑。《史學理論研究》《歷史研究》相繼推出人工智能與歷史研究的專題筆談,《近代史研究》開設“大數據與近現代史研究”欄目,都引起學界廣泛關注。在可預見的未來,數字技術、人工智能與歷史學的結合,必將是歷史學發展的一個重要創新增長點,也是學科發展的重要趨勢之一。

回溯近百年來技術驅動學術轉型的歷程,從計算機革命催生的計量史學與人文計算,到互聯網大規模文本化時代衍生的數字史學,每一次技術躍遷都重塑著歷史研究的認知維度。以關系型數據庫構建史料文獻矩陣、以歷史地理信息系統重構歷史空間敘事、以社會網絡分析揭示歷史群體關聯、以自然語言處理技術支撐的史料語義挖掘、以知識圖譜賦能關聯與因果推理等,已然構筑起數字人文研究的“技術譜系”。當數字技術與人工智能進入深度融合的“數智時代”,歷史研究面臨從“數字輔助”走向“智能共生”的新階段。

整體而言,梳理史料、厘清史實、歷史解釋等一直是包括中共黨史學者在內的歷史學者的核心工作,學科根基始終未變。但隨著新技術手段不斷被引入史學研究,數字技術在輔助研究者提出新問題、梳理材料、回應經典命題等方面展現出獨特能力與優勢。在數智化浪潮與史學守正創新的張力中,中共黨史研究同樣面臨范式轉型的臨界點。技術賦能並非對考據實証的背離,更不是“唯技術論”,而是拓寬黨史材料利用邊界。本文認為,通過夯實黨史文獻的數字化工作、構筑黨史材料主題量化數據庫以及探索大語言模型的學術化應用,可以有效緩解人工考據在處理超大規模文本時的局限,進而推動黨史研究向全景可及、多維可算、深度可思的范式躍遷。

一、全景可及:夯實黨史文獻的數字化工作

數據庫是數字人文研究中最重要的基礎設施,其他相關研究或多或少都是在此基礎上擴展而來的。目前,研究者日常所接觸的大部分數據庫屬於文獻型數據庫,即在數字化文獻的基礎上開發文獻瀏覽、檢索及其他擴展功能,方便研究者閱讀史料。長期以來,囿於研究資料獲取和使用不便的現實,許多歷史學者不得不獨自埋頭伏案,在繁蕪散碎的故紙堆中艱難爬梳,消耗大量學術精力,因此近十年來各類文獻型數據庫大發展所帶來的巨大進步意義不言而喻。對年輕學者而言,收藏各種電子版史料或圖書,綜合利用各種在線數據庫搜羅史料,儼然已成為一項基本技能。

在文獻數字化的浪潮中,大量中共黨史資料得以數字化,供學者利用。近年來,各個機構和單位積極響應中央學習“四史”號召,結合自身館藏建立眾多特色紅色文獻專題庫,針對紅色文獻的開發與利用也成為業界一大熱點。有學者統計,目前使用率較高的紅色文獻資源數據庫多達16種,按照文獻類型可分為綜合庫、圖書庫、報刊庫等。數據庫產品實現了海量文獻的瀏覽與檢索,大大滿足了黨史研究者的基本需求,改變了以往的研究方式。但諸多問題也隨之而來,如數量多、精品少,圖像多、全文少,收費多、免費少。重復性建設比比皆是,文獻內容大同小異,檢索閱覽技術缺乏差異化。

由於數據版權等限制,目前已上線的黨史文獻型數據庫資源還不能滿足黨史研究者的需求。就開發而言,一旦數據規模達到一定級別,其建設與后期維護成本巨大。商業數據庫開發完成后,一般針對單位用戶銷售,且需要通過收回成本以形成良性循環。但這種模式無形中提升了讀者的使用門檻,一般研究者無力承擔,高校或研究機構也不會購買過多數據庫資源。筆者曾參與建設的“抗日戰爭與近代中日關系文獻數據平台”項目,截至2025年底,上線各類材料總量8000萬余頁(其中逾6000萬頁可開放獲取),因其文獻種類全、數量大、質量高、公益免費而受到各界高度關注。值得一提的是,該平台在紅色文獻搜集、整理與發布方面也做了大量工作,不僅上線多種重要紅色報紙、期刊、圖書等史料,而且聚合組成多個紅色文獻專題庫供學界使用。

雖然現階段各類數據庫資料仍面臨資源碎片化、文本非結構化及利用機制不暢等現實瓶頸,但文獻型數據庫在未來依然承擔著提升史料可及性、為學界提供基本史料閱讀保障的重要角色。這不僅對學術研究大有裨益,而且為思想輿論領域的正本清源工作提供文獻依據。有鑒於此,文獻型數據庫在以下幾個方面需要得到繼續擴展。一是打通數據壁壘,避免重復建設。這需要由權威部門統一組織與協調,整合相關資源,建立大型中共黨史文獻數據服務平台,並建立統一的元數據規范與資源互操作標准,實現跨平台的史料集成,並兼顧各方權益,做好數據權限管理,盡量實現信息的開放獲取。二是持續擴大史料來源,發揮平台聚合屬性。不便遷移的黨史資料可以採用外鏈方式,不便公開的資料可以採用僅展示信息元數據的方式,讓讀者可以按圖索驥,尋找出處。三是優化學術體系。隨著數字技術發展和數據庫普及,一些重要黨史數據資源在利用頻次上要比紙本高得多,將史料整理成果整合成數據庫發布也遠比整理后結集出版更為復雜。文獻型數據庫既是學術基礎設施,也應當被認定為學術成果,而非視為純粹的技術工作。四是構建中共黨史基本文獻全文庫。自20世紀80年代起,黨史學界系統整理了大量珍貴文獻資料,其規整的排版格式為OCR技術識別提供了便利條件。建議黨史研究相關機構優先對高頻使用的重要文獻實施全文數字化,分階段構建結構化語料庫。這類經過系統整理的優質數據,在人工智能技術深度應用的當下具有不可估量的價值。

總之,文獻型數據庫的最大價值是顯著提升史料的可及性,實現史料閱讀場景由線下到線上的轉換,促進學術研究普及化、公平化。但這種利用方式並未從根本上改變傳統史學研究模式,也並未改變史料的運用方式,僅改變了史料的獲取方式和物理形態。這種轉變雖不完全契合數智時代的題中之義,但人工智能依然必須依賴文獻型數據庫,尤其是全文數據庫提供的“純淨”數據,以提供底層的數據保障。因此,持續夯實文獻數字化工作,依然是基礎中的基礎。

二、多維可算:構筑黨史材料主題量化數據庫

與文獻型數據庫不同,量化數據庫依據不同主題,可涵蓋各種歷史主體,如人物、事件、機構、民族、國別、文獻和物產等。依照一些學者的定義,量化數據庫研究方法是指“各種搜尋能夠涵蓋一定地域范圍、具有一定時間跨度的整體性大規模個人或其他微觀層面信息的系統(一手)資料,並將這些資料按照一定數據格式進行電子化,構建成適用於統計分析軟件的量化數據庫並進行定量研究的方法”。換言之,量化數據庫是基於具體對象的結構化元數據的組合,可通過數據分析軟件實現統計、聚合、對比等多維度分析,在此基礎上探求歷史事實。這明顯區別於傳統基於文獻的史學研究,更偏向於社會科學化的研究方式,是一條實現“數據驅動”的研究路徑。

之所以稱之為“數據驅動”,核心在於數據能夠在驅動問題發現、驅動過程論証、驅動結果檢驗等方面發揮重要作用。值得強調的是,其驅動的核心恰恰是歷史學科中的史料考辨、分析論証等傳統研究手段,實現“數據証據”與“史料証據”的“二重証據”相結合,並不是脫離史料和歷史情境的“空中樓閣”,更不是完全架空歷史的“游戲模型”。

筆者認為,量化史學應包含三個“量”的含義。一為計量,各類元數據組織在一起后,可以通過軟件或程序進行統計學意義的計量分析,從數據中觀察到以往較難發現的歷史現象,生發出有意義的問題意識。二為數量,量化研究追求最大限度地採集有效的微觀數據,這有別於以往歷史學大量基於個案的考察,而以觀察大規模、長時段、寬場域內的趨勢見長,因此量化研究所要求的數據規模或一些極端數據也會對最終測量結果產生直接影響。三為變量,影響歷史趨勢變化的原因錯綜復雜,而對多種變量之間相互影響的測算,其結果能夠為該類分析提供直接的証據。但需特別注意的是,這類基於社會科學方法的測定及詮釋,不能立即轉化為具備歷史學意義的學術結論,仍需研究者密切結合相關史料與個案研究,實現數據測算與史料分析的統合,從而達到進一步的論証或豐富。

量化歷史研究在中國雖然相較歐美起步偏晚,但近年來持續提速、穩步推進,在這一過程中也有不少黨史研究者呼吁將這些方法引入黨史研究領域。數字人文的不斷發展也促使研究者對相關基礎設施的精細化、專業化程度提出更高需求。與之相對應,各數據庫也在嘗試提升數據質量,以期與學術研究深度融合,從數據提供邁向數據服務。目前學術類主題量化數據庫建設還遠遠不夠,主要原因有兩點:一是成規模、結構化或半結構化、能夠快速轉換的一手材料可遇不可求﹔二是量化數據庫本身的數據顆粒度更細,對數據結構的組織設計要求更高,對數據生產者、業務功能開發者的素質要求也相對更高,導致項目周期更長、成本更高。

中國共產黨是組織嚴密的馬克思主義政黨,開會、填表等活動本就是組織生活的重要一環,黨內各級組織也會編制各類統計信息。一些特定時段、特定范圍的專題化、成規模的制式化材料,例如人物履歷表、工作調動表、組織學習登記表、入黨申請表、會議記錄等可以作為研究型數據集的基礎材料,具備潛在開發價值。圍繞特定研究對象構建專題數據庫,可以推動量化研究甚至人工智能開發,既是接合人文社群與技術脈絡的界面,也是承載人文批判與技術轉型的基石,具有獨特的方法論意義。

此外,一些經過整理的半結構化材料也應得到重視。以中共組織史資料為例,在過往研究中常將其作為重要工具書以資參考。筆者倡導發起的“中共組織史專題數據庫”以《中國共產黨組織史資料》為中心,構建量化數據庫模型,並提出構建方案和初步實踐。以量化數據庫深度挖掘組織史資料的巨大價值,有助於梳理機構之間的相互聯系,還原紛繁復雜的組織發展面貌。研究者如果帶著特定問題,基於多個維度數據有效摘選,就可以針對目標對象實現清晰直觀的數據呈現,例如研究機構發展沿革、個人或群體的工作經歷、工作職位在組織中的演進等。基於數據呈現或計算的結果,有助於厘清部分史實、補充歷史細節,更重要的是可以直觀反映和系統分析數據,幫助研究者生發新的、有價值的問題意識。

除組織史資料外,基於《人民日報》等媒體上同類型報道構建主題事件數據集,基於黨史人物傳、人名錄構建黨史人物數據集,基於紅色文獻各種版本構建出版物數據集等,都是現實可行的開發路徑。有研究者以1949年后的省級領導為研究對象,結合年齡、性別、民族、籍貫、教育背景、黨籍、黨齡等維度,構建統計模型分析其流動情況,闡述領導個人特質與流動之間的關聯,隨后又基於各省人口、財政等經濟數據,構建經濟表現與干部流動的關聯模型。這雖是政治學領域典型的模型化研究,但對黨史研究也很有啟發。

總之,成規模的數據基礎可以有效彌補當前黨史研究中整體性研究薄弱的現狀。傳統黨史研究多聚焦典型人物或事件,面對超大規模的組織演進議題時,僅憑人工閱讀難以梳理形成全景式認知。量化數據庫通過整合長時期、寬場域、多層次的微觀數據,能夠揭示出隱沒在史料中的群體特質與演變規律,為相關研究提供量化支撐。在“中共組織史專題數據庫”中,由數十年間地縣級以上干部所組成的中共干部群體的完整數據集,既可以實現從中觀角度整體考察干部群體的各種特征,也可以從中共革命史中最為關鍵的幾個時期出發,依照組織屬性與層級進行數據分類,打通不同類別群體與同級黨組織的聯系。此外,還可以從職能分配、沿革變遷、人員流動等多個維度抽取數據進行計算。基於量化數據的啟示,研究者更有機會發現新的問題或切入點,以開展進一步研究。

著名史學家鄧廣銘提出研究中國史有“四把鑰匙”——職官、年代、地理、目錄,歷經半個多世紀仍彰顯著方法論的生命力。數智時代下的中共黨史研究也可循著這四個方向構建中共黨史學術基礎設施體系:“中共組織史專題數據庫”致力於還原中共組織發展的數據譜系﹔錨定黨史文件、大事記、日記等資料中的時間數據,可構筑中共歷史大事年代時序體系﹔中共黨史地理信息系統有助於重塑黨史發展的空間格局﹔持續推進史料電子化與發布,加強資源整合,有助於建設黨史基本文獻總目錄甚至全文庫﹔等等。所有方向不僅大有可為,而且能為黨史研究未來的持續推進與擴展提供堅實的數據支撐。

黨史研究者歷來重視時空因素,基於時空數據的整理可以直觀有效地呈現研究對象的發展樣態。應星等學者結合“地理大區”的視角,利用歷史地理信息系統構建中共革命及其組織的核心區域,還就紅軍在各地方的崛起問題作出精到總結。姚霏則基於上海地區紅色舊址的地理位置信息,探討上海中共早期組織的發展樣態,勾勒出中共從只能被動依賴優勢空間環境、規避惡劣空間環境到主動利用不同行政區劃間的權力縫隙,從寓所機關合一、群聚性到有組織、有總體規劃的機構設置演變歷程。

基於實體之間關聯的整理同樣潛力巨大。關系計算不是基於量化數據的多維運算,而是基於向量的圖計算。社會關系網絡也已開始運用到黨史研究中,例如有研究者基於層次類聚樹狀圖與網絡分析等量化研究方法研究早期旅歐中國共產主義組織。社會關系網絡分析可包含多個實體與多種關系類型,能夠直觀體現各種事物之間的關聯,便於研究者更快速地把握關鍵信息點,挖掘以往可能想象不到的關聯關系。例如,筆者組織學生根據《中國共產黨組織史資料》中太行區委的組織機構和人員任職信息,通過Gephi軟件,形成太行區委社會網絡示意圖。重要的人物和組織逐步聚攏,形成太行區委的中心組織網絡。同時,該軟件還支持根據時間生成不同的組織網絡,可以直觀呈現中共晉冀豫省委到太行區委的組織演變過程。對實體關系的梳理,既可以構建主題對象的知識圖譜,也可以進一步為基於人工智能的開發提供數據基礎。

總體而言,量化數據庫等方法在中共黨史研究中的應用前景廣闊。以筆者過往項目經驗看,在項目籌備階段,數據結構設計十分重要,直接決定后續工作的難度及成效。信息組織設計需要結合材料本身和需求,反復調研,確定技術方案。數據形成之后,具體的可視化實現方式非常多樣,研究者可以綜合利用不同工具和手段來呈現,達到“一圖勝千言”的效果。未來借助日益成熟的人工智能技術,這些以往成本高昂且過程復雜的信息整理與呈現工作有機會大幅簡化。

三、深度可思:探索大語言模型的學術化應用

當前,人工智能技術正深刻影響著人文社科研究范式。大語言模型的應用引發學界廣泛關注,技術賦能與學科本位的碰撞,既催生出跨學科研究的新可能,也提出諸如人機協同的邊界界定與倫理規范等新命題。目前,相當一部分歷史學者在日常研究中,尤其在邏輯梳理、歸納整理、文本翻譯、語言潤色等特定場景中已經用到大語言模型。

筆者認為,人文學者在利用人工智能之前,首先需要樹立一種觀念:人工智能不應被簡單視為某種具備特定用途的工具、方法或路徑,而應定位為一種可資開發的智力資源。正如石油通過精煉衍生出能源、材料等多元產品,構筑起龐大的石化產業體系,深入生活方方面面,人工智能這種智力資源同樣具備多維度開發潛力。這種資源型認知有助於突破工具論局限,為史學研究開辟更廣闊的創新空間。

大語言模型能完成類似於人類思維理解、歸納、翻譯、推理與生成等任務,其交互與思維推理的過程常常快速而合理,但對准確性則不甚在意,以至於為實現邏輯表達、形成完整互動而偏離甚至編造事實(這其實也是人類日常交流的一種常態),從而形成被廣為詬病的“幻覺”問題。對於以“求真”為核心目標的歷史學者而言,這種事實偏失風險是無法接受的,甚至可視為“一票否決”項。不過,個別的“幻覺”也可以給學者提供一些啟示,擴展思路,需要辯証看待。

需要強調的是,現今各廠商對大語言模型優化、調校的方向是讓模型“更快速”“更聰明”,這與歷史學科“重積累”“求真實”的特性存在偏差。歷史學家中當然不乏天才,但潛心深耕、踏實勤奮、能“坐得冷板凳”常是學界更為推崇的品質。舉例而言,若一位歷史學教授需要挑選學生,一位天資聰穎但歷史積累一般,另一位資質中等但史料研讀積累極為深厚,這位教授有相當的可能性會選擇后者重點培養。學術積累十分重要,何況老一輩學者在長期閱讀與思考當中內化而成的對史料的“感覺”這種真切存在卻無法言表之物,目前人工智能還無法做到。我們必須認識到二者在根本發展方向上的差異,“博觀而約取”的大語言模型何時能夠真正實現歷史學者所追求的“厚積而薄發”,是其在歷史學界取得突破性進展的關鍵。

為盡力克服大語言模型的“幻覺”問題,目前較主流的技術方案有兩種:一是以某個模型作為基座,定向“投喂”專題數據集繼續訓練,形成針對特定任務的新模型,這稱為模型微調﹔二是不改變模型本身,而是將大模型接入外部專題知識庫,限定大模型讀取與分析的范圍,這稱為檢索增強生成(RAG)。筆者嘗試基於RAGFlow(一款國產開源的RAG框架)在本地工作站部署RAG系統。該系統的特點是提供多樣化的文本智能處理功能,可自由配置各種模型,並提供應用程序接口,方便集成到其他系統。在限定的文獻中,筆者很快找到主題材料,快速實現基於語義的智能文本檢索與基於特定問題的智能問答,且答案包含史料出處。此外,美國哥倫比亞大學蔣俊彥團隊正在開發的CommonTale項目,旨在建立基於中國近現代歷史文獻的大型RAG知識庫系統。該項目嘗試納入部分地方黨史資料、文史資料、地方志、組織史資料等文獻,實現智能問答、深度檢索等功能。不過,RAG技術目前暫時還存在很多局限,面對海量黨史材料文本,如何提升現有模式的准確度,或結合其他手段混合檢索以實現調優,都是需要攻克的難題。

再以內容檢索為例,結合筆者過往項目經驗,在傳統檢索面臨“查全”與“查准”的兩難權衡時,歷史學者通常更傾向於前者。進入數智時代,相較於大語言模型的文本理解與生成能力,歷史學者常常更關注其信息搜索能力,希冀實現由傳統的基於關鍵詞的檢索躍升為基於自然語言的檢索。RAG技術應用於歷史行業的一個理想目標,就是學者可基於特定議題快速形成包含史料出處的史料長編,從而大大節約自己在史料搜集與整理方面的精力。至於后一步,即大模型理解這些史料而后分析生成文本,歷史學者反倒不甚關注,甚至部分歷史學者對大語言模型的理解與生成能力存在天然的不信任,更傾向於在自主閱讀史料中得出結論。

在構建中共黨史文獻AI知識庫、實現基於人工智能的黨史材料開發與黨史研究的探索過程中,我們還應該重視黨史材料的幾種獨特屬性。

第一,近現代史料浩如煙海,盡管中共黨史材料所佔的比重相當有限,但整理程度較高,這主要體現在兩個方面:一是精選性強,二是文本化率高。這些經過系統整理的權威文本,為構建高質量數據庫奠定了可靠基礎:一方面,目前已經建設的一些紅色文獻全文數據庫數據可以直接為大模型所利用﹔另一方面,目前已出版的黨史資料集中,影印類型的比例要遠小於近現代史其他領域的史料。這些資料集大多是橫排簡體版式,即便還未文本化,許多紅色文獻也已完成高質量掃描,其清晰度、完整性也都優於其他近現代文獻,識別難度更低,准確度也更高,這意味著可以更為高效便捷地構建AI知識庫。總之,這些優質且干淨的數據集,在大語言模型時代的價值不可估量,也是中共黨史材料開發在數智時代先行一步的關鍵所在。

第二,中共黨史材料相較於其他領域史料的另一個特點是常常具有較強的政治敏感性。在當前復雜的國內外環境下,數據安全既是國家戰略要求,也是研究機構版權保護、研究者個人隱私保護的要求。研究者在使用在線工具時需關注信息安全,尤其是涉及境外大模型產品時更應謹慎。同時,在使用國內大模型產品處理部分黨史材料相關文本時,可能會被廠商內容審核機制“誤傷”。例如,筆者通過API調用阿裡雲Qwen2.5模型處理一些公開出版的黨史文獻時,輸出數據的完整性就很成問題。此類非技術性因素在古代史、世界史研究中較少出現,卻成為近現代史尤其是黨史研究的特有難題。國外大模型雖能完成處理任務,但存在使用門檻高、成本昂貴等現實制約,數據安全更難以保障。隨后,筆者在本地工作站部署開源模型,將相關任務接入本地模型處理,有效解決了上述問題。

第三,黨史文獻中普遍存在同一文件被多部資料集收錄的現象,這種重復性既反映出核心文獻的權威性,也為數字人文研究提供了獨特機遇。如“地方革命歷史文件匯集”保留了大量中央與地方組織之間的往來文件,傳統人工比對的方式極耗精力,而利用文本語義向量匹配技術則可高效識別相似文本,構建中央至地方的文件傳播網絡,為研究政令傳達機制、政策落地的接受度甚至變通路徑提供了新的分析維度,即便僅將其用來從事文本考証也有一定意義。此外,研究者可以利用AI對黨史文件中高頻出現的固定文本結構(如各種組織報告、公文等)進行結構化解析,嘗試歸納其中規律,構建標准化模型,還可以學習特定時期黨史文件中的程式化表達,有助於輔助判斷黨史文件的生成機制與權力運作特征。至於黨史文獻的版本問題,不同於古代史領域一些史料在流傳過程中謄抄訛誤等狀況,一些黨史經典文本的變更常常是有意為之。採用算法標記修訂痕跡,就可以輔助研究者追溯文件形成與流變的過程,揭示政策表述的細微調整,以便探究其背后的演變邏輯。

除構建AI知識庫的RAG技術外,AI智能體(或稱為Agent)也是目前大語言模型發展的主要方向之一。隨著MCP協議(模型上下文協議)發布,AI智能體在2025年駛入發展快車道。開發者可以借助通用協議將模型接入大量外部工具,讓大模型從“思考者”變成“行動者”,極大地擴展大語言模型的應用邊界。再以“中共組織史專題數據庫”建設為例,中共組織史資料中雖然包含大量人事任職數據,但是關於人物本身的信息相當缺乏。在過去,這種信息補充的工作量難以想象,但利用大語言模型則可在單機上實現初步整理。筆者結合MCP集成工具,實現了“讀取數據庫提取人名—網頁查詢—數據採集—元數據抽取—填寫入庫”的整個工作流程,大為簡化原本十分復雜的信息著錄工作。因此,大語言模型為小型團隊甚至個人構建專題數據集提供了可能性,有機會完成以往需要多領域學者共同協作、耗費高昂成本才能完成的工作。有編程能力的黨史學者可以利用AI輔助編程,普通研究者也可借助如Dify等低代碼平台,以可視化、拖拽式的交互操作實現組建工作流的需求。

第四,大語言模型在圖像、音頻、視頻等多模態資源的處理上也顯示出驚人能力。近現代攝影、錄音、制圖制表等技術發展,留存下大量非文本類史料,學界較少關注利用,中共黨史材料中的圖像等信息也大多用於教學或展覽呈現。傳統基於深度學習、卷積神經網絡等技術的圖像分類、目標檢測、版面識別任務等已相當成熟,而新型多模態大模型在整理分析黨史圖像材料、推動黨史研究等方面的前景更為廣闊。另外,多模態大模型還能實現文生圖、文生視頻等功能,筆者曾利用AI,將鄭超麟關於中共五大會場黃陂會館的描述文本自動生成分鏡腳本及提示詞,嘗試重現中共五大會場。限於經驗不足,目前效果仍有提升空間,未來期待進一步優化。

四、值得重視的一些問題

無論是夯實文獻庫基礎,還是擴展計量維度,抑或是發揮人工智能效能,未來黨史學界可以擴展的工作還有很多。在黨史材料開發過程中,研究者還需要注意一些問題,其中既包含人文社科領域普遍存在的共性議題,也有因黨史研究的獨特屬性而更為突出的專項挑戰。

一是注意籌備過程中的數據缺失及不平衡問題。筆者在構建量化數據集的過程中,深切體會到相關材料“多者恆多,少者恆少”。盡管這種情況並非黨史研究所獨有,但研究者必須留意,在分析時兼顧數據統一性與歷史特殊性。例如,研究者在處理人事數據時,雖然每條記錄或節點在統計意義上是平行等價的,但很顯然,重要人物或核心節點在歷史發展中的意義絕不可能被這樣簡單抹平。這就警示研究者,量化分析必須結合歷史背景,避免將數據現象直接等同於歷史真實﹔一旦觀察有所偏失,脫離歷史情境,就可能會倒果為因。筆者曾整理“地方革命歷史文件匯集”的文件總目錄,將文件往來關系轉為關系鏈(如“中共湖北省委致中央信”抽取為“湖北省委”→“中共中央”),再將結果全部導入Neo4j圖數據庫。從結果來看,中共中央自然成為整個關系網絡的中心節點,各個省委成為次級中心節點,其中“滿洲省委”“周保中”等節點尤為突出,但這個狀況很顯然是文獻整理的差異性所致(《東北地區革命歷史文件匯集》多達70冊)。這警示我們,基於史料文本的量化研究必須考量史料編纂特性、史料來源特性,文件關系網絡所呈現的“東北中心”現象,實質上是文獻整理規模的映射,而非歷史活動的真實反映。

二是注意在開發過程中的跨學科開放與合作問題。跨學科研究需要突破學科間的信息壁壘,但數字人文項目多由計算機、信息管理等學科主導,人文學者尤其是黨史研究者的參與度、話語權、利用率都還很不足。這種合作存在單向性及不平衡性:技術團隊側重工具開發,而人文學者更關注具體問題。人文學者涉足數字人文面臨雙重挑戰,既要克服技術理解障礙,又需適應團隊協作模式。多數研究者能熟悉各種文獻型數據庫,檢索整理電子化史料已屬不易,深入參與技術開發則力有未逮。

筆者參與數個項目的深切體會之一,就是作為業務需求方的歷史學者與作為方案提供方的工程開發人員之間在溝通上存在鴻溝,前者長期習慣於獨立研究、獨立發表的方式,對后者工程項目式的團隊協作模式並不熟悉,而數字項目實際落地的關鍵恰恰需要偏於流程化協作的工程化思維。黨史研究因其對數據安全與政治敏感性存在一些更獨特的需求,在合作開發中更需審慎權衡。這要求數字人文合作必須建立兼顧學術需求與技術支持的溝通機制,在確保信息安全的前提下探索協同創新路徑。

三是注意立論過程中向本學科回歸的問題。目前,許多數字人文研究往往存在數字性有余而人文性不足的傾向。與此同時,學科之間的明顯聯系並不總是促成合作,而是經常會導致更進一步的畫地為牢,這是因為每個學科都試圖強化其獨立性與特異性。在保持本學科自主性的基礎上將二者實現有機融合是關鍵。數據揭示的現象、趨勢或關聯,如同原始史料般需要歷史學轉化,才能超脫於朴素認知,形成對史實的系統性闡釋。數據認知僅僅是起點,關鍵在於回歸歷史學本位的深度闡釋,而這個回歸過程決定著該項研究最終是黨史主題的社科研究還是社會科學化的黨史研究。

筆者在整理中共各省委建立之前各個區執行委員會的沿革數據時,發現其整體呈現某種同步特征,推測這背后或許存在中共中央甚至共產國際統一規劃或調整的因素。循此線索,筆者得以考証梳理區執委發展的四個階段和幾處關鍵轉變節點,以此探討中共早期地方組織體系制度設計的變化,從而印証了數據背后的歷史邏輯。假如缺乏以史料為支撐的歷史學闡釋,即便能有一些數據發現,也很難突破既有歷史認知。

四是注意成果推介中的評價問題。除開上述的信息壁壘、技術壁壘,黨史學者還有心理壁壘需要克服。部分黨史學者長期浸淫於傳統史學訓練,對數字化研究成果持審慎態度,視之為脫離史料實証而對歷史進行模型化表達的“不扎實”“追熱點”的空中樓閣。實際上,社會經濟史領域已普遍運用量化方法,但在政治史研究中仍需進一步融合探索。包括中共黨史在內的政治史研究恰恰是史學研究中較為核心的領域,其在方法論上的選擇也相對傳統。因此,在推進數字黨史研究過程中,需要重視學術評價體系的適應性調整。

青年黨史學者利用數字化方法開展跨學科研究時,應注重平衡方法創新與史學本位,盡力深化研究,面對方法論爭議時則需保持良好平和的心態,互相理解,以扎實研究建立學術信度,逐步推動數字史學范式的學科認同。一些高校或黨史研究機構可以適當傾斜資源,突破既有黨史專題數字資源建設模式,扶持面向人工智能的史料開發項目,把握黨史材料在數智時代先行一步的機遇,努力打造數字黨史學術基礎設施。此外,黨史專業期刊可嘗試鼓勵相關研究,構建數字黨史信息交流與學術評介平台,推動黨史研究在數智時代的范式轉型。

五、結語

放眼當下,似乎各行各業都在積極應對人工智能熱潮。在不遠的將來,掌握基本AI技能,很可能會像掌握Windows系統、Office辦公軟件基本操作一樣普遍,成為新時代必備的社會生存技能。以大語言模型為代表的人工智能可以提升數據處理效率、降低成本,有機會從根本上改變勞動密集型的數據生產現狀。與此同時,廣度更全的全文數據與深度更細的量化數據,可為需要優質數據集支撐的大語言模型提供關鍵助力。三者相輔相成、良性互動,通過優勢互補抵消潛在局限,共同為學術研究注入新動能。

數智時代的黨史學者正通過技術手段對海量史料進行結構化處理,借助各種技術路徑發掘新的研究視角與問題意識。但我們需要清醒地認識到,這種基於算法邏輯的數字認知,絕不能簡單地直接拿來作為歷史認知,否則可能滑入將復雜歷史事實簡化為數學模型的“賽博歷史學”誤區。黨史研究領域的突破,依然有賴於歷史學者充分發揮學科本位優勢,通過史料批判甄別數據真偽,借助挖掘個案突破數據表象,運用歷史邏輯回應數據疑問。這種“數字認知—歷史認知”的雙向驗証機制,既包含對數據結論的史學驗証,也涵蓋基於史學智慧的數據再解讀,更涉及理論范式與經驗事實的多維對話。在此螺旋上升的認知迭代過程中,傳統史學方法論的闡釋力與數字技術的解析力形成良性互動,推動歷史認知不斷突破既有邊界(見下圖)。當技術賦能使史料獲取日趨便捷,史學研究的核心競爭力將愈發體現為問題意識的創新性、闡釋框架的原創性以及理論建構的深刻性——這些根植於人文傳統的核心素養,正是數字時代歷史學者無可替代的學術根基。

最后,我們欣喜地看到,越來越多黨史學者正積極面對技術變革,身體力行地支持與推動數字史學發展,乃至投入建設專題文獻庫、構建結構化數據集等實踐,推動研究方法創新。部分高校歷史院系已開設Python編程、數字人文基礎課程,培養復合型研究人才。數智時代下的黨史研究在保持學科特質的基礎上,完全有機會在研究范式、成果形態、傳播方式等方面實現系統性升級,為推動學科發展提供堅實的學術支撐。

來源:《中共黨史研究》(2025年第6期)