大語(yǔ)言模型在民間文獻(xiàn)數(shù)據(jù)分析中的應(yīng)用
日期:2024-09-09 來(lái)源:中國(guó)社會(huì)科學(xué)網(wǎng)
習(xí)近平總書記在文化傳承發(fā)展座談會(huì)上強(qiáng)調(diào):“只有全面深入了解中華文明的歷史,才能更有效地推動(dòng)中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化、創(chuàng)新性發(fā)展,更有力地推進(jìn)中國(guó)特色社會(huì)主義文化建設(shè),建設(shè)中華民族現(xiàn)代文明?!眱?yōu)秀傳統(tǒng)文化的文獻(xiàn)載體主要有傳世官方文獻(xiàn)和歷代民間文獻(xiàn)兩種,其中民間文獻(xiàn)是目前人文社會(huì)科學(xué)研究的熱點(diǎn)領(lǐng)域。在數(shù)字人文高度發(fā)展的時(shí)代背景下,將人工智能技術(shù)應(yīng)用于民間文獻(xiàn)的整理與研究,是人文社科與計(jì)算機(jī)科學(xué)交叉融合的必然趨勢(shì),必將促進(jìn)兩個(gè)領(lǐng)域的協(xié)同發(fā)展,也為破解民間文獻(xiàn)研究中的“同質(zhì)化”難題提供新的技術(shù)手段。
民間文獻(xiàn)數(shù)據(jù)分析的瓶頸
民間文獻(xiàn)的特點(diǎn)在于分布范圍廣、類型多樣、數(shù)量龐大,主要集中在敦煌吐魯番、徽州、福建、清水江、山西等地。其中,敦煌吐魯番文書群中能夠看到大量唐宋時(shí)期的契約文書;徽州文書最大的特點(diǎn)在于數(shù)量多、跨越年代久遠(yuǎn)、延續(xù)性好、歸戶性強(qiáng),徽州文書的數(shù)量據(jù)安徽大學(xué)劉伯山教授估計(jì)當(dāng)在55萬(wàn)—80萬(wàn)件左右;福建文書的整理與研究開(kāi)始于傅衣凌先生的專著與論述,并成為我國(guó)學(xué)者研究民間契約文書的學(xué)術(shù)前導(dǎo),近些年也有井噴式的新發(fā)現(xiàn);清水江文書以錦屏林業(yè)契約為主要內(nèi)容和主要特色,是反映當(dāng)?shù)亓謽I(yè)與苗族、侗族人民生存、發(fā)展等社會(huì)關(guān)系的原始記載,總數(shù)也在30萬(wàn)件以上。
面對(duì)動(dòng)輒幾十萬(wàn)件的民間文獻(xiàn),傳統(tǒng)的研究方法已顯不足,難以高效處理這些十萬(wàn)、百萬(wàn)計(jì)的數(shù)據(jù),使研究陷入了瓶頸期。隨著數(shù)字人文的興起,學(xué)術(shù)界普遍認(rèn)為引入人工智能、大數(shù)據(jù)技術(shù)是解決此類問(wèn)題的有效途徑。近年來(lái),迅速崛起的大語(yǔ)言模型應(yīng)用技術(shù)為海量民間文本數(shù)據(jù)的分析提供了新的可能性。這些技術(shù)的應(yīng)用能夠極大增強(qiáng)民間文獻(xiàn)如契約文書、賬簿、書信及僑批等材料的自動(dòng)化處理能力。通過(guò)對(duì)文獻(xiàn)類型進(jìn)行精確分析和命名,能夠更有效地分類和索引文獻(xiàn)材料。同時(shí),通過(guò)文獻(xiàn)要素的提取和數(shù)據(jù)的量化分析,不僅能夠提升研究效率,還能深化對(duì)文獻(xiàn)材料復(fù)雜性的理解。在優(yōu)化文獻(xiàn)保存和整理流程的同時(shí),大語(yǔ)言模型還能夠高效地進(jìn)行數(shù)據(jù)處理和內(nèi)容分析,為民間文獻(xiàn)研究提供強(qiáng)有力的技術(shù)支持。
大語(yǔ)言模型的應(yīng)用技術(shù)與場(chǎng)景
2022年OpenAI公司發(fā)布ChatGPT產(chǎn)品,為生成式人工智能技術(shù)的跨越式發(fā)展揭開(kāi)序幕。2023年發(fā)布的GPT-4進(jìn)一步提升了GPT系列模型在語(yǔ)言理解和語(yǔ)言生成方面的能力,該系列產(chǎn)品目前已廣泛應(yīng)用于文本理解和生成、編程輔助、教育和研究輔助等領(lǐng)域。在開(kāi)源大模型方面,Meta公司發(fā)布的Llama系列模型具有良好的開(kāi)源生態(tài),支持本地化部署,應(yīng)用可擴(kuò)展性強(qiáng),適用場(chǎng)景靈活多樣,因此被廣泛應(yīng)用于涉及文本等數(shù)據(jù)處理的研究領(lǐng)域,開(kāi)源社區(qū)中產(chǎn)生了大量以Llama系列模型為基座、以特定任務(wù)數(shù)據(jù)微調(diào)的衍生模型、垂直領(lǐng)域模型。同期國(guó)內(nèi)大語(yǔ)言模型研發(fā)也取得了顯著進(jìn)展,在中文處理方面具有較大優(yōu)勢(shì),目前較為常用的中文開(kāi)源模型包括Qwen系列模型、Baichuan系列模型、GLM系列模型等。
大語(yǔ)言模型常見(jiàn)的應(yīng)用技術(shù)包括提示詞工程、檢索增強(qiáng)生成(RAG)和模型微調(diào)等。提示詞工程是與大語(yǔ)言模型有效溝通的技巧和策略,通過(guò)合理設(shè)計(jì)提示詞引導(dǎo)模型生成符合期望的輸出,常用提示詞策略包括明確任務(wù)目標(biāo)、設(shè)定角色身份、列出任務(wù)步驟、提供參考示例等,可根據(jù)不同場(chǎng)景組合使用。檢索增強(qiáng)生成技術(shù)將檢索技術(shù)加入生成過(guò)程中,使用向量數(shù)據(jù)庫(kù)引入外部知識(shí)信息,提升生成結(jié)果的準(zhǔn)確性和豐富性,減少大語(yǔ)言模型“幻覺(jué)”的產(chǎn)生,適用于知識(shí)庫(kù)相關(guān)文本生成等場(chǎng)景。模型微調(diào)技術(shù)是指使用特定任務(wù)相關(guān)的數(shù)據(jù)集基于預(yù)訓(xùn)練模型進(jìn)行再訓(xùn)練,以增強(qiáng)模型處理特定任務(wù)的能力。模型微調(diào)技術(shù)廣泛應(yīng)用于各類文本處理任務(wù),可將任務(wù)相關(guān)的顯性知識(shí)和隱性知識(shí)灌注到模型當(dāng)中,打造符合特定場(chǎng)景需求的垂直領(lǐng)域模型。這些技術(shù)各具優(yōu)勢(shì),可適用于不同場(chǎng)景,通過(guò)組合使用能夠?yàn)槲墨I(xiàn)數(shù)據(jù)分析工作提供新工具和新方法。
大語(yǔ)言模型在文獻(xiàn)處理方面的應(yīng)用,目前主要包括詞法分析、自動(dòng)句讀、信息抽取、摘要生成等。詞法分析指自動(dòng)分詞、詞性標(biāo)注等任務(wù),是文本分析的基礎(chǔ)工作。大語(yǔ)言模型通過(guò)其內(nèi)化的語(yǔ)言理解能力和豐富的語(yǔ)言知識(shí),為詞法分析提供強(qiáng)大支持。自動(dòng)句讀是指將連續(xù)的文本根據(jù)古漢語(yǔ)語(yǔ)法特點(diǎn)和文本語(yǔ)義進(jìn)行自動(dòng)切割,經(jīng)過(guò)大量古代語(yǔ)料訓(xùn)練的大語(yǔ)言模型能夠有效提升古文自動(dòng)句讀的準(zhǔn)確性。信息抽取是指自動(dòng)提取文本中的關(guān)鍵信息,如時(shí)間、地點(diǎn)、人物等實(shí)體信息抽取,實(shí)體間關(guān)系抽取,以及基于實(shí)體和關(guān)系的事件信息抽取等。經(jīng)過(guò)特定數(shù)據(jù)集訓(xùn)練的大語(yǔ)言模型可理解任務(wù)規(guī)則和文本語(yǔ)義,實(shí)現(xiàn)信息自動(dòng)抽取。對(duì)文獻(xiàn)進(jìn)行自動(dòng)摘要就是進(jìn)行主題概括、篇幅壓縮及可讀性提升,有助于讀者快速了解古籍的主題內(nèi)容框架并生成簡(jiǎn)潔準(zhǔn)確的摘要。
大語(yǔ)言模型助力民間文獻(xiàn)處理
在民間文獻(xiàn)研究中,可通過(guò)查閱方言文獻(xiàn)、實(shí)地走訪相關(guān)當(dāng)事人等方式,把握所獲得的民間文獻(xiàn)的真實(shí)含義及語(yǔ)素特性,深入了解文本背后的文化和社會(huì)背景,有助于揭示單個(gè)文本的核心內(nèi)涵和文化特征。在此基礎(chǔ)上,可以運(yùn)用大語(yǔ)言模型應(yīng)用技術(shù),實(shí)現(xiàn)民間文獻(xiàn)如契約文書、賬簿、書信及僑批等材料的自動(dòng)化批量處理、深層次數(shù)據(jù)挖掘及關(guān)系網(wǎng)絡(luò)建構(gòu)等。具體而言,大語(yǔ)言模型可輔助民間文獻(xiàn)處理完成以下四類任務(wù)。
一是文獻(xiàn)類型分析。利用民間文獻(xiàn)文本數(shù)據(jù)建立針對(duì)分類任務(wù)的訓(xùn)練數(shù)據(jù)集,對(duì)選定的基座模型進(jìn)行微調(diào),并根據(jù)微調(diào)結(jié)果評(píng)估進(jìn)行參數(shù)優(yōu)化和迭代,訓(xùn)練出能夠自動(dòng)識(shí)別和分類文獻(xiàn)的語(yǔ)言模型,依據(jù)各類民間文獻(xiàn)的特定屬性和內(nèi)涵,提高分類的系統(tǒng)性和科學(xué)性。針對(duì)民間文獻(xiàn)的數(shù)據(jù)集建立規(guī)則可進(jìn)行多級(jí)分類,一級(jí)分類將民間文獻(xiàn)分為契約文書、賬簿、書信及僑批等;在此基礎(chǔ)上,二級(jí)分類則進(jìn)一步細(xì)化,將契約文書按照交易性質(zhì)、交易時(shí)間、交易內(nèi)容等進(jìn)行分類。這種分級(jí)分類方法不僅有助于系統(tǒng)整理和分析文獻(xiàn)材料,還為后續(xù)的深入研究提供了明確的框架和依據(jù)。
二是文獻(xiàn)要素提取。針對(duì)已經(jīng)分析好的類型文書,可進(jìn)一步建立有針對(duì)性的要素提取任務(wù)數(shù)據(jù)集,并進(jìn)一步微調(diào)模型使之具有要素識(shí)別能力。通過(guò)要素識(shí)別模型從文獻(xiàn)中提取核心要素,是提高文獻(xiàn)研究效率和準(zhǔn)確性的關(guān)鍵步驟。以契約文書為例,可以提取出立契人、標(biāo)的物、地點(diǎn)、租數(shù)、相對(duì)人、價(jià)款、中禮錢、立契時(shí)間、中見(jiàn)人、利率等核心信息。要素提取為后續(xù)的量化分析和深入研究奠定了基礎(chǔ),使得研究者能夠準(zhǔn)確、高效地處理大量材料,并獲取所需關(guān)鍵信息。
三是文獻(xiàn)自動(dòng)命名。為確保民間文獻(xiàn)研究的標(biāo)準(zhǔn)化和一致性,有必要根據(jù)文獻(xiàn)的結(jié)構(gòu)和內(nèi)容特點(diǎn)制定統(tǒng)一的命名規(guī)則。在文獻(xiàn)類型分析和要素提取工作的基礎(chǔ)上,可利用大語(yǔ)言模型,依據(jù)規(guī)則示例批量為每一件民間文獻(xiàn)生成便于檢索、具有高區(qū)分度和涵蓋度的名稱和摘要。民間文獻(xiàn)的統(tǒng)一命名不僅提高了文獻(xiàn)管理和檢索的效率,也為相關(guān)研究者之間的交流與合作提供了便利。
四是數(shù)據(jù)量化分析。除利用大語(yǔ)言模型的基礎(chǔ)文本處理能力外,可進(jìn)一步利用其數(shù)據(jù)分析能力和編程輔助能力等其他擴(kuò)展能力,對(duì)提取出的文獻(xiàn)信息進(jìn)行量化處理和統(tǒng)計(jì)分析,揭示文獻(xiàn)材料的分布規(guī)律、發(fā)展趨勢(shì)及其可能的社會(huì)影響。例如,建立歸戶民間文獻(xiàn)中核心人物的關(guān)系網(wǎng)絡(luò),分析身份關(guān)系對(duì)交易主體選擇、交易頻率、標(biāo)的物價(jià)值、借貸利率等的影響。應(yīng)用大語(yǔ)言模型對(duì)數(shù)以十萬(wàn)、百萬(wàn)計(jì)的民間文獻(xiàn)進(jìn)行量化分析,不僅能夠揭示文獻(xiàn)背后的社會(huì)經(jīng)濟(jì)規(guī)律,還可以全面地展現(xiàn)歷史事件、社會(huì)現(xiàn)象的復(fù)雜性和多樣性,并為史學(xué)研究提供新的視角和方法。
(作者系中共天津市委黨校網(wǎng)信辦工程師)