本報訊 11月15—16日,第二屆語言資源與計算人文學術研討會在華中科技大學召開。來自全國多所高校和科研機構的近百位專家學者,圍繞語言資源建設與人文計算方法創新等議題展開深入探討。
會議內容涵蓋特邀報告、主旨報告、分組論壇、工作坊、期刊論壇及海報展示等多個環節,以四場工作坊拉開序幕。中國社會科學院民族學與人類學研究所研究員龍從軍、華中科技大學唐旭日教授與劉道煥博士、南京農業大學博士研究生劉暢與碩士研究生楊帆、華中師范大學副教授沈威,分別就多民族語言數據處理、弗思搭配應用、古籍智能體設計和提示詞工程等主題,進行系統講解和實踐演示。
推動多學科深度融合
在主旨報告和特邀報告環節,多位專家學者分享了最新觀點與研究成果。
香港理工大學教授黃居仁從回顧數字人文學的核心定義切入,強調當代人文學研究必須回應當代問題。他表示,語言文字在傳承中扮演關鍵角色——它既是知識的表達系統,也是知識能跨時代延續的根本媒介;各種語言均承載具身感知的維度,并且深植于文化與經驗之中。他介紹了傳統生態知識保存的關鍵性,提出關鍵挑戰在于如何從古籍、典籍中提取可服務當代科學研究的數據點與信息結構;結合其團隊在《廣群芳譜》《山海經》的知識圖譜構建等項目中的經驗,展現了大語言模型在語言資源建設方面帶來的效率躍遷。
中國社會科學院民族學與人類學研究所教授黃行的報告以《中國語言文字概況》為核心框架,系統介紹了中國語言國情與語言資源的基本面貌,回顧了傳統與新創少數民族文字的形成路徑,梳理了我國文字類型的多元構成。報告還解讀了國家在新時代語言文字工作中的政策部署,包括推廣國家通用語言文字、保護語言資源、加強民族語文教育、推動語言信息化與標準化建設、傳承優秀語言文化以及提升中文的國際影響力。
華中科技大學外國語學院教授唐旭日以“言語迷霧”為喻,提出語言作為一個復雜適應系統,其研究面臨復雜性挑戰,隱喻現象更是其復雜性的典型表現。他系統闡述了“動態隱喻論”,主張從語言使用出發,將隱喻視為一種由個體交互推動、在頻繁使用中逐步固化的涌現結構,并結合復雜系統科學、大規模語料與機器學習方法,為破解隱喻共時復雜性與歷時演化機制提供了新的理論與路徑。
內蒙古師范大學研究員白雙成介紹,清代蒙古文滿文檔案是研究國家治理、旗務與軍政制度的核心資料,也是多民族交往交流交融與多語種并存歷史的原始證據,現存著錄約120萬卷。他強調,這些檔案與大語言模型和數字人文的結合意義重大:其復雜的手寫體是OCR、機器翻譯等NLP技術的天然“試驗場”;檔案中富含的實體信息適合構建知識圖譜,并可作為新模型的測試語料,從而推動多學科深度融合。
提升語言文字數字化能力
中國社會科學院民族學與人類學研究所副研究員安波提出,應構建一個面向學者與政策部門的多模態民族領域知識服務平臺,利用大模型驅動技術,實現多源異質數據的統一加工、關聯挖掘與跨模態知識重構。他強調,多模態大模型不僅提升民族研究的數據能力和知識生產方式,也為政策咨詢和文化保護提供智能化支撐,推動民族學、人類學在人工智能時代實現方法創新與范式升級。
中國科學院軟件研究所高級工程師劉匯丹系統梳理了當前數字環境中漢字信息處理的關鍵挑戰,提出在實際應用中,生僻字難以錄入、顯示錯誤、多音字處理不一致、繁簡轉換受政策差異影響等問題普遍存在,并且有部分人名、地名用字及古文字、少數民族文字仍未被完整收錄。為此,中國科學院軟件研究所正在推進漢字生僻字處理平臺、語音合成、多民族文字輸入法和Unicode國際標準提案等工作,以提升語言文字的數字化能力。
新疆大學教授馮志偉從語言規劃的理論淵源出發,提出傳統的“地位規劃”和“本體規劃”難以滿足當下語言技術快速發展需求,必須將“語言文字的資源規劃”提升為第三類核心規劃。報告回顧了語言規劃的社會性、權威性、交際目的性、長期性、實踐性和數據導向性等特征,強調語言數據已成為國家信息資源和科技競爭的基礎。面對語言資源的高速增長與全球競爭加劇,報告提出四項規劃重點:加強大語言模型對齊、加快中文語言資源建設、完善語言數據的知識產權制度、強化低資源語言建設。
南京師范大學教授李斌深入剖析了大數據如何推動語言研究從傳統定性分析向定量建模轉型,強調實證方法在破解語言復雜規律中的核心作用。李斌提出,當前計算語言學已在三大關鍵領域實現重要突破:一是超大規模真實語言材料帶來的數據突破,二是超大規模集群服務器與超算中心提供的算力支撐,三是機器學習模型在海量樣本學習、多值分類與神經網絡等方面取得的技術進展。這些突破共同構成語言研究的新范式,為揭示語言本質、推動人工智能與語言學的交叉創新開辟了新路徑,為語言資源建設與計算人文研究拓展了廣闊前景。
推動數字人文產業生態構建
中國傳媒大學副教授王璐璐表示,當前,教師對大模型的使用能力有限、通用模型產出的語法教學資源質量不穩、文化語境與語法等級匹配度不足。為應對這些挑戰,團隊通過教師訪談與課堂實踐調研總結需求,并基于提示工程,構建適用漢語語法教學的提示方案體系,設計了語法教學提示庫與“靈犀”提示平臺,支持教師一鍵調用、個性化生成教學資源,為國際中文教育提供了可擴展的智能輔助工具。
北京師范大學副教授胡韌奮介紹了她與學生團隊圍繞大模型高階智能展開的三項深入評測。在多輪對話能力方面,通過設計模擬用戶、設計話輪,揭示模型在應對復雜對話情境時存在的問題;在創造力方面,通過測量模型在語義聯想上的多樣性與關聯性,發現模型在原創性與認知靈活性方面仍存在明顯局限;在大模型的具身語義表征評測上,發現多模態模型對比純文本模型并無顯著效果提升。她強調,大模型的評測體系需更關注真實語境中的認知機制、情境理解與人機互信,以推動大模型向更加穩健、可信、可解釋的方向發展。
中華書局古聯公司總編輯朱翠萍從產學研協同視角切入,展示了中華書局數字化智能化轉型的最新成果與合作模式。中華書局通過共建實驗室、專題數據庫、教材開發、科研平臺與人才共育機制,與多所高校形成“數據—技術—人才—應用”全鏈條協同,推動數字人文從學科建設邁向產業生態構建。朱翠萍強調,出版機構與學術界應共同探索文化資源的深度加工與智能再生,實現傳統文化的現代傳播與創新表達。
澳門大學教授袁毓林認為,所謂的“語言第一性原理”,無法為打造小而美的低資源語言模型提供理論支持。其報告針對當前大模型發展中存在的資源消耗大、場景適配性不足等問題,結合語言第一性原理與普遍語法理論,論證小型化、輕量化語言模型的構建邏輯與應用價值,為特定領域語言模型研發提供新方向。
會議期間,專家學者還圍繞大模型與語言資源建設、計算人文方法與應用、古籍數字化與智能處理等議題展開分組討論。
會議由中國民族語言學會語言資源與計算人文專委會主辦,華中科技大學外國語學院承辦,中國社會科學院民族學與人類學研究所民族語言文化行為實驗研究室等單位共同協辦。
(主辦方/供稿)