您的位置: 首頁 > 廣告

合合信息發(fā)布行內首個古彝文編碼“大字典”用AI為古文字開啟“煥新”之路

出處:北京商報 網編:劉浩天 2023-09-26

數字化技術已成為傳統(tǒng)文化保護與傳承的新途徑。近年來,以甲骨文AI識別、敦煌數字藏經洞為代表的項目,讓更多優(yōu)秀的民族文化被世界看見。

文字是文化的重要載體,古彝文承載了深遠的彝族歷史內涵,蘊含著豐富的文化信息。近期,合合信息聯(lián)合上海大學、華南理工大學針對現有的《西南彝志》、云貴一帶字符,以智能圖像處理、智能文字識別等AI技術開展統(tǒng)一編碼,并于近期發(fā)布了業(yè)內首個古彝文基礎編碼數據庫。

據團隊成員表示,該項目有望幫助高校研究人員、文化工作者、興趣愛好者等人群快速找到古彝文在字典中的讀音、漢語釋義、用法,降低古彝文書籍、文獻閱讀的門檻,通過數字化的形式,讓這門傳承了千年的神秘語言不再遭受歲月的侵蝕,在融入現代社會的過程中煥發(fā)新的生命力。

圖片來源:企業(yè)供圖
合合信息旗下掃描全能王上線公益活動入口,用古彝文為用戶獻上祝福 

古彝文保護背后的困境與難點

彝文是云南、貴州、四川等地的彝族人使用的文字,而“古彝文”專指在民間流通使用的原生態(tài)彝文。古彝文傳承至今已有數千年歷史,是世界上最古老的文字之一。根據《滇川黔桂彝文字集》,古彝文多達87046字,比《康熙字典》還要多,是記錄少數民族歷史沿革、管理制度、民風民俗的重要載體。

目前,行業(yè)技術廠商主要通過AI、OCR等數字化技術對古籍進行保護,古籍識別項目主要專注于對漢字及其各種變體的識別。傳統(tǒng)的古彝文來源于巖書、布書、竹簡等不同類型,文檔排版復雜不規(guī)范,年代久遠,圖像質量低,給識別帶來極大難度。

受制于數據樣本的稀少、字形的復雜多變,原生態(tài)彝文的數字化是一項大工程。項目技術負責人、華南理工大學電子與信息學院教授金連文表示,原生態(tài)彝文此前沒有被系統(tǒng)性地進行數字化編碼,古彝文沒有公開數據集,標注困難,所以從最初語料的收集開始,就需要做大量的前置工作。再者,古彝文異體字繁多,每個字的異體寫法少則兩三種,多則幾十種,且字體間風格差異大。

金連文認為,建立一個專門的數據庫,通過基礎編號將不同樣式歸納,可以“破解”古彝文“一對多”的關系,解決文字查詢問題。

多方合力為古彝文打通“數字化”之路

此前,在中國西南多家高校的共同努力下,規(guī)范和通用彝文的數字化工作取得了重要突破。2022年12月,合合信息與上海大學、華南理工大學共同開啟以國家珍貴古籍《西南彝志》為中心的貴州古彝文圖像識別及數字化校對項目,引入AI技術提升古籍識別效率,從異體字、變體字、誤用字和混用字中提煉出編碼。在對7萬6千字符的樣本進行訓練后,團隊近期成功建立了包含上千個古彝文基礎編碼的數據庫,堪稱古彝文編碼“大字典”。

為了推進古彝文“大字典”項目的順利進行,在收集語料收集的過程中,研究人員使用了合合信息旗下掃描全能王“智能高清濾鏡”功能,高效解決古彝文識別的版式檢測、圖像處理和文字識別等難題,對于污漬、殘破的彝文古籍,只需通過“智能高清濾鏡”輕輕一掃,即可得到一張清晰、平整的圖片。

“智能高清濾鏡”通過算法大模型,讓AI代替人去“思考”,達成圖像識別、檢測、分析、研判、結論的全鏈路閉環(huán),最終為用戶自動選擇出最優(yōu)處理方案。“智能高清濾鏡”的智能研判主要基于精準的圖像感知,通過深度學習模型,進行圖像特征獲取,感知到圖像特征并對應進行圖像處理,應對各種復雜文檔,達成場景化的決策效果。

古彝文“大字典”的面世,并非合合信息在傳統(tǒng)文化保護領域的首次嘗試。近年來,合合信息在甲骨文、鐘鼎文等古文字識別項目中接連實現新的突破。在對甲骨文、鐘鼎文的處理過程中,合合信息通過智能圖像處理技術解決了曲面、模糊、陰影、非常規(guī)文字影響下的識別難題,也為古彝文的數字化奠定了實踐基礎。

技術融合煥新傳統(tǒng)文化

相較于甲骨文和金文,因年代久遠、字形復雜,古彝文識別挑戰(zhàn)更大,也更具備世俗意義:甲骨文和金文從某種意義上說都屬于消亡類文字,但古彝文至今依舊保留了古代固有形制,在中國大西南地區(qū)仍有應用。古彝文的數字化不僅作用于民族文化記憶的留存,也能通過互聯(lián)網及各大知識平臺,讓廣大人民認識、理解這一悠久、優(yōu)美的語言,創(chuàng)造有底蘊、有故事的民族文化活動,讓傳統(tǒng)文化煥發(fā)新的生命力。

古彝文數字化項目發(fā)起人、上海大學人類學民俗學研究所講師邵文苑曾在項目啟動時表示,“傳統(tǒng)也和人一樣有生老病死的過程,并和人一樣有通過后代延續(xù)生命的能力。我們一起為之努力的數字化,可能是彝文古籍的‘傳統(tǒng)的新生命周期’的開始”。

伴隨著小康社會的發(fā)展,國家對于傳統(tǒng)文化保護、傳承的重視程度正在不斷加強。2022年,中辦、國辦印發(fā)的《關于推進實施國家文化數字化戰(zhàn)略的意見》明確提出“中華文化全景呈現,中華文化數字化成果全民共享”的目標,要求強化中華文化數據庫數據入庫標準。

古彝文編碼“大字典”的發(fā)布,是校企聯(lián)合,以數字化手段助力傳統(tǒng)文化傳承的一次示范。邵文苑認為,古彝文數據庫的發(fā)布并非一個最終的研究結果,而是一項非常重要的基礎性工作。“基礎編碼的發(fā)布,意味著這些文字在數字社會里從此擁有了‘身份證號碼’,能夠被更多地展現在網絡空間上,被更廣泛的人群看見、認識、研究,文化保護還需要全社會的參與。”邵文苑說。

右側廣告

本網站所有內容屬北京商報社有限公司,未經許可不得轉載。 商報總機:010-64101978 媒體合作:010-64101871

商報地址:北京市朝陽區(qū)和平里西街21號 郵編:100013 法律顧問:北京市中同律師事務所(010-82011988)

網上有害信息舉報  違法和不良信息舉報電話:010-84276691 舉報郵箱:bjsb@bbtnews.com.cn

ICP備案編號:京ICP備08003726號-1  京公網安備11010502045556號  互聯(lián)網新聞信息服務許可證11120220001號