自然語言處理
自然語言與人工(或人造)語言不同,前者是人類社會中自然形成的語言,人們借助其進行各種交際活動,如漢語、英語、俄語等;后者是通過人工設計創造出來的語言,如國際輔助語和計算機語言。自然語言是人類歷史長期發展而約定俗成的產物,比人工語言要復雜得多。 自然語言與人工語言有以下不同:①自然語言中充滿著歧義,而人工語言中的歧義則是可以控制的。②自然語言的結構復雜多樣,而人工語言的結構則相對簡單。③自然語言的語義表達千變萬化,迄今還沒有一種簡單而通用的途徑來描述它,而人工語言的語義則可以由人來直接定義。④自然語言的結構和語義之間有著千絲萬縷的、錯綜復雜的聯系,一般不存在一一對應的同構關系,而人工語言則常常可以把結構和語義分別進行處理,人工語言的結構和語義之間有著整齊的一一對應的同構關系。
由于自然語言的這些獨特性質,使得自然語言處理成為人工智能的一大難題。自然語言處理一般應經過四個方面的過程:①把需要研究的問題在語言學上加以形式化,建立語言的形式化模型,使之能以一定的數學形式,嚴密而規整地表示出來,這個過程可以叫作“形式化”。②把這種嚴密而規整的數學形式表示為算法,這個過程可以叫作“算法化”。③根據算法編寫計算機程序,使之在計算機上加以實現,建立各種實用的自然語言處理系統,這個過程可以叫作“程序化”。④對于所建立的自然語言處理系統進行評測,使之不斷地改進質量和性能,以滿足用戶的要求,這個過程可以叫作“實用化”。
為了研究自然語言處理,不僅要有語言學方面的知識,而且還要有數學和計算機科學方面的知識,因此自然語言處理就成了一門界乎語言學、數學和計算機科學之間的邊緣性的交叉學科,它同時涉及文科、理科和工科三大領域。 自然語言處理的目的在于建立各種自然語言處理系統,如機器翻譯系統、自然語言理解系統、信息自動檢索系統、信息自動抽取系統、文本信息挖掘系統、術語數據庫系統、計算機輔助教學系統、語音自動識別系統、語音自動合成系統、文字自動識別系統等。 自然語言理解是自然語言處理的核心,其中包括語音和語符的自動識別以及語音的自動合成。語言之間的自動翻譯是一種高級的人工智能,涉及兩種或多種自然語言的理解和處理問題。上述項目都還處于研究實驗或初步應用的階段。自然語言處理中智能較低的工作,如語料的統計、分類、檢索等,早已付諸應用。
在自然語言處理的領域內,計算語言學工作者所研究的只是它的一般理論和方法,以及與語文信息加工有關的基礎性工作。隨著計算機科學和語言學的發展,自然語言處理的條件將逐步改善,它的技術將逐步提高,同時,它所起的作用也會越來越大。 2018年后,自然語言處理進入了大語言模型(large language model,簡稱LLM)階段,基本形成了一套近乎完備的技術體系,包括詞嵌入、編碼器-解碼器的端對端語言模型、注意力機制、Transformer模型以及BERT預訓練模型等。這一套技術體系有力地促進了自然語言處理在信息搜索、閱讀理解、機器翻譯、文本分類、智能問答、智能對話、網絡聊天、信息抽取、自動文摘、文本生成等重要領域的應用,預示著自然語言處理將要開啟大規模工業化實施的時代。