統計語言學
傳統的統計語言學研究領域主要包括幾個方面:①統計語言單位的出現頻率,如對詞匯和音位、語素出現的頻率進行統計研究。②統計作家的用詞頻率、詞長分布和句長分布,以了解作家運用語言的風格;用這種方法還可判定匿名文章的作者。③計算語言存在的絕對年代以及親屬語言從共同原始語分化出來的年代,這方面的研究稱語言年代學,又稱詞源統計分析法。此外,還可對親屬語言的語法、語音體系進行統計、比較。④采用信息論方法研究語言的熵和羨余度。語言的熵指在交際過程中語言符號出現的不定度,其大小與語言的熵的高低一致。當語言的接收者收到語言符號后,不定度被消除,熵等于零,因而在交際過程中,語言接收者所得到的信息量等于被消除的熵。語言羨余度是指語言中超過傳遞最少需要量的信息量的比例,在一般情況下,為了保證對方能夠理解,會提供比實際需要更多的信息量,因此,不論在書面語還是口語中,語言都有羨余度。⑤探討語言的一般統計規律。例如,在按頻率遞減順序排列的頻率詞典中,詞的序號越大,詞的頻率越小,序號與頻率之間的關系可以用數學公式描述為一定的統計規律——齊夫定律。⑥運用隨機過程論研究語言,把語言看成彼此聯系的字母序列,前一個字母決定后一個字母的出現,于是形成一條字母鏈,稱為“馬爾可夫鏈”。⑦研究文章中兩個詞之間、兩個語法范疇之間、兩個語義類型之間或兩個句法類型之間的間距,以揭示文章在句法或語義上的特征。⑧研究語言的詞匯與文章長度的關系,以揭示文章中詞匯的豐富程度和差異程度。
統計語言學在數理語言學中有比較悠久的歷史。古印度語法學家在研究《吠陀》時進行過單詞和音節數目的統計。1851年,英國數學家A.de摩根(A. de Morgen)曾把詞長作為文章風格的一個特征而加以統計研究。英國的L.坎貝爾(L. Campbell)于1867年、德國的W.迪丁貝爾格(W. Ditingberg)于1881年都曾采用統計方法確定柏拉圖著作的寫作時期。1887年,美國的T.C.門登霍爾(T. C. Mendenhauer)對英國文學作品、特別是莎士比亞的作品進行過統計分析。1913年,俄羅斯的A.A.馬爾可夫(A. A. Markov)研究了俄語中字母序列的生成問題,提出了馬爾可夫隨機過程論。1935年,美國G.K.齊夫發表了齊夫定律。1944年,英國數學家G.U.尤勒(G. U. Yule)在《文學詞語的統計分析》一書中廣泛使用概率和統計方法研究語言。1950年,美國的M.斯瓦迪士(M. Swadesh)進行了語言年代學的研究。1951年,美國數學家C.E.香農(Claude Elwood Shannon,1916~2001)采用信息論的方法研究書面英語中的熵和羨余度,美國的V.英格維(V. Yngve)對句法現象進行了間距分析。1954年,法國的P.基羅(P. Guiraud)根據文章中詞的頻率分布提出了詞匯豐富度的概念。1956年,英國的G.赫丹(G. Herdan)出版了《語言是選擇和機遇》一書,系統總結了統計語言學的研究成果。幾十年來,在語言統計中日益廣泛地使用計算機,逐漸改變了傳統的手工查頻的統計辦法,提高了統計的效率和精度。
統計語言學大致可分為語音統計學、詞匯統計學、語法統計學和語義統計學,分別研究語言的語音、詞匯、語法和語義的統計特征。從描寫的角度出發,詞匯統計學又可以分為年代統計學、風格統計學和分類統計學三個分支,分別根據時代的變化、作者寫作風格的不同和語言的類屬或起源對詞匯特征進行統計分析。 語料庫語言學的發展使統計語言學得到了的重視。學者們采用統計方法從大規模真實文本語料庫中獲取語言知識,使用隱馬爾可夫模型、噪聲信道理論等從統計的角度研究語言,統計語言學得到進一步的發展和應用。 早在1947年,美國的W.韋弗在他的以《翻譯》為題的備忘錄中,提出了使用解讀密碼的方法來進行機器翻譯,這種所謂“解讀密碼”的方法實質上就是一種統計的方法,他是想用基于統計的方法來解決機器翻譯問題。但是,由于當時缺乏高性能的計算機和聯機語料(corpus on line),采用基于統計的機器翻譯在技術上還不成熟,韋弗的這種方法在當時是難以付諸實現的。直到20世紀90年代現隨著計算機在速度和容量等方面大幅度的提高,再加上出現了大量的聯機語料可供統計使用,因此,基于統計的機器翻譯又興盛起來。
在韋弗思想的基礎上,IBM公司的P.布朗(Peter Brown,美國)等人提出了統計機器翻譯的數學模型。越來越多的互聯網和軟件公司都推出了基于統計的在線的機器翻譯系統。例如,谷歌的多語言在線機器翻譯系統Google Translate、百度的在線英漢機器翻譯系統。在線統計機器翻譯系統不僅直接推動了機器翻譯研究的發展,而且方便了人們的生活與學習,人類的語言障礙正在逐漸得到克服。這是信息時代自然語言處理研究的重大成果。 機器翻譯研究的大量事實證明,在機器翻譯中,對語言的分析并非越精確越好。目前,人們更加傾向于通過擴大語言模型訓練數據規模進行機器深度學習的方法,從大規模真實的語料中獲取對于機器翻譯有用的語言知識,并適當地進行一些淺層的語言分析,把基于統計的機器翻譯與基于規則的機器翻譯結合起來,爭取得到最好的機器翻譯結果,而這種最好的機器翻譯結果,可以是全自動的,但卻不一定是高質量的,而只是具有較高參考性的譯文。 除了統計機器翻譯之外,統計語言學的許多研究成果,對于通信技術、語言教學和自然語言處理也很有價值。在統計語言學的基礎之上,對于語言現象進行計量研究,探討語言本體的自組織、自適應的統計規律性,產生了一門新的學科,稱為計量語言學。