統(tǒng)計語言學

傳統(tǒng)的統(tǒng)計語言學研究領域主要包括幾個方面：①統(tǒng)計語言單位的出現頻率，如對詞匯和音位、語素出現的頻率進行統(tǒng)計研究。②統(tǒng)計作家的用詞頻率、詞長分布和句長分布，以了解作家運用語言的風格；用這種方法還可判定匿名文章的作者。③計算語言存在的絕對年代以及親屬語言從共同原始語分化出來的年代，這方面的研究稱語言年代學，又稱詞源統(tǒng)計分析法。此外，還可對親屬語言的語法、語音體系進行統(tǒng)計、比較。④采用信息論方法研究語言的熵和羨余度。語言的熵指在交際過程中語言符號出現的不定度，其大小與語言的熵的高低一致。當語言的接收者收到語言符號后，不定度被消除，熵等于零，因而在交際過程中，語言接收者所得到的信息量等于被消除的熵。語言羨余度是指語言中超過傳遞最少需要量的信息量的比例，在一般情況下，為了保證對方能夠理解，會提供比實際需要更多的信息量，因此，不論在書面語還是口語中，語言都有羨余度。⑤探討語言的一般統(tǒng)計規(guī)律。例如，在按頻率遞減順序排列的頻率詞典中，詞的序號越大，詞的頻率越小，序號與頻率之間的關系可以用數學公式描述為一定的統(tǒng)計規(guī)律——齊夫定律。⑥運用隨機過程論研究語言，把語言看成彼此聯(lián)系的字母序列，前一個字母決定后一個字母的出現，于是形成一條字母鏈，稱為“馬爾可夫鏈”。⑦研究文章中兩個詞之間、兩個語法范疇之間、兩個語義類型之間或兩個句法類型之間的間距，以揭示文章在句法或語義上的特征。⑧研究語言的詞匯與文章長度的關系，以揭示文章中詞匯的豐富程度和差異程度。

統(tǒng)計語言學在數理語言學中有比較悠久的歷史。古印度語法學家在研究《吠陀》時進行過單詞和音節(jié)數目的統(tǒng)計。1851年，英國數學家A.de摩根（A. de Morgen）曾把詞長作為文章風格的一個特征而加以統(tǒng)計研究。英國的L.坎貝爾（L. Campbell）于1867年、德國的W.迪丁貝爾格（W. Ditingberg）于1881年都曾采用統(tǒng)計方法確定柏拉圖著作的寫作時期。1887年，美國的T.C.門登霍爾（T. C. Mendenhauer）對英國文學作品、特別是莎士比亞的作品進行過統(tǒng)計分析。1913年，俄羅斯的A.A.馬爾可夫（A. A. Markov）研究了俄語中字母序列的生成問題，提出了馬爾可夫隨機過程論。1935年，美國G.K.齊夫發(fā)表了齊夫定律。1944年，英國數學家G.U.尤勒（G. U. Yule）在《文學詞語的統(tǒng)計分析》一書中廣泛使用概率和統(tǒng)計方法研究語言。1950年，美國的M.斯瓦迪士（M. Swadesh）進行了語言年代學的研究。1951年，美國數學家C.E.香農（Claude Elwood Shannon，1916～2001）采用信息論的方法研究書面英語中的熵和羨余度，美國的V.英格維（V. Yngve）對句法現象進行了間距分析。1954年，法國的P.基羅（P. Guiraud）根據文章中詞的頻率分布提出了詞匯豐富度的概念。1956年，英國的G.赫丹（G. Herdan）出版了《語言是選擇和機遇》一書，系統(tǒng)總結了統(tǒng)計語言學的研究成果。幾十年來，在語言統(tǒng)計中日益廣泛地使用計算機，逐漸改變了傳統(tǒng)的手工查頻的統(tǒng)計辦法，提高了統(tǒng)計的效率和精度。

統(tǒng)計語言學大致可分為語音統(tǒng)計學、詞匯統(tǒng)計學、語法統(tǒng)計學和語義統(tǒng)計學，分別研究語言的語音、詞匯、語法和語義的統(tǒng)計特征。從描寫的角度出發(fā)，詞匯統(tǒng)計學又可以分為年代統(tǒng)計學、風格統(tǒng)計學和分類統(tǒng)計學三個分支，分別根據時代的變化、作者寫作風格的不同和語言的類屬或起源對詞匯特征進行統(tǒng)計分析。語料庫語言學的發(fā)展使統(tǒng)計語言學得到了的重視。學者們采用統(tǒng)計方法從大規(guī)模真實文本語料庫中獲取語言知識，使用隱馬爾可夫模型、噪聲信道理論等從統(tǒng)計的角度研究語言，統(tǒng)計語言學得到進一步的發(fā)展和應用。早在1947年，美國的W.韋弗在他的以《翻譯》為題的備忘錄中，提出了使用解讀密碼的方法來進行機器翻譯，這種所謂“解讀密碼”的方法實質上就是一種統(tǒng)計的方法，他是想用基于統(tǒng)計的方法來解決機器翻譯問題。但是，由于當時缺乏高性能的計算機和聯(lián)機語料（corpus on line），采用基于統(tǒng)計的機器翻譯在技術上還不成熟，韋弗的這種方法在當時是難以付諸實現的。直到20世紀90年代現隨著計算機在速度和容量等方面大幅度的提高，再加上出現了大量的聯(lián)機語料可供統(tǒng)計使用，因此，基于統(tǒng)計的機器翻譯又興盛起來。

在韋弗思想的基礎上，IBM公司的P.布朗（Peter Brown，美國）等人提出了統(tǒng)計機器翻譯的數學模型。越來越多的互聯(lián)網和軟件公司都推出了基于統(tǒng)計的在線的機器翻譯系統(tǒng)。例如，谷歌的多語言在線機器翻譯系統(tǒng)Google Translate、百度的在線英漢機器翻譯系統(tǒng)。在線統(tǒng)計機器翻譯系統(tǒng)不僅直接推動了機器翻譯研究的發(fā)展，而且方便了人們的生活與學習，人類的語言障礙正在逐漸得到克服。這是信息時代自然語言處理研究的重大成果。機器翻譯研究的大量事實證明，在機器翻譯中，對語言的分析并非越精確越好。目前，人們更加傾向于通過擴大語言模型訓練數據規(guī)模進行機器深度學習的方法，從大規(guī)模真實的語料中獲取對于機器翻譯有用的語言知識，并適當地進行一些淺層的語言分析，把基于統(tǒng)計的機器翻譯與基于規(guī)則的機器翻譯結合起來，爭取得到最好的機器翻譯結果，而這種最好的機器翻譯結果，可以是全自動的，但卻不一定是高質量的，而只是具有較高參考性的譯文。除了統(tǒng)計機器翻譯之外，統(tǒng)計語言學的許多研究成果，對于通信技術、語言教學和自然語言處理也很有價值。在統(tǒng)計語言學的基礎之上，對于語言現象進行計量研究，探討語言本體的自組織、自適應的統(tǒng)計規(guī)律性，產生了一門新的學科，稱為計量語言學。

1946

免責聲明：本站詞條系由網友創(chuàng)建、編輯和維護，內容僅供參考。

以上內容均為商業(yè)內容展示，僅供參考，不具備專業(yè)問題解決服務，

如果您需要解決具體問題（尤其在法律、醫(yī)學等領域），建議您咨詢相關領域的專業(yè)人士。

如您發(fā)現詞條內容涉嫌侵權，請通過 948026894@qq.com 與我們聯(lián)系進行刪除處理！

上一篇：自然語言處理

下一篇：金朝

欧美性video,久久国产婷婷国产香蕉,国产精品黄视频,www.亚洲免费

統(tǒng)計語言學

熱門標簽