統(tǒng)計(jì)語(yǔ)言學(xué)
傳統(tǒng)的統(tǒng)計(jì)語(yǔ)言學(xué)研究領(lǐng)域主要包括幾個(gè)方面:①統(tǒng)計(jì)語(yǔ)言單位的出現(xiàn)頻率,如對(duì)詞匯和音位、語(yǔ)素出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì)研究。②統(tǒng)計(jì)作家的用詞頻率、詞長(zhǎng)分布和句長(zhǎng)分布,以了解作家運(yùn)用語(yǔ)言的風(fēng)格;用這種方法還可判定匿名文章的作者。③計(jì)算語(yǔ)言存在的絕對(duì)年代以及親屬語(yǔ)言從共同原始語(yǔ)分化出來(lái)的年代,這方面的研究稱語(yǔ)言年代學(xué),又稱詞源統(tǒng)計(jì)分析法。此外,還可對(duì)親屬語(yǔ)言的語(yǔ)法、語(yǔ)音體系進(jìn)行統(tǒng)計(jì)、比較。④采用信息論方法研究語(yǔ)言的熵和羨余度。語(yǔ)言的熵指在交際過(guò)程中語(yǔ)言符號(hào)出現(xiàn)的不定度,其大小與語(yǔ)言的熵的高低一致。當(dāng)語(yǔ)言的接收者收到語(yǔ)言符號(hào)后,不定度被消除,熵等于零,因而在交際過(guò)程中,語(yǔ)言接收者所得到的信息量等于被消除的熵。語(yǔ)言羨余度是指語(yǔ)言中超過(guò)傳遞最少需要量的信息量的比例,在一般情況下,為了保證對(duì)方能夠理解,會(huì)提供比實(shí)際需要更多的信息量,因此,不論在書面語(yǔ)還是口語(yǔ)中,語(yǔ)言都有羨余度。⑤探討語(yǔ)言的一般統(tǒng)計(jì)規(guī)律。例如,在按頻率遞減順序排列的頻率詞典中,詞的序號(hào)越大,詞的頻率越小,序號(hào)與頻率之間的關(guān)系可以用數(shù)學(xué)公式描述為一定的統(tǒng)計(jì)規(guī)律——齊夫定律。⑥運(yùn)用隨機(jī)過(guò)程論研究語(yǔ)言,把語(yǔ)言看成彼此聯(lián)系的字母序列,前一個(gè)字母決定后一個(gè)字母的出現(xiàn),于是形成一條字母鏈,稱為“馬爾可夫鏈”。⑦研究文章中兩個(gè)詞之間、兩個(gè)語(yǔ)法范疇之間、兩個(gè)語(yǔ)義類型之間或兩個(gè)句法類型之間的間距,以揭示文章在句法或語(yǔ)義上的特征。⑧研究語(yǔ)言的詞匯與文章長(zhǎng)度的關(guān)系,以揭示文章中詞匯的豐富程度和差異程度。
統(tǒng)計(jì)語(yǔ)言學(xué)在數(shù)理語(yǔ)言學(xué)中有比較悠久的歷史。古印度語(yǔ)法學(xué)家在研究《吠陀》時(shí)進(jìn)行過(guò)單詞和音節(jié)數(shù)目的統(tǒng)計(jì)。1851年,英國(guó)數(shù)學(xué)家A.de摩根(A. de Morgen)曾把詞長(zhǎng)作為文章風(fēng)格的一個(gè)特征而加以統(tǒng)計(jì)研究。英國(guó)的L.坎貝爾(L. Campbell)于1867年、德國(guó)的W.迪丁貝爾格(W. Ditingberg)于1881年都曾采用統(tǒng)計(jì)方法確定柏拉圖著作的寫作時(shí)期。1887年,美國(guó)的T.C.門登霍爾(T. C. Mendenhauer)對(duì)英國(guó)文學(xué)作品、特別是莎士比亞的作品進(jìn)行過(guò)統(tǒng)計(jì)分析。1913年,俄羅斯的A.A.馬爾可夫(A. A. Markov)研究了俄語(yǔ)中字母序列的生成問(wèn)題,提出了馬爾可夫隨機(jī)過(guò)程論。1935年,美國(guó)G.K.齊夫發(fā)表了齊夫定律。1944年,英國(guó)數(shù)學(xué)家G.U.尤勒(G. U. Yule)在《文學(xué)詞語(yǔ)的統(tǒng)計(jì)分析》一書中廣泛使用概率和統(tǒng)計(jì)方法研究語(yǔ)言。1950年,美國(guó)的M.斯瓦迪士(M. Swadesh)進(jìn)行了語(yǔ)言年代學(xué)的研究。1951年,美國(guó)數(shù)學(xué)家C.E.香農(nóng)(Claude Elwood Shannon,1916~2001)采用信息論的方法研究書面英語(yǔ)中的熵和羨余度,美國(guó)的V.英格維(V. Yngve)對(duì)句法現(xiàn)象進(jìn)行了間距分析。1954年,法國(guó)的P.基羅(P. Guiraud)根據(jù)文章中詞的頻率分布提出了詞匯豐富度的概念。1956年,英國(guó)的G.赫丹(G. Herdan)出版了《語(yǔ)言是選擇和機(jī)遇》一書,系統(tǒng)總結(jié)了統(tǒng)計(jì)語(yǔ)言學(xué)的研究成果。幾十年來(lái),在語(yǔ)言統(tǒng)計(jì)中日益廣泛地使用計(jì)算機(jī),逐漸改變了傳統(tǒng)的手工查頻的統(tǒng)計(jì)辦法,提高了統(tǒng)計(jì)的效率和精度。
統(tǒng)計(jì)語(yǔ)言學(xué)大致可分為語(yǔ)音統(tǒng)計(jì)學(xué)、詞匯統(tǒng)計(jì)學(xué)、語(yǔ)法統(tǒng)計(jì)學(xué)和語(yǔ)義統(tǒng)計(jì)學(xué),分別研究語(yǔ)言的語(yǔ)音、詞匯、語(yǔ)法和語(yǔ)義的統(tǒng)計(jì)特征。從描寫的角度出發(fā),詞匯統(tǒng)計(jì)學(xué)又可以分為年代統(tǒng)計(jì)學(xué)、風(fēng)格統(tǒng)計(jì)學(xué)和分類統(tǒng)計(jì)學(xué)三個(gè)分支,分別根據(jù)時(shí)代的變化、作者寫作風(fēng)格的不同和語(yǔ)言的類屬或起源對(duì)詞匯特征進(jìn)行統(tǒng)計(jì)分析。 語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展使統(tǒng)計(jì)語(yǔ)言學(xué)得到了的重視。學(xué)者們采用統(tǒng)計(jì)方法從大規(guī)模真實(shí)文本語(yǔ)料庫(kù)中獲取語(yǔ)言知識(shí),使用隱馬爾可夫模型、噪聲信道理論等從統(tǒng)計(jì)的角度研究語(yǔ)言,統(tǒng)計(jì)語(yǔ)言學(xué)得到進(jìn)一步的發(fā)展和應(yīng)用。 早在1947年,美國(guó)的W.韋弗在他的以《翻譯》為題的備忘錄中,提出了使用解讀密碼的方法來(lái)進(jìn)行機(jī)器翻譯,這種所謂“解讀密碼”的方法實(shí)質(zhì)上就是一種統(tǒng)計(jì)的方法,他是想用基于統(tǒng)計(jì)的方法來(lái)解決機(jī)器翻譯問(wèn)題。但是,由于當(dāng)時(shí)缺乏高性能的計(jì)算機(jī)和聯(lián)機(jī)語(yǔ)料(corpus on line),采用基于統(tǒng)計(jì)的機(jī)器翻譯在技術(shù)上還不成熟,韋弗的這種方法在當(dāng)時(shí)是難以付諸實(shí)現(xiàn)的。直到20世紀(jì)90年代現(xiàn)隨著計(jì)算機(jī)在速度和容量等方面大幅度的提高,再加上出現(xiàn)了大量的聯(lián)機(jī)語(yǔ)料可供統(tǒng)計(jì)使用,因此,基于統(tǒng)計(jì)的機(jī)器翻譯又興盛起來(lái)。
在韋弗思想的基礎(chǔ)上,IBM公司的P.布朗(Peter Brown,美國(guó))等人提出了統(tǒng)計(jì)機(jī)器翻譯的數(shù)學(xué)模型。越來(lái)越多的互聯(lián)網(wǎng)和軟件公司都推出了基于統(tǒng)計(jì)的在線的機(jī)器翻譯系統(tǒng)。例如,谷歌的多語(yǔ)言在線機(jī)器翻譯系統(tǒng)Google Translate、百度的在線英漢機(jī)器翻譯系統(tǒng)。在線統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)不僅直接推動(dòng)了機(jī)器翻譯研究的發(fā)展,而且方便了人們的生活與學(xué)習(xí),人類的語(yǔ)言障礙正在逐漸得到克服。這是信息時(shí)代自然語(yǔ)言處理研究的重大成果。 機(jī)器翻譯研究的大量事實(shí)證明,在機(jī)器翻譯中,對(duì)語(yǔ)言的分析并非越精確越好。目前,人們更加傾向于通過(guò)擴(kuò)大語(yǔ)言模型訓(xùn)練數(shù)據(jù)規(guī)模進(jìn)行機(jī)器深度學(xué)習(xí)的方法,從大規(guī)模真實(shí)的語(yǔ)料中獲取對(duì)于機(jī)器翻譯有用的語(yǔ)言知識(shí),并適當(dāng)?shù)剡M(jìn)行一些淺層的語(yǔ)言分析,把基于統(tǒng)計(jì)的機(jī)器翻譯與基于規(guī)則的機(jī)器翻譯結(jié)合起來(lái),爭(zhēng)取得到最好的機(jī)器翻譯結(jié)果,而這種最好的機(jī)器翻譯結(jié)果,可以是全自動(dòng)的,但卻不一定是高質(zhì)量的,而只是具有較高參考性的譯文。 除了統(tǒng)計(jì)機(jī)器翻譯之外,統(tǒng)計(jì)語(yǔ)言學(xué)的許多研究成果,對(duì)于通信技術(shù)、語(yǔ)言教學(xué)和自然語(yǔ)言處理也很有價(jià)值。在統(tǒng)計(jì)語(yǔ)言學(xué)的基礎(chǔ)之上,對(duì)于語(yǔ)言現(xiàn)象進(jìn)行計(jì)量研究,探討語(yǔ)言本體的自組織、自適應(yīng)的統(tǒng)計(jì)規(guī)律性,產(chǎn)生了一門新的學(xué)科,稱為計(jì)量語(yǔ)言學(xué)。
免責(zé)聲明:本站詞條系由網(wǎng)友創(chuàng)建、編輯和維護(hù),內(nèi)容僅供參考。
以上內(nèi)容均為商業(yè)內(nèi)容展示,僅供參考,不具備專業(yè)問(wèn)題解決服務(wù),
如果您需要解決具體問(wèn)題(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域的專業(yè)人士。
如您發(fā)現(xiàn)詞條內(nèi)容涉嫌侵權(quán),請(qǐng)通過(guò) 948026894@qq.com 與我們聯(lián)系進(jìn)行刪除處理!