百科創建
12.9K
4104

自然語言處理

自然語言與人工(或人造)語言不同,前者是人類社會中自然形成的語言,人們借助其進行各種交際活動,如漢語、英語、俄語等;后者是通過人工設計創造出來的語言,如國際輔助語和計算機語言。自然語言是人類歷史長期發展而約定俗成的產物,比人工語言要復雜得多。 自然語言與人工語言有以下不同:①自然語言中充滿著歧義,而人工語言中的歧義則是可以控制的。②自然語言的結構復雜多樣,而人工語言的結構則相對簡單。③自然語言的語義表達千變萬化,迄今還沒有一種簡單而通用的途徑來描述它,而人工語言的語義則可以由人來直接定義。④自然語言的結構和語義之間有著千絲萬縷的、錯綜復雜的聯系,一般不存在一一對應的同構關系,而人工語言則常常可以把結構和語義分別進行處理,人工語言的結構和語義之間有著整齊的一一對應的同構關系。

由于自然語言的這些獨特性質,使得自然語言處理成為人工智能的一大難題。自然語言處理一般應經過四個方面的過程:①把需要研究的問題在語言學上加以形式化,建立語言的形式化模型,使之能以一定的數學形式,嚴密而規整地表示出來,這個過程可以叫作“形式化”。②把這種嚴密而規整的數學形式表示為算法,這個過程可以叫作“算法化”。③根據算法編寫計算機程序,使之在計算機上加以實現,建立各種實用的自然語言處理系統,這個過程可以叫作“程序化”。④對于所建立的自然語言處理系統進行評測,使之不斷地改進質量和性能,以滿足用戶的要求,這個過程可以叫作“實用化”。

為了研究自然語言處理,不僅要有語言學方面的知識,而且還要有數學和計算機科學方面的知識,因此自然語言處理就成了一門界乎語言學、數學和計算機科學之間的邊緣性的交叉學科,它同時涉及文科、理科和工科三大領域。 自然語言處理的目的在于建立各種自然語言處理系統,如機器翻譯系統、自然語言理解系統、信息自動檢索系統、信息自動抽取系統、文本信息挖掘系統、術語數據庫系統、計算機輔助教學系統、語音自動識別系統、語音自動合成系統、文字自動識別系統等。 自然語言理解是自然語言處理的核心,其中包括語音和語符的自動識別以及語音的自動合成。語言之間的自動翻譯是一種高級的人工智能,涉及兩種或多種自然語言的理解和處理問題。上述項目都還處于研究實驗或初步應用的階段。自然語言處理中智能較低的工作,如語料的統計、分類、檢索等,早已付諸應用。

在自然語言處理的領域內,計算語言學工作者所研究的只是它的一般理論和方法,以及與語文信息加工有關的基礎性工作。隨著計算機科學和語言學的發展,自然語言處理的條件將逐步改善,它的技術將逐步提高,同時,它所起的作用也會越來越大。 2018年后,自然語言處理進入了大語言模型(large language model,簡稱LLM)階段,基本形成了一套近乎完備的技術體系,包括詞嵌入、編碼器-解碼器的端對端語言模型、注意力機制、Transformer模型以及BERT預訓練模型等。這一套技術體系有力地促進了自然語言處理在信息搜索、閱讀理解、機器翻譯、文本分類、智能問答、智能對話、網絡聊天、信息抽取、自動文摘、文本生成等重要領域的應用,預示著自然語言處理將要開啟大規模工業化實施的時代。

4104

免責聲明:本站詞條系由網友創建、編輯和維護,內容僅供參考。

以上內容均為商業內容展示,僅供參考,不具備專業問題解決服務,

如果您需要解決具體問題(尤其在法律、醫學等領域),建議您咨詢相關領域的專業人士。

如您發現詞條內容涉嫌侵權,請通過 948026894@qq.com 與我們聯系進行刪除處理!

上一篇:月掩火星
下一篇:統計語言學
一秒推
主站蜘蛛池模板: 97热久久免费频精品99| 亚洲国产成人精品青青草原| 一个人免费视频观看在线www | 奇米影视7777狠狠狠狠色| 又粗又硬又黄又爽的免费视频| 中文字幕热久久久久久久| 色www永久免费视频| 成成人看片在线| 成人免费观看网欧美片| 台湾佬中文娱乐11| 久久免费视频网站| 色播亚洲视频在线观看| 护士的护士服被扒了下来小说| 国产00粉嫩馒头一线天萌白酱| 久久精品国产99国产精偷| 青青国产成人久久激情911| 日本乱子伦xxxx| 国产午夜a理论毛片在线影院| 久久久老熟女一区二区三区| 色www永久免费| 永久在线观看www免费视频| 国产高清一级片| 人妖视频在线观看专区| 97色伦图片97综合影院| 欧美国产精品va在线观看| 国产成人欧美视频在线| 久久九九久精品国产| 美国美女一级毛片免费全| 天天躁天天狠天天透| 亚洲明星合成图综合区在线| 欧美亚洲国产激情一区二区| 日本强伦姧人妻一区二区| 向日葵视频app免费下载 | 欧美一级视频在线观看欧美| 国产萌白酱在线一区二区| 亚洲sss视频| 色综合免费视频| 无码高潮少妇毛多水多水免费 | 无人视频免费观看免费视频| 国产亚洲美女精品久久久久| 中文乱码精品一区二区三区|