在線學(xué)習(xí)算法
順序地根據(jù)歷史數(shù)據(jù)和可用信息做出預(yù)測或者決策的過程。它是人工智能和機(jī)器學(xué)習(xí)的一個重要分支領(lǐng)域。
傳統(tǒng)機(jī)器學(xué)習(xí)(統(tǒng)計學(xué)習(xí))通常的工作方式是先獲得批量的訓(xùn)練數(shù)據(jù)并且離線地學(xué)習(xí)數(shù)據(jù)的有意義的模式,最后將學(xué)習(xí)到的模型固定不變地應(yīng)用于測試數(shù)據(jù)中。與之不同,在線學(xué)習(xí)過程中的數(shù)據(jù)是順序地提供的。在線學(xué)習(xí)的工作模式是循環(huán)往復(fù)地根據(jù)歷史數(shù)據(jù)和當(dāng)前可用信息做出預(yù)測或者決策,收集反饋數(shù)據(jù)(可能只有部分信息)以改善系統(tǒng)自身性能,并且獲得相應(yīng)獎勵或者承受相應(yīng)懲罰。簡而言之,傳統(tǒng)機(jī)器學(xué)習(xí)采取的是“先學(xué)習(xí)后使用”的工作模式,而在線學(xué)習(xí)則是采用“邊學(xué)習(xí)邊使用”的工作模式。
除了工作場景和模式不同外,它們的理論假設(shè)和學(xué)習(xí)目標(biāo)也有區(qū)別。統(tǒng)計學(xué)習(xí)一般假定數(shù)據(jù)是獨立同分布的,其目標(biāo)是使得學(xué)習(xí)到的模型與真實模型在該數(shù)據(jù)分布下的性能差距盡可能地小。但是在線學(xué)習(xí)一般并不對數(shù)據(jù)的分布做出假設(shè),數(shù)據(jù)序列可以是確定性的、隨機(jī)的、甚至是對抗性的。最大化學(xué)習(xí)過程中的累積收益或者最小化累積懲罰是在線學(xué)習(xí)的一個自然目標(biāo)。為了便于評價和分析在線學(xué)習(xí)算法的性能,人們提出了一個稱為悔(regret)的評價指標(biāo)。它被定義為在線學(xué)習(xí)算法的累積收益(或者累積懲罰)與一直選取一個最優(yōu)的模型(在某個假設(shè)空間中)所取得的累積收益(或者累積懲罰)之差。一個好的在線學(xué)習(xí)算法應(yīng)該是具有次線性的悔界,即隨著交互次數(shù)的增加,算法的性能逼近最優(yōu)模型的性能。
免責(zé)聲明:本站詞條系由網(wǎng)友創(chuàng)建、編輯和維護(hù),內(nèi)容僅供參考。
以上內(nèi)容均為商業(yè)內(nèi)容展示,僅供參考,不具備專業(yè)問題解決服務(wù),
如果您需要解決具體問題(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域的專業(yè)人士。
如您發(fā)現(xiàn)詞條內(nèi)容涉嫌侵權(quán),請通過 948026894@qq.com 與我們聯(lián)系進(jìn)行刪除處理!