- 熱門文章
- 隨機文章
什么是加強學(xué)習(xí)
強化學(xué)習(xí)(Reinforcement Learning, RL),又稱再勵學(xué)習(xí)、評價學(xué)習(xí)或增強學(xué)習(xí),是機器學(xué)習(xí)的范式和方**之一,用于描述和解決智能體(agent)在與環(huán)境的交互過程中通過學(xué)習(xí)策略以達成回報最大化或?qū)崿F(xiàn)特定目標(biāo)的問題。強化學(xué)習(xí)的常見模型是標(biāo)準(zhǔn)的馬爾可夫決策過程(Markov Decision Process, MDP)。
按給定條件,強化學(xué)習(xí)可分為基于模式的強化學(xué)習(xí)(model-based RL)和無模式強化學(xué)習(xí)(model-free RL),以及主動強化學(xué)習(xí)(active RL)和被動強化學(xué)習(xí)(passive RL)。
強化學(xué)習(xí)的變體包括逆向強化學(xué)習(xí)、階層強化學(xué)習(xí)和部分可觀測系統(tǒng)的強化學(xué)習(xí)。求解強化學(xué)習(xí)問題所使用的算法可分為策略搜索算法和值函數(shù)(value function)算法兩類。
深度學(xué)習(xí)模型可以在強化學(xué)習(xí)中得到使用,形成深度強化學(xué)習(xí)。強化學(xué)習(xí)理論受到行為主義心理學(xué)啟發(fā),側(cè)重在線學(xué)習(xí)并試圖在探索-利用(exploration-exploitation)間保持平衡。
不同于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),強化學(xué)習(xí)不要求預(yù)先給定任何數(shù)據(jù),而是通過接收環(huán)境對動作的獎勵(反饋)獲得學(xué)習(xí)信息并更新模型參數(shù)。強化學(xué)習(xí)問題在信息論、博弈論、自動控制等領(lǐng)域有得到討論,被用于解釋有限理性條件下的平衡態(tài)、設(shè)計推薦系統(tǒng)和機器人交互系統(tǒng)。一些復(fù)雜的強化學(xué)習(xí)算法在一定程度上具備解決復(fù)雜問題的通用智能,可以在圍棋和電子游戲中達到人類水平。
其他文章
- 張國榮感情語錄
- 烏當(dāng)中學(xué)怎么樣
- 黃家駒的AMANI是什么意思
- yu是聲母韻母還是整體認(rèn)讀
- 什么是農(nóng)業(yè)示范園
- 嘉睿的意思 佳睿的意思 晟睿的意思
- 雄姿英發(fā)是什么意思
- 怎么仿寫詩歌
- 短時評怎么寫
- 廁所里的搞笑詩
- 陌上初熏 是什么意思
- 什么叫戲歌
- 成語成語什么化雨
- 青島大學(xué)膠州校區(qū)介紹
- or的中文是什么意思
- 關(guān)于童年的詩
- Hanson或Hansen做英文名怎樣
- 引吭高歌讀音
- 餃子的來歷和由來
- 相的組詞有哪些詞語
- 烏衣巷的解釋
- 用 勤 組成的詞語有哪些
- 阜陽市城郊中學(xué)怎么樣
- 去海邊穿什么鞋兒童
- 十九繁體
- 硫酸霧化學(xué)式
- 你們知道味字可以組什么詞嗎
- 美人魚怎么畫
- 艾子教孫 文言文翻譯
- 黑龍江財經(jīng)大學(xué)怎么樣