科技行者

行者學院 轉型私董會 科技行者專題報道 網紅大戰科技行者

知識庫

知識庫 安全導航

知識庫分類索引
技術分類
廠商分類

強化學習

強化學習是機器學習中的一個領域,強調如何基于環境而行動,以取得最大化的預期利益。其靈感來源于心理學中的行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。這個方法具有普適性,因此在其他許多領域都有研究,例如博弈論、控制論、運籌學、信息論、仿真優化、多主體系統學習、群體智能、統計學以及遺傳算法。在運籌學和控制理論研究的語境下,強化學習被稱作“近似動態規劃”(approximate dynamic programming,ADP)。在最優控制理論中也有研究這個問題,雖然大部分的研究是關于最優解的存在和特性,并非是學習或者近似方面。在經濟學和博弈論中,強化學習被用來解釋在有限理性的條件下如何出現平衡。

相關新聞
    暫無相關新聞
強化學習相關廠商
暫無相關廠商

分隔

福彩开机号今天