當(dāng)前位置: 首頁 > 工業(yè)控制產(chǎn)品 > 運動控制 > 工業(yè)機器人 > 直角坐標(biāo)型工業(yè)機器人
發(fā)布日期:2022-04-18 點擊率:67
近兩年機器智能取得重大突破,像圍棋九段高手李世石敗北Alpha Go,DeepMind團隊研發(fā)的機器人在Atari多項游戲上超越人類水平。這些突破主要得益于從基于深度學(xué)習(xí)的視覺、語音、語義感知到動作反饋的激勵懲罰強化訓(xùn)練模式。本文從概念上分析深度強化學(xué)習(xí)的要點,部分摘于ICML 2016 Tutorial里的Deep Reinforcement Learning[1]的報告。
強化學(xué)習(xí),即機器人根據(jù)環(huán)境里動作得到的懲罰和激勵去自動調(diào)整策略。通過訓(xùn)練,機器人學(xué)到一組策略:在環(huán)境狀態(tài)S下應(yīng)采取動作A,(可)能獲得最大累積獎勵V。

強化學(xué)習(xí)有豐富的交叉學(xué)科背景,包括經(jīng)濟學(xué)、工程學(xué)、神經(jīng)科學(xué)里的博弈論、優(yōu)化控制,條件反射系統(tǒng)。

下一篇: PLC、DCS、FCS三大控
上一篇: 索爾維全系列Solef?PV