马尔可夫决策过程(MDP ,Markov Decision Processes) 是强 化学习的数学模型,因此,通常顺序型任务中的强化学 习问题可以通过马尔可夫决策过程建模 [5]...
基于282个网页-相关网页
其实这是 一个典型的马尔科夫决策过程(Markov decision process,MDP)。 马尔科夫决策过程(Markov decision process,MDP):Agent 可感知到其环 境的不同状态集合,并且有它可执行的动作集合。
基于78个网页-相关网页
在最后,我们对马尔科夫决策过程(MarKOv Decision Process)进行一个简单的介绍,这一过程是所有增强学习的基础,并且人们认为,一切增强学习的问题都可以转化为一个马尔科夫决策过程。
基于26个网页-相关网页
...一个Agent(通常是一个机器人)选择菜个动作来改变状态,那么决策问题可以描述为一个Markov决策过程(Markov Decision Process,MDP)。MDP的优点在于可以采用决策论在行动不确定上进行量化决策。
基于12个网页-相关网页
Partially Observable Markov Decision Process 马尔可夫决策过程 ; 部分可观测马尔可夫决策过程 ; 夫决策过程 ; 夫判决过程
Semi-Markov Decision Process 半马尔可夫决策过程 ; 半Markov决策过程
Partial Observable Markov Decision Process 部分可观测的马尔 ; 部分可观测马氏决策过程
partial observation Markov decision process 部份观察马可夫决定程序
markov decision process mdp 马尔科夫决策过程
mdp markov decision process 马尔可夫决策过程
factored markov decision process 可分解马尔可夫决策过程
Bayesian Markov decision process 贝叶斯马尔可夫决策过程
discrete-time Markov decision process 离散时间马氏决策过程
When combined with the Markov decision process, it provides a new formalization suitable for multi-agent system. That is stochastic game concerning the interactive learning system of multi-agent.
对策论与马尔可夫决策过程相结合便构建了一个用于研究交互式多agent学习的理论框架——随机对策。
参考来源 - 结合围捕问题的合作多智能体强化学习研究By using of Markov Decision Process, the finite horizon inventory, pricing and capacity expansion problem is discussed, and the optimal strategy of which is obtained.
建立了马氏决策过程模型,首先对有限阶段问题进行了研究,得到了其最优策略。
参考来源 - 随机环境下的若干定价问题研究·2,447,543篇论文数据,部分数据来源于NoteExpress
以上来源于: WordNet
The scheme is formulated by Constrained Markov Decision Process (CMDP), which is solved by Linearly Programming (LP).
该方案被建模为约束马尔可夫决策过程(CMDP),并采用线性规划(LP)求解此CMDP。
The optimal model of inspection and maintenance for the deteriorating system is presented with the semi-Markov decision process.
提出了一类基于半马氏决策过程的劣化失效系统检测与维修优化模型。
Reinforcement learning based on Markov decision process is a way of on-line learning, which can be applied to single agent environment.
基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中。
应用推荐