如今智能科学快速发展,伴随着 Alpha Go/Zero 取得的成果,强化学习(Reinforcement Learning RL)的声望渐渐增强,这是一种能自主地进行动态选择,达到获取最优执行选择(选取最优解)的目的,使得最终回馈的奖励总值达到最大的学习方法。在强化学习的运行环境中,需求一种动态的不定单元,在使用这种动态单元的前提条件下,才能在整个环境模式中进行试验并发现正确的执行选择。蒙特卡洛树的搜索算法中,对问题的多次模拟以及基于模拟结果对最佳下一步的预测可用于强化学习算法。本文基于机器强化学习与蒙特卡洛树的基本原理,浅谈了关于将两者结合运用于人工智能领域的理论