AlphaGo Zero论文解析

发表于 2018-02-12 | 分类于强化学习

摘要

人工智能的长远目标之一就是研发出一种能够从白板开始学习，并逐渐进化成拥有超常能力的算法。目前，AlphaGo成为了第一个打败围棋世界冠军的程序。AlphaGo的核心是使用深度网络在蒙特卡罗树搜索过程中进行棋盘局势判断和走棋选择决策。这些深度网络使用监督学习的方法从人类专家棋谱中进行训练，使用强化学习的方法从自我对弈的过程中进行训练。本文介绍一种只使用强化学习的训练算法，除了需要基本的围棋规则以外，不需要人类围棋数据、指导和领域知识。本文使用强化学习得到的深度网络能够同时进行棋盘局势判断预测获胜者，以及走棋选择决策。这个深度网络能够提高树搜索的优势，使得在下一次迭代时，保证更高质量的走棋选择，以及更强的自我对弈。AlphaGo Zero从白板开始学习，能够达到超常的能力，并在实践中，以100：0的绝对优势战胜了此前发布的、打败欧洲围棋世界冠军的AlphaGo。

阅读全文 »

Alpha Go论文解析

发表于 2018-02-10 | 分类于强化学习

摘要

围棋游戏的挑战在于庞大的搜索空间、评估棋面局势和选择走子的困难。作者提出一种使用“价值网络”来评估棋面局势，使用“策略网络”来选择走子的方法。这些深度网络是通过结合人类专业围棋比赛的监督学习方法，以及自我对弈的强化学习方法进行训练的。作者还提出一种结合深度网络和蒙特卡罗搜索树的新方法。

阅读全文 »

K-means和混合高斯模型

发表于 2018-01-12 | 分类于机器学习

　　本文主要的内容包括：无监督学习中的K均值(k-means)聚类算法、混合高斯分布模型(Mixture of Gaussians, MoG)、求解MoG模型的期望最大化(EM)算法，以及EM一般化形式。

阅读全文 »

Spectral Clustering

发表于 2017-12-03 | 分类于机器学习

　阅读 A tutorial on spectral clustering 论文总结。

Gradient Boosting Machine

发表于 2017-12-02 | 分类于机器学习

　　阅读Gradient Boosting Machine核心论文总结。

Linux内存管理之copy_page_tables源码理解

发表于 2017-11-25 | 分类于操作系统

　　本文对Linux内存管理中的copy_page_tables源码进行理解。Linus认为下面copy_page_tables函数是内存管理部分最难的之一。这个函数在父进程创建子进程的过程中使用，父进程要负责设置子进程的代码段、数据段(线性空间)，然后为子进程拥有的线性地址空间创建对应的页目录项和页表，使得子进程能够进行内存寻址。copy_page_tables的工作就是通过复制父进程的页表来创建子进程的页表，并设置相应的页目录项。

阅读全文 »