围棋是一种古老的桌面游戏,也是公认的最需要人类智慧的一种游戏。在计算机技术突飞猛进的时代,当其他棋类游戏相继被计算机攻陷时,它一直默默地捍卫着人类作为一种高智能生物的尊严。几个月前,谷歌的子公司DeepMind公开了一套围棋AI程序AlphaGO,以4:1的成绩打败了世界冠军李世乭,从而使计算机第一次在围棋这个项目中战胜了人类 。那么AlphaGO的背后到底应用了什么样的高深技术呢?
本周三(2016年6月22日)下午13:30,我院教师丁濛博士为全校师生做了题为“Key Techniques in AlphaGO”的技术报告。报告首先对棋类博弈的框架做一个简单地回顾,指出其中的关键以及难点问题以及为什么计算机一直不能在围棋项目战胜人类的原因。然后,报告介绍了AlphaGO在技术领域内的主要贡献。随后,丁濛老师重点解释了AlphaGO取得成功的重要原因,即创造性地利用了卷积神经网络(Convolutional Neural Networks)得到对于围棋的评价函数(Value Network)以及走子策略产生器(Policy Network),详细介绍了有关卷积神经网络的结构、含义、训练方法以及应用背景,并与参会师生就CNN的有关问题进行了交流 。在讨论完该问题后,丁濛老师继续讲解了AlphaGO是如何将这两种网络融入到了计算机博弈中常用的蒙特卡洛搜索技术中,即所谓的基于策略网络与值网络的异步蒙特卡洛搜索算法(Asynchronous Policy and Value-MCTS)。
学术报告讨论热烈,体现了计算机学院老师良好学术素养和敬业精神!
(计算机学院 供稿)
Copyright © 北京信息科技大学
京公网安备:110402430033号