在此前的版本中,博米围棋大师用到了“策略网络”来选择下一步棋的走法,以及使用“价值网络”来预测每一步棋后的赢家。而在新的版本中,这两个神经网络合二为一,从而让它能得到更高效的训练和评估。
博米围棋AI并不使用快速、随机的走子方法。在此前的版本中,博米围棋大师用的是快速走子方法,来预测哪个玩家会从当前的局面中赢得比赛。
相反,新版本依靠地是其高质量的神经网络来评估下棋的局势。
现在“博米围棋大师是通过两个不同神经网络“大脑”合作来改进下棋。
这些“大脑”是多层神经网络,跟那些图片搜索引擎识别图片在结构上是相似的。
刘光然和曹阳站在观察房里面看着对面的棋手们正在陷入痛苦的挣扎之中,在小黑屋里面,摆放着许多的显示器,上面正在演示着棋手和电脑的对弈局面。
曹阳看了一眼,表示自己看不明白,反正最后只要能看得出谁输谁赢就可以了。
“我们最开始的围棋AI算法,就是从神经网络和深度学习入手,然后通过往数据库当中输入大量的对弈局势,之后从这些对局当中进行学习,来找到更加适合的方法。”刘光然对曹阳说,“当时的这一套方案还是取得了不错的成绩的,至少能够下过一些职业二段和三段的选手。”
在做这个课题之前,其实刘光然自己也不下围棋,但是做完这个课题之后,刘光然不仅仅是一個AI专家,棋艺也是进步神速。
之前得到不少专业棋手的指导,甚至还拜过一个5段的职业选手为师。
后来刘光然发现,自己无论如何也下不过自己开发的AI的时候,他就陷入了深深的绝望之中,最近这段时间刘光然之所以这么快活,是因为他已经完全放弃了想要成为一名的想法。
原来刘光然在大学时代还是金庸武侠迷,特别是喜欢里面的珍珑棋局,现在觉得——
这一切都是他特么的瞎扯淡。
如果在这个世界上真的有什么能够超越人类的极限的话,刘光然丝毫不会怀疑,那就是人工智能。
从某种意义上来说,刘光然是幸福的。
因为他可以专注地做自己擅长的事情,而不用把时间浪费在不必要的遐想上面,明白了自己下围棋不可能超过电脑之后,反而整个内心都纯净了。
“而现在的博米围棋大师已经是摈弃了人类棋谱,只靠深度学习的方式成长起来挑战围棋的极限。”
“哎!?”
曹老板惊讶地回过头来,难以置信地看着刘光然。
这是个什么鬼啊?!
也就是说,你现在已经没有让它学习棋谱了?
那它怎么战胜那些职业棋手啊?!
我特么还想要让我们的围棋大师好好地战一战世界冠军,一战立威来着。
刘光然耐心地解释到,“我之前不是说了吗?我们改进的新方案,是让博米围棋大师有两个大脑。
它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。
第一大脑:落子选择器
博米围棋大师的第一个神经网络大脑是“监督学习的策略网络”,观察棋盘布局企图找到最佳的下一步。
事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。
第二大脑叫做,棋局评估器。博米围棋大师的第二个大脑相对于落子选择器是回答另一个问题,它不是去猜测具体下一步,而是在给定棋子位置情况下,预测每一个棋手赢棋的概率。
这“局面评估器”就是“价值网络”,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。
通过分析归类潜在的未来局面的“好”与“坏”,博米围棋大师能够决定是否通过特殊变种去深入阅读。
如果局面评估器说这个特殊变种不行,那么AI就跳过阅读。
这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以人们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。
博米围棋大师为了应对围棋的复杂性,结合了监督学习和强化学习的优势。
它通过训练形成一个策略网络,将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。
然后,训练出一个价值网络对自我对弈进行预测,以-1到1的标准,预测所有可行落子位置的结果。
这两个网络自身都十分强大,而博米围棋大师将这两种网络整合进基于概率的蒙特卡罗树搜索中,实现了它真正的优势。
新版的博米围棋大师产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。
在获取棋局信息后,博米围棋大师会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。
谷闟
在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为博米围棋大师的最终选择。
在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,博米围棋大师的搜索算法就能在其计算能力之上加入近似人类的直觉判断。”
“嗯……很好。”曹阳点点头,“我已经听懵了。”
妈耶,这人居然还真的想要教会我。
对不起,光然,我让你失望了。
虽然曹老板是清大计算机毕业的,不过他还是听懵了。
主要还是多年没有搞研究工作了,离开这个行业久了,难免就会有些退步。
刘光然:……
“呃……用人话说就是,我们没有让电脑学习怎么下围棋,但是呢,他会左右互搏,同时还能懂得无招胜有招的道理,就像是倚天屠龙记电影里面,张三丰教张无忌学太极拳,当他已经忘记所有的招式的时候,他就已经练成了这门神功了。”
“哦,原来如此。”
曹阳认真地点点头,我现在懂了。
……
这几年时间,对于这些参与博米围棋AI测试的职业选手们,可以说是经历了一个从天堂到地狱的过程。
最开始跟博米围棋大师下棋的时候,这个AI还显得非常的蠢,有时候经常死机,要不然就是突然抽风了乱下棋子。
有的时候被人家围了大龙,还在拼命地逃窜。
有的时候博米围棋大师特别执着于打劫。
按照他们之前的想法,觉得就博米研究出来的这个蠢东西也配叫人工智能?
还不如把钱花到其他地方,可能产生的收益更高。
但是,后来他们被光速打脸。
因为他们发现,自己所面临的对手,每天都在不停地进步和成长。
这种感觉是非常可怕的,而且成长的速度远远超过了人们的想象。
越到后来,博米围棋大师犯下的错误就越少。
然后本来可以100%赢棋的,已经开始有一些职业选手输给AI了,但是当时围棋界都不以为意,主要是之前博米围棋大师表现得实在是太蠢了。
后来这些职业选手们不由得不认真重视起来,每次对弈的时候都把对方看做一个真正的厉害的棋手。
渐渐收起了轻视之心。
可哪怕在这种情况下,随着时间的推进,也是日渐不敌。
到最近一段时间,10有9输,而这几天已经完全赢不了博米的围棋大师了。
更可怕的是,现在这些坐在小黑屋里面的5段棋手们,根本就看不懂博米围棋大师下棋的套路。
游戏时候,它随便走的一步棋,乍看之下特别奇怪,还以为又像之前那样是不是AI突然抽风了,结果当你追杀过去的时候,才发现已经落入了敌人的圈套。
以前跟博米围棋大师下棋的时候,这些职业棋手们要么就是大胜,要么就是大败,差距可以高达十几二十目的样子。
但是最近他们发现,博米围棋大师已经进化成了真正的,是属于那种完全在实力上碾压你,但是还要照顾到你的自尊心,最后只勉强赢你个一目半目的样子。
可你每次下棋,都有一种被捆住的感觉,这种感受非常难受。
面对一个讲的围棋大师。
他们有时候甚至希望它不要那么讲武德更好一点,就不会给你一些虚无缥缈的希望,然后在下一次的对局当中继续靠着赢个半目羞辱你。
……
曹阳默默观察着,看了看显示屏上面的对战情况,然后再看看在小黑屋里面的选手们的脸上表情变化。
其实主要是看他们的表情变化,毕竟曹阳不懂围棋。
从他们脸上的艰难的,不时皱起的眉头,就能看出来,现在的博米围棋大师确实已经到达了一个相当厉害的水平。