牛逼哄哄的AlphaGo究竟是如何炼成的?

作者: 智通财经 2017-04-11 19:48:00
5月23日-5月27日,Google旗下的人工智能AlphaGo要来中国与顶级围棋选手柯洁决战了。既然AlphaGo已经这么厉害,那么还让它去和柯洁比赛有意义吗?这么厉害的AlphaGo究竟是如何炼成的?

编者按:5月23日-5月27日,Google旗下的人工智能AlphaGo要来中国与顶级围棋选手柯洁决战了。既然AlphaGo已经这么厉害,那么还让它去和柯洁比赛有意义吗?马云也对AlphaGo式的人工智能提出了十分尖锐的质疑:大家把AlphaGo说得天花乱坠,很恐怖的样子。我个人觉得,So TM What?

下文则道出了AlphaGo的厉害进程:“Aja学长(黄士杰)说他们每天都喂程序吃很多职业棋士的棋谱,那时我隐约觉得,只要程序吃的棋谱够多,一定能比人类还要强。”“它就像一台永动机,在拥有庞大计算能力的谷歌云端不停地练习,永不停歇。这意味着它很可能每一秒、每一天都在进步。”

AlphaGo的主人——来自谷歌的Deep Mind团队,是在“召唤恶魔”?还是在迎接人工智能的“新曙光”?

文章:《AlphaGo:曙光降临还是恶魔召唤?》

来源:南方周末

如果说,发生在2016年春天的人机大战给围棋界带来的是一次不小的震动。那么2017年新年,围棋界顶尖的人类棋手们算得上经历了一次“飞蛾扑火”般的悲壮。

一个代号为Master的神秘棋手先后现身著名对弈网站弈城和野狐,毫不留情地“踢了场子”,在30秒一手的快棋中,除陈耀烨因电脑意外掉线而未完成比赛,系统自动判为和棋,其余数十位中日韩围棋高手皆铩羽而归。最终Master以60场胜利的成绩完胜人类。

Master的主人一开始似乎也未曾料到会出现如此令人兴奋的战果。在越来越高的关注下,才公开承认这位注册ID的国籍上显示为韩国的勇士正是2016年惊艳亮相的AlphaGo(阿尔法狗)。

当时,AlphaGo以4∶1的战绩拿下韩国围棋顶尖高手李世石,技惊四座。而现在,它的成长速度开始令人恐惧。有业内人士甚至认为,李世石或许将是人类历史上唯一赢过AlphaGo的人类棋手。

“人工智能方面取得的成功将会是人类历史上最重要的事情。不幸的是,它也可能是最后一件。”向来对人工智能持以警惕的世界知名物理学家斯蒂芬·霍金不久前说。

所以,AlphaGo的主人——来自谷歌的Deep Mind团队,是在“召唤恶魔”吗?阿尔法狗到底是怎样炼成的?

“吃”棋谱的阿尔法狗

台湾围棋教育推广协会秘书长张晓茵关注到AlphaGo的时间可能比很多人都要早。

那是2015年,AlphaGo第一次向人类宣战,它以5∶0横扫三次斩获欧洲围棋冠军的职业二段棋手樊麾。樊麾生于中国西安,现任法国围棋队总教练。2016年底,在中国一档网络节目中,樊麾讲述了他第一次与AlphaGo比赛的感悟。樊麾当时并非没有取胜的机会,在第五盘中他本来占据一定优势,却因一个低级失误导致全败,樊麾说这是他最痛苦的一个记忆。

不过在当时,AlphaGo的第一次亮相并没有引起太多关注,至少在中国大陆,这条消息很快就被淹没在快速滚动更迭的门户新闻里。

但台湾业余五段棋手张晓茵对这则新闻印象深刻,她除了对AlphaGo战力如此之强感到意外,同时她也有一丝恐惧。更特别的原因是,这让她的脑海中立刻浮现出一个人的名字:她的学长黄士杰博士(Aja Huang)。此人正是后来坐在李世石对面代替AlphaGo落子的那位男子,也是AlphaGo的开发者——谷歌Deep Mind团队的核心人员。

黄士杰出生在台湾,是谷歌设计团队中最熟悉围棋的工程师。黄士杰的导师、台湾师范大学资讯工程系教授林顺喜曾对媒体透露,黄士杰原本在交通大学学计算机专业,2001年到师范大学,成为他的研究生。因为成绩优异,黄士杰毕业后先到加拿大当研究员,2012年到英国Deep Mind公司,成为两位首席设计师之一。

张晓茵与黄士杰相识于台湾师范大学,他们都是该校围棋社最早的一批社员。黄士杰在社里年纪最长,且因他的专业是资讯工程,有关计算机围棋(下称围棋AI)的知识都是由他向社里的学弟学妹传授。张晓茵对南方周末记者说,当时黄在学校里就设计了一个围棋AI程序,该程序还以他的妻子Erica命名。

张晓茵至今仍清楚地记得“吃棋谱”这个说法:“Aja学长说他们每天都喂程序吃很多职业棋士的棋谱,那时我隐约觉得,只要程序吃的棋谱够多,一定能比人类还要强。”

AlphaGo的训练模式之一就是尽可能多地“吃掉”人类棋手的棋谱。据有关报道,2015年10月阿尔法狗对阵樊麾时,“吃过”的棋谱是3000万个,但到了挑战世界棋坛16冠王李世石的时候,嚼进肚子里的棋谱已经达到1亿。

樊麾在回忆他与AlphaGo的比赛时说,在与机器对弈的时候,你所发出去的信息被原封不动地反射回来,但因为你知道和你比赛的是一台机器,所以你会对自己做出的选择逐渐产生越来越多的疑问,这就好比是“自己被赤裸裸地扒光摆在自己面前”。

“太强了。”柯洁的父亲对南方周末记者回忆,这是跻身当今世界围棋顶尖高手之列的柯洁在看到Master一路破关斩将之后的感叹。以至于柯洁发微博时都坦陈,“我虽然早就预计到AI迟早能战胜人类,但那也是十年后啊……”

在《体坛周报》棋牌首席记者谢锐看来,这样的感受绝不只是柯洁独有,“棋手们都懵了”。谁也没想到,围棋AI战胜人类的这一天,会来得这么快。

永不停歇地学习

张晓茵认为,在AlphaGo完成60连胜以前,人类棋手对围棋AI的忽略和轻视几乎到了病入膏肓的地步。

1997年,代号“深蓝”的计算机程序战胜了世界第一的国际象棋大师,却没有让在中国至少已有两千多年历史的围棋感到丝毫的威胁。

当然,在当时围棋界的自信并非盲目。这个号称人类智力终极堡垒的古老游戏,共有361个落子点(而国际象棋仅有64个),围棋每一颗棋子的下法可能性大概有2的360次方,比宇宙的原子数还要多。如此庞大繁多的可能,对计算机的算力、算法和分析是极大的挑战,它无法像对待象棋一样,通过蛮力计算而得出结果。

就连AlphaGo所在团队Deep Mind的创始人哈萨比斯(Demis Hassabis)都曾对媒体说,“写出围棋的评估函数是一件不可能的事情”。因为更多时候,围棋与棋手的一些类似于“直觉”的东西有关。这也是为何哈萨比斯要说,“围棋游戏更像是艺术,而非科学”。

Deep Mind公司是2014年1月谷歌收购的人工智能(AI)研究机构,总部位于伦敦。Deep Mind公司致力于构建基于神经网络和“深度学习”系统的强力泛用型的学习算法。

Deep Mind团队曾向媒体透露,之所以选择围棋作为攻关项目,是因为,“如果想研发出与‘人类相似’的,弹性智能的算法,以解决种种问题,就没有比游戏更好的测试工具了。计算机最早攻克的游戏是三目棋(Noughts and Crosses,井字棋),之后是西洋跳棋和国际象棋。围棋和国际象棋不同,博弈的空间更宽阔,变化更是繁多,而且很难判断棋子所处位置的价值,所以一直被认为是人工智能领域的最大挑战。所以Deep Mind团队的优先目标就是征服这一领域。”

为此,哈萨比斯和他的团队做的是,用一种叫做神经网络的研究方法,为程序注入像人类一样的深度学习的能力,即它可通过不断地练习,从而调整并学习掌握围棋的下法,这比起深蓝,与人类运用大脑解决问题的方式更加类似。

张晓茵对南方周末记者分析说,黄士杰博士和他的队友们在AlphaGo程序中应该加入了“策略网络(Policy Network)”和“值网络(Value Network)”的技术。所谓策略网络,是指程序在吃下上千万甚至过亿的棋谱后,能够分析出下一步棋在不同下法时得出的不同胜率。而值网络是对盘面优势的判断机制,以便及时止损和改变下法。

根据外媒报道,在练习时,Deep Mind团队让两台几乎没有区别的阿尔法狗对弈,即两方能力相当,但下棋的路数有别,最合适下法的一方将胜出。这样的原理,可将之理解为习武之人采取双手左右互搏的练功方法,不断地积累经验。“就是自己和自己下。”《成都商报》记者欧鹏认为。

英国《卫报》一则对Deep Mind创始人哈萨比斯的采访报道中写道,“哈萨比斯说阿尔法狗不休息,即便在圣诞节期间也没有。它就像一台永动机,在拥有庞大计算能力的谷歌云端不停地练习,永不停歇。这意味着它很可能每一秒、每一天都在进步。”

根据以下快棋闻名的中国知名职业棋手罗洗河的分析,Master其实下的都是最简单明了的棋,懂得规避复杂大型的定式。

这和谢锐的观察一致,“现在看来,局部对杀人类根本不是阿尔法狗的对手。人类棋手必须在棋局一开始就特别注重全局的布局,制造出大规模对决的局面”。谢锐以Master此次非正式测验为例,95后棋手普遍输得比较惨,而第54局Master碰到长于全局把控的聂卫平,反而赢得比较艰难。

危险的人工智能?

2016年1月27日,一篇有关AlphaGo的论文发表在《Nature》学术期刊上,张晓茵一眼就瞥见了作者一栏第二个就是黄士杰的名字。张晓茵迅速在脸书上联系学长黄士杰,向他探寻更多有关AlphaGo的信息。

当时,黄士杰回复师妹,很多事情仍需保密,要等到3月与李世石九段比赛后才能说。

至今为止,关于AlphaGo的信息少之又少。对外发布信息时对媒体、内容和时机的谨慎挑选,使整个团队沿袭了谷歌甚至同类科技公司惯有的一种神秘感。南方周末记者曾就AlphaGo的相关研发问题发邮件给Deep Mind团队,但未获对方回应。

但是,AlphaGo主要创始人之一哈萨比斯(Demis Hassabis)给外人的感觉却是再普通不过。多家海外媒体记者在报道AlphaGo时都特别提到,在该团队赢得世界瞩目和惊叹的时候,迎面走来的哈萨比斯是谦逊温和的形象。甚至于,他身上那容易让人误会是实习生的极为普通的上衣、裤子和鞋子,也会成为报道中的一抹亮色。反差之大,很难让观者将他与“象棋神童”“游戏设计大师”“名牌大学学霸”,以及仅他个人就拿到谷歌8000万英镑收入联系在一起。

哈萨比斯1976年出生在英国北伦敦,在别的孩子还在撒娇的年龄,他就展示出非凡的能力。哈萨比斯4岁学习国际象棋,13岁成为全世界排名第二的少年象棋大师。在象棋界誉满天下的同时“染指”视频游戏,8岁开始写电脑游戏,17岁就创造了第一款包含人工智能的游戏《主题公园》,后成立自己的视频游戏公司Elixir。

哈萨比斯做了这么多事情也没有落下学习,他20岁就获得了剑桥大学计算机科学两个一等荣誉学士学位。在游戏领域感到触及天花板时,他又重回学府,拿到伦敦大学学院的认知神经科学博士学位。

按照他自己的说法,无论是曾经尝试过的棋盘游戏、视频游戏、计算机编程还是现在纵身于人工智能,这些经历都有千丝万缕的联系。譬如在16到17岁着眼于开发视频游戏《主题公园》期间,他开始意识到人工智能可以多么强大。他将之称为“至关重要的具有里程碑式的经历”。而他身上与同代人相比少见的超强智力,将他在不同学科中累积的经验和经历,有意识地糅合在了一起。

当媒体问他创造出阿尔法狗的原因,他总是一次又一次有耐心地讲述团队组建的初衷:创造一个通用学习机器,“一套能像生物系统一样学习的灵活并且能自我适应的算法,仅仅凭借原始数据就能掌握任何任务”。

在阿尔法狗横空出世之后,关于人工智能把下围棋的人类逼入绝境的担忧开始不绝于耳。事实上,阿尔法狗对人类的辗轧,并没有打击到人们对围棋的热爱,反而掀起了“围棋热”。据统计,去年阿尔法狗与李世石的人机大战每局都有1亿左右的人观看,网络直播平台对比赛进行全方位直播。各大媒体均推出专题,对比赛进行跟踪报道。而中国国家围棋队的高手们也被各大网站“抢购一空”去进行解读。韩国棋院的负责人也对媒体证实,在去年人机大战以后,咨询观看围棋比赛,以及申请参加围棋段位赛的人数也有了明显增多。

不过,围棋从来都不是Deep Mind团队的终点,而是开始;通用人工智能才是终极目标,“通用”才是关键词。这也是为什么谦逊的哈萨比斯在阿尔法狗赢了李世石的时候会说,“阿尔法狗从来都不是我们的唯一,甚至不是我们最重要的研发。”正如他对The Verge (一个美国的科技新闻及媒体网络)的记者说的那样,“我们希望将此应用于更大的真实世界的问题。”

这正是学界对人工智能的担忧之处。斯蒂芬·霍金、比尔·盖茨、埃隆·马斯克这样大名鼎鼎的人物不止一次公开表达过对超级人工智能的恐慌。微软创始人比尔·盖茨曾公开表示,人工智能带给人们便利的生活之余终归存在威胁。硅谷狂人埃隆·马斯克在推特上说过,“我们需要十分小心人工智能,它可能比核武器更危险。”

哈萨比斯当然知道这些,在回答这些问题时,他会皱起眉头变得严肃。“我发现那些没有真正研究人工智能的人们并不完全理解这些。他们通常没有跟很多人工智能专家深入交谈。”

“我们距离那种能够达到人类级别的通用智能还得好几十年”,他公开自己的想法,并认为“吃瓜群众”对人工智能的危言耸听会阻碍极具潜力的近期受益,譬如医疗健康、智能手机助手等领域的革新。

客观来说,“吃瓜群众”很大程度上受到电影市场上各式脑洞清奇的科幻电影影响。比如在探讨人工智能伦理的电影《机械姬》中,女机器人意识觉醒,并最终报复杀死创造出她的人类“上帝”。

事实上,哈萨比斯的团队内部依然有专门的伦理委员会,用于管控通用人工智能技术的未来应用。当Deep Mind2014年被谷歌用四亿英镑收购时,双方协议中就有一项:“禁止将该技术应用于军事或情报用途。”

智通声明:本内容为作者独立观点,不代表智通财经立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。更多最新最全港美股资讯,请点击下载智通财经App
分享
微信
分享
QQ
分享
微博
收藏