阿尔法狗再进化,是怎么做到的
2024-07-18 11:37:32作者:饭克斯
当人们还在赞叹今年5月的阿尔法狗之时,一切都发生了改变,AlphaGo再次登上世界顶级科学杂志——《自然》。原来在伦敦当地时间10月18日,DeepMind团队公布了最强版AlphaGo,代号AlphaGoZero。
据说这AlphaGoZero以100:0压倒性的优势战胜了原始的AlphaGo,与原始的它不同,这次它的独门秘籍,是“自学成才”。完全由自己学习,零基础学习,在短短3天内,成为顶级高手。
AlphaGo此前的版本,结合了数百万人类围棋专家的棋谱,以及强化学习的监督学习进行了自我训练。经过了好几个月的训练,依靠的是多台机器和48个TPU,AlphaGoZero的能力则在这个基础上有了质的提升,它不再需要人类数据,而且只用到了一台机器和4个TPU,极大地节省了资源。
Zero的成功主要得益于更新后的神经网络和搜索算法重组,随着训练地加深,系统的表现一点一点地在进步。自我博弈的成绩也越来越好,同时神经网络也变得更准确。所以轻松战胜了原始的阿尔法狗。
展开全文