瑞银预测德国赢,高盛“赌”巴西,谁才是世界杯预测之王?

计算
瑞银预测德国赢,高盛“赌”巴西,谁才是世界杯预测之王?
麻省理工科技评论 2018年6月14日

2018年6月14日

世界杯预测之所以困难的最大原因:情况差异大,推论易有偏差。
人工智能
世界杯预测之所以困难的最大原因:情况差异大,推论易有偏差。

人类天生对于未来可能会发生的事一直有很浓厚的兴趣,古代有夜观天象的预言家,当代则有各式各样的预测方式如统计分析、大数据、人工智能,最近全球最火的预测莫过于在俄罗斯开打的 2018 FIFA 世界杯足球比赛,哪个国家会踢进前四强,谁又能夺下本届冠军?球迷、预测或分析机构也各有拥护者,德国、巴西、法国、西班牙都是被点名最有机会夺冠的国家。

知名投资银行瑞银(UBS)使用评估投资机会的计量经济学工具,预测本届世界杯冠军,发现有 3 支强队最有机会拿到冠军,分别是德国、巴西和西班牙,其中又以德国队胜率 24% 最高,领先巴西的 19.8%、西班牙的 16.1%。

而高盛集团(Goldman Sachs)则强调运用 AI 预测,以球队和球员的比赛历史,建立 20 万个模型、运算超过 100 万场模拟比赛,预测曾勇夺 5 次世界杯冠军的巴西队夺下本届冠军的机率最大,其次则为法国和德国,但并不看好其他呼声很高的阿根廷、西班牙。另外,奥地利因斯布鲁克大学(University of Innsbruck)的研究人员则统计 26 家博弈公司的数据,预测巴西夺冠机率最高、其次为德国和西班牙。

wm2018-3420066_1920.jpg

但撇除 AI 或大数据,身为专业人士或是内幕者(Insider)又是怎么看?在全球拥有庞大粉丝的阿根廷足球明星梅西(Lionel Messi)接受阿根廷 FOX 电视台的采访时,尽管身负为国争冠的压力,但他仍非常理性地说:“基于现实情况,包括比赛本身以及时机时间,我们(阿根廷)不是这次世界杯的热门,我觉得巴西、西班牙、德国和法国,他们才是这次世界杯的热门。”未来,仍然是个未知数。那么,究竟哪个国家会踢进前四强,谁又能夺下本届冠军?在预测上,我们已经无法指望章鱼保罗了。


没了章鱼哥,但我们仍有“数据水晶球”

在预测市场,运动赛事一直是非常热门的议题,大伙肯定都记得生活在德国奥伯豪森(Oberhausen)水族馆的章鱼保罗,在 2010 年南非世界杯成功连续预测 8 场比赛。

尽管“名留青史”的章鱼哥已离开世间,人们还是可以从“数据”做成的水晶球来预测赛事,强调用科学来说话,特别是在上届的世界杯,谷歌、微软、百度曾都公布自家的预测,哪一个巨头的模型比较神准也成了世界杯的场外赛,再加上近两年人工智能席卷全球,目前在 GitHub 上就可以找到不少关于 2018 世界杯的开源预测工具,也有人在 Medium 上分享自己以机器学习建立预测模型的教学。

对于运动赛事的预测一般会怎么做?DT 君采访了几位受访者,包括任职于运动赛事分析网站的大数据专家(该网站是利用数据预测赛事,并将预测报告贩售给会员)、曾亲身写过运动比赛预测模型的 AI 区块链初创公司首席技术官(CTO)等人,归纳出作法。

一般来说,会使用以下主要数据:历届世界杯的赛事纪录,包括赢/输/平局、进球区域/时间/射手+助攻,比赛当天的主客场、天气状况、世界杯上场球员近期在职业队的对战表现、以及球迷的热情度等。在数据获取部分,全球也有几家大型的运动赛事数据公司,像是欧洲最权威的体育数据供应商 OPTA、或是互联网博彩平台 Sportradar 等,它们长期搜集各种运动项目和球员的赛事结果,想要分析或预测的人可以向这些数据商购买完整的数据。

但是,如果不想花大钱,通常就是自己写爬虫程序,在互联网上抓取各种数据。之后再利用购买的或是自己抓取的数据,清理好之后再写进数据库(Database),建立预测模型。不过,自己抓取数据容易有一项问题,“数据库没有的,整理成本比较高,错漏多,有时宁可不用,”受访者说。之后,算法会根据喂进来的数据,自动调整其权重比例,建立出一个预测模型。

谷歌在上一届也就是 2014 年的世界杯,建立统计模型并使用机器学习来预测赛事结果。Google 建构的模型则包含了以下几个数据源:一是 OPTA 的数据,涵盖了职业足球联赛的多个赛季、世界杯的小组赛,二是自家工程师建构的实力排名,三是前往巴西球赛现场加油的粉丝数量,由于运动赛事中主场优势(home team advantage)是相当重要的因子,因此谷歌透过此数据来取代模型中简单的主场优势。当年谷歌在 16 强的 8 场比赛全部命中,但在预测谁能踢进前四强时,则错了一场德法之战。

football-1406106_1920.jpg


人工智能 VS. 群体智慧

运动赛事是能创造高经济效益的商业活动,其中北美的职业篮球 NBA、棒球 MLB、橄榄球 NFL、冰球 NHL,欧洲的足球五大联赛(西甲、德甲、英超、法甲、意甲)、每年一度的欧冠杯,在全球更是拥有广大的观看族群,正因为商机诱人,自然就有人玩起金钱游戏如博彩。而利用大数据或机器学习算法,可以说是目前预测/投注市场的主流,但就算如此,大数据预测对“世界杯”可能不见得那么靠谱,“世界杯的预测难度非常高,模型很不好做,”专卖体育赛事预测报告给客户的大数据专家这么告诉 DT 君。

世界杯预测之所以困难的最大原因:情况差异大,推论易有偏差。不同于足球职业队每年的赛程时间、对战球队、上场的球员都有很高的一致性,世界杯是每四年才举办一次,8 年、4 年前的世界杯跟现在的情况几乎不一样,包括参加的国家队、每个球队的 11 位球员、主客场等,而且这些球员很少一起比赛,不熟悉彼此的套路,就算是参加多届的球员,随着年纪变化,现在的体力也跟过去比赛时的情况不同,尽管在分析时使用了很多的历届的数据,“但用历史资料推未来,容易有 bias(偏差), ”受访者表示。

他进一步解释,运动赛事的预测模型并没有所谓的标准,要抓取哪些数据完全是见仁见智,例如有人认为历史赛事、主场优势是关键,有人则相信球迷在社交网路上的讨论度才是新一代且准确的分析数据,尽管使用相同的数据,但也会因为算法设计差异,跑出不同的预测答案。“如果只是自己想试试、预测好玩的可以,但我们的预测报告是要卖钱的,明知道预测准确度不高就不会给客户,因为没有人会想砸自己的招牌,”他很直白地说。

其实,这种看法并非无中生有或是哗众取宠,其他公司先前也指出类似问题,谷歌在上届预测德法之战失准时,曾在官方博客上表示:“世界杯球队特别难以建模,因为上场的球员很少一起打球.... 如果数据是一个好模型的命脉,我们则苦于缺乏更多信息。”另外,参与上届世界杯预测,胜率超越谷歌的微软也曾表示,世界杯的预测很复杂。不同于谷歌是从赛事数据衍生出归纳模型,Bing Predicts 平台能预测更准确的原因之一是仰赖博彩网站上的投注结果。

微软模型的数据源很多元,包括资格赛、其他国际比赛中赢/输/平局的纪录。并且调整了几个会使一个球队比另一个球队更具优势的因素,像是包括比赛地点(因为主场优势是已知的偏见)、比赛场地(如混合草地)、时间、天候等。但更重要的是,微软还使用了投注市场的数据,“这使我们能够调整输赢的概率,这是基于人们下注的结果,也就是‘群体智慧’(wisdom of the crowds)现象”。微软解释,每一项预测往往会使用不同的数据池,这些数据组合通常是民调、历史结果、互联网投注数据,常规收集的统计数据、以及用户生成的数据。例如,美国职棒 MLB 常规赛季可以获得大量的数据,但是世界杯足球赛没有这种积累,因此通过人群参与来创造新数据是合理的作法。

群体智慧一词因知名专栏作家 James Surowiecki 写的书 ——《群体智慧》(The Wisdom Of Crowds)而被大众广为讨论,他在书中探讨一个貌似很简单、但实质上却很复杂的想法:一大群人比一小群精英分子还聪明,前者更擅长解决问题、做出智慧决策、甚至能更准确地预测未来。这种依靠群众智慧来预判事件发展结果的概念,被应用在不少的“预测”上,特别是人们的网络活动和社交数据,包括选举预测、知名的歌唱大赛、选秀节目、股票走势、运动赛事等。


人人可以发起在区块链上的预测事件

世界杯的热潮也为预测市场(Prediction Market)带来庞大的商机,但不同以往的是,今年多了区块链公司入局。什么是预测市场?简单来说,预测市场是指人们对有明确结果的未来事件进行预测的平台,并且仰赖上述“群体智慧”的观念,即在足够多个人的参与下,整个群体的平均答案比任何一个专家或专家小组的平均答案要准确得多。另外,一般会认为,预测市场的每一个可能结果的价格在一定程度上反映了结果发生的概率。

但不同于现有的预测市场多为集中式,由单一的组织或公司来设定预测事件或是奖励的多寡,或是有地域性的限制,例如仅供特定地区如欧洲或美国的居民才能参与,而区块链预测公司就是强调去中心化,像是第一个基于区块链的预测市场平台、以太坊的创始人 V 神担任顾问的公司 Augur、硅谷的初创公司菩提(Bodhi)等,这些公司向全世界人民开放、任何事件都可以创建,也就是说,任何一个人都能够在该平台上创建一个预测事件,同时,人们可以为自己看好的结果进行预测,并从结果中获得奖励。

另外,国内的维基链(waykichain)也发布维基链竞猜 DAPP,官方赠送游戏币,无需用户出资购买。该游戏币亦不与任何法币或者数字货币进行兑换,用户在竞猜游戏中赢取的游戏币可以参与积分排名。像是部署在量子链上的 Bodhi 目前已经约有 20 个关于今年世界杯的预测事件,例如第一场揭幕赛俄罗斯对战沙特谁会赢、6 月 16 日葡萄牙首战就迎击西班牙,伊比利亚半岛两兄弟谁能获胜等,都已经有不少球迷参与预测。

简单来说,用户在 Bodhi 平台上创建预测事件,并使用 QTUM 币预测,并对每个结果的概率定价,当未来指定的时间到达时,信息中介(Oracle)将会自动从外部获取事件的结果,并确定该预测事件的结果。Bodhi 创始人林吓洪曾任职腾讯、Twitter,和多数程序员或开发者一样,是早期就开始接触比特币的人,“早期区块链没有基础建设,一直到了今年初看到市场整个大热,现在是区块链应用的一个起始点”,林吓洪接受 DT 君专访时表示,Bodhi 平台上线 1 个月,目前有 100 个钱包(可以想成是 100 个用户),创建了超过 20 个事件,参与预测的资金约有 1 万个 QTUM 币,换算市场价值大约是 10 万美元。

但是,目前区块链预测平台的进入门槛仍偏高,参与者必须拥有加密货币钱包之外,平台的使用体验仍有不小的改善空间,例如,下载 DAPP 程序以及进入系统时的等待时间较长。


问问 Siri 吧

群体智慧与人工智能被视为是中立的预测方式,不过大数据公司 Optimove 在其博客就发表了一篇《群体智慧:我们可以预测世界杯的结果吗?》的文章,他们以 2014 年世界杯赛事、超过 7 亿笔投注纪录来分析,试图了解群体智慧是否能带领出正确的结果。

但 Optimove 研究实验室负责人 Omer Liss 认为,投注网站的赔率、以及支持自己国家的情绪心理,还是有可能性会影响参与者的观点,最终下的结论是:即使拥有众多的智慧,也很难预测比赛的未来。确实,对于未来之事没有人能说得准,当 DT 君思考着谁能赢得世界杯这个极困难的问题时,决定请教身旁 iPhone 里的 Siri,它保持一惯让人摸不着头绪的态度,只愿回答比赛时间跟地点,或许也应该问问 Alexa、Cortana、小爱、还是天猫,如果有读者试了,还请分享下答案吧。

麻省理工科技评论

From Tech to Deeptech