X
了不起!华裔27岁MIT硕士独立制作新冠预测模型,准确率碾压众多权威机构...
今日推荐:2021年02月26日 集中赢留学
请点击上方蓝字关注
赢留学


最近,一位年仅27岁的华裔小哥,火了!


他花了一周时间自建的新冠预测模型,准确率竟然击败了那些经验老道、耗费巨资建模的全球专业机构。他的模型,甚至得到了美国疾控中心的青睐,并被采用。



不仅如此,他还被彭博评为“新冠病毒数据超级明星”


他就是Youyang Gu(顾友阳),拥有 MIT 电气工程和计算机科学硕士学位,以及数学学位。


但值得注意的是,他在医学和流行病学等方面却是一个小白。


他的模型,甚至被著名数据科学家、fast.ai创始人Jeremy Howard高度评价道:


唯一看起来合理的模型。


他是唯一一个真正查看数据,并且做得正确的人。


看起来是个医学“门外汉”的顾友阳,因为什么萌生了自建一个新冠预测模型的念头呢?







到底是个怎样的预测模型?



时间点要追溯到去年年初。


当时疫情已然在全球蔓延开来,于是众试图用建模的方式,来预测接下来疫情会带来的影响。


大多数的目光都将希望投向了2家专业机构打造的预测系统——伦敦帝国理工学院、总部位于西雅图的健康指标与评估研究所(IHME)。


但2家机构给出的预测结果却是天差地别:


  • 伦敦帝国理工学院:到夏天,美国因新冠病毒而死亡的人数将达到200万。


  • IHME:预计到8月,死亡人数将达到6万。


(后来的事实证明,死亡人数是16万。)



2家专业机构给出的预测数据,差距为何能够如此之大?


这就让当时年仅26岁的顾友阳引起了注意。虽然自己是个医学“小白”,但他认为自己处理数据模型方面的背景,应该能够在创建模型时派上用场。



建立一个新冠预测模型的想法,对顾友阳来说并不是一时冲动。


2020年4月,顾友阳开始行动了。


第一步,是恶补相关的流行病学知识。


接下来,在模型的建立过程中,得益于顾友阳的金融行业工作经验,他不断将自己的预测与真实的死亡数据进行对比,并根据对比结果不断调整自己模型的算法。


或许这就是顾友阳的模型准确率极的原因吧。



但是,这并不意味着顾友阳所用到的算法有多么的高级。


恰恰相反,他采用了比较简单的方法。


他首先考虑到的是新冠病毒检测数、住院人数和其他因素之间的关系。


但是,在研究之后,顾友阳却发现联邦政府的数据,和各个州所提供的数据存在着不一致的现象。


这时,对于顾友阳来说,当务之急就是得到最靠谱的数据。


经过思考后,顾友阳决定另辟蹊径,利用过去的死亡人数来预测未来的死亡人数。


顾友阳认为,最靠谱的数据,似乎就是每天的死亡人数


其他的模型用到了很多数据源,但我决定用过去的死亡人数,来预测未来的死亡人数。


至于这样做的原因,他给出的解释是“将它作为唯一的输入,有助于在噪音中过滤信号”


仅仅一周后,顾友阳自建的新冠疫情预测模型就在网站上正式发布了。



更让人惊讶的是,在三周后,这一则个人创建的预测模型,被美国疾控中心列为6个主要预测模型之一


随后,顾友阳被美国疾控中心邀请,定期参加CDC流行病学家团队和专业建模人员的回忆。


自然而然的,顾友阳的网站也迎来了一大波流量,每天都会有上百万人到这里查看疫情状况。


在接下来的时间里,顾友阳的预测模型也不负众望,一次又一次地超越了许多权威机构的预测结果。



当然了,顾友阳的预测模型从一开始就表现得不错。


4月底时,他的模型预测,到5月9日美国新冠死亡人数将达到8万人,实际死亡人数为79926。


差额仅为74。


随后,5月18日9万人,5月27日10万人,顾友阳的预测模型再次预测准确。






“医学门外汉”一战成名

或许正是因为他的模型预测之精准,越来越多人开始关注顾友阳的作品。


在Twitter上,他不仅@了各路记者,还给流行病学专家发邮件,让他们核实自己的数据。



去年4月底,华盛顿大学著名生物学家Carl Bergstrom便在Twitter上发布了顾友阳的模型。



不久之后,美国疾病控制和预防中心,也在其新冠预测网站上发布了顾友阳的数据。


不仅如此,随着疫情的发展,身为中国移民的他,还参与了由美国专家团队组织的定期会议,每个人都想更好的改善他的模型。


他的网站访问量也呈现出爆炸式增长,每天都有数百万人来看他的数据。


通常情况下,他的模型所预测的数据,基本在几周后便会达到,与实际的死亡人数非常接近。


随着类似的预测模型逐渐增多,阿默斯特马萨诸塞大学生物统计学和流行病学系的副教授Nicholas Reich,便统计了50个这样的模型:


Gu的模型一直位居前列。


随着更完善、更专业的模型不断地涌现,2020年11月,顾友阳决定停止这项工作。


马萨诸塞大学阿默斯特分校的生物统计和流行病学副教授Nicholas Reich,对顾友阳颇为赞赏。


他认为顾友阳是“带着一种非凡的谦逊退出”


“他看到其他的模型也做的很好,他认为自己的工作完成了。”



不过,有人的地方就有江湖,对于顾友阳潇洒的离场,也免不了有一些“流言蜚语”。


在IHME任职的Murray就指出,顾友阳的模型存在着明显的缺陷。


“他没有考虑到新冠病毒的季节性特质,如果不退出的话,他对于冬天第三波疫情的预估会不准确。”


Murray还直言,顾友阳模型的算法对于短期预测比较有效,但在宏观层面却起不到太大的作用,既不能解释病毒变异,也不能解释疫苗对变异毒株可能无效的情况。


不过,顾友阳却拒绝回应IHME的Murray对他模型的评价和相关言论。


“我非常感谢Chris Murray博士和他的团队所做的工作,”他说,“没有他们,我可能不会有今天的成绩。”


在休息了一段时间之后,顾友阳重新投入到了他的预测事业当中。



这一次,他要做的预测是“美国有多少人感染了新冠病毒”、“疫苗推出的速度有多快”、“美国可能何时(如果可能的话)达到群体免疫”等。


他的预测表明,到今年6月,大约61%的美国人口应该获得某种形式的免疫力——无论是疫苗还是因过去的感染。


……


顾友阳一直希望能够找到一份能对社会产生巨大影响的工作,同时避免政治、偏见以及大型机构有时会带来的负担。他认为:


在这个领域,有很多缺点可以通过我这种背景的人来改善。






顾友阳究竟是谁?

顾友阳出身于美国华裔移民家庭,在伊利诺伊州和加州长大。


他从小喜欢数学和科学,直到高中毕业时,才真正接触计算机科学。而他能够进入这个行业得益于他的父亲,因为他的父亲是一名计算机从业者。


△正在做化学实验的顾友阳(图片来自2010年克拉克奖学金项目)


顾友阳本科和硕士都在MIT就读,在那里他获得了计算机科学与数学双学士学位,以及计算机科学的硕士学位。


毕业后他继续在MIT著名的CSAIL实验室的NLP组进行了一年的研究,同年在EMNLP 2016上发表了论文。


这也是他第一次接触大数据,并由此建立统计模型对数据进行预测。


不过他没有因此继续学术研究,而是进入产业界。从MIT离开后,他加入了金融行业,为高频交易系统编写算法。


在那里,他的数据建模能力得到了进一步磨练,因为在金融交易中,数据必须非常定量并尽可能地准确。


之后,他又进入了体育界,继续进行大数据方面的研究。这也为他提供了丰富的跨学科经验,使他能够成功应对新地领域,懂得如何更加准确地建模。



用他自己的话来说,他的专长是使用机器学习来理解数据,将信号与噪声分离并做出准确的预测。


从去年4月以来,顾友阳已经自愿在这个项目中投入了几千个小时,而且是无偿的。


在接受医学网站Medscape主编Eric Topol采访时,他表示自己现在全职投入到新冠预测网站上,没有兼职、没有收入,他靠着过去的积蓄生活。


△ 顾友阳接受Medscape主编Eric Topol视频采访


然而就是这样一个公益的项目却遭到了一些Twitter网友非议,但是他还是坚持了下来。从12月开始,covid19-projections.com接受网友的捐赠帮助,现在已经完成了5万美元的筹款目标。


未来的路怎么走?疫情结束后,顾同学的职业规划如何?


他说现在还为时过早,虽然他现在的工作是预测疫情发展,但是他很难预测自己3个月或1年后要做什么。


因为这项工作,世界各地的高校和企业已经向他抛出了橄榄枝。


本文内容综合整理自北美留学实验室,量子位及公开媒体报道,仅用于信息分享,转载请注明...

如果您觉得这篇文章内容对您有用
请帮忙点击“分享”“点赞”“在看”哦~

0条评论