你可能身在美国,或有亲友在美国,一直在用各州新冠病毒感染确诊人数来比较疫情严重程度。 这套数据,有一个坏消息,一个好消息。 好,咱来看看这组数据在哪、干不了啥、能干啥、未来走势如何。
首先,各州检测数据在哪?要浏览和下载美国各州最新和历史数据,需要能上谷歌文档。大西洋(The Atlantic)杂志和号称「数据博士」Cloudera 联合创始人 Jeffrey Hammerbacher 合作发布在谷歌文档上一套数据,实时从各州数据源抓取最新数据并汇总。数据可以下载。数据包括各州上报的检测数、确诊数、疑似数、排除数和死亡数。 截止到3月15日确诊数前20州是这样的:
这组数据不能干啥呢?不能用来比较各州疫情严重程度。 因为,这组数据有3个大bug,造成各州之间「苹果根本没法跟桔子比」。 第一个bug是:各州确诊绝对数看不出疫情浓度。各州人口不同,如果用同样的力度和方法检测,人均确诊数才是一个体现中招者在人群中浓度的指标。 比如,你可能觉得确诊数769的华盛顿州比确诊数729的纽约州只是严重那么一点点。但是如果你知道华盛顿州和纽约州的总人口分别是760万和1950万呢?这样一算,华盛顿州的人均确诊率是101人/百万人口,而纽约州只有38人/百万人口。 这样一算,你可能以为:「华盛顿州的疫情浓度是纽约州的2倍多呢」。真的吗? 第二个bug来了:各州的检测力度不同,数字低,也许只是证明「不检测就不存在」定律。 纽约州这个人口大州总检测人数是5272,人均检测率为271人/百万人口;而人口不及一半的华盛顿州总检测人数为10220,人均检测率高达1342人/百万人口。所以,纽约的检测人数上2.6万的时候,检测力度才能追上华盛顿州。否则就有瞒报漏报之嫌。 另外,这个bug还警告我们:远离夏威夷!那个140万人的州简直就是个黑匣子,那么多世界各地的游客,到现在只有区区7人确诊,听起来很安全吧?可是...一共只检测了7个人啊! 即使人均检测率相当,还有第三个bug捣乱:各州接受检测的标准不同,有的严有的松。虽然纽约确诊率是14%而华盛顿州是8%,谁也不知道是因为纽约疫情更严重还是纽约只给新冠疑似度更高的患者检测。 所以,用这组数据横向比较各州疫情严重程度,那是很扯的。
那这组数据能干啥?这组数据中的检测数,可以从绝对数和相对数方面横向比较各州检测力度。 先看绝对数。 我们把50个州加哥伦比亚特区按总检测数排名: 把排名数放在横坐标: 看到这个头大尾巴长的检测数排名分布, @何明科说它长得像齐夫定律。 嗯,「齐夫定律」。这个词被自然语言处理(NLP)爱好者们私下用来不动声色地识别同类。今天曝光一下他们私藏的这个外行过滤器。 齐夫定律(Zipf's law)是哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)1949年发表的经验规律:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。 这条幂函数曲线在双对数坐标里是直线: 像摩尔定律一样,齐夫定律也是一条很「惊艳」的经验定律。 「数量和排名成反比」这个习性,不光英语有,其他语言也有;不光藏在语言里,还藏在生活的方方面面。比如: 亚马逊或天猫某品类单品销量和排名 某国家城市人口和排名 网页访问频率和排名
这些事物的共性是:排名靠前的更容易增长。比如: 销量高的单品更容易出现在消费者搜索页面前排,因而获取更多销量; 最常用词汇更容易被受众熟悉,进而使受众也更频繁使用; 人口规模更大的城市有更多就业机会,进而吸引更多人口; 访问量大的网页更容易出现在搜索结果前列,因而获取更多流量。
所以,齐夫定律直觉上就是马太效应所说的「富者越富」:如果数量排名靠前能给数量继续增长带来额外优势,那么数量与排名的关系很可能遵循齐夫定律。 新冠检测这件事,是不是闻起来也有点齐夫的味道? 我们取对数看看全美各州加哥伦比亚特区的检测数排名是否像齐夫定律所说的,遵循直线。(由于齐夫拟合通常越到尾部偏差越大,我们剔除了夏威夷和怀俄明两个尾部数据点。) 果然一股浓郁的齐夫气息扑面而来,R^2高达0.9675。(这里必须向 @何明科灵敏的鼻子致敬。) 分布符合齐夫定律,感觉很自然;但是你看到这个排名有没有发现什么不自然? 检测数前十名的州,只有2个(佛罗里达、俄亥俄)是共和党州长执政,其余8个都是民主党州长执政。 干脆,我们按州长所属的政党把50个州都标一下蓝州(民主党)和红州(共和党)。特朗普是共和党,所以首都DC算红的。 我们发现,虽然各州大排名遵循齐夫定律,但是民主党执政州普遍靠前,共和党执政州普遍靠后。 如果我们把蓝色和红色看成两个不同的总体,检测数和排名的双对数图是这样的: 无论哪个党,它所执政的各州排名和检测数都遵循齐夫定律。 但是,在对数坐标上,共和党和民主党的齐夫直线斜率不同,位置也不同。共和党的拟合线完全在民主党的下方。 两党执政的州仿佛是平行世界般的存在。 这张图显示,无论州大州小,迄今为止共和党执政州在疫情检测的绝对数上,全面落后于民主党执政州。 如果想知道人均检测率的相对数,各州排名如下: 全美的平均人均检测率是118人/百万,而民主党州为182人/百万,共和党州为41人/百万。 所以说,如果你在共和党执政州,很遗憾,迄今为止你们的平均检测率还不到民主党执政州的1/4。 当你看到自己州确诊数排名不高,放心地逛超市下馆子去健身房时,你根本意识不到遭遇传染者的风险到底有多大。 所以,民主党这头驴在比共和党大象更加努力地检测疫情,这已经是实锤了,不管他们是真的更加关注公共卫生,还是更加致力于在大选年扳倒抗疫不力的共和党。
美国全国疫情检测会改善吗?目前的数据对上一阶段美国的疫情检测是一个总结。值得高兴的是,美国全国疫情检测不利的局面本周起会有大幅改善。 截止3月15日,全美人均检测数118人/百万,大约是中国广东2月底(2828人/百万)的1/20,英国3月8日(347/百万)的1/3。美国检测力度最大的华盛顿州,人均检测率1342人/百万,接近广东的一半。 3月15日周日晚,美国卫生与公共服务部助理部长布雷特·贾诺(Brett Giroir)在特朗普和彭斯主持的白宫新闻发布会上宣布,从周一开始,全美将有多达2000个化验室配备可同时处理多个样本的高速新冠病毒检测仪,一周内将有约190万个测试盒就绪。贾诺称,预计这些化验室每周能将增加几万到几十万次的检测。 过去一周,全美检测数为3.5万,未来几周的检测产能有望提高一个数量级。如果真的用掉190万个测试盒,全美的人均检测率将达到6000多人/百万人口,大约是广东2月底人均检测率的两倍。 我们拭目以待,让美国大幅提升的人均检测率帮我们离各州疫情的真相越来越近。
总结:截止到3月15日,美国汇总的各州检测和确诊数据,没有考虑各州人口、检测率、和检测标准的差异,不足以支持横向评估疫情严重程度,但可以用来比较各州检测力度。 各州检测总数和各州排名符合齐夫定律。 民主党执政州和共和党执政州的检测数分别排名各自符合齐夫定律,但是参数不同,仿佛存在于两个平行世界。政治可以掰弯测量,但不能消灭真相。 迄今为止,民主党执政州比共和党执政州检测更用力,人均检测率是后者的4倍多。 如果3月15日白宫新闻发布会检测举措兑现,美国未来几周有望实现2倍于广东的人均检测率。
虽然,数据往往不够丰满,但洞察就像沟,只要挤一挤,总还是有的。a
|