新冠肺炎疫情时间序列相对严重程度指标 及疫情走势预测

发表时间:2020/11/24   来源:《健康世界》2020年第20期   作者: 郑坦然
[导读] 由严重急性呼吸道综合征冠状病毒2型(SARS-CoV-2)所引起的2019冠状病毒(CoVid-19)疫情正在席卷全球
        郑坦然
        (暨南大学产业经济研究院,广东 广州  510632)

        摘  要   由严重急性呼吸道综合征冠状病毒2型(SARS-CoV-2)所引起的2019冠状病毒(CoVid-19)疫情正在席卷全球。为了使人们更好地了解、评估和控制此次疫情,本文通过构造了一系列衡量疫情严重程度的时间序列数据,并利用逐步聚类及降维算法及最小二乘法回归分析等方法,对疫情已爆发的国家在疫情爆发期内的数据进行了时间序列和横截面的处理,构造了能够准确量化这些国家在疫情爆发后的疫情走势的疫情相对严重程度指标(Relative Severity Score)。在此基础上,通过对该指标和地理、人文和社会因素做回归分析,本文发现人口平均年龄、湿度、平均气温和风速对疫情爆发的相对严重程度具有显著的统计学意义。最后,通过将该指标带入到机器学习模型中使用回归分析对数据进行拟合,本文对疫情正在爆发的国家的未来疫情发展趋势进行了预测。
        关键词     新型冠状病毒肺炎;逐步聚类降维算法;时间序列分析;回归分析;机器学习;

        Relative Severity Analysis and Time-series Prediction of COVID-19 Outbreak

        Tanran Zheng
        Institute of Industrial Economics, Jinan University
        Guangzhou, China
        zhengtr@gmail.com

        Abstract: COVID-19, a highly infectious disease caused by virus named SARS-CoV-2, is spreading globally. In order to better understand and possibly contain this ongoing pandemic, this paper conducts a series of data analysis of COVID-19 time-series data of countries and territories to measure and predict the severity of the outbreak. First of all, we develop an index, Relative Severity Score, which measures and quantifies the relative severity of the COVID-19 for each country since its outbreak. Then we conduct regression analysis with this index and other geographical data, which shows that the mean of population age, average humidity, average temperature and average wind speed are statistically significantly correlated to the Relative Severity Score. At last, by performing regression analysis using the Relative Severity Score with machine learning regression model, we make a prediction to the future trends of the pandemic in the countries that are currently experiencing accelerated outbreaks.
Key Words: COVID-19; sequential clustering and dimension reduction algorithm; time-series analysis; regression analysis; supervised machine learning;



1引言
        冠状病毒肺炎(CoVid-19)疫情在世界多个国家爆发。2020年2月29日,该疫情被世界卫生组织定义为全球大流行传染病(pandemic)。截止至3月30日,Covid-19已造成全球超过75万人被感染,35388人死亡,201个国家和地区有确诊病例[1]。自疫情爆发以来,已经有文献和研究对疫情的传播和发展进行建模和预测,但由于大部分传染病模型都涉及到对模型参数进行估计,预测准确率有限。因此本文希望研究一个基于疫情真实传播情况对疫情走势的严重性进行评估,并对未来走势进行预测。
        经过初步分析发现,虽然疫情在各个国家和地区的爆发有时间差,但疫情走势具有高度相似性,因此本文通过将各个国家和地区在疫情爆发后的疫情数据放在同一时间轴上进行横截面分析,可以量化和比较不同国家和地区在爆发后的疫情严重程度,即疫情相对严重指标(Relative Severity Score)。
        疫情相对严重指标可以对比和判断不同国家和地区的疫情发展情况。有研究指出,疫情的严重程度也取决于不同地区的客观因素[2]。因此得到疫情相对严重程度指标后,本文进一步分析地理、人文和社会因素(如平均气温、人口密度、卫生及医疗资源等)对疫情爆发严重性的影响,通过最小二乘法(Ordinary Least Squares, OLS)[3]回归分析,寻找和判断在统计学意义上对疫情传播或严重程度有显著影响的因素。
        最后,根据疫情相对严重指标,本文利用机器学习模型中的回归分析(Regression Analysis)对疫情的未来走势进行预测。

2方法
2.1样本选择
        在样本选择方面,本文为了确保样本间有可比性,选择了COVID-19已经开始有传播或输入病例的国家作为样本。根据约翰霍普金斯大学截止至2020年3月31日的确诊人数数据[1],本文选取了累计确诊人数超过100人的国家作为数据样本。在计算疫情相对严重指标时,由于样本中的中国的湖北省和美国的纽约州疫情相对于各自的国家非常严重,是疫情爆发的重点地区,其累计确诊人数一直占其所属国家的确诊人数40%以上[ 截止至2020年03月30日,数据来源约翰霍普金斯大学];并且中美两国国土面积较大,疫区相对分散,因此本文将这两个地区的数据单独列出进行分析。
2.2数据分析时间段的选取
        由于每个国家疫情集中爆发时间不同,为了使疫情爆发情况具有横向比较性,本文统一将确诊人数达到100人作为疫情集中爆发的标志,以此日期开始,分析之后40天的疫情走势。例如,中国湖北省的确诊人数于1月19日首次破百,达到121人,因此对于湖北省而言,1月19日为day-1;意大利的确诊人数于2月24日首次破百,达132人,因此2月24日为意大利的day-1。通过该方法可以将不同时期爆发的疫情的时间序列数据对齐,在同一横截面上对疫情严重程度进行对比分析。
2.3构造量化疫情严重程度的指标
        为了对每个国家的疫情情况进行横向对比,需要选取指标对疫情的严重程度进行量化。确诊人数、死亡人数、治愈人数和新增确诊人数是全球披露疫情情况使用的主要数据,然而这三个数据的横截面可比性不高,因为每个国家和地区的人口基数、确诊人数基数都有很大差别,也并没有直接涵盖疫情的爆发速度的信息。因此本文选择根据这三个数据构建了11个具有横向可比性的衍生指标,利用这11个衍生指标对疫区情况进行横向对比。

2.4模型方法
2.4.1逐步聚类及降维算法
        首先,为了保证源数据工整,模型对2.3节中介绍的所有衍生指标进行数据预处理,即异常值填充、绝对中位差去极值(Median Absolute Deviation, MAD)[4]和Z-Score标准化,确保所有指标免除离群值和错误数值的干扰,并将所有指标化为相同的量纲[5]。由于指标个数较多,且这11个指标基本上都由确诊人数、死亡人数和治愈人数这三个原始数据衍生而来,因此指标间也存在一定的多重共线性。因此模型在对数据进行预处理后,利用逐步聚类及降维算法(Sequential Clustering and Dimension Reduction Algorithm)[6]对指标进行聚类和降维,排除指标间的多重共线性,使得后续的回归模型和预测模型能更好地提炼指标的有效信息[7]。
        逐步聚类及降维算法是一种处理多维度时间序列的算法,该算法主要通过借鉴K临近算法和贪心算法的思想,按一定顺序逐步对时间序列数据进行聚类;得到已聚类分组的数据后,在每一组内进行逐步普通最小二乘法回归分析,得到的残差作为新数据;最后对每组内数据进行加权平均,在每个组别内合成为一组新的数据,最终达到降维的效果[6]。
        首先对原始指标的相关性进行分析,通过表(2)可以看到,有个别指标的时间序列相关性大于0.6,存在较高的多重共线性。如:当日确诊人数增速和当日死亡人数增速的相关性高达0.92,都反映了疫情爆发的速度;每一百万人的累计确诊人数和每一百万人现存感染人数在疫情集中爆发期间相关性也高达0.94。这些因子间的多重共线性都需要被处理。

        通过逐步聚类降维算法处理后,原始的11个指标被聚类、降维,然后重新组合成了新的7个指标。处理后指标的相关性显著降低,见表(3),时间序列指标间的多重共线性基本排除,更有利于后面模型的分析及预测。

2.4.2计算相对严重程度
        对数据进行降维后,对每个国家/地区的新指标加权求和,之后在横截面统计取Z-Score,得到每个时间截面上国家i在时间点t的疫情相对得分。通过将这些时间截面上的得分在时间序列上累计求和(Cumulative Sum)[8],可以得到时间序列上国家i的相对严重程度。公式如下:
        
        其中T为疫情爆发至今的时间;n=7,即7个新指标。
2.4.3回归分析
        有研究指出,疫情的严重程度也取决于不同地区的客观因素[2]。因此得到疫情相对严重程度指标后,本文进一步分析客观条件对疫情爆发严重性的影响。本文以确诊人数超过100人的国家作为样本,分别选取了以下指标对累计确诊人数、致死率和相对严重程度指标进行回归分析:


        通过对这些地理、人文和社会因素指标进行回归分析,可以判断这些因素是否对疫情的严重程度数据有显著统计学意义;若有统计学意义,这些因素与疫情的严重程度是正相关还是负相关。
2.4.4未来预测
        通过将样本中的湖北省、中国、韩国和日本标记为“疫情已相对稳定地区”,其他国家标记为“疫情正在爆发地区”,本文通过将疫情相对严重程度指标输入到机器学习模型中进行回归拟合[9][10],对比疫情已相对稳定地区的时间序列,对疫情正在爆发地区的后续发展进行预测。公式如下:
        
        其中i代表疫情正在爆发地区,j代表疫情已相对稳定地区,f代表机器学习模型的拟合函数。
        
3结果
3.1各疫情爆发国家的相对严重程度
        通过公式(1),本文计算出了国家/地区样本的疫情相对严重指标,详见图(1)。

        
图1. 各国家/地区相对严重程度指标 (部分样本)
Figure 1. Relative severity score by country/region (part of the samples)

        从图(1)可以看到,相对严重指标准确地量化了不同国家和地区的疫情相对严重程度:纽约州和西班牙在爆发后由于累计确诊人数快速增长且数量较高,成为疫情爆发最快的地区,在爆发后20天就超过了同样是疫情重灾区的湖北省;意大利也因为其致死率高和确诊人数增长较快、数量较多,成为已爆发地区中疫情最严重的地区;日本、德国、韩国和中国因为致死率较低,且确诊人数很快得到控制,疫情严重度相对较低,但其中日本近日的疫情又有反转的趋势,需要额外警惕。从回测的角度看,该指标算法衡量的疫情相对严重程度符合实际情况,能从更深层次、更多的维度对各个疫区的疫情进行对比。
        
图2. 对比图:部分国家/地区累计确诊人数(累计确诊人数达100人后)[11]
Figure 2. For comparison: Cumulative number of confirmed cases (after reaching 100 confirmed cases)
        
        图(2)是现在公众媒体和政府公开数据时常用的累计确诊人数图[11]。通过与本文构造的疫情相对严重程度指标图可以发现,累计确诊人数图并不能很好地体现疫情的严重程度。首先数据上采用了累计确诊人数,在横向对比时会面临人口基数不同等问题,缺乏可比性;其次,由于确诊人数在疫情爆发地区往往以指数形式上涨[12][13],确诊人数较高的地区会在视觉上完全盖过其它地区,图像曲线呈非线性,可读性相对较差、难以准确衡量疫情严重程度。因此本文所构造的疫情相对性严重指标相较于传统的累计确诊人数,更能准确地反应疫区的疫情走势。
3.2对疫情爆发走势的影响因素
        本文通过将表(4)中的数据与累计确诊人数、致死率和相对严重程度指标进行回归分析,得到以下表(5)中的数据间的相关性及其对应的p-value。

        通过表(5)可以看到,人口平均年龄、湿度、平均气温和风速与相对严重指标具有显著的统计学意义。国家的平均年龄、平均湿度和平均风速越大,疫情相对更严重;而平均气温越高,疫情严重性则相对较低。
3.3疫情预测
        本文通过公式(2),将疫情相对严重程度指标作为输入,将数据带入到机器学习模型中使用回归分析对数据进行拟合,对未来一个月(至2020年5月1日)的疫情走势进行了预测。

                                                                                 (g)
图3. 后续疫情相对严重指标预测结果(部分样本)
(a)伊朗;(b)法国;(c)英国;(d)瑞士;
(e)美国;(f)美国纽约州;(g)图例
Figure 3. Forecast of Relative Severity Score by country/region (part of the sample)
(a) Iran; (b) France; (c) UK; (d) Switzerland; (e) US; (f) New York state; (g) legends


图4. 各国家/地区相对严重程度指标及其预测值 (部分样本)
Figure 4. Relative Severity Score and forecast score by country/region (part of the samples)

通过图(3)和图(4)可以看到,将疫情相对严重性指标带入机器学习模型后,模型能够有效的利用指标数据中的信息,对未来疫情走势进行回归分析及拟合。根据模型的预测,接下来一段时间将有更多的地区的疫情严重程度超过中国湖北省;其中美国纽约州将成为相对最严重的地区,但趋势也逐步放缓;意大利由于致死率较高,仍有大量患者未被检测,存在医疗系统不堪重负的风险,高增长的势头或将延续,如没有更多措施介入,有可能超越纽约州;英国的情况也同样堪忧,确诊病例增速较快,有超越意大利的风险;瑞士、德国的疫情已经相对得到控制,根据预测,在未来2周内将迎来拐点,走势与湖北省的走势相似度较高。
通过对预测结果的95%置信区间的大小分析,也可以判断疫情正在发展的情况。例如,伊朗和法国身为疫情较早爆发的国家,现在疫情情况已相对成型(与疫情严重程度无关),疫情相对严重指标的波动较小,因此置信区间也较窄[14];而美国、美国纽约州和瑞士身为疫情爆发时间较短的地区,疫情仍在快速发酵中,疫情相对严重指标的波动较大,因此置信区间较宽,未来走向需要更多判断[14]。

4结论
        本文利用多种时间序列处理方法,对当下正在爆发的新型冠状病毒肺炎在全球疫情爆发严重的国家和地区的疫情数据进行了研究。
        首先本文构造了疫情相对严重程度指标,该指标通过对各地区间每一百万人的累计确诊人数、当日确诊人数增速等11个疫情数据指标进行逐步聚类降维、正交化、回归分析等计算,排除各数据指标间的多重共线性关系,最后用线性加权的方式构造而成。相比于用累计确诊人数、新增确诊人数等单一指标衡量疫情严重程度,该指标加入疫情爆发速度、疫情致命程度、疫情恢复速度等多方位的衡量维度,对各个疫区的相对严重程度进行了更准确的量化;同时由于该指标由线性算法得来,因此该指标相对于传统的、呈指数形式的单一指标衡量标准而言,令各地区间的疫情比较更加直观、符合实际情况,可读性更高。
        为了证明该指标的实际应用价值,本文还利用该指标对一些地理、人文和社会因素做回归分析,发现人口平均年龄、湿度、平均气温和风速与相对严重指标有显著的统计学意义。最后将该指标输入到机器学习模型中,对该指标进行回归分析及拟合,对各地区的疫情后续发展趋势进行了预测。虽然预测结果需要时间来验证,但可以判断的是,经过逐步聚类降维等算法处理的指标数据,数据信噪比低,利用该指标作为输入数据的后续模型均展现出良好的稳定性。
        后续我们将致力于进一步改进疫情相对严重程度指标,在指标的算法中加入更多维度的数据,例如:危重症患者比例、每日病例检测人数(即每个地区的每日检测能力)、确诊人数年龄等,使指标更全面地体现疫情的严重程度。同时也希望加入更多的机器学习算法,通过神经网络、深度学习等算法对各类指标进行更精确地判断,改进机器学习算法,使模型对疫情走势的判断更精确。

参考文献

[1] Coronavirus COVID-19 Global Cases by the Center for Systems Science and Engineering (CSSE) at Johns Hopkins University (JHU). ArcGIS. Johns Hopkins CSSE. Retrieved 30 March 2020.
[2] Hannah, Ritchie; Max, Roser (2020). What do we know about the risk of dying from COVID-19?. Our World in Data. Archived from the original on 28 March 2020.
[3] Goldberger, Arthur S. (1964). Classical Linear Regression. Econometric Theory. New York: John Wiley & Sons.
     pp. 158.
[4] Ruppert, David. (2010). Statistics and Data Analysis for Financial Engineering, Springer Science & Business Media.
[5] Brian, Everitt; Torsten, J Hothorn. (2011). An Introduction to Applied Multivariate Analysis with R. Springer, ISBN 978-1441996497.
[6] 郑坦然. 时间序列数据逐步聚类降维法[J]. IT经理世界, CN11-3928/TN (ISSN1007-9440), 2020, 第1期.
[6] Zheng, Tanran. (2020). Sequential Clustering and Dimension Reduction Algorithm of Time Series Data.
CEOCIO China Magazine.
[7] S. Chatterjee; A.S. Hadi; B. Price. (2000) Regression Analysis by Example (3rd Edition). John Wiley and Sons. ISBN 978-0-471-31946-7.
[8] E. S, Page. (1954). Continuous Inspection Scheme. Biometrika. 41 (1/2): 100–115.
[9] Freedman, David. (2009). Statistical Models: Theory and Practice. Cambridge University Press. ISBN 978-1-139-47731-4.
[10] Williams, M. N; Grajales, C. A. G; Kurkiewicz, D. (2013). Assumptions of multiple regression: Correcting two misconceptions. Practical Assessment, Research & Evaluation. 18 (11).
[11] Total confirmed cases of COVID-19 since 100th case. Our World in Data. Retrieved 30 March 2020.
[12] Novel Coronavirus 2019—Situation Updates. WHO. Retrieved 30 March 2020.
[13] Adam, David. (2020). Modelers Struggle to Predict the Future of the COVID-19 Pandemic. The Scientist Magazine.
[14] F.M, Dekking. (2005). A modern introduction to probability and statistics : understanding why and how. Springer. ISBN 1-85233-896-2.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
您可能感兴趣的其他文章
•   在肺癌早期诊断与预后评估中对血清趋化...
•   卵巢肿瘤快速冰冻切片的临床病理诊断价...
•   对中药饮片处方差错原因进行分析
•   评价综合康复训练治疗脑卒中吞咽障碍患...
•   西药临床合理用药管理在西药使...
•   神经康复治疗改善脑卒中偏瘫患者的运动...
•   药品不良反应监测工作中存在的...
•   彩色多普勒超声在乳腺恶性肿瘤诊断中临...
•   输尿管软镜碎石术与经皮肾镜碎石取石术...
•   丹参川芎嗪注射液联合外固定术治疗桡...
•   滤除白细胞输血技术在临床中的应用价值
•   无痛胃镜与普通胃镜检查的对比研究
•   结构式团体心理治疗对抑郁症患者社会功...
•   关于口腔修复治疗先天性缺牙患者的临床...
•   早期康复训练对脑卒中患者肢体功能恢复...
•   阿替普酶急诊溶栓治疗脑梗死超早期疗效...
更多>>
  站长推荐 更多>>
  • · 新加坡国立大学教授郑永年:中国崛...
  • · 一张照片突然刷爆朋友圈!黑天鹅已...
  • · 2019年,是大破之年,也是大立...
  • · 任泽平:认清中美贸易摩擦升级真相...
  • · 中国的生存法则变了!你再不懂就彻...
  • · 那场82年前的失败,藏着吾国吾民...
  • · 叶檀:华为何为?(与任正非对谈纪...
  • · 中兴高管爆料!这是一场任正非渴盼...
  期刊推荐
1/1
  原创来稿文章 更多>>
  • · 眼 神
  • · 我的前世今生
  • ·
  • · 守望
  • · 这一年
  • · 梁家河
  • · 这个世界会好吗?
  • · 此去经年
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址:
 

深圳SEO优化公司福永关键词按天计费多少钱承德网络营销价格昭通营销型网站建设报价防城港网站开发公司许昌模板制作报价黄冈网站优化按天收费哪家好黄石百搜标王价格随州设计网站多少钱芜湖百度seo推荐长春百姓网标王多少钱临沧优秀网站设计多少钱亳州网站改版价格承德百搜标王公司同乐百度竞价包年推广汉中外贸网站设计价格鹤岗企业网站建设价格惠州网站搭建报价揭阳关键词排名包年推广报价河源网站优化推广泸州至尊标王广东企业网站设计推荐新乡seo网站优化哪家好潍坊SEO按天扣费多少钱大丰网站seo优化推荐大庆企业网站制作推荐黄石网站改版报价铜陵百度网站优化报价南阳网站改版哪家好张掖推广网站多少钱德宏网页设计歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化