[统计学练习]关于本次疫情的一些统计学建模与预测

  • v
    v2abgundam
    RT
    首先强调本帖是个统计学练习,只供娱乐和参考
    主要目的是研究以下几个问题
    a)在2019年12月-2020年1月,未进行防范时的病毒潜在传播速度是多少?
    b)基于目前的确诊人数趋势,如果目前病毒传播速度维持在速度上,事态将可控或失控?
    c)以及事态如果可控,大约时候能够控制住?

    对于问题a)
    我们的假设是假定病毒从2019年12月1日开始传播,然后截止2月1日,这60多天里的日均传播速度。
    由于这一时期局面没受控,所以假定有常数增速的自然指数传播,潜在感染人数N=exp(g*t)
    只要给定2月1日的潜在感染人数N,那么求解t即可
    由于这个数字是“潜在”,所以不能采用官方确诊或疑似数据,因为这二者只是实际被送医的

    参考日本等国的撤侨比例,大约1%感染率
    武汉1100万人,潜在感染人数就是11万
    当然这个数字可能会被认为夸大,所以取几个小于11万的备选,3万与5万
    也就是说,研究方案有3个
    1)悲观,2月1日时潜在感染人数N=11万,那么日均增速是18.7%
    2)中性,2月1日时潜在感染人数N=5万,那么日均增速是17.5%
    3)乐观,2月1日时潜在感染人数N=3万,那么日均增速是16.6%
    所以可以推断,如果完全不控制,那么每天新感染人数增加将接近20%

    对于问题b)、c)
    现在我们的目的是,假设已经开始控制
    所以潜在感染人数增速必然小于上面的18.7%、17.5%和16.6%,这三个增速是计算迭代的上限

    然后参考目前的全国确诊人数趋势,已有数据为2020年1月21日到2月日,见疫情地图
    由于这个数据不平稳,所以涉及到一个问题,就是确诊人数在以什么样的速度增长

    经过试错研究,发现现有数据中,每日的新增确诊人数,接近线性增长
    可以用Y=a+b*T近似,这里T是时间,Y是新增确诊人数,a与b是待估参数
    OLS(最小二乘法)结果是截距 a=-249.7692308,弹性 b=255.8021978
    两个参数都显著(5%水平),拟合优度R2=96%,即模型可以解释96%的信息,高度符合,如图


    所以,现在会假设未来每日的新增确诊人数将用 Y=-249.7692308+255.8021978*T来预测
    接下来就是,根据前述的三个方案,对未来的潜在感染人数增长速度进行迭代,目的是确定,当临界增速为多少时,预测的潜在感染人数曲线,将与确诊人数相交
    就是说,迭代
    N=N0*(1+g)^T
    让它与Y=-249.7692308+255.8021978*T相交生成的预测相交
    看到时候的g与T分别是多少,即g取临界值多少时,双方能够相交
    如果g大于临界值,那么双方没有交点,疫情必然失控
    如果g小于等于临界值,就表示在那一天确诊人数将等于潜在感染人数,所有的病人都被确诊,即疫情被控制

    1)悲观,N0=110000,那么g=2.9%,T=3月25日
    2)中性,N0=50000,那么g=4.7%,T=2月29日
    3)乐观,N0=30000,那么g=6.8%,T=2月20日

    所以结论是,按照最悲观预测,如果2月1日时武汉感染人数有11万,那么只要封城后,每日感染人数增速不大于2.9%,那么疫情就一定能被控制,并且这个时间在3月底
    而按照乐观预测,如果2月1日时武汉感染人数只有3万,那么只要封城后,每日感染人数增速不大于6.8%,那么疫情就一定能被控制,并且这个时间在2月中下旬


    因此,就现有信息而言,我们的判断应该是局面尚可控
    除非2月1日时武汉的感染人数已经远大于11万,否则的话2月下旬到3月肯定应该疫情就该结束了
    现阶段似乎可以保持乐观预期

    [本帖最后由 v2abgundam 于 2020-2-4 19:35 编辑]
  • p
    peacehorse
    现有数据排除掉湖北,增长率才是可靠的
  • l
    lleoavvee
    https://www.thelancet.com/journals/lancet/article/PIIS0140-6736(20)30260-9/fulltext

    这是香港大型李嘉诚医学院的专业预测论文,我看不太懂,楼主可以对比下你自己的,这篇论文的结论是药丸
  • H
    HAIYU
    每日的新增确诊人数,接近线性增长的原因是因为医疗资源是线性增长的,每天只能诊断和接收那么多人。
    还真有人以为医疗资源能指数增长?动动脑子
  • 心之一方
    思路挺好,多谢楼主分析
  • 刁德一
    楼主推荐统计学书
  • z
    zenodante
    也许他们是用一个模型加一个随机噪声来决定明天的公布数字的,如果你发现你的模型特别吻合,可能只说明你找到了他们用的计算模型而已。
  • q
    qqsunan
    mark
  • p
    panbing
    Posted by TGFC·NG
    病毒增长是条逻辑斯蒂曲线,用指数/直线误差挺大的。其实这些都没意义,真正有意义的是:
    1.推算官方数字背后的真实数字
    2.预测全国复工后的爆炸增长,这其中又有解封武汉/不解封武汉两个分支
    3.气温回升对病毒传播的抑制作用

    这个建模就难了,反正我做不来,想想就头大
  • n
    n2
    科学家没头像都无法一眼找到...
  • g
    guodream
    mark
  • h
    hsd
    线性回归模型影响因子较少。
    但我希望楼主的结论是对的!
  • 炎之女皇
    封城后有效隔离,不宜用函数拟合,应该用武汉剩余人口患病总数乘家庭平均人数比较合理*

    现在的问题是湖北以外没有强制隔离,你不知道那逃出去的500万人如何流动传播的
  • 画楼花千树
    mark.等验证3.25,2.29,2.20
  • d
    djkiller
    高达大大看来又进入不应期了