支付宝昨日(5日)下午16:25~16:50发生罕见的故障,有阿里/内部人知道原因吗

  • 电气工程师
    是这样的,昨天下午接到客户电话,业务系统支付宝充值全部无法到账。开始排查原因,我们用的是自行开发的收款系统(这样免手续费)。需要支付宝通知和账单。
    然后我刚开始找了一圈原因以为是我们收款通道出问题了,查了2分钟服务器没发现异常。后来发现支付宝通知和账单都获取异常延迟。(这时候挺无奈的,也无力解决)
    然后微博搜索了下支付宝,发现有部分用户反映“支付宝崩了”。后续该话题持续升温,直到微博热搜第四。

    然后我到v2ex和hipda看了下,发现v2ex也有人讨论https://www.v2ex.com/t/626261支付宝挂了,吃瓜的你是否能学到点什么?

    随后支付宝官方发公告是因为机房网络抖动。这个说法很含糊,毕竟系统大面积拒绝服务了(主要影响很多人无法付款,登录,查账,子系统也是)。

    到现在也搜索不到此处事故的原因,让我想起了昨天微博的这段话。




    今年我也遇到客户的大访问量的系统崩溃2次(一次是自身主服务器web挂了,导致备用服务器的流量超了拒绝服务),1次是腾讯云CDN江苏用户大面积故障。印象比较深刻。
    作为开发+运维,定位、解决问题都是很快的。显然阿里这次的故障出现和问题解决速度都让人留下很糟糕的印象。
    阿里号称五中心容灾?而且不是11·11这种业务高峰期。显然有原因,不知道地板有知情人吗?另外国内IT事故应该只企业部门通报,没有公开吧?

    传统企业的真实重大事故报告很容易上报并公开分享学习。IT企业的重大事故就没如此了,怕企业声誉受到影响?反正内部处分应该是少不了了啊!

    参考新闻:https://tech.sina.com.cn/roll/20 ... hnzahi5677172.shtml
  • 高亢
    我也没想明白
  • R
    Romney
    N机房异地多活呢.. 挺奇怪的,怎么挂了, 而且似乎是全国性的. 不应该呀.
  • 电气工程师
    网友调侃归调侃。

    什么花呗不用还了,账单错乱。

    挂了应该不至于数据受影响,但是拒绝服务也是很大事了。。此时异地多活,热备,故障自动切换啥都解释不了了
  • l
    linux57
    我昨天付款一直不成功,还以为是我网络问题,但恢复还是很快的大概30分钟不到。
  • 电气工程师
    https://www.sohu.com/a/255986597_100130115支付宝演示“三地五中心”超强容灾实力 保障系统运行稳定 2018-09-25 11:46

    转一个一年多前的新闻。如果按这套方案,1分钟内自动切换故障切换。影响面应该不会这么大。
    不过可能故障时间就10分钟左右,后续持续故障是类似缓存线路没换过来导致部分用户继续走向故障机房?
  • 电气工程师
    对于金融级的,30分钟和很快概念差太多了。这么重要的系统30分钟很恐怖...1分钟估计有人都不会满意,请参见上面
  • t
    tiret
    所以,有个微信做备用还是必须的。
  • a
    a6585998
    不付款不影响

  • 尤舒拉
    确实很奇怪 说好的超强容灾呢 说好的无缝切换主备呢 咋故障持续了这么久?
  • h
    hanbing135
    这要是银行 就属于重大事故了
  • 电气工程师
    支付宝量级上等同银行了吧?
    再说个工业类似的事故,我厂是全部自发电的厂,发电机7台在线并网运行,在网功率70MW,留有热备功率70MW。但是就是其中的一台功率偏大的发电机跳机了,造成这种区域微型电网所有发电机跳闸的跳闸,跳机的跳机。7台在网机组无一幸免~
    最后恢复大概用了30分钟~1小时,停产造成的经济损失很大。。。各种事故报告调查,事后各种方案整改。
  • 德味不
    猜测跟地震有关
  • 汗蝈蝈
    吹嘘的阿里云呢 支付宝这种 1秒都不能宕机 该有人为此负责
  • t
    tsounny
    管他呢 反正对我没影响
  • x
    xgzdgs

    不保证正确性。。。 iOS fly ~
  • 甘恩

    昨天下午还收了一笔账,很正常啊
  • 不秀肛
    核心交换机不做高可用么
  • l
    logic90
    关键词 分布式数据库 CAP原理

    最怕的场景就是节点都活着,都在提供服务,中间的网断了HiPDA·NG
  • s
    songco
    亚马逊出过一次类似的事情,不过只是某个块存储服务,影响相对较小

    我们当时做某个分布式项目的时候讨论了好久 ........
  • n
    n-17
    才知道,一般都微信
  • w
    wnxyer
    我理解他的意思是监管不同。
    银行大事儿,支付宝哦。
  • 不秀肛
    网络层如果有冗余,中间的网怎么会断,除非全挂了。
  • 不秀肛
    五六年前遇到过大连银行还是哪家银行企业网银挂了一整天。打客服电话客服找其他理由,就是不承认系统挂了。
  • l
    logic90
    比如,跨机房的网甚至跨城的网。。。地震一下,运营商的网线直接断了。。。

    HiPDA·NG
  • a
    abs001
    实测昨天下午5点30都没恢复。HiPDA·NG
  • c
    chzen
    机房光纤被挖了
  • s
    songco
    脑裂也是高可用出问题才出现的

    而且脑裂有很多成熟方案了,另外集群尝试恢复数据一般有个超时时间的,不能网络闪断一下就开始恢复

    可能阿里设计的时候为了性能等做了某些妥协

    这种事故还好,阿里损失不大,带来了宝贵的经验 ........
  • 李大饼
    不知道向区块链,个别节点出现问题会怎样
  • s
    shamorry
    昨天下午我们挂在支付宝上收社保的渠道也崩了。

    还以为是我们系统问题呢
  • f
    fansty
    回复11#hanbing135


    浦发银行在12月4日中午就出现过短时间的全国范围的pos接入拒绝,银行电话都被打爆了
  • b
    beiwei
    回复17#甘恩

    注意标题,不是一个时间
  • z
    zhudingya
    楼上老哥说的对,99.99%的话,用一年的时间乘下来,大概是五十多分钟。
  • j
    jumby
    你们就不要瞎扯啦,还核心交换机挂了。。。故障原因不能说。。
  • 老兵-猫族
    我是本坛第一个说这个事的,v2ex那个贴是几点?我那个是16:32 。不知是本坛先发现还是v2ex?

  • s
    sis5595
    哪有什么100%,强如谷歌亚马逊也有。过去半年必应的故障我就亲历两次了
  • a
    alxjm
    回复17#甘恩
    确实是部分地区,同一时间我们四川云贵那边的业务人员反应无法收款,但是江苏上海都正常。 iOS fly ~
  • s
    stlendor
    想起似乎有一年加拿大的电网大面积瘫痪和贵厂这性质异曲同工
  • P
    PDA5566
    脑裂了
  • w
    winini
    墨菲定律