要命!请数据库、运维的朋友帮忙!阿里云快照无效,数据莫名丢失!

  • 皇.帝
    1、我经营了一个共享按摩椅的收费系统,每天都会产生大量订单,昨天都是正常经营的,但是今天早上有人告诉我无法访问扫码前端和管理后台了。

    2、登录阿里云的ECS和域名解析之后,发现居然填入的服务器地址不对,奇怪,又没人动,为什么会不对了呢?但是没有多怀疑,遂填入正确的解析地址,能访问了。

    3、这时候发现,2018年10月软件开发完毕交付之后的数据,到今天的数据全部不见了!

    4、可能有什么操作失误吧?没关系,毕竟我设置了自动备份的快照策略,恢复今天凌晨的就行,损失应该很小。
    [attach]4108109[/attach]

    5、但是无论我恢复哪个,8.4的或者8.8的都好,实际都只有2018.10的数据,后面两个新的备份完全不起作用!

    6、这时候回想起来,我第一次回滚快照是在13:41,但是实际在13:26就没有数据了,因为那时候客户告诉我他的账号消失了。我以为是无法访问的问题没有在意,真正的问题是,数据莫名其妙消失了!
    [attach]4108118[/attach]
    [attach]4108119[/attach]

    7、这时候突然明白,昨天8.7公司是正常经营的,8.8起床就不能访问了,根本不是通信或者解析问题。是2018年10月到现在,中间有一次转移服务器,变了解析地址,突然无法访问,实际就是数据回到了转移之前,没配置新地址的状态,自然就无法访问了。

    8、阿里云工程师查询,第一次回滚就是我在13:41那次,之前没有回滚操作。但是,我可以确定,我正是因为发现数据不见了,才回滚的。即使你说我操作有问题,那我回滚8.4的备份吧!全盘备份,但是得到的仍然是2018年10月那个备份的数据!


    现在阿里云没有给答复。这种问题对我简直是毁灭性的打击,因为没有物理备份,全是在阿里云,2018年10月到现在的数据,涉及到大量设备的位置、财务、人员、分成的业务数据,没有这些,我基本无法经营了,甚至找到设备都有一定难度,合作伙伴、渠道更是一堆麻烦……
  • 令狐飞云
    没有异地容灾备份?本地备份?
  • 懒散的牛
    没有备份不好弄吧。。。 iOS fly ~
  • l
    logic90
    商业运营就踏踏实实的上阿里云的rds吧。。。

    用ecs搞数据库的话,还是要自己运维的

    用ecs的话,你这个只有系统盘?没有数据盘?直接数据和系统扔一起,一把梭?HiPDA·NG
  • 风一样的sb
    我艹,这种是灾难了
  • 湖蓝
    这下完了,这种不能光信云数据吧
  • 出租车司机
    备份都没有,这个神仙也没办法吧?
  • l
    liuzhedash
    这感觉有问题,恢复8月8凌晨的快照,数据不应该是2018年10月的。
    除非数据库不在这个ecs上面。
  • j
    joyfun
    我也一直信不过阿里云的快照
  • b
    bfwinxp
    阿里云不是一次两次了好像 发自小霸王学习机
  • 帆帆
    找找本地备份吧
  • l
    liuzhedash
    另外突然不能访问了的原因是啥,怎么当场就回滚了?没有检查一下原因?
  • l
    logic90
    问题是,快照是快照,备份是备份。。。

    不是一回事。。。一般不能把快照当备份用HiPDA·NG
  • l
    lotus163
    数据库和系统在一个ecs上?
  • t
    tsounny
    说了多少次了,生产环境 一定要多个可靠备份
  • y
    yangkghjh
    我也遇到过,阿里云快照有问题,不过是客户的主机
  • a
    antidoom
    我们小电影都双备份。你赚钱的家伙还这么不小心。
  • j
    joyfun
    回复13#logic90

    所以现在天天传个备份到oss
  • 皇.帝
    回复12#liuzhedash


    因为问题莫名其妙,8.7是正常的,早上10点既然没有经营,那也几乎没有损失,最快的方法是不排查,直接回复正常的状态。
  • 皇.帝
    回复13#logic90


    你告诉我,这个是怎么区别的。
  • s
    superflaner
    太信任云的结果………

    阿里云也是人在运维啊,总会失误的…
  • l
    logic90
    我觉得快照是对整个盘的。。。和业务无关。。。是系统级的

    备份是针对具体的业务和数据的

    打快照的时候你自己也不知道具体快照了什么东西,快照里面的数据是什么样的

    但是备份的时候,一定是清楚的知道备份了多少东西,并且能确定备份的数据是有效的HiPDA·NG
  • s
    storespace0930
    关注。数据库log能不能恢复?
  • s
    songco
    快照也可以,好歹把快照上传到对象存储服务上

    看描述感觉数据盘没做快照 From Nokia N900
  • 寒冰炫
    数据不是每天备份?那就没法了
  • y
    yhny
    本地也要灾备啊。不过楼主当老板的,应该不差钱。 iOS fly ~
  • l
    leichangxu
    这么重要不搞本地备份那就蛋疼了
  • 香肠专卖
    同样在阿里上丢过数据的飘过...
    整vps直接没了.还好有备份在客户工厂本地.
    阿里丢数据我身边的就七八例了,大家都不敢再用
  • i
    iamcj
    感觉没道理,只要系统正常在跑,按道理8.4的快照就应该有效,即便是系统有后门,有人恶意搞破坏,也没法影响8.4的快照

    关注一下,请楼主更新进展
  • h
    hanbing135
    阿里云出这种问题看起来不少啊
  • c
    coffeelb
    关注进展,我在用腾讯云。。。小尾巴~
  • w
    whitegerry
    觉得是误解了快照的意思了小尾巴~
  • 皇.帝
    备份是你说的那样,快照级别更底层,我不需要知道我备份了什么,我备份整个硬盘,至少一恢复,就应该是那个时间的状态。
  • 皇.帝
    关键没有分离的数据库,程序和数据是在一个盘里面的,是不同的目录而已。
  • t
    tinbug
    挺可怕的,关注下
  • 皇.帝
    回复29#iamcj


    对,根本不可能。如果不是回滚操作,那么对于数据来说,不会留下痕迹的破坏只能是更新数据。但是数据库的结构,能被软件读取,现在让我的开发人员来做这个事情,都做不了。也不可能存在我一恢复数据,几秒之内他就攻击破坏完成了。我认为外部威胁基本不存在,应该是内部问题。
  • l
    logic90
    所以,现在可以先搞清楚,你快照里面数据是什么样的。。。

    看看数据库的数据文件大小和属性。。。看一下binlog之类的数据库日志是什么样的HiPDA·NG
  • p
    ppalm
    这么重要的数据,居然没有本地备份
  • n
    navyyang
    没有异地备份?难道是阿里的服务出问题了?

    我们也是在阿里云,除定时自动快照外,关键数据每天自动备份到两个地方。一个月左右一次备份全部数据到本地,然后复制三份在三个城市,实际上我们没有那么复杂。

    你让阿里的人看看你的数据,搞不好是文件的问题 iOS fly ~
  • l
    linlance2000
    经营了一个共享按摩椅的收费系统.

    牛的很,怎么经营的呀。。。求带路,穷困潦倒。。
  • l
    liuzhedash
    如果楼主叙述的和实际情况没偏差,那么我能想到的只有阿里云宿主机硬盘故障了,目前听说过类似的只有腾讯云去年把某个cvm的云盘完全丢掉的事情。
  • 皇.帝
    回复32#whitegerry


    你告诉我应该是怎么理解。

    现在为止,阿里云工程师没有否认快照应该恢复之前的状态这一点。快照,是一种备份的方式。是购买了存储之后才有的功能,物理占用了空间,跟Windows的还原点不是一回事,更像ghost。
  • r
    roadlala
    听起来像有人滚回之后还删除了滚回操作记录?
  • t
    tsounny
    快照是snapshot,等于整个VPS做ghost,但是这玩意跟ghost有点不同,一般情况下都正常,不排除有些情况下显示快照创建成功了,但是数据是有问题的。这个就杯具了。
    备份 是你自己对网站web端和数据库分别进行备份,只要lnmp环境在,随时就可以恢复过去。大概是这个区别,手动备份的可靠性相对比快照靠谱些。
  • 皇.帝
    回复39#navyyang


    刚才我在阿里云工程师的指导下,恢复了8.4的快照,他远程登录Ubuntu 16.04之后,发现数据库目录的修改时间是2018年10月9日……
  • c
    cainiao1v1
    呵呵,阿里云,没节操的公司
  • p
    peng123456
    数据库是什么?
    小尾巴~
  • n
    navyyang
    你早期的快照自己没删除掉么?
    很可能是阿里云的主机出错了,主机把早期的快照和后面的快照搞混了,后面有记录但实际上文件指向早期的?或是有快照但是数据部分并不完整…

    你另外开1个临时主机,把所有的快照挨个恢复过去看看哪个数据多…

    还是要定期手动备份。灾难了也可以一点点恢复,多恢复一点也是好的 iOS fly ~
  • 皇.帝
    这个我认为有理解的差异, 实际上我觉得云端的快照要可靠些。物理备份也有过丢失、原始备份数据不对导致copy都不对,云端的快照用到现在,真的不知道有现在这种情况。

    这个系统平时运作十分稳定,说实话,快照都差点儿没续费。我不需要恢复部分数据的情况,我认为对于我的业务来说,整个完全恢复就是最好的方式。
  • 皇.帝
    这个动作做了,三个快照恢复之后,看数据库的修改时间,是一样的……