如何看待腾讯云硬盘故障,导致创业公司线上生产数据完全丢失一事?

赔偿 13 万对于这场损失意味着什么? 创业公司选供应商有哪些「坑」?比如公有云服务,创业公司一般都会出于成本因素考虑托管数据,这次事故的发生对于创业…
关注者
4,837
被浏览
3,196,055

499 个回答

2018年8月8日更新:疼逊云官方给出了故障过程复盘。跟我猜的几乎一模一样。不是丢,而是疼讯云手动误删了所有备份!

关于客户“前沿数控”数据完整性受损的技术复盘

先是因为使用率过高报警不得不开始进行迁移。(错误1,1折超卖过于严重)

然后迁移时为了加速手动关了文件校检(错误2,直接导致新硬盘根本没有成功写入)

迁移走完后,没做完整性校检,直接手动发出指令删了旧仓库里的内容。(错误3,主动删除指令导致原来三份备份全灭


=============

2016~2017年我们用了一年的全价疼逊云,现在已经全部撤出换Amazon和linode了。

疼逊云出这种问题完全不奇怪,我去年已有类似回答。当时还有疼逊云的工程师在评论下面疯狂洗地。见:


疼逊云总是坏的根本原因在于宣传和运营思路完全错位。

疼逊云宣发上把自己定为和阿里云甚至aws一教高下的高端云服务,但实际运营上却反复在搞所谓“采购节”一折购机活动冲击占领低端市场。

这种运营方式在阿里云已占大部分市场份额时就进入了恶性循环,导致平台上的底端垃圾需求越来越多。

而且最神奇也是最恶心的地方在于,疼逊云完全不做sla等级隔离。反而是以牺牲全价用户权益的方式偷资源给一折甚至0.5折用户使用

正常品牌做低端低价,必然是隔离出一部分不保证9999,甚至连99%可用性都没有的资源来做超低价推广。然而疼逊云却完全反其道而行。


这次云硬盘“故障”(7月20日),又是之前推出所谓学生参团的活动机器(7月5日参团申请截至),而且实际申请根本不需要验证学生身份。有大量黑产在刷这些机器。这要是不出问题反而奇怪了。

很明显疼逊云在面对大量新机器系统盘(弹性云硬盘,即SSD集群)创建压力时。没有加SSD硬盘,而是选择从全款正常用户的容量部分进行划拨。多半是划拨时操作失误删除了这家倒霉公司的全部数据,而不是什么硬盘损坏或者系统问题。由于用的是SSD,指令删除所有副本后根本不可能恢复。

事后一口咬定是bug。赔你蛐蛐13万,还抹黑这家公司狮子大开口。

面对这么一家垄断托拉斯企业,反垄断法又不作为。小企业毫无办法。

=====================

什么是超卖?:

简单说打个比方,我的服务器只有8个CPU核心。卖云服务的时候,宣称1人分配一个物理CPU核心的计算能力。

不超卖的话,我只能卖给8个人。

但是很明显,没有谁发神经病服务器一直24小时满载运行。因此服务器整体来看,计算能力总是没有100%跑满。

聪明(鸡贼)的厂商就会把8个CPU核心的服务器卖给10个人。多的这两个人的需求,平常没有全部满负载运行时也看不出来。但遇到一些特殊时段,比如淘宝搞光棍节活动,而10个买服务器的人又正好都是电商。就有可能在光棍节当天全部人都满负载在运行。这时候大家就会发现虽然承诺了1个CPU核心的算力,但实际上高峰期只有80%的水平。

这种超卖,量很克制,又精心分配好用户的话能够尽量避免大家冲突。典型是aws客户遍及全球,它就能把不同国家,不同时区的用户平均分配到服务器上。尽可能让服务器24小时都有人在用,并且不互相冲突,不把整个服务器的资源全部跑满。


垃圾厂商就完全不管这套了,比如8个CPU核心卖给20多个人,这20多个人还几乎全部都是东八区的黑产用户。这么搞平常就开始卡,一遇到“黑产活动”整个服务器满负载所有人都用不了。


“云硬盘”“云内存”“云带宽”同理,都能一份掰成八瓣卖

希捷,西数,日立,英特尔表示:快点公布硬盘型号和固件版本吧,这锅我们不背。