如何看待腾讯云硬盘故障，导致创业公司线上生产数据完全丢失一事？

Question

如何看待腾讯云硬盘故障，导致创业公司线上生产数据完全丢失一事？

赔偿 13 万对于这场损失意味着什么？创业公司选供应商有哪些「坑」？比如公有云服务，创业公司一般都会出于成本因素考虑托管数据，这次事故的发生对于创业…

关注者

4,837

被浏览

3,196,055

499 个回答

希捷，西数，日立，英特尔表示：快点公布硬盘型号和固件版本吧，这锅我们不背。

发布于 2018-08-06 17:01

baskice 癌股的真谛是归零 · Accepted Answer

2018年8月8日更新：疼逊云官方给出了故障过程复盘。跟我猜的几乎一模一样。不是丢，而是疼讯云手动误删了所有备份！

关于客户“前沿数控”数据完整性受损的技术复盘

先是因为使用率过高报警不得不开始进行迁移。（错误1，1折超卖过于严重）

然后迁移时为了加速手动关了文件校检（错误2，直接导致新硬盘根本没有成功写入）

迁移走完后，没做完整性校检，直接手动发出指令删了旧仓库里的内容。（错误3，主动删除指令导致原来三份备份全灭）

=============

2016~2017年我们用了一年的全价疼逊云，现在已经全部撤出换Amazon和linode了。

疼逊云出这种问题完全不奇怪，我去年已有类似回答。当时还有疼逊云的工程师在评论下面疯狂洗地。见：

疼逊云总是坏的根本原因在于宣传和运营思路完全错位。

疼逊云宣发上把自己定为和阿里云甚至aws一教高下的高端云服务，但实际运营上却反复在搞所谓“采购节”一折购机活动冲击占领低端市场。

这种运营方式在阿里云已占大部分市场份额时就进入了恶性循环，导致平台上的底端垃圾需求越来越多。

而且最神奇也是最恶心的地方在于，疼逊云完全不做sla等级隔离。反而是以牺牲全价用户权益的方式偷资源给一折甚至0.5折用户使用。

正常品牌做低端低价，必然是隔离出一部分不保证9999，甚至连99%可用性都没有的资源来做超低价推广。然而疼逊云却完全反其道而行。

这次云硬盘“故障”（7月20日），又是之前推出所谓学生参团的活动机器（7月5日参团申请截至），而且实际申请根本不需要验证学生身份。有大量黑产在刷这些机器。这要是不出问题反而奇怪了。

很明显疼逊云在面对大量新机器系统盘（弹性云硬盘，即SSD集群）创建压力时。没有加SSD硬盘，而是选择从全款正常用户的容量部分进行划拨。多半是划拨时操作失误删除了这家倒霉公司的全部数据，而不是什么硬盘损坏或者系统问题。由于用的是SSD，指令删除所有副本后根本不可能恢复。

事后一口咬定是bug。赔你蛐蛐13万，还抹黑这家公司狮子大开口。

面对这么一家垄断托拉斯企业，反垄断法又不作为。小企业毫无办法。

=====================

什么是超卖？：

简单说打个比方，我的服务器只有8个CPU核心。卖云服务的时候，宣称1人分配一个物理CPU核心的计算能力。

不超卖的话，我只能卖给8个人。

但是很明显，没有谁发神经病服务器一直24小时满载运行。因此服务器整体来看，计算能力总是没有100%跑满。

聪明（鸡贼）的厂商就会把8个CPU核心的服务器卖给10个人。多的这两个人的需求，平常没有全部满负载运行时也看不出来。但遇到一些特殊时段，比如淘宝搞光棍节活动，而10个买服务器的人又正好都是电商。就有可能在光棍节当天全部人都满负载在运行。这时候大家就会发现虽然承诺了1个CPU核心的算力，但实际上高峰期只有80%的水平。

这种超卖，量很克制，又精心分配好用户的话能够尽量避免大家冲突。典型是aws客户遍及全球，它就能把不同国家，不同时区的用户平均分配到服务器上。尽可能让服务器24小时都有人在用，并且不互相冲突，不把整个服务器的资源全部跑满。

垃圾厂商就完全不管这套了，比如8个CPU核心卖给20多个人，这20多个人还几乎全部都是东八区的黑产用户。这么搞平常就开始卡，一遇到“黑产活动”整个服务器满负载所有人都用不了。

“云硬盘”“云内存”“云带宽”同理，都能一份掰成八瓣卖

编辑于 2018-08-11 04:16