Backblaze опубликовала статистику надёжности HDD за 2018 год



    Более пяти лет назад компания Backblaze опубликовала первый отчёт по использованию дисковых накопителей в своих серверах. Backblaze предоставляет услугу дешёвого облачного бэкапа. В основе их инфраструктуры — жёсткие диски потребительского класса. Компания собрала большую статистику по отказоустойчивости разных типов HDD. В то время парк накопителей Backblaze состоял в основном из дисков Seagate, Hitachi и WD, а самыми надёжными оказались диски Hitachi.

    С тех пор Backblaze публикует статистику ежегодно, и сейчас пришло время очередного отчёта.

    По состоянию на 31 декабря 2018 года у компании было 106 919 активных HDD, из них 1965 загрузочных дисков и 104 954 дисков с данными. В обзоре указаны коэффициенты отказов жёстких дисков с данными в дата-центрах компании. Также рассматриваются новые модели HDD, которые добавили в серверные стойки на протяжении 2018 года, включая модель HGST на 12 ТБ и Toshiba на 14 ТБ. Понятно, что по новым моделям пока не собрано много статистики, потому что их установили лишь недавно и количество небольшое. Так что ещё рано окончательно хоронить, например, модель Toshiba MG07ACA14TA с показателем отказов 3,03% (если привести к годовому исчислению). Может, просто попалась неудачная партия.

    В таблице указаны только те модели, для которых собрана статистика хотя бы с 45 экземпляров (некоторые из таких накопителей использовались просто для тестирования). Цифра 45 — это минимальное количество, необходимое для заполнения одного модуля хранения Backblaze Storage Pod в дата-центре. Таким образом, из 104 954 жёстких дисков для анализа статистики осталось 104 778 штук.


    Примечание: годовой уровень отказов 0,00% означает, что на протяжении 2018 года не было ни одного отказа

    Специалисты Backblaze признают, что по итогам 2018 года общий показатель отказов в годовом исчислении (Annualized Failure Rate, AFR) оказался очень хорошим: всего 1,25%. Для сравнения, в 2013 году цифры были гораздо хуже, а некоторые модели Seagate тогда сыпались вплоть до AFR 25,4% (модель Seagate Barracuda 7200, ST31500341AS). Особенно критичными для дисков Seagate тогда стали второй и третий годы эксплуатации.


    Статистика из первого отчёта Backblaze за 2013 год

    Сейчас все модели проявили себя как весьма надёжные накопители. Исключение составляют случаи, когда в наличии было небольшое количество экземпляров конкретной модели (менее 500) и/или они все вместе наработали небольшое количество дней (менее 50 000). В этих случаях показатель AFR нельзя считать надёжным для принятия решений о покупке.

    Общий показатель AFR для всех моделей за год составил всего 1,25%, что значительно ниже показателей предыдущих лет.

    Backblaze пишет, что в 2018 году заметной тенденцией стала замена старых дисков на 2, 3 и 4 ТБ на накопители объёмом 8, 10, 12, а в четвёртом квартале — ещё на 14 ТБ. Можно предположить, что эта тенденция характерна не только для Backblaze, но и для всего потребительского рынка: многие пользователи в прошлом году сделали такой апгрейд. В 2018 году у Backblaze общий объём хранилища с вырос с 500 до более 750 петабайт, в среднем добавлялось по 75 дисков в день.

    После прошлогодних апгрейдов в хранилище практически не осталось дисков Western Digital, сейчас работают всего 383 штуки, все на 6 ТБ, это лишь 0,37% общего количества накопителей.

    Backblaze отмечает хорошие показатели дисков HGST (модель HUH721212ALN604). За первый месяц тестирования 1200 таких накопителей зарегистрирован всего один отказ, так что компания решила нарастить их парк. Но самым популярным диском в дата-центре стала модель Seagate на 12 ТБ (ST12000NM0007), на которой работает 29,7% фермы.

    Следующая таблица сравнивает AFR по годам и демонстрирует, насколько более надёжными стали диски в 2018 году: количество отказов планомерно снижается третий год подряд.



    Ещё одно интересное наблюдение: ни один из 45 дисков Toshiba на 5 ТБ не вышел из строя со второго квартала 2016 года (модель MD04ABA500V). Также продолжает впечатлять надёжность дисков Seagate на 10 ТБ (модель ST10000NM0086) с AFR за прошлый год всего 0,33%, причём здесь 1220 дисков в общей сложности наработали около 500 000 дней, так что статистика вполне надёжная.

    Наконец, в последней таблице приводятся показатели отказов жёстких дисков за всё время с апреля 2013 года — для тех моделей, которые находятся в эксплуатации до сих пор.



    Полный набор данных этого обзора опубликован здесь. Если нужны только таблицы из этой статьи, можно скачать файл CSV с данными.
    Поделиться публикацией

    Похожие публикации

    Комментарии 22

      +1
      Впечатляет статистика невысоких отказов дисков больших объемов — научились делать однако.
      Еще интересен факт малого количества дисков WD — боятся испарения гелия?
        0
        По статистике видно же что ВДшки дохнут намного чаще и от них отказываются.
          0
          Как раз по статистике ничего не видно: 45 штук вестернов, против десятков тысяч каких-нибудь сегейтов — хреновая база для сбора статистики.
            +1
            45 штук вестернов ОСТАЛОСЬ, смотрите статистику за предыдущие годы, там были партии по несколько тысяч.
              0
              Помнится, почитывал их бложик и там как раз были рассуждения о закупке дисков различных производителей. Так вот, там все диктуется не прикидками «надежный-ненадежный», а ценой и возможностью купить крупную партию. Кроме того, ненадежные диски — это обычно отдельные неудачные партии, а не все вообще диски одного производителя.

              Конкретно про WD смутно вспоминается, что в среднем их цена была выше, чем у конкурентов аналогичного объема, а возможности купить крупную партию почему-то не было.
              Можно было купить дешевые WD-шки во внешних корпусах, а потом сидеть и выламывать их, но они от этого отказались: во-первых, теряется гарантия, а во-вторых, инженеры должны заниматься более интересными делами, чем раскурочивание тысяч внешних дисков.

              А надежность у них обеспечивается избыточностью и активным мониторингом дисковых массивов, так что плюс-минус пара процентов сдохших дисков для бизнеса некритична.
            –1
            Их и куплено было мало, статистика слабая.
              –1
              Что странно. Похоже что инженеры-вредители делавшие раньше убогие диски для сигейта которые дохли пачками все ушли в WD и теперь гадят уже там. При этом надёжность дисков HGST вопросов не вызывает — видимо туда криворукие из сигейта ещё не добрались). В целом же для домашнего использования похоже как рулила тошиба так и рулит.
                0
                Дешевые тошибы дохнут ничуть не реже накопителей прочих производителей.
                  0
                  HGST это вроди бывшее дисковое подразделение IBM, у которых свои давние традиции вредительства(вспомним серию DTLA)
                0
                Ну, ST10000NM0086 тоже гелиевый, а ставят, значит, не гелия боятся.
                  +1
                  Скорее всего отдел закупок ограничен какими-нибудь устоявшимися контрактами. Или же просто из WD скидку не смогли выбить. К примеру для хорошей скидки им нужно в год закупать по 10к дисков, а в год нужно 22к, вот и выбрали пару вендоров, которые предоставили лучшие условия.
                    0
                    В оригинальной статье пишут, что HGST принадлежит WD. А именно с WD не договорились по хорошей цене.
                    0
                    500 000 дней, 50 000 дней — это огого!
                      0
                      Там ещё 45 млн есть
                      +1
                      Не понимаю, почему они не фокусируются в своих отчётах на time-dependent survival rate, как на графике. Какой толк от Annualized Failure Rate, если они сами говорят, что этот показатель меняется во времени и для одной и той же модели будет разным в зависимости от возраста экземпляров. Наверняка распределение возрастов для разных моделей разной, тогда что о чем нам говорит AFR?
                      Вот нашел более полезный анализ:
                      image
                        +1
                        Могу подтвердить надежность Хитачей: много лет юзаю дома в режиме 24х7 3Тб модели HUA5C3030ALA640 и HUA723030ALA640 (5900 и 7200rpm), штук 15 в сумме — ни один не помер, даже Reallocated секторов нет. Уже лет 8 им, как мне кажется. Power-on Hours у многих более 6 лет.
                          0
                          Каким образом 9 отказов на 1205 дисков превратились в 3.03%?
                          Да и для обычного пользователя эта статистика ни о чем не говорит. Эти диски стоят в серверах и у них другие условия эксплуатации.
                            0
                            ну так уж прям «ниочем». Отличия могут быть, но в отсутствии других данных, статистика Backblaze — это очень хорошее приближение для домашнего NAS, к примеру.
                              0
                              Эти 9 отказов произошли за 108536 дней совокупной работы 1205 дисков (т.е. за три месяца, 90 дней работы каждого диска в среднем). Т.е. за 3 месяца вылетело 9 дисков, «36 годовых», и 36/1205 это вполне три процента.
                              0
                              Не очень понял, как они в последней таблице для ST4000DM000 получили 2,77% отказов.
                              Не, ну понятно что это фэйлз * 100 / каунт, и поделили на три с пловиной года ещё… но блин… три процента afr, или девять процентов за три года — для ЭТОЙ модели цифра вообще нереальная.
                              Что-то тут не так с этой математикой.
                                0
                                Число дисков как таковое здесь не играет вообще никак, так как они рабочие диски спустя сколько-то лет тоже меняют. А методика расчета простая, fails/total drive years, или fails*365/total drive days.
                                  +1
                                  А, ну да. Там же время везде в рассчётах участвует изначально, а не так, как я посчитал. Посему достаточно вывести диски из эксплуатации вовремя, до начала массовых отказов — и получишь прекрасный AFR.

                                  Вот как раз выше DaylightIsBurning выложил картинку про survival rate. Там если глянуть в табличку «still in use» то по этой модели через три года от 35 тысяч остаётся 11, а ещё через год — 4. Вот эти цифры уже как-то пореальней выглядят.

                                  Видимо, обнаружив всплеск afr их просто стали вовремя выводить из эксплуатации, «по симптомам и подозрениям», т.е. до того момента, когда фиксируется именно отказ накопителя. Вот оттого и получили такую щадящую статистику.

                              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                              Самое читаемое