Накопители SSD и данные SMART

Сокращение SMART означает «технология автоматического контроля, анализа и отчетности». Как следует названия, это инструмент, который записывает данные о состоянии жесткого диска (HDD) или твердотельного накопителя (SSD). Данные SMART являются важным инструментом, они обеспечивают заблаговременное предупреждение о проблемах с накопителем, а также информируют о достижении предельного срока его эксплуатации. Это позволяет заменять диски до возникновения неисправности.

Отчетность необходима пользователю и системному администратору, потому что сам диск не может провести глубокий анализ данных. Диск может отчитаться только о том, что некоторые параметры превысили предварительно установленные пороговые значения, и только в том случае, если пороги были запрограммированы в его встроенном ПО.

Технология SMART используется уже много лет, она возникла еще до появления SSD-накопителей. Изначально технология SMART использовалась для жестких дисков, но c появлением накопителей SSD, которые были призваны заменить вращающиеся жесткие диски, она была адаптирована и к SSD. К сожалению, для технологий хранения не существует единого промышленного стандарта, жестко связывающего номер атрибута SMART с конкретным физическим свойством накопителя. Дескрипторы атрибутов могут отличаться для SSD по сравнению с HDD и даже различаться между SSD от различных производителей.

Существует несколько утилит сторонних производителей, которые умеют считывать данные SMART и формировать отчеты. Эти утилиты часто распространяются с бесплатными и условно бесплатными лицензиями. Следует учитывать, что если производитель такой сторонней утилиты не взаимодействует с производителем накопителя, то определения и пороговые значения (если они применимы) атрибутов SMART могут быть названы неверно, что приведет к ошибочно позитивному или ошибочно негативному отчету о состоянии накопителя.

Например, когда атрибут «Количество часов во включенном состоянии» сообщает утилите о количестве, несовместимая утилита может неправильно пометить эту цифру как «Число сбоев программы» или «Сообщенные неисправимые ошибки». Хуже того, утилиты сторонних производителей могут иметь установки пороговых значений, неприменимые к опрашиваемому SSD, и утилита отчитается об ошибке на совершенно исправном устройстве.

Во избежание подобного недоразумения Crucial рекомендует к использованию только свое собственное ПО Storage Executive, поскольку только это программное средство умеет правильно читать и анализировать данные SMART для SSD-накопителей Crucial. ПО Storage Executive всегда содержит правильные описания атрибутов и пороговых значений (если они применимы) практически для всех, даже самых старых SSD-накопителей Crucial.

Описание атрибутов SMART, определенных Crucial

SSD Crucial записывают несколько различных атрибутов, предназначенных для чтения в Storage Executive. Часть атрибутов относится к критическим параметрам SSD, а часть необходима просто для сведения.

Ниже мы расскажем о наиболее важных атрибутах, причем если их наименования различны для SATA и PCle, то мы укажем оба названия:

Атрибут 202: Процент использованного срока службы

Смысл этого параметра точно соответствует наименованию атрибута. В каждый момент времени здесь отображается, какая часть ожидаемого срока службы накопителя уже использована. Для совершенно нового SSD атрибут 202 отображает 0, а по достижении заданного срока службы —100, что означает, что использовано 100 % срока службы устройства.

Важно понимать, что достижение 100 % ожидаемого срока службы не означает немедленный выход накопителя из строя. Сетчик продолжит отсчет и покажет в дальнейшем 101 %. Речь просто идет о том, что скоро SSD необходимо будет заменить.

Срок службы устройства NAND-флэш определяется другой характеристикой — временем удержания данных. Эта характеристика показывает, в течение какого промежутка времени возможно надежное хранение и последующее считывание данных с устройства, находившегося без электрического питания. Для совершенно новых SSD и NAND-флэш срок такого хранения составляет несколько лет. Далее, совсем как в случае с человеческой памятью, этот срок становится короче, поскольку память подвергается износу, вызванному операциями записи (чтение не приводит к прямому износу).

Созданием стандартов и спецификаций для полупроводниковых приборов и сборок занимается специальная промышленная группа — Объединенный инженерный совет по электронным устройствам (JEDEC). Micron является ведущим участником JEDEC и определяет время удержания данных особым образом: Для накопителей SSD в клиентских приложениях (например, в домашних или рабочих компьютерах) время хранения данных для SSD должно составлять один год в выключенном состоянии (хранение при 30 °C). При таких условиях у большинства пользователей будет достаточно времени для того, чтобы скопировать все данные с неиспользуемого накопителя, лежащего на полке.

Из приведенного описания можно было бы сделать вывод о том, что SSD должен неплохо работать после того, как счетчик начнет показывать значения срока службы свыше 100 %. Однако со временем способность к хранению продолжает снижаться с одного года до полугода, трех месяцев и т. д. В итоге далеко за пределами гарантийного срока службы данные на устройстве вообще перестанут сохраняться после выключения электропитания.

Встроенное ПО SSD учитывает этот фактор. SSD стареет, и для нивелирования проблем, вызванных сокращением времени удержания данных, встроенное ПО использует код коррекции ошибок (ECC), повторное чтение, адаптивные параметры чтения, процедуры обслуживания данных в фоновом режиме и ряд других специальных мер. Деградировавшие блоки NAND заменяются на специально зарезервированные запасные блоки, что позволяет продолжить нормальное функционирование устройства. Разумеется, все эти фоновые операции выполняются при включенном питании, а время удержания данных определяется как состояние с выключенным питанием.

Атрибут 5: Неиспользуемые блоки NAND

Количество неиспользуемых блоков, появляющихся в процессе непрерывного отслеживания качества блоков NAND, указывается в атрибуте 5 технологии SMART. Встроенное ПО SSD может пометить блок NAND как неиспользуемый не только из-за износа и проблемы удержания данных, описанной выше, но и по некоторым другим причинам. Одной из причин может являться отказ в стирании блока при удалении данных или их переносе в процессе сбора мусора. Такой тип отказа не представляет большой угрозы для данных пользователя, поскольку данные удаляются или уже успешно скопированы в другую область SSD.

Атрибут 180: Счетчик незадействованных зарезервированных блоков (доступные запасные блоки SSD PCIe)

Как и следует из названия, это количество доступных дополнительных блоков, которые будет использованы в случае необходимости вывода из эксплуатации плохих блоков. Эта цифра меняется в зависимости от используемой архитектуры NAND, встроенного ПО, пользовательской емкости диска, но измеряется обычно начиная с тысяч единиц.

Эта цифра уменьшается с ростом числа неиспользуемых блоков. При достижении атрибутом 180 значения 0 встроенное ПО переведет SSD в режим только для чтения. SSD нельзя будет использовать как обычный накопитель, но у пользователя должна остаться возможность считать сохраненные данные и перенести их на новый носитель. Настоятельно рекомендуется заменить накопитель при снижении этого параметра ниже 100.

Атрибут 210: Счетчик успешно восстановленных страниц RAIN

Избыточный массив независимой NAND (RAIN) очень похож на избыточные данные в RAID на массиве дисков. Однако RAIN работает в рамках одного накопителя, и механизм его работы прозрачен для пользователя. RAIN — это функция, используемая SSD для защиты данных пользователя и продления срока службы накопителя.

События RAIN происходят редко, поэтому, если этот счетчик достигает высокого значения, следует проверить значения атрибутов, описанных выше. Возможно, что накопитель пора менять. Частые события RAIN могут привести к заметному снижению производительности. Использование избыточности по биту четности для восстановления данных позволяет восстановить нормальную работу накопителя, но потребляет некоторую часть пропускной способности при вводе/выводе. Частое снижении производительности может быть вызвано перестроением RAIN и должно вызывать опасения.

Атрибут 174: Счетчик неожиданных выключений электропитания (счетчик небезопасных выключений на SSD PCIe)

При нормальном выключении электропитания компьютерная система сначала отправляет сообщение для SSD о скором прекращении подачи питания. Это позволяет SSD завершить все текущие действия. После завершения операций SSD отправляет компьютеру подтверждение, и система завершает выключение питания.

На практике электропитание может внезапно выключиться по целому ряду причин, и это создает проблемы для SSD-накопителя. Почти во всех случаях SSD удается справиться с этой ситуацией и, хотя следующая загрузка и окажется несколько более длительной (несколько секунд вместо сотен миллисекунд), однако система загрузится.

Атрибут 174 обычно необходим просто для сведения. Высокое значение счетчика таких событий может указывать на необходимость обучения пользователя правильным способам выключения операционной системы или на проблемы с электропитанием или разъемами.

Атрибут 194: Температура корпуса (температура устройства PCIe)

ПО Crucial Storage Executive предоставляет отчет по обоим параметрам (текущей температуре и самой высокой температуре за время службы) в градусах Цельсия. Соответствующий датчик встроен в SSD. Рабочий диапазон для большинства SSD Crucial находится в пределах от 0 °C до 70 °C. Записи о температуре выше 70 °C могут являться основанием для отмены гарантии, поэтому температуру необходимо отслеживать постоянно. Если температура постоянно превышает 65 °C, то рекомендуется принять коррективные меры: улучшить вентиляцию или установить вентиляторы.

Вместо заключения

Технология SMART является весьма полезным инструментом отслеживания состояния вашего SSD. Однако SMART не является исчерпывающим инструментом диагностики. Информация, извлекаемая из атрибутов SMART, в сочетании с диагностикой операционной системы обеспечивает хорошую начальную точку для стандартных практик устранения неисправностей.

Неправильно сообщенные или неверно интерпретированные данные SMART могут стать основанием для неверных выводов, что, к сожалению, может привести к возврату идеально работающего диска. По этой причине Crucial для чтения данных SMART с SSD-накопителей Crucial настоятельно рекомендует к использованию только ПО Crucial Storage Executive.

©Корпорация Micron Technology, Inc., 2019. Все права защищены. Устройства, их технические характеристики, а также информация о них могут быть изменены без уведомления. Crucial и Micron Technology, Inc. не несут ответственности за ошибки и неточности в текстовых или фотографических материалах. Micron, логотип Micron, Crucial и логотип Crucial являются товарными знаками или зарегистрированными товарными знаками компании Micron Technology, Inc. PCI Express и PCIe являются зарегистрированными товарными знаками PCI-SIG. Все другие товарные знаки и знаки обслуживания являются собственностью их правообладателей.