Содержание
- Русские Блоги
- Механизм обработки ошибок протокола SATA 3.3
- 15 Error Handling
- Sata phy error count что это такое
- Intermittent SMART PHY/CRC Errors
- NASbox
- sretalla
Русские Блоги
Механизм обработки ошибок протокола SATA 3.3
Содержание этой статьи относится к главе 15 протокола SATA3.3.
15 Error Handling
15.1 Architecture
15.2 Phy error handling overview
There are three primary categories of error that the Phy layer detects internally:
a) no device present; // Соответствует значению DET в регистре SStatus 0000b
b) OOB signaling sequence failure; and // Соответствует значению DET в регистре SStatus 0001b
c) Phy internal error (loss of synchronization of communications link) // Соответствие биту [E] в поле ERR в регистре SError представлено как внутренняя ошибка phy
Первые две ошибки сохраняются в регистре SStatus, а третья ошибка сохраняется в регистре SStatus и регистре SError.
Регистр SStatus можно посмотреть в протоколе 14.2.2.
Регистр ошибок можно посмотреть в протоколе 14.2.3.
Подробное описание каждого бита в домене ERR см. В руководстве по протоколу.
15.3 Link layer error handling overview
There are two primary categories of errors that the Link layer detects internally are:
a) invalid state transitions; and
b) data integrity errors.
Invalid state transition errors may arise from a number of sources and the Link layer responses to
many such error conditions as defined in clause 9. Data integrity errors generally arise from
noise in the physical interconnect.
Если первая ошибка возникает во время передачи кадра в Phy, после передачи SOF передается еще один R_ERR; если ошибка не возникает во время передачи кадра, Link сразу переключится на состояние простоя и дождитесь следующей операции.
15.4 Transport layer error handling
In addition to the error information passed to it by the Link layer, the Transport layer internally
detects the following categories of errors:
a) internal errors;
b) frame errors;
c) protocol errors; and
d) state errors.
Транспортный уровень будет уведомлять канальный уровень об обнаруженной ошибке (отраженной в регистрах SStatus и SError), а канальный уровень будет сообщать об ошибке через R_ERR / R_OK после завершения передачи каждого кадра ( Однако R_ERR не может указать причину ошибки по сравнению с D2B FIS).
Источник
Sata phy error count что это такое
Как читать вывод показателей SMART
Работа с показаниями Smartudm
При чтении S.M.A.R.T. программа строит таблицу такого типа:
Attribute * Spin Up Time
ID 3
Threshold 63
Value 236
Worst 235
Raw 000000001199h
Type PR SP
Attribute — имя атрибута;
ID — номер атрибута;
Value — значение атрибута (выше лучше);
Threshold — пороговое значения атрибута (если значение меньше чем Threshold, готовьтесь к неприятностям);
Worst — самое низкое значение атрибута за все время тестирования;
Raw — текущее значение атрибута в 16-ричном значении (меньше лучше);
Type — тип атрибута (PR — Performance-related, ER — Error rate, EC — Events count, SP — Self-preserve).
Значения параметров SMART
Raw Read Error Rate — Частота появления ошибок при чтении данных с диска. Данный параметр показывает частоту появления ошибок при операциях чтения с поверхности диска по вине аппаратной части накопителя.
Spin Up Time — Время раскрутки шпинделя. Среднее время раскрутки шпинделя диска от 0 RPM до рабочей скорости. Предположительно, в поле raw value содержится время в миллисекундах/секундах.
Reallocated Sector Count — Количество переназначенных секторов. Когда жесткий диск встречает ошибку чтения/записи/верификации он пытается переместить данные из него в специальную резервную область (spare area) и, в случае успеха, помечает сектор как «переназначенный». Также, этот процесс называют remapping, а переназначенный сектор — remap. Благодаря этой возможности, на современных жестких дисках очень редко видны [при тестировании поверхности] так называемые bad block. Однако, при большом количестве ремапов, на графике чтения с поверхности будут заметны «провалы» — резкое падение скорости чтения (до 10% и более). Поле raw value содержит общее количество переназначенных секторов.
Throughput Performance — Средняя производительность (пропускная способность) диска. Уменьшение значения value этого атрибута с большой вероятностью указывает на проблемы в накопителе.
Start/Stop Count — Количество циклов запуск/останов шпинделя. Поле raw value хранит общее количество включений/выключений диска.
Read Channel Margin — Запас канала чтения. Назначение этого атрибута не документировано и в современных накопителях не используется.
Seek Error Rate — Частота появления ошибок позиционирования БМГ. В случае сбоя в механической системе позиционирования, повреждения сервометок (servo), сильного термического расширения дисков и т.п. возникают ошибки позиционирования. Чем их больше, тем хуже механики и/или поверхности жесткого диска.
Seek Time Performance — Средняя производительность операций позиционирования БМГ. Данный параметр показывает среднюю скорость позиционирования привода БМГ на указанный сектор. Снижение значения этого атрибута говорит о неполадках в механике привода.
Power-On Hours — Количество отработанных часов во включенном состоянии. Поле raw value этого атрибута показывает количество часов (минут, секунд — в зависимости от производителя), отработанных жестким диском. Снижение значения (value) атрибута до критического уровня (threshold) указывает на выработку диском ресурса (MTBF — Mean Time Between Failures). На практике, даже падение этого атрибута до нулевого значения не всегда указывает на реальное исчерпывание ресурса и накопитель может продолжать нормально функционировать.
Spin Retry Count — Количество повторов попыток старта шпинделя диска. Данный атрибут фиксирует общее количество попыток раскрутки шпинделя и его выхода на рабочую скорость, при условии, что первая попытка была неудачной. Снижение значения этого атрибута говорит о неполадках в механике привода.
Recalibration Retries — Количество повторов попыток рекалибровки накопителя. Данный атрибут фиксирует общее количество попыток сброса состояния накопителя и установки головок на нулевую дорожку, при условии, что первая попытка была неудачной. Снижение значения этого атрибута говорит о неполадках в механике привода.
Device Power Cycle Count — Количество полных циклов запуска/останова жесткого диска.
Soft Read Error Rate — Частота появления «программных» ошибок при чтении данных с диска. Данный параметр показывает частоту появления ошибок при операциях чтения с поверхности диска по вине программного обеспечения, а не аппаратной части накопителя.
End-to-End error — Данный атрибут-часть технологии HP SMART IV, это означает, что после передачи через кэш памяти буфера данных паритет данных между хостом и жестким диском не совпадают.
Reported UNC Errors — Ошибки, которые не могли быть восстановлены, используя методы устранения ошибки аппаратными средствами.
Load/Unload cycle count — Количество циклов вывода БМГ в специальную парковочную зону/в рабочее положение. Подробнее — см. описание технологии Head Load/Unload Technology.
Drive Temperature — Температура. Данный параметр отражает в поле raw value показание встроенного температурного сенсора в градусах Цельсия.
Reallocation Event Count — Количество операций переназначения (ремаппинга). Поле raw value этого атрибута показывает общее количество попыток переназначения сбойных секторов в резервную область, предпринятых накопителем. При этом, учитываются как успешные, так и неудачные операции.
Current Pending Sector Count — Текущее количество нестабильных секторов. Поле raw value этого атрибута показывает общее количество секторов, которые накопитель в данный момент считает претендентами на переназначение в резервную область (remap). Если в дальнейшем какой-то из этих секторов будет прочитан успешно, то он исключается из списка претендентов. Если же чтение сектора будет сопровождаться ошибками, то накопитель попытается восстановить данные и перенести их в резервную область, а сам сектор пометить как переназначенный (remapped). Постоянно ненулевое значение raw value этого атрибута говорит о низком качестве (отдельной зоны) поверхности диска.
Uncorrectable Sector Count — Количество нескорректированных ошибок. Атрибут показывает общее количество ошибок, возникших при чтении/записи сектора и которые не удалось скорректировать. Рост значения в поле raw value этого атрибута указывает на явные дефекты поверхности и/или проблемы в работе механики накопителя.
UltraDMA CRC Error Count — Общее количество ошибок CRC в режиме UltraDMA. Поле raw value содержит количество ошибок, возникших в режиме передачи данных UltraDMA в контрольной сумме (ICRC — Interface CRC). Примечание автора. Практика, собранная статистика и изучение журналов ошибок SMART показывают: в большинстве случаев ошибки CRC возникают при сильном завышении частоты PCI (больше номинальных 33.6 MHz), сильно перекрученом кабеле, а также — по вине драйверов ОС, которые не соблюдают требований к передачи/приему данных в режимах UltraDMA.
Write Error Rate (Multi Zone Error Rate)- Частота появления ошибок при записи данных. Показывает общее количество ошибок, обнаруженных во время записи сектора. Чем больше значение в поле raw value (и ниже значение value), тем хуже состояние поверхности диска и/или механики привода.
Disk Shift — Сдвиг пакета дисков относительно оси шпинделя. Актуальное значение атрибута содержится в поле raw value. Единицы измерения — не известны. Подробности — см. в описании технологии G-Force Protection. Примечание. Сдвиг пакета дисков возможен в результате сильной ударной нагрузки на накопитель в результате его падения или по иным причинам.
G-Sense Error Rate — Частота появления ошибок в результате ударных нагрузок. Данный атрибут хранит показания ударочувствительного сенсора — общее количество ошибок, возникших в результате полученных накопителем внешних ударных нагрузок (при падении, неправильной установки, и т.п.). Подробнее — см. описание технологии G-Force Protection.
Loaded Hours — Нагрузка на привод БМГ, вызванная общей наработкой часов накопителем. Учитывается только период, в течении которого головки находились в рабочем положении.
Load/Unload Retry Count — Нагрузка на привод БМГ, вызванная многочисленными повторениями операций чтения, записи, позиционирования головок и т.п. Учитывается только период, в течении которого головки находились в рабочем положении.
Load Friction — Нагрузка на привод БМГ, вызванная трением в механических частях накопителя. Учитывается только период, в течении которого головки находились в рабочем положении.
Load/Unload Cycle Count — Общее количество циклов нагрузки на привод БМГ. Учитывается только период, в течении которого головки находились в рабочем положении.
Load-in Time — Общее время нагрузки на привод БМГ. Предположительно, данный атрибут показывает общее время работы накопителя под нагрузкой, при условии, что головки находятся в рабочем состоянии (вне парковочной зоны).
Torque Amplification Count — Количество усилий вращающего момента привода.
Power-Off Retract Count — Количество зафиксированных повторов в(ы)ключения питания накопителя.
GMR Head Amplitude — Амплитуда дрожания GMR-головок (GMR-Head) в рабочем состоянии.
Программы для чтения SMART
SpeedFan
SMARTUDM — HDD S.M.A.R.T. Viewer
MHDD
Виктория
К посту прикреплен официальный список значений атрибутов (eng)
Это сообщение посчитали полезным следующие участники:
Показать/скрыть список поблагодаривших
Сообщения: 8626
Благодарности: 2127
Вам ещё повезло, что после падения удалось слить с него инфу, да ещё и всю.
Атрибут 1 (проблемы либо с головками чтения, либо с усилителем чтения — но при ваших исходных данных это должно быть повреждением головок; и вам повезло что при этом повреждения поверхности блинов и тех самых головок оказались минимальными и позволили снять информацию) опустился значительно ниже планки, являющейся границей годности диска.
Диск — в ведро.
Ну или разобрать на магнитики и зеркальца.
Источник
Intermittent SMART PHY/CRC Errors
NASbox
I have a CRON job running on my TrueNAS that watches a few of the key SMART
parameters on my boot drives. The count on each of the following parameters:
incremented by 1 on each of July 13, 14, 15, 19 and 21.
The counts are not super high:
168|SATA_Phy_Error_Count|32
218|CRC_Error_Count|32
but I’m pretty sure some sort of preemptive maintenance is in order.
My boot pool is a mirror of two budget 120GB SSDs running off of
SATA ports on the Motherboard. I have the system database on the
boot pool since I want the system to be functional without the data
pool if I want to troubleshoot the system with the data pool drives
removed.
The drive showing the errors is a KINGSTON Model# SA400S37120G
(Smart Info at the end of this post.)
The other drive is older and is an HP S700 120GB SSD that seems to be
fine.
IIUC this could be a drive problem, a cable probem, a (Motherboard) SATA
Port problem or a powersupply problem.
My question is how to troubleshoot given the intermittent nature of the
problem. Any suggestions would be much appreciated.
DMESG entries pertaining to the fault.
Happy FreeNAS User since 2012
sretalla
Powered by Neutrality
The count on each of the following parameters:
incremented by 1 on each of July 13, 14, 15, 19 and 21.
Are those linked to either the dates of SMART tests or scrubs?
The drive showing the errors is a KINGSTON Model# SA400S37120G
(Smart Info at the end of this post.)
The other drive is older and is an HP S700 120GB SSD that seems to be
fine.
IIUC this could be a drive problem, a cable probem, a (Motherboard) SATA
Port problem or a powersupply problem.
My question is how to troubleshoot given the intermittent nature of the
problem. Any suggestions would be much appreciated.
You also didn’t mention the 100 read errors reported by SMART. those are from the drive itself, so indicate some level of failure unrelated to cabling.
The CRC errors can be the controller on the drive, the cabling or the SATA controller, so as you say, hard to narrow down unless something obvious like a loose connection or burning smell from the controller chip.
I would generally treat the drive as untrustworthy and consider living with a single boot device (keeping config backups just in case).
Aiming to mostly replicate the build from @Stux (with some mods, hopefully around about as good as that link)
- 4 xSamsung 850 EVO Basic (500GB, 2.5″) — — VMs/Jails
- 1 xASUS Z10PA-D8 (LGA 2011-v3, Intel C612 PCH, ATX) — — Dual socket MoBo
2 xWD Green 3D NAND (120GB, 2.5″) — — Boot drives (maybe mess around trying out the thread to put swap here too link)- 1 x Kingston UV400 120GB SSD — boot drive (hit the 3D NAND/TRIM bug with the original WD green selection, failing scrub and showing as corrupted OS files) Decided to go with no mirror and use the config backup script
- 2 xIntel Xeon E5-2620 v4 (LGA 2011-v3, 2.10GHz) — — 8 core/16 threads per Chip
- 2 xNoctua NH-U9S (12.50cm)
- 1 xCorsair HX1200 (1200W) — PSU to support 24 HDD + several SSD and PCI cards
- 4 xKingston Value RAM (32GB, DDR4-2400, ECC RDIMM 288)
- 2 xNoctua NF-A8 PWM Premium 80mm PC Computer Case Fan
3 xNoctua NF-F12 PWM Cooling Fan- 3 xNoctua NF-F12 PPC 3000 PWM (120mm) * having noted later in Stux’s thread that 1500 RPM is not sufficient to cool the HDDs. Corsair Commander Pro to control the fans (see script and code)
- 1 xNORCO 4U Rack Mount 24 x Hot-Swappable SATA/SAS 6G Drive Bays Server Rack mount RPC-4224
- 6 xCableCreation Internal Mini SAS HD Cable, Mini SAS SFF-8643 to Mini SAS 36Pin SFF-8087 Cable
- 1 xLSI Logic Controller Card 05-25699-00 9305-24i 24-Port SAS 12Gb/s PCI-Express 3.0 Host Bus Adapter
- TrueNAS Core 13.0-U3.1
- Use existing Drives 8 x10TB WD Red, 8 x4TB WD Purple, + a mix of WD Purple and shucked WD Elements 12TB x 8
ESXi-pfSense-FreeNAS-Docker host
CASE: Fractal Node 804
MB: ASUS x-99M WS
CPU: Xeon E5-2620v4 + Corsair H60 Cooler block
RAM: CRUCIAL 64GB DDR4-2133 ECC RDIMMs
HDD: WD RED 3TBx8
SSD: 4 xSamsung 850 EVO Basic (500GB, 2.5″) — — VMs/Jails
HBA: LSI 9300-16i
OS: 1 x Kingston UV400 120GB SSD — boot drive
PSU: Corsair RM1000
Version: TrueNAS CORE 13.0 -U3.1
FANS: 3xFractal R3 120mm — 3 Front, 1 Rear. Corsair Commander Pro to control the fans (see script and code)
CPU FAN: 1xCorsair H60 CPU Radiator — Front
NIC: Intel EXPI9402PTBLK Pro, Dual-Gigabit Adapter (plus the 2 onboard Intel NICs, 1x 210, 1x 218)
VM/Docker host, using ESXi and running pfSense alongside FreeNAS (separate Dual Intel NIC added, dedicated to the pfSense VM)
TrueNAS CORE test system:
CASE: Old Silverstone HTPC case
MB: ASUS x-99M WS
CPU: Xeon E5-2620v4 + Corsair H60 Cooler block
RAM: CRUCIAL 32GB DDR4-2133 ECC RDIMMs
HDD: WD RED 8TBx3
OS: 1 x Kingston UV400 120GB SSD — boot drive
PSU: Corsair RM1000
Version: TrueNAS CORE 13.0-U3
2x Intel NUCs running TrueNAS SCALE 22.12 RC1
64GB RAM
10th Generation Intel i7
Samsung NVME SSD 1TB, QVO SSD 1TB
Boot from Samsung Portable T7 SSD USBC
CASE: Fractal Node 304 running TrueNAS SCALE 22.12 RC1
MB: ASUS P10S-I Series
RAM: 32 GB
CPU: Intel(R) Xeon(R) CPU E3-1240L v5 @ 2.10GHz
HDD: 3 WD REDs and a few SSDs
PSU: Fractal ION 2+ 650W
Источник
Adblock
detector
-
#1
I have a CRON job running on my TrueNAS that watches a few of the key SMART
parameters on my boot drives. The count on each of the following parameters:
168|SATA_Phy_Error_Count
218|CRC_Error_Count
incremented by 1 on each of July 13, 14, 15, 19 and 21.
The counts are not super high:
168|SATA_Phy_Error_Count|32
218|CRC_Error_Count|32
but I’m pretty sure some sort of preemptive maintenance is in order.
My boot pool is a mirror of two budget 120GB SSDs running off of
SATA ports on the Motherboard. I have the system database on the
boot pool since I want the system to be functional without the data
pool if I want to troubleshoot the system with the data pool drives
removed.
The drive showing the errors is a KINGSTON Model# SA400S37120G
(Smart Info at the end of this post.)
The other drive is older and is an HP S700 120GB SSD that seems to be
fine.
IIUC this could be a drive problem, a cable probem, a (Motherboard) SATA
Port problem or a powersupply problem.
My question is how to troubleshoot given the intermittent nature of the
problem. Any suggestions would be much appreciated.
DMESG entries pertaining to the fault.
Code:
(ada3:ahcich5:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 d0 20 c3 7c 40 04 00 00 00 00 00 (ada3:ahcich5:0:0:0): CAM status: Uncorrectable parity/CRC error (ada3:ahcich5:0:0:0): Retrying command, 3 more tries remain (ada3:ahcich5:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 30 08 cb b3 40 04 00 00 00 00 00 (ada3:ahcich5:0:0:0): CAM status: Uncorrectable parity/CRC error (ada3:ahcich5:0:0:0): Retrying command, 3 more tries remain (ada3:ahcich5:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 20 20 9b ae 40 04 00 00 00 00 00 (ada3:ahcich5:0:0:0): CAM status: Uncorrectable parity/CRC error SMART Output for drive:smartctl -x /dev/ada3 smartctl 7.2 2020-12-30 r5155 [FreeBSD 12.2-RELEASE-p14 amd64] (local build) Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Model Family: Phison Driven SSDs Device Model: KINGSTON SA400S37120G Serial Number: REDACTED LU WWN Device Id: 5 0026b7 782ea1dc1 Firmware Version: S3500102 User Capacity: 120,034,123,776 bytes [120 GB] Sector Size: 512 bytes logical/physical Rotation Rate: Solid State Device TRIM Command: Available Device is: In smartctl database [for details use: -P show] ATA Version is: ACS-3 T13/2161-D revision 4 SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Fri Jul 22 03:23:00 2022 EDT SMART support is: Available - device has SMART capability. SMART support is: Enabled AAM feature is: Unavailable APM feature is: Disabled Rd look-ahead is: Enabled Write cache is: Enabled DSN feature is: Unavailable ATA Security is: Disabled, frozen [SEC2] Wt Cache Reorder: Unavailable === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x02) Offline data collection activity was completed without error. Auto Offline Data Collection: Disabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: ( 120) seconds. Offline data collection capabilities: (0x11) SMART execute Offline immediate. No Auto Offline data collection support. Suspend Offline collection upon new command. No Offline surface scan supported. Self-test supported. No Conveyance Self-test supported. No Selective Self-test supported. SMART capabilities: (0x0002) Does not save SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 10) minutes. SMART Attributes Data Structure revision number: 1 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE 1 Raw_Read_Error_Rate -O--CK 100 100 000 - 100 9 Power_On_Hours -O--CK 100 100 000 - 21839 12 Power_Cycle_Count -O--CK 100 100 000 - 31 148 Unknown_Attribute ------ 100 100 000 - 0 149 Unknown_Attribute ------ 100 100 000 - 0 167 Write_Protect_Mode ------ 100 100 000 - 0 168 SATA_Phy_Error_Count -O--C- 100 100 000 - 33 169 Bad_Block_Rate ------ 100 100 000 - 0 170 Bad_Blk_Ct_Erl/Lat ------ 100 100 010 - 0/0 172 Erase_Fail_Count -O--CK 100 100 000 - 0 173 MaxAvgErase_Ct ------ 100 100 000 - 0 181 Program_Fail_Count -O--CK 100 100 000 - 0 182 Erase_Fail_Count ------ 100 100 000 - 0 187 Reported_Uncorrect -O--CK 100 100 000 - 0 192 Unsafe_Shutdown_Count -O--C- 100 100 000 - 19 194 Temperature_Celsius -O---K 044 062 000 - 44 (Min/Max 31/62) 196 Reallocated_Event_Count -O--CK 100 100 000 - 0 199 SATA_CRC_Error_Count -O--CK 100 100 000 - 0 218 CRC_Error_Count -O--CK 100 100 000 - 33 231 SSD_Life_Left ------ 090 090 000 - 90 233 Flash_Writes_GiB -O--CK 100 100 000 - 8865 241 Lifetime_Writes_GiB -O--CK 100 100 000 - 12051 242 Lifetime_Reads_GiB -O--CK 100 100 000 - 2641 244 Average_Erase_Count ------ 100 100 000 - 202 245 Max_Erase_Count ------ 100 100 000 - 222 246 Total_Erase_Count ------ 100 100 000 - 40787 ||||||_ K auto-keep |||||__ C event count ||||___ R error rate |||____ S speed/performance ||_____ O updated online |______ P prefailure warning General Purpose Log Directory Version 1 SMART Log Directory Version 1 [multi-sector log support] Address Access R/W Size Description 0x00 GPL,SL R/O 1 Log Directory 0x01 SL R/O 1 Summary SMART error log 0x02 SL R/O 1 Comprehensive SMART error log 0x03 GPL R/O 1 Ext. Comprehensive SMART error log 0x04 GPL,SL R/O 8 Device Statistics log 0x06 SL R/O 1 SMART self-test log 0x07 GPL R/O 1 Extended self-test log 0x10 GPL R/O 1 NCQ Command Error log 0x11 GPL R/O 1 SATA Phy Event Counters log 0x30 GPL,SL R/O 9 IDENTIFY DEVICE data log 0x80-0x9f GPL,SL R/W 16 Host vendor specific log 0xde GPL VS 8 Device vendor specific log SMART Extended Comprehensive Error Log Version: 1 (1 sectors) Device Error Count: 33 (device log contains only the most recent 4 errors) CR = Command Register FEATR = Features Register COUNT = Count (was: Sector Count) Register LBA_48 = Upper bytes of LBA High/Mid/Low Registers ] ATA-8 LH = LBA High (was: Cylinder High) Register ] LBA LM = LBA Mid (was: Cylinder Low) Register ] Register LL = LBA Low (was: Sector Number) Register ] DV = Device (was: Device/Head) Register DC = Device Control Register ER = Error register ST = Status register Powered_Up_Time is measured from power on, and printed as DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes, SS=sec, and sss=millisec. It "wraps" after 49.710 days. Error 33 [0] log entry is empty Error 32 [3] log entry is empty Error 31 [2] occurred at disk power-on lifetime: 0 hours (0 days + 0 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER -- ST COUNT LBA_48 LH LM LL DV DC -- -- -- == -- == == == -- -- -- -- -- 04 -- 51 00 00 00 00 00 00 00 00 40 00 Error: ABRT Commands leading to the command that caused the error were: CR FEATR COUNT LBA_48 LH LM LL DV DC Powered_Up_Time Command/Feature_Name -- == -- == -- == == == -- -- -- -- -- --------------- -------------------- b0 00 d1 01 01 00 00 4f 00 c2 01 40 08 00:00:00.000 SMART READ ATTRIBUTE THRESHOLDS [OBS-4] 2f 00 00 01 01 00 00 00 00 00 03 40 08 00:00:00.000 READ LOG EXT 2f 00 00 01 01 00 00 00 00 00 00 40 08 00:00:00.000 READ LOG EXT b0 00 d5 01 01 00 00 4f 00 c2 00 40 08 00:00:00.000 SMART READ LOG b0 00 da 00 00 00 00 4f 00 c2 00 40 08 00:00:00.000 SMART RETURN STATUS Error 30 [1] occurred at disk power-on lifetime: 0 hours (0 days + 0 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER -- ST COUNT LBA_48 LH LM LL DV DC -- -- -- == -- == == == -- -- -- -- -- 04 -- 51 00 00 00 00 00 00 00 00 40 00 Error: ABRT Commands leading to the command that caused the error were: CR FEATR COUNT LBA_48 LH LM LL DV DC Powered_Up_Time Command/Feature_Name -- == -- == -- == == == -- -- -- -- -- --------------- -------------------- b0 00 d1 01 01 00 00 4f 00 c2 01 40 08 00:00:00.000 SMART READ ATTRIBUTE THRESHOLDS [OBS-4] 2f 00 00 01 01 00 00 00 00 00 03 40 08 00:00:00.000 READ LOG EXT 2f 00 00 01 01 00 00 00 00 00 00 40 08 00:00:00.000 READ LOG EXT b0 00 d5 01 01 00 00 4f 00 c2 00 40 08 00:00:00.000 SMART READ LOG b0 00 da 00 00 00 00 4f 00 c2 00 40 08 00:00:00.000 SMART RETURN STATUS SMART Extended Self-test Log Version: 1 (1 sectors) Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed without error 00% 21598 - # 2 Extended offline Completed without error 00% 21591 - # 3 Extended offline Completed without error 00% 20707 - # 4 Extended offline Completed without error 00% 18218 - # 5 Extended offline Completed without error 00% 13958 - # 6 Extended offline Completed without error 00% 7400 - # 7 Extended offline Completed without error 00% 6975 - # 8 Extended offline Completed without error 00% 1348 - # 9 Extended offline Completed without error 00% 0 - #10 Short offline Completed without error 00% 0 - Selective Self-tests/Logging not supported SCT Commands not supported Device Statistics (GP Log 0x04) Page Offset Size Value Flags Description 0x01 ===== = = === == General Statistics (rev 1) == 0x01 0x008 4 31 --- Lifetime Power-On Resets 0x01 0x010 4 21839 --- Power-on Hours 0x01 0x018 6 3799441290 --- Logical Sectors Written 0x01 0x020 6 9010952 --- Number of Write Commands 0x01 0x028 6 1245637882 --- Logical Sectors Read 0x01 0x030 6 1333687 --- Number of Read Commands 0x07 ===== = = === == Solid State Device Statistics (rev 1) == 0x07 0x008 1 22 --- Percentage Used Endurance Indicator |||_ C monitored condition met ||__ D supports DSN |___ N normalized value Pending Defects log (GP Log 0x0c) not supported SATA Phy Event Counters (GP Log 0x11) ID Size Value Description 0x0001 4 7 Command failed due to ICRC error 0x0002 4 7 R_ERR response for data FIS 0x0005 4 0 R_ERR response for non-data FIS 0x000a 4 18 Device-to-host register FISes sent due to a COMRESET
-
#2
The count on each of the following parameters:
168|SATA_Phy_Error_Count
218|CRC_Error_Countincremented by 1 on each of July 13, 14, 15, 19 and 21.
Are those linked to either the dates of SMART tests or scrubs?
The drive showing the errors is a KINGSTON Model# SA400S37120G
(Smart Info at the end of this post.)The other drive is older and is an HP S700 120GB SSD that seems to be
fine.IIUC this could be a drive problem, a cable probem, a (Motherboard) SATA
Port problem or a powersupply problem.My question is how to troubleshoot given the intermittent nature of the
problem. Any suggestions would be much appreciated.
You also didn’t mention the 100 read errors reported by SMART… those are from the drive itself, so indicate some level of failure unrelated to cabling.
The CRC errors can be the controller on the drive, the cabling or the SATA controller, so as you say, hard to narrow down unless something obvious like a loose connection or burning smell from the controller chip.
I would generally treat the drive as untrustworthy and consider living with a single boot device (keeping config backups just in case).
-
#3
Are those linked to either the dates of SMART tests or scrubs?
I don’t think so… no way of finding out. I don’t run regular schedule smart scans, so it’s not likely a smart test. As for scrubs, I know the system does one every few days…. not sure what the default config is set to, but from another report I’m pretty sure the last two issues were not during a scrub. The one on the 21 wasn’t for sure.
The report comes from a CRON job that I run daily that does a smrtctl -a, and compares a bunch of results with the ones from the previous day, and if they don’t match, it spits out a report showing the old/new value. I wrote the script to alert me to just this type of situation. I am not getting any alerts from TrueNAS — just the report I produce.
You also didn’t mention the 100 read errors reported by SMART… those are from the drive itself, so indicate some level of failure unrelated to cabling.
Sorry what 100 read errors???? What am I missing. Are you confusing «Raw_Read_Error_Rate» with read errors?
The CRC errors can be the controller on the drive, the cabling or the SATA controller, so as you say, hard to narrow down unless something obvious like a loose connection or burning smell from the controller chip.
I would generally treat the drive as untrustworthy and consider living with a single boot device (keeping config backups just in case).
I hadn’t though of the controller chip on the drive. I’ll keep an eye on it for now, and an eye out for a sale on a replacement drive. SSDs are pretty cheap… about what a good USB drive used to cost back in day. When I get a moment I will likely open the box an pull all the cables an reset them just in case the contacts have oxidized.
-
#4
Sorry what 100 read errors???? What am I missing. Are you confusing «Raw_Read_Error_Rate» with read errors?
OK, so it’s not a count of read errors… but it’s also not OK…
That should be 120 (not 100) until something is wrong.
-
#5
OK, so it’s not a count of read errors… but it’s also not OK…
That should be 120 (not 100) until something is wrong.
Thanks for the reply…. Great idea, wrong data sheet…. Different drives have slightly different interpretations.
I didn’t know Kingston published this info. AFAIK Western Digital Doesn’t, so I didn’t even think to look. I did some additional searching which lead me to a Smartmon Tools page:
https://www.smartmontools.org/ticket/801
which lead me to the correct datasheet.
https://media.kingston.com/support/downloads/MKP_521_Phison_SMART_attribute.pdf
Here are the descriptions for the drive in question:
001 Read Error Rate
Counts the number of uncorrectable errors that accumulate when controller
reads data from Flash and ECC events occur.
168 SATA PHY Error Count
Counts the number of SATA PHY errors. This value includes all PHY error
counts, ex data FIS CRC , code errors, disparity errors, command FIS crc.
Value clears upon system power-down.
218 CRC Error Count
Counts the number of CRC error (read/write data FIS CRC error).
I’m not sure what to think about Read Error Rate — IIUC as the drive wears out, there will be errors, and the drive «handles» them. Since the drive has 90% life left, I would think that there would have been a few errors — but I may well be wrong, and would welcome someone correcting me if I am.
Other than reset or change the cables, swap the drive, is there any meaningful troubleshooting to be done?
Куратор(ы):
KT
Автор | Сообщение | |||
---|---|---|---|---|
|
||||
Member Статус: Не в сети |
ПРОСЯ О ПОМОЩИ, ВЫКЛАДЫВАЙТЕ S.M.A.R.T. ПРОБЛЕМНОГО НАКОПИТЕЛЯ! Его можно посмотреть программами Everest, AIDA 64, Victoria 4.x, Dtemp, HDDScan, HD Tune, Crystal Disk Info, SpeedFan… Обращайте внимание на DATA/RAW-параметры, это главные и основные показатели здоровья диска. >>>При использовании Crystal Disk Info в меню Сервис>Дополнительно>Raw-значения выберите вариант «10 [DEC]» это несколько упростит восприятие информации утилиты форумчанами.<<< <<Скриншоты>> При выкладке скриншотов не забываем ограничения накладываемы пунктом 3.12 правил конференции. А именно: «Размещать в тегах «Img» картинки объемом свыше 500 кБ на сообщение. Допускаются картинки до 2 МБ под тегом «spoiler=«, а также прямые ссылки на картинки любого размера. Ссылки на страницы, где картинка отображается среди рекламы, запрещены, применяющие их сайты блокируются автоцензором.» Для лучшего понимания сути вопроса смотрите информацию на первой странице темы, составленную камрадом Ing-Syst. Так же помочь разобраться в показаниях СМАРТ может очень подробный материал размещенный на сайте ixbt.com: Оцениваем состояние дисков при помощи S.M.A.R.T. Возможно, для решения Вашей проблемы потребуется провести цикл процедур утилитами Виктория и MHDD. Ссылки на инструкции по работе с программами можно найти на первой странице темы. Связанные темы [FAQ] Всё о винчестерах Western Digital Восстановление данных Сигейт официально признал проблему с 7200.11 Полезные сообщения участников этой темы: Обнуление некоторых параметров СМАРТ на винчестерах Samsung ShutUp — программа камрада CoolCMD для предотвращения частых парковок HDD. https://disk.yandex.ru/d/x3UITAgo3EGqub Программа считывает один сектор через определенный пользователем промежуток времени. Учёт и поиск запчастей к жестким дискам — R.baza. Последний раз редактировалось KT 29.11.2021 18:36, всего редактировалось 15 раз(а). |
Реклама | |
Партнер |
vensant_jarden |
|
Member Статус: Не в сети |
Sania. ясно. Значит — просто установить и если никаких явных проблем не возникнет — следить за ситуацией на дистанции. |
Sania. |
|
Member Статус: Не в сети |
Да, глупый вопрос, а если вы установите драйвер на видеокарту, это лишает её работоспособности? Если бы драйвер к такому мог приводить, как вы думаете, вам бы не написали этого, а остальные не засудили бы интел за такой кривой драйвер? |
Sinestery |
|
Junior Статус: Не в сети |
Tomset писал(а): Помер и смарт у него явно слетел. А что конкретно не так? img Вложение:
|
Sania. |
|
Member Статус: Не в сети |
Sinestery писал(а): А что конкретно не так? В том что чушь половина смарта отображает, возьмите современную прогу по чтению смарта. |
kolyan1980-08-11 |
|
Member Статус: Не в сети |
userID Я не утверждаю, но мне как-то раз помогла. |
RuckusDJ |
|
||
Junior Статус: Не в сети |
Здравствуйте!
|
fixit |
|
Member Статус: Не в сети |
RuckusDJ писал(а): Диск смело можно выбрасывать? Теперь remap под DOS |
Sania. |
|
Member Статус: Не в сети |
Охлаждение ему организовать, он сейчас 52 греется, это очень плохо. |
RuckusDJ |
|
Junior Статус: Не в сети |
Sania. |
Sania. |
|
Member Статус: Не в сети |
Не доводите диск до перегрева в любом случаи. |
7Gluk7 |
|
Junior Статус: Не в сети |
Всем доброго времени суток! Код: ID Описание атрибута Порог Значение Наихудшее Данные Статус Вложение:
График чтения не сохранил, но он был ровный на 540МБ/с. Последний раз редактировалось 7Gluk7 20.01.2020 15:24, всего редактировалось 1 раз. |
Sania. |
|
Member Статус: Не в сети |
7Gluk7 писал(а): Что можете посоветовать? Очистить диск в нулину и проделать этот тест с другого диска. |
O Smirnoff |
|
Member Статус: Не в сети |
Sania. писал(а): Очистить диск в нулину Secure Erase — понимаю; а вот «в нулину» — это куда, зачем и кому?.. |
Sania. |
|
Member Статус: Не в сети |
Там скорее удаление MBR хватит, но можно ещё чего, что придумает автор, главное пустой стал. |
O Smirnoff |
|
Member Статус: Не в сети |
Sania. писал(а): удаление MBR хватит А, так это оно самое Sania. писал(а): Очистить диск в нулину и есть? |
Sania. |
|
Member Статус: Не в сети |
|
7Gluk7 |
|
Junior Статус: Не в сети |
Sania. писал(а): Очистить диск в нулину и проделать этот тест с другого диска. AIDA64 вроде при тесте записи как раз нулями и заполняет? |
O Smirnoff |
|
Member Статус: Не в сети |
Sania. писал(а):
Да вот не » Добавлено спустя 46 секунд: 7Gluk7 писал(а): AIDA64 вроде при тесте записи как раз нулями и заполняет? Лучше всё-же Secure Erase. |
Sania. |
|
Member Статус: Не в сети |
7Gluk7 писал(а): AIDA64 вроде при тесте записи как раз нулями и заполняет? На не пустой дмск, который не нулями и единицами заполнен, а конкретными файлами, которые винда не даст айде переписать,что бы вы не плакались как пол винда с фотками куда то пропали. Добавлено спустя 2 минуты 7 секунд: O Smirnoff писал(а): Да вот не » «, а пиши уже внятными терминами; а то словоблудием своим только людей с пути истинного сбиваешь… Да так меньше приходится писать, нужно же выяснить подкованность спрашивающего. |
7Gluk7 |
|
Junior Статус: Не в сети |
O Smirnoff писал(а): Лучше всё-же Secure Erase. Попробую. Sania. писал(а): На не пустой дмск, который не нулями и единицами заполнен, а конкретными файлами, которые винда не даст айде переписать,что бы вы не плакались как пол винда с фотками куда то пропали. Я с LiveUSB, а винду пока на vhd переместил Последний раз редактировалось 7Gluk7 20.01.2020 15:49, всего редактировалось 1 раз. |
—
Кто сейчас на конференции |
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3 |
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения |
Лаборатория
Новости
25.08.2012, 03:11. Показов 587198. Ответов 2
В первую очередь хочу сказать спасибо Charles Kludge и nonym4uk за помощь в написании этой статьи.
Итак, S.M.A.R.T. (от англ. self-monitoring, analysis and reporting technology — технология самоконтроля, анализа и отчётности) — технология оценки состояния жёсткого диска встроенной аппаратурой самодиагностики, а также механизм предсказания времени выхода его из строя.
Много пользователей знает что такое S.M.A.R.T., немного меньше даже знают как его получить… Но когда встает вопрос проанализировать полученную таблицу, обычно дело стопорится. В этой статье я приведу основные значения и их расшифровку
Для любознательных
SMART производит наблюдение за основными характеристиками накопителя, каждая из которых получает оценку. Характеристики можно разбить на две группы:
параметры, отражающие процесс естественного старения жёсткого диска (число оборотов шпинделя, число премещений головок, количество циклов включения-выключения);
текущие параметры накопителя (высота головок над поверхностью диска, число переназначенных секторов, время поиска дорожки и количество ошибок поиска).
Данные хранятся в шестнадцатеричном виде, называемом «raw value», а потом пересчитываются в «value» — значение, символизирующее надёжность относительно некоторого эталонного значения. Обычно «value» располагается в диапазоне от 0 до 100 (некоторые атрибуты имеют значения от 0 до 200 и от 0 до 253).
Высокая оценка говорит об отсутствии изменений данного параметра или медленном его ухудшении. Низкая говорит о возможном скором сбое.
Значение, меньшее, чем минимальное, при котором производителем гарантируется безотказная работа накопителя, означает выход узла из строя.
Технология SMART позволяет осуществлять:
мониторинг параметров состояния;
сканирование поверхности;
сканирование поверхности с автоматической заменой сомнительных секторов на надёжные.
Следует заметить, что технология SMART позволяет предсказывать выход устройства из строя в результате механических неисправностей, что составляет около 60 % причин, по которым винчестеры выходят из строя.
Предсказать последствия скачка напряжения или повреждения накопителя в результате удара SMART не способна.
Следует отметить, что накопители НЕ МОГУТ сами сообщать о своём состоянии посредством технологии SMART, для этого существуют специальные программы.
Любая программа, показывающая S.M.A.R.T. для каждого атрибута имеет несколько значений, разберемся сначала с ними — ID, Value, Worst, Threshold и RAW. Итак:
ID (Number) — собственно, сам индикатор атрибута. Номера стандартны для значений атрибутов, но например,из-за кривизны перевода один и тот же атрибут может называться по-разному, проще орентироваться по ID, логично?
Value
(Current) — текущее значение атрибута в условных единицах, никому наверное неведомых . В процессе работы винчестера оно может уменьшаться, увеличиваться и оставаться неизменным. По показателю Value нельзя судить о «здоровье» атрибута, не сравнивая его со значением Threshold этого же атрибута. Как правило, чем меньше Value, тем хуже состояние атрибута (изначально все классы значений, кроме RAW, на новом диске имеют максимальное из возможных значение, например 100).
Worst — наихудшее значение, которого достигало значение Value за всю жизнь винчестера. Измеряется тоже в уе. В процессе работы оно может уменьшаться либо оставаться неизменным. По нему тоже нельзя однозначно судить о здоровье атрибута, нужно сравнивать его с Threshold.
Threshold — значение в (сюрприз!!!) уе, которого должен достигнуть Value этого же атрибута, чтобы состояние атрибута было признано критическим. Проще говоря, Threshold — это порог: если Value больше Threshold — атрибут в порядке; если меньше либо равен — с атрибутом проблемы. Именно по такому критерию утилиты, читающие S.M.A.R.T., выдают отчёт о состоянии диска либо отдельного атрибута вроде «Good» или «Bad». При этом они не учитывают, что даже при Value, большем Threshold, диск на самом деле уже может быть умирающим с точки зрения пользователя, а то и вовсе ходячим мертвецом, поэтому при оценке здоровья диска смотреть стоит всё-таки на другой класс атрибута, а именно — RAW. Однако именно значение Value, опустившееся ниже Threshold, может стать легитимным поводом для замены диска по гарантии (для самих гарантийщиков, конечно же) — кто же яснее скажет о здоровье диска, как не он сам, демонстрируя текущее значение атрибута хуже критического порога? Т. е. при значении Value, большем Threshold, сам диск считает, что атрибут здоров, а при меньшем либо равном — что болен. Очевидно, что при Threshold=0 состояние атрибута не будет признано критическим никогда. Threshold — постоянный параметр, зашитый производителем в диске.
RAW (Data) — самый интересный, важный и нужный для оценки показатель. В большинстве случаев он содержит в себе не уе, а реальные значения, выражаемые в различных единицах измерения, напрямую говорящие о текущем состоянии диска. Основываясь именно на этом показателе, формируется значение Value (а вот по какому алгоритму оно формируется — это уже тайна производителя, покрытая мраком). Именно умение читать и анализировать поле RAW даёт возможность объективно оценить состояние винчестера.
Теперь перейдем непосредственно к самим атрибутам.
01 (01) Raw Read Error Rate — Частота ошибок при чтении данных с диска, происхождение которых обусловлено аппаратной частью диска. Для всех дисков Seagate, Samsung (семейства F1 и более новые) и Fujitsu 2,5″ это — число внутренних коррекций данных, проведенных до выдачи в интерфейс, следовательно, на пугающе огромные цифры можно реагировать спокойно.
02 (02) Throughput Performance — Общая производительность диска. Если значение атрибута уменьшается, то велика вероятность, что с диском есть проблемы.
03 (03) Spin-Up Time — Время раскрутки пакета дисков из состояния покоя до рабочей скорости. Растет при износе механики (повышенное трение в подшипнике и т. п.), также может свидетельствовать о некачественном питании (например, просадке напряжения при старте диска).
04 (04) Start/Stop Count — Полное число циклов запуск-остановка шпинделя. У дисков некоторых производителей (например, Seagate) — счётчик включения режима энергосбережения. В поле raw value хранится общее количество запусков/остановок диска.
05 (05) Reallocated Sectors Count — Число операций переназначения секторов. Когда диск обнаруживает ошибку чтения/записи, он помечает сектор «переназначенным» и переносит данные в специально отведённую резервную область. Вот почему на современных жёстких дисках нельзя увидеть bad-блоки — все они спрятаны в переназначенных секторах. Этот процесс называют remapping, а переназначенный сектор — remap. Чем больше значение, тем хуже состояние поверхности дисков. Поле raw value содержит общее количество переназначенных секторов. Рост значения этого атрибута может свидетельствовать об ухудшении состояния поверхности блинов диска.
06 (06) Read Channel Margin — Запас канала чтения. Назначение этого атрибута не документировано. В современных накопителях не используется.
07 (07) Seek Error Rate — Частота ошибок при позиционировании блока магнитных головок. Чем их больше, тем хуже состояние механики и/или поверхности жёсткого диска. Также на значение параметра может повлиять перегрев и внешние вибрации (например, от соседних дисков в корзине).
08 (08) Seek Time Performance — Средняя производительность операции позиционирования магнитными головками. Если значение атрибута уменьшается (замедление позиционирования), то велика вероятность проблем с механической частью привода головок.
09 (09) Power-On Hours (POH) — Число часов (минут, секунд — в зависимости от производителя), проведённых во включенном состоянии. В качестве порогового значения для него выбирается паспортное время наработки на отказ (MTBF — mean time between failure).
10 (0А) Spin-Up Retry Count — Число повторных попыток раскрутки дисков до рабочей скорости в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность неполадок с механической частью.
11 (0В) Recalibration Retries — Количество повторов запросов рекалибровки в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность проблем с механической частью.
12 (0С) Device Power Cycle Count — Количество полных циклов включения-выключения диска.
13 (0D) Soft Read Error Rate — Число ошибок при чтении, по вине программного обеспечения, которые не поддались исправлению. Все ошибки имеют
не механическую
природу и указывают лишь на неправильную размётку/взаимодействие с диском программ или операционной системы.
100(64) Erase/Program Cycles (для SSD) Общее количество циклов стирания/программирования для всей флэш-памяти за всё время ее существования. Твердотельный накопитель имеет ограничение на количество записей в него. Точные значения (ресурс) зависят от установленных микросхем флэш-памяти.
В накопителях Kingston — объём стёртого в гигабайтах.
103(67) Translation Table Rebuild (для SSD) Количество событий, когда внутренние таблицы адресов блоков были повреждены и впоследствии восстановлены. Raw-значение этого атрибута указывает фактическое количество событий.
170(AA) Reserved Block Count (для SSD) Состояние пула резервных блоков. Значение атрибута показывает процент оставшегося пула. Иногда raw-значение содержит фактическое количество использованных резервных блоков.
170 атрибут связан с атрибутом 5, числом использованных резервных блоков.
171(AB) Program Fail Count (для SSD) Число попыток, когда запись во флэш-память не удалась. Raw-значение показывает фактическое количество отказов. Процесс записи технически называется «программирование флэш-памяти» — отсюда и название атрибута. Когда флэш-память изношена, она больше не может быть записана и становится доступной только для чтения.
Значение обычно идентично атрибуту 181.
172(AC) Erase Fail Count (для SSD) Количество сбоев операции стирания на флэш-памяти. Raw-значение показывает фактическое количество отказов. Полный цикл записи флэш-памяти состоит из двух этапов. Сначала необходимо удалить память, а затем данные должны быть записаны («запрограммированы») в память. Когда флэш-память изношена, она больше не может быть записана и становится доступной только для чтения.
Идентичен атрибуту 182.
173(AD) Wear Leveller Worst Case Erase Count (для SSD) Максимальное количество операций стирания, выполняемых для одного блока флэш-памяти.
174(AE) Unexpected Power Loss (для SSD) Число неожиданных отключений питания, когда питание было потеряно до получения команды на отключение диска. На жестком диске срок службы при таких отключениях намного меньше, чем при обычном отключении. На SSD существует риск потери внутренней таблицы состояний при неожиданном завершении работы.
175(AF) Program Fail Count (для SSD) Число попыток, когда запись во флэш-память не удалась. Raw-значение показывает фактическое количество отказов. Процесс записи технически называется «программирование флэш-памяти», отсюда и название атрибута. Когда флэш-память изношена, она больше не может быть записана и становится доступной только для чтения.
176(B0) Erase Fail Count (для SSD) Количество сбоев операции стирания на флэш-памяти. Raw-значение показывает фактическое количество отказов. Полный цикл записи флэш-памяти состоит из двух этапов. Сначала необходимо удалить память, а затем данные должны быть записаны («запрограммированы») в память. Когда флэш-память изношена, она больше не может быть записана и становится доступной только для чтения.
177(B1) Wear Leveling Count (для SSD)
Wear Range Delta В зависимости от производителя, максимальное количество операций стирания, выполняемых для одного блока флэш-памяти[источник не указан 269 дней] или разница между максималоьно изношенными (больше всего раз записанными) и минимально изношенными (записанными наименьшее число раз) блоками[4].
178(B2) Used Reserved Block Count (для SSD) Состояние пула резервных блоков. Значение атрибута показывает процент оставшегося пула. Raw-значение этого атрибута иногда содержит фактическое количество использованных резервных блоков.
179(B3) Used Reserved Block Count (для SSD) Состояние пула резервных блоков. Значение атрибута показывает процент оставшегося пула. Raw-значение этого атрибута иногда содержит фактическое количество использованных резервных блоков.
180(B4) Unused Reserved Block Count (для SSD) Состояние пула резервных блоков. Значение атрибута показывает процент оставшегося пула. Raw-значение этого атрибута иногда содержит фактическое количество неиспользованных резервных блоков.
181(B5) Program Fail Count (для SSD) Число попыток, когда запись во флэш-память не удалась. Raw-значение показывает фактическое количество отказов.
182(B6) Erase Fail Count (для SSD) Количество сбоев операции стирания на флэш-памяти. Raw-значение показывает фактическое количество отказов.
183(B7) SATA Downshifts (для SSD) Указывает, как часто требовалось снизить скорость передачи данных SATA (с 6 Гбит/с до 3 или 1,5 Гбит/с или с 3 Гбит/с до 1,5 Гбит/с) для успешной передачи данных. Если значение атрибута уменьшается, попробуйте заменить кабель SATA.
Суть в том, что винчестер, работающий в режимах SATA 3 Гбит/с или 6 Гбит/с (и что там дальше будет в будущем), по какой-то причине (например, из-за ошибок) может попытаться «договориться» с дисковым контроллером о менее скоростном режиме (например, SATA 1.5 Гбит/с или 3 Гбит/с соответственно). В случае «отказа» контроллера изменять режим диск увеличивает значение атрибута (Western Digital und Samsung).
184 (B8) End-to-End error — Назначение зависит от производителя.
У HP (часть технологии HP SMART IV) увеличивается в случае, когда после передачи данных через кэш-память чётность данных между хостом и жёстким диском не совпадает.
У Kinston это количество ошибок чтения из флэш-памяти.
185 (B9) Head Stability Стабильность головок (Western Digital).
187 (BB) Reported UNC Errors — Количество ошибок, которое накопитель сообщил хосту (интерфейсу компьютера) при любых операциях, обычно это ошибки данных на диске, которые не исправлены средствами ECC
188 (BC) Command Timeout — содержит количество операций, выполнение которых было отменено из–за превышения максимально допустимого времени ожидания отклика.Такие ошибки могут возникать из-за плохого качества кабелей, контактов, используемых переходников, удлинителей и т.д., несовместимости диска с конкретным контроллером SATA/РАТА на материнской плате и т.д. Из-за ошибок такого рода возможны BSOD в Windows.
Ненулевое значение атрибута говорит о потенциальной «болезни» диска.
189 (BD) High Fly Writes — содержит количество зафиксированных случаев записи при высоте «полета» головки выше рассчитанной, скорее всего, из-за внешних воздействий, например, вибрации.
Для того, чтобы сказать, почему происходят такие случаи, нужно уметь анализировать логи S.M.A.R.T., которые содержат специфичную для каждого производителя информацию
190 (BE) Airflow Temperature (WDC) — Температура воздуха внутри корпуса жёсткого диска. Для дисков Seagate рассчитывается по формуле (100 — HDA temperature). Для дисков
Western Digital
— (125 — HDA).
191 (BF) G-sense error rate — Количество ошибок, возникающих в результате ударных нагрузок. Атрибут хранит показания встроенного акселерометра, который
фиксирует все удары, толчки, падения и даже неаккуратную установку диска в корпус компьютера.
Актуален для мобильных винчестеров. На дисках Samsung на него часто можно не обращать внимания, т.к. они могут иметь очень чувствительный датчик, который, образно говоря, реагирует чуть ли не на движение воздуха от крыльев пролетающей в одном помещении с диском мухой.
Вообще срабатывание датчика не является признаком удара. Может расти даже от позиционирования БМГ самим диском, особенно, если его не закрепить. Основное назначение датчика – прекратить операцию записи при вибрациях, чтобы избежать ошибок.
75
Содержание этой статьи относится к главе 15 протокола SATA3.3.
15 Error Handling
15.1 Architecture
15.2 Phy error handling overview
There are three primary categories of error that the Phy layer detects internally:
a) no device present; // Соответствует значению DET в регистре SStatus 0000b
b) OOB signaling sequence failure; and // Соответствует значению DET в регистре SStatus 0001b
c) Phy internal error (loss of synchronization of communications link) // Соответствие биту [E] в поле ERR в регистре SError представлено как внутренняя ошибка phy
Первые две ошибки сохраняются в регистре SStatus, а третья ошибка сохраняется в регистре SStatus и регистре SError.
Регистр SStatus можно посмотреть в протоколе 14.2.2.
Регистр ошибок можно посмотреть в протоколе 14.2.3.
Подробное описание каждого бита в домене ERR см. В руководстве по протоколу.
15.3 Link layer error handling overview
There are two primary categories of errors that the Link layer detects internally are:
a) invalid state transitions; and
b) data integrity errors.
Invalid state transition errors may arise from a number of sources and the Link layer responses to
many such error conditions as defined in clause 9. Data integrity errors generally arise from
noise in the physical interconnect.
Если первая ошибка возникает во время передачи кадра в Phy, после передачи SOF передается еще один R_ERR; если ошибка не возникает во время передачи кадра, Link сразу переключится на состояние простоя и дождитесь следующей операции.
15.4 Transport layer error handling
In addition to the error information passed to it by the Link layer, the Transport layer internally
detects the following categories of errors:
a) internal errors;
b) frame errors;
c) protocol errors; and
d) state errors.
Транспортный уровень будет уведомлять канальный уровень об обнаруженной ошибке (отраженной в регистрах SStatus и SError), а канальный уровень будет сообщать об ошибке через R_ERR / R_OK после завершения передачи каждого кадра ( Однако R_ERR не может указать причину ошибки по сравнению с D2B FIS).
15.5 Application layer error handling
There are three overall error detection mechanisms that software identifies and responds to
Serial ATA errors:
a) bad status in the Command Block Status register;
b) bad status in the SError register; and
c) command failed to complete (i.e., timeout).
- Главная
- Форум
- Полезности от форумчан.
|
Инструкция по прошивке SSD на контролере PS3111. от уважаемого KaSpieC 6661. Если SSD перешла в защитный режим — используем repairS11.exe (запускаем, и выбираем цифрой нужный носитель). Отличительными признаками такого состояния диска является:— название модели «SATAFIRM S11» или «INIC6081SSDWP» Если не повезло — выполняем все пункты ниже. скриншоты нужных строк (второй скрин для примера, снят с уже прошитой SSD):======================================================================================================== Для примера, разберу, как я это делал (скриншот инфы, в пункте 2, второй скрин):1. Определяем — брендовая прошивка или стандартная. ======================================================================================================== мои скрины до и после прошивки СМАРТа:======================================================================================================== Брендовые утилиты от производителя Последний раз редактировалось: goga8686 (2022-03-04 07:35), всего редактировалось 20 раз(а) |
Отправлено: 17-Сен-2021 15:43
(спустя 4 часа)
Отправлено: 17-Сен-2021 15:43
(спустя 4 часа)
goga8686 |
88510
не стоит превращать тему в чатик «поможите!» Я именно так и хочу оформить тему,без «помогитенемогунайти». Прошил я накопитель определённым прошивальщиком, выложил сюда всё чем шил. Если у тебя удалось прошить свой SSD то кидай и ты сюда то что шил и чем шил. А вопросы типа «перепробовал всё» рождают встречные вопросы «что всё ты пробовал?» и так бесконечно. |
Отправлено: 17-Сен-2021 17:18
(спустя 1 час 35 минут)
Отправлено: 17-Сен-2021 17:18
(спустя 1 час 35 минут)
KaSpieC 666 |
|
Отправлено: 17-Сен-2021 18:08
(спустя 49 минут)
Отправлено: 17-Сен-2021 18:08
(спустя 49 минут)
rezorustavi |
88511
Если у тебя удалось прошить свой SSD то кидай и ты сюда то что шил и чем шил. |
Отправлено: 17-Сен-2021 19:17
(спустя 1 час 9 минут)
Отправлено: 17-Сен-2021 19:17
(спустя 1 час 9 минут)
dimo70 |
Последний раз редактировалось: dimo70 (2021-09-17 21:09), всего редактировалось 1 раз |
Отправлено: 17-Сен-2021 20:39
(спустя 1 час 21 минута)
Отправлено: 17-Сен-2021 20:39
(спустя 1 час 21 минута)
Lupik2 |
|
Отправлено: 18-Сен-2021 07:11
(спустя 10 часов)
Отправлено: 18-Сен-2021 07:11
(спустя 10 часов)
goga8686 |
буду пробовать завтра ваши прошивальщики на мои проблемные SSD 7 раз отмерь, один отрежь. Нельзя бездумно пробовать. нужно сверить контроллер и память. |
Отправлено: 18-Сен-2021 08:10
(спустя 58 минут)
Отправлено: 18-Сен-2021 08:10
(спустя 58 минут)
dimo70 |
Последний раз редактировалось: dimo70 (2021-09-27 12:16), всего редактировалось 2 раз(а) |
Отправлено: 27-Сен-2021 09:47
(спустя 9 дней)
Отправлено: 27-Сен-2021 09:47
(спустя 9 дней)
Lupik2 |
Отправлено: 24-Окт-2021 08:00
(спустя 26 дней)
Отправлено: 24-Окт-2021 08:00
(спустя 26 дней)
KaSpieC 666 |
v0.77a Скачал версию v0.84a она самая последняя (от 09.01.2021). Она уже дала нужную инфу: v0.84a 2. С помощью phison flash id (по версии прошивки, и там и другие есть пункты, тоже намекающие). Определил «фирму», у меня прошивка — Fw : SBFM61W2. |
Отправлено: 24-Окт-2021 09:05
(спустя 1 час 4 минуты)
Отправлено: 24-Окт-2021 09:05
(спустя 1 час 4 минуты)
goga8686 |
|
Отправлено: 24-Окт-2021 23:04
(спустя 13 часов)
Отправлено: 24-Окт-2021 23:04
(спустя 13 часов)
KaSpieC 666 |
|
Отправлено: 27-Окт-2021 03:43
(спустя 2 дня 4 часа)
Отправлено: 27-Окт-2021 03:43
(спустя 2 дня 4 часа)
KaSpieC 666 |
Отличительными признаками такого состояния диска является:— название модели «SATAFIRM S11» или «INIC6081SSDWP» Если не повезло — выполняем все пункты ниже. скриншоты нужных строк (второй скрин для примера, снят с уже прошитой SSD):======================================================================================================== Для примера, разберу, как я это делал (скриншот инфы, в пункте 2, второй скрин):1. Определяем — брендовая прошивка или стандартная. ======================================================================================================== мои скрины до и после прошивки СМАРТа:======================================================================================================== Defects All(per plane) Early Later И последующие строки: |
Отправлено: 27-Окт-2021 11:04
(спустя 7 часов)
Отправлено: 27-Окт-2021 11:04
(спустя 7 часов)
goga8686 |
То есть после прошивки, надо бы погонять ССД не только на чтение, а и на запись. Проверять на запись обязательно. |
Отправлено: 27-Окт-2021 19:57
(спустя 8 часов)
Отправлено: 27-Окт-2021 19:57
(спустя 8 часов)
KaSpieC 666 |
89334
Вот же не спится тебе 89334
Проверять на запись обязательно. Это уже понял. Интересно чуть развить этот момент. |
Отправлено: 01-Ноя-2021 22:18
(спустя 5 дней)
Отправлено: 01-Ноя-2021 22:18
(спустя 5 дней)
KaSpieC 666 |
|
Страница 2 из 4
Текущее время: 10-Фев 05:11
Часовой пояс: UTC + 3
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы можете скачивать файлы
0
1
Сабж. Стала выскакивать уведомлялка, что кончается место на /home, ранее не обращал внимания, просто чистил от мусора и всё, но теперь заметил — место выжрано в ноль, но занято меньше емкости диска:
$ df -h
/dev/sdc3 81G 77G 0 100% /home
Более того, прибил почти весь софт, удалил ещё гигабайт — и с охренением наблюдал как он испарился:
$ df -h
/dev/sdc3 81G 76G 0 100% /home
Вывод SMART:
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
1 Raw_Read_Error_Rate PO-R-- 100 100 050 - 0
9 Power_On_Hours -O--C- 100 100 000 - 16615
12 Power_Cycle_Count -O--C- 100 100 000 - 9633
17 Unknown_Attribute -O--C- 100 100 000 - 54
168 SATA_Phy_Error_Count -O--C- 100 100 000 - 6
170 Bad_Blk_Ct_Erl/Lat PO---- 100 100 010 - 0/255
173 MaxAvgErase_Ct -O--C- 100 100 000 - 576 (Average 220)
192 Unsafe_Shutdown_Count -O--C- 100 100 000 - 487
194 Temperature_Celsius PO---K 070 070 030 - 30 (Min/Max 29/30)
218 CRC_Error_Count PO-R-- 100 100 050 - 3
231 SSD_Life_Left PO--C- 100 100 000 - 93
233 Flash_Writes_GiB PO-R-- 100 100 000 - 79025
241 Lifetime_Writes_GiB -O--C- 100 100 000 - 10298
Device Statistics (GP Log 0x04)
Page Offset Size Value Flags Description
0x01 ===== = = === == General Statistics (rev 2) ==
0x01 0x008 4 9633 --- Lifetime Power-On Resets
0x01 0x018 6 21598282234 --- Logical Sectors Written
0x01 0x020 6 130444916 --- Number of Write Commands
0x01 0x028 6 19760364680 --- Logical Sectors Read
0x01 0x030 6 357862452 --- Number of Read Commands
0x04 ===== = = === == General Errors Statistics (rev 1) ==
0x04 0x008 4 22 --- Number of Reported Uncorrectable Errors
0x04 0x010 4 0 --- Resets Between Cmd Acceptance and Completion
0x05 ===== = = === == Temperature Statistics (rev 1) ==
0x05 0x008 1 32 --- Current Temperature
0x05 0x010 1 32 --- Average Short Term Temperature
0x05 0x018 1 32 --- Average Long Term Temperature
0x05 0x020 1 50 --- Highest Temperature
0x05 0x028 1 5 --- Lowest Temperature
0x05 0x030 1 50 --- Highest Average Short Term Temperature
0x05 0x038 1 16 --- Lowest Average Short Term Temperature
0x05 0x040 1 50 --- Highest Average Long Term Temperature
0x05 0x048 1 16 --- Lowest Average Long Term Temperature
0x05 0x050 4 0 --- Time in Over-Temperature
0x05 0x058 1 50 --- Specified Maximum Operating Temperature
0x05 0x060 4 0 --- Time in Under-Temperature
0x05 0x068 1 5 --- Specified Minimum Operating Temperature
0x06 ===== = = === == Transport Statistics (rev 1) ==
0x06 0x008 4 2588008 --- Number of Hardware Resets
0x06 0x018 4 3 --- Number of Interface CRC Errors
0x07 ===== = = === == Solid State Device Statistics (rev 1) ==
0x07 0x008 1 5 --- Percentage Used Endurance Indicator
Это какие-то ssd-шные приколы? Запускал fstrim, он оттримал 4 гига, но место так и не появилось. Что вообще происходит?