24 / 09 / 18

群晖7.2.2 NVMe SSD存储池频繁损毁排查

升级NAS配置后,原本用来存放虚拟机、套机以及docker的SSD存储池频繁发生损毁,导致所有服务都出现问题:

ssh进入群晖,查询dmesg日志:

发现nvme设备有大量I/O的超时报错

[Wed Sep 18 12:52:30 2024] nvme nvme0: I/O 536 QID 15 timeout, aborting [Wed Sep 18 12:52:34 2024] nvme nvme0: I/O 22 QID 0 timeout, reset controller [Wed Sep 18 12:52:38 2024] nvme nvme0: I/O 617 QID 2 timeout, reset controller

经过网上检索,超时有可能是和PCIe设备的ASPM有关:

https://wiki.archlinux.org/title/Solid_state_drive/NVMe#Troubleshooting

进入BIOS关闭PCIe设备的ASPM节能功能,重新启动系统,继续观察后续是否有报错。

Powered by Gridea