豪门国际

    服务器 2025-11-04

    KunTai R722 更换硬盘后误操作导致配置丢失

    一、 现网描述

    1.1 环境描述

    设备型号:KunTai R722

    RAID卡型号: AVAGO Mega RAID SAS 9460-8i

    RAID卡固件版本:5.130.00-3059

    涉及硬盘型号:SAMSUNG MZ7LH3T8HMLT-00005 /3.84T/ SATA/ SSD

    硬盘固件版本:HXT7904Q

    设备固件版本:iBMC Version:3.01.12.47

                             BIOS Version: (U75)1.21


    二、 故障描述

    2.1 故障现象

    现场RAID配置:DISK40、41,RAID1,DISK0-11,单盘RAID0

    服务器一块硬盘故障,工程师携带硬盘上门更换,更换硬盘后需要重组RAID,创建RAID失败,修复RAID卡后配置丢失


    三、 问题分析

    3.1 排查思路

    1、2023/7/20 23:08,企业微信群聊问题上报,停机更换硬盘后创建RAID0 ,BIOS显示状态异常,初步分析需要按BIOS中提示修复RAID卡;

    2、进一步与现场沟通,分析到RAID卡健康状态已经是正常,且RAID卡中已经没有RAID组了,现场已经执行过RAID卡修复操作,但对照文档漏了两步,重启设备后无法进入操作系统;

    image.png

    image.png

    3、尝试重启设备查看RAID卡状态和RAID组状态、是否存在外部配置等,确认为RAID卡修复操作不完整,RAID配置已丢失;

    image.png

    4、尝试恢复配置和数据

    (1)换张raid卡,然后看有没有外部配置导入

    (2)更换的是raid0,不影响数据结构,直接手动组回去

    5、第一时间尝试第一步,更换同型号RAID卡后进入BIOS,无外部配置导入选项,方案Pass,执行第二方案,获取设备之前的RAID配置与相关参数,手动重新组RAID,创建RAID时选择不初始化硬盘;

    6、第一时间配置两块系统盘RAID1,配置完后重启设备,能正常到系统启动阶段,但长时间未进入到系统内

    image.png

    7、怀疑是系统uuid绑定,新盘信息不一致导致系统进不去,远程进入单用户模式,注释掉本次更换硬盘对应的数据挂载,再次重启,可以正常启动

    image.png

    3.2 原因分析

    现场数据盘均配置单盘RAID0,硬盘故障后会导致RAID组失效,触发RAID卡机制无法直接创建新RAID,需要执行修复,现场ASP在执行修复RAID卡操作时,未完全按文档指引操作完成便重启设备,导致RAID卡触发配置清除

    image.png


    四、 问题解决

    4.1 分析总结

      RAID配置信息不仅存在于RAID卡中,硬盘中也会存储相关信息,若在RAID卡中误操作删除配置,并不会导致配置和数据完全丢失,重组大概率可恢复;

    4.2 建议

    1、给客户做前期配置时,尽量建议客户少用单盘RAID0,使用有冗余的RAID级别

    2、RAID卡修复时需要仔细对照参考文档操作

    3、不重启设备,更换硬盘后如果bmc创建新RAID组失败,在系统下使用strocli工具相关命令清除缓存中的脏数据,再尝试创建(涉及系统内操作,风险较高,且方案未经过完全验证过,不建议使用)