Replace disk online

Запишу здесь свои эксперименты с софтверным рейдом - эмуляция сбоя и смена одного из дисков "на лету".

Исходные данные:

относительно старый сервер с набортным SCSI-адаптером LSI Logic / Symbios Logic 53c1010 (1000:0021, subsystem 103c:60a0);
hot-swap корзина;
пара винчестеров на 18 гб;
свежепоставленный и обновлённый Server4.0.1, ядро 2.6.18-ovz-rhel-alt2.M40.5

Винчестеры побиты на 3 раздела, на которых подняты raid1: 1 - под своп, 2 - под корень, 3 - под LVM, там еще три раздела (usr, home, var).

Всё настроено, крутится, работает.

Итак, эмуляция сбоя: запускаем stress для видимости интенсивной работы (в т.ч. по отжиранию памяти и использованию свопа) и выдёргиваем из корзины один из дисков. Система уходит в ступор на полминуты, пытаясь осознать, что с ней произошло, после чего отвисает и разражается руганью в логах на испорченные рейды и IO errors. Работоспособность системы ничуть не нарушена. В /proc/mdstat исчезнувшие разделы помечены как fault, а устройства в системе остались.

Теперь попробуем вновь ввести этот диск в работу:

удаляем записи об сбойных разделах из рейдов. Если этого не сделать, то вновь подключенный диск сменит своё имя устройства.

mdadm /dev/md0 --remove /dev/sdb1
mdadm /dev/md1 --remove /dev/sdb2
mdadm /dev/md2 --remove /dev/sdb3

удаляем из системы отсутствующее физически устройство:

echo "1" > /sys/block/sdb/device/delete

при этом пропадают /dev/sdb*. Если этого не проделать, нижеследующее сканирование не сработает.

втыкаем диск обратно в корзину, прислушиваясь к его раскрутке
просим драйвер пересканировать шину:

echo "- - -" > /sys/class/scsi_host/host0/scan

после некоторой задержки на сканирование устройства вновь объявляются, а в логах видим протокол сканирования, как при старте системы. Иногда это сканирование срабатывает не с первого раза, отваливаясь по полуминутному таймауту, и тогда его можно попробовать повторить. Загадочные "- - -" суть: "$channel $id $lun". Прочерки просто означают все_сразу вместо конкретного значения.

(тут для надёжности непопадания в рейд кривых данных можно обнулить свежеобъявленные разделы, но вообще не обязательно)
(тут в случае нового диска мы должны создать на нём разделы по числу и размеру имеющихся, с типом FD)
добавляем в рейды новые разделы:

mdadm /dev/md0 --add /dev/sdb1
mdadm /dev/md1 --add /dev/sdb2
mdadm /dev/md2 --add /dev/sdb3

наблюдаем логи, наблюдаем /proc/mdstat. После возможной синхронизации мы имеем рейды с полностью исправными членами.

выдёргиваем из корзины другой диск..... ;)

Литература

Программный RAID в Linux
Как пересканировать SCSI-шину без перезагрузки компьютера?
откровения vsu@ на #altlinux

Системному администратору

HOWTO

32й-OpenGL на 64x • 389-ds • ActiveDirectory/DC • ActiveDirectory/FileShare • ActiveDirectory/Squid • Adobe Flash • AHCI • Участник:Alehander/Монтирование каталогов • Android-devel • Apache Kafka • Appimage • Arepo In Hasher • Asciidoc • Autoinstall • BugTracking/BugzillaMiniHowto • CDEmu и все-все-все • Chroot • Clamav • PostgreSQL/Cluster • Cpufreq • CreateMdRAID1onLiveSystem • CUDA • Cлайд-шоу фоновых рисунков рабочего стола • D Programming Language • DB2 • Dconf • Discord • Tools/Distribute • DPMS • DualBoot в картинках • DualBoot в картинках new • X11/DualSeat • Dynflow • Ed • EDID • ElasticSearch • EnterpriseWine • Epic games • Etckeeper • EterTips • Fail2ban • Fdisk • FFmpeg • Fleet Commander • Folding@Home • FreeIPA • FreePascal HOWTO • FreeRADIUS • FreeRADIUS и корпоративный WiFi • Giter • GoogleTalkPlugin • Hasher/parallel • Hitachi StarBoard • Incoming/HOWTO • I2p • IconsPackaging • IPTV • ITalc • Участник:IvanZakharyaschev/Что делать, если забыл имена пользователей • Участник:IvanZakharyaschev/Что делать, если забыл пароли (в т.ч. пароль root-а) • Участник:IvanZakharyaschev/Что делать, если затёр загрузчик системы • JaCarta • JaCarta/PKI • Java-applet • Java/OracleSDK/Install • JavaPlugin • JeOS VM noDHCP • KVM/Helper • LAME • ActiveDirectory/Login • PVE/LXC • Mailman and lighttpd • DotFiles/Shells/MC • Участник:MichaelShigorin/ПодсуньТарбол • Microsoft Access • MIDI • MsgToEml • MultiSeat systemd • Multistation • NetInstall • NetworkDevicesName • Nextcloud • NTFS • NTFS readonly • Numlock • OpenMeetings • Otrs • OwnCloud9 • Pam mount • Pcsxr • PepperFlash в Chromium • Perfect Desktop • Pidgin • Pipelight • Pipx • Dovecot/Plugins • PostgreSQL • Prelink • PstToMbox • Puppet • Puppetserver • PyVFS • Rdesktop keymap fix • Recoll • Replace disk online • Rescue manuals • Rescue/Launcher • Rescue/Recovery • Ricoh SP 100 • Roundcube • Ruby Packaging mini-HOWTO • Rujel • Rujel HOWTO • RunaWFE • SambaADClient и клонирование диска • SAP GUI for Java • SCOM • Shared Library Symbol Versioning HOWTO • SharedFolderHowTo • Smart Proxy • Smart proxy dynflow-core • Socket race conditions • SOGo • OpenOffice.org/SSL-сертификат • SSSD/AD • Swap • Synaptic • Task • Telegram • Telegram Desktop • Thunderbird • Tips • TLP • Unity • LTSP/UpstreamMigration • USBIP • Veyon • Viber • Video streaming vlc • VipNet Client • ViPNet Coordinator/СПТ7 • VirtualBox • Vk play • VNC • VPN c динамической маршрутизацией (GRE Racoon OSPF) • Waydroid • WebDav • Wi-fi • Wicd • WINE • Xbox геймпад • XCAT • Xfce/Ограничения • Автологин с блокировкой сеанса • Автоматический вход • Браузер во весь экран • Виртуальная клавиатура в ALT Workstation • Виртуальная флешка • Включение TRIM на (внешнем) SSD • Воссоздание пользователя на отдельном home-разделе • Восстановление • Где и как искать программы • ГОСТ в Caja • ГОСТ в OpenSSL • Гостевой сеанс • Двухфакторная аутентификация Google Authenticator • Диагностика оборудования и системы • ЕАВИИАС • ЕСПД • Загрузочная USB Flash • Загрузочные флешки • Запуск typo3 • Заставка - слайд-шоу • Звук входа в систему • Зеркала • Инструкция по разворачиванию girar-builder • Как Ваш компьютер может дать доступ к себе через туннель средствами ssh, autossh, autosshd • Участник:IvanZakharyaschev/Как дать мне доступ по ssh на Ваш (мобильный) компьютер • Как запускать программы • Как найти пакет по программе • Как настроить почту в Thunderbird • Каталог с доступом для всех локальных пользователей • Киоск • Конcоль GRUB • КонсультантПлюс • Монтирование образов устройств • Настройка Alt Linux для Raspberry Pi с помощью QEMU • Настройка Fstab • Настройка принтера • Неверный размер шрифтов • О Сообществе ALT Linux • Обновление • Обход сбоя загрузки с USB • Особые действия Thunar • Очистка диска • Партионная почта • Перенос программ (backports) • Подключение Android • Пользовательские каталоги • Проверка диска на ошибки • Распознавание лица (howdy) • Режимы работы фреймбуфера • Участник:IvanZakharyaschev/Репликация почтового ящика • Сага о драйверах • Сборка пакетов • Связка Puppet и Foreman • Связка ключей • Секционирование (партицирование) БД Zabbix на СУБД PostgreSQL • Синхронизация файлов • Сканер отпечатков пальцев (fprintd) • Скачивание видео с Яндекс.Дзен • Скачивание сайта • Создание образов устройств • Создание самоподписанных сертификатов • Создание сервиса systemd • Специальные возможности • Oracle/СПТ • Теневое копирование+Точка восстановления • Точка на цифровой клавиатуре • Управление пользователями • Управление правами • Установка Cisco Packet Tracer 7.3.1 на ALT KWorkstation P9 • Установка и настройка Rujel • Установка корневого сертификата • Установка шрифтов • Что делать, если программа не работает • Что такое дистрибутив • Шаблоны документов • Шейпер для больших сетей • ЭП • Ярлычки программ • Категория:32x-video-on64x • Категория:Backup • Категория:BootFlash • Категория:Fdisk • Категория:FreePascal • Категория:Rescue manuals • Категория:Upgrade • Категория:WINE