Заменить вышедшую из строя плату или блок, и восстановить из резервной копии конфигурацию за данный промежуток времени конечно можно, если:
- У Вас есть ЗИП (с необходимыми материалами);
- Работник соответствующей квалификации - рядом (и тем более, это случилось не ночью);
При несоблюдении хотя бы одного условия, время восстановления может составить сколь угодно долго. Как этого избежать? Приобрести SipRing-центр на базе отказоустойчивого кластера.
Кластеры высокой доступности обозначаются аббревиатурой HA (англ. High Availability — высокая доступность). Создаются для обеспечения высокой доступности сервиса, предоставляемого кластером. Избыточное число узлов, входящих в кластер, гарантирует предоставление сервиса в случае отказа одного или нескольких серверов. Типичное число узлов — два, это минимальное количество, приводящее к повышению доступности.
Для организации отказоустойчивой системы хранения данных применяться - DRBD (Distributed Replicated Block Device — распределённое реплицируемое блочное устройство) — это блочное устройство, предназначенное для построения отказоустойчивых кластерных систем на операционной системе Linux. DRBD занимается полным отражением (mirroring) по сети всех операций с блочным устройством. Можно считать, что DRBD это сетевой RAID-1. DRBD берёт данные, записывает их на локальный диск и пересылает на другой хост. На другом хосте они тоже записываются на диск. Помимо DRBD в кластере использутся ещё два важных компонента:
- cluster membership service - в качестве которого выступает heartbeat;
- приложение, работающее поверх распределенного блочного устройства - SipRing-центр;

Серверы кластера используют два типа сетевых адресов. Для взаимной проверки, осуществляемой с помощью периодических тестовых сообщений (heartbeat) по внутренней сети, серверам назначаются частные адреса, а конечные пользователи обращаются к услугам SipRing-центра с помощью назначаенного общего виртуального IP адреса. В случае отказа первичного (аппаратного или программного) всю его работу берет на себя резервный сервер. Этот процесс прозрачен для конечного пользователя так как он по-прежнему использует для соединения тот же адрес и не видит никаких изменений в обслуживании, а на резервном сервере работают те же службы и приложения SipRing-центра, что и на первичном.
Тестирование кластера. При тестировании имитируются стандартные ситуации:
- Выключение узла Primary.
- Включение узла Primary через некоторое время.
- Выключение узла Secondary.
- Включение узла Secondary через некоторое время.
- Одновременная загрузка узлов кластера.
- Загрузка узлов кластера с задержкой относительно друг друга.
- Нарушение сетевого взаимодействия.