Краткое введение в отказоустойчивость
Table of Contents
Определение отказоустойчивости
Отказоустойчивость относится к свойству, которое позволяет системе продолжать правильно работать даже при выходе из строя некоторых ее компонентов. Другими словами, отказоустойчивость означает, как операционная система (ОС) реагирует и допускает сбои и отказы оборудования или программного обеспечения.
Способность ОС восстанавливать и допускать сбои может быть реализована с помощью программного обеспечения, оборудования или комбинированного решения, в котором используются балансировщики нагрузки. Некоторые компьютерные системы используют несколько дублирующих систем отказоустойчивости для корректной обработки отказов, что называется отказоустойчивой сетью.
Отказоустойчивые вычисления включают несколько уровней устойчивости:
- Tон самый низкий уровень: Возможность реагировать на сбой питания.
- Шаг вверхили усиление уровня: Возможность немедленно использовать систему резервного копирования в случае отказа системы.
- Повышенный уровень:Когда диск выходит из строя, зеркальные диски немедленно заменяют его. Этот уровень предлагает функциональность, несмотря на частичные сбои системы или ожидаемую деградацию, а не немедленную поломку и потерю функциональности.
- Высокий уровень: Несколько процессоров совместно проверяют данные и вывод для обнаружения ошибок, а затем немедленно их исправляют.
В отказоустойчивых системах используются резервные компоненты, которые автоматически заменяют вышедшие из строя компоненты, чтобы гарантировать отсутствие перебоев в работе.
- Аппаратные системы имеют такую же или эквивалентную операционную систему резервного копирования. Отказоустойчиво, что сервер с таким же отказоустойчивым сервером отражает все операции в резервной копии и работает параллельно. Устраняя единую точку отказа, отказоустойчивость оборудования в избыточной форме может сделать любой компонент или систему более безопасными и надежными.
- Программные системы, поддерживаемые другими экземплярами программного обеспечения. Например, если пользователи непрерывно реплицируют базу данных клиентов, и если первая база данных закрывается, операции в первичной базе данных могут быть автоматически перенаправлены на вторую.
- Если альтернативные источники могут автоматически переходить на смену во время сбоев питания, резервное питание может помочь избежать сбоев системы и гарантировать, что услуги не будут потеряны.
ВинаTтерпимостьTметоды
- Репликация: Он предоставляет несколько идентичных экземпляров одной и той же системы или подсистемы, направляет задачи или запросы ко всем экземплярам параллельно и выбирает правильные результаты на основе арбитража.
- Безотказные вычисления: Это позволяет компьютерным программам продолжать выполнение, несмотря на ошибки, которые могут применяться в различных контекстах.
- Восстановление пастырства: Это легкий метод, который позволяет программам восстанавливаться после фатальных ошибок.
- Автоматический выключатель:Этот шаблон проектирования - метод предотвращения катастрофических отказов в распределенных системах.
ТребованияОтказоустойчивости
Ниже приведены основные требования к характеристикам отказоустойчивости:
- Нет единой точки отказа: Если система выйдет из строя, она должна продолжать работать без перебоев во время ремонта.
- Изоляция неисправности отказавшего компонентаs:В случае отказа система должна быть способна изолировать неисправность соответствующего компонента. Это требует добавления специальных механизмов обнаружения сбоев, которые существуют только для локализации сбоев. Восстановление после состояния отказа требует классификации отказов или неисправных компонентов.
- Локализация неисправностей для предотвращенияРаспространениенеудачи: Некоторые механизмы отказов могут вызвать отказы системы из-за распространения отказов на остальную систему. «Незаконный передатчик» является примером такого отказа, который приводит к законному обмену данными в системе и вызывает полный отказ системы. Злонамеренный передатчик или отказавший компонент необходимо изолировать, чтобы защитить брандмауэр системы или другие механизмы.
- Наличие режимов реверсии.
DisadvantagesОтказоустойчивости
- Расходы.
- Низкие компоненты.
- Помехи при обнаружении неисправности в другом компоненте.
- Помехи при обнаружении неисправности одного и того же компонента.
- Снижение приоритета устранения неисправностей.
- Сложность теста.
ПримерыОтказоустойчивости
Иногда отказоустойчивость оборудования требует, чтобы поврежденные части были удалены и заменены новыми частями, пока система все еще работает. Такие системы, реализованные с использованием единой резервной копии, называются одноточечной устойчивостью и представляют подавляющее большинство отказоустойчивых систем.
Отказоустойчивость успешна в компьютерных приложениях. Tandem Computers строят весь свой бизнес на таких компьютерах, которые используют допуск одной точки для создания своих непрерывных систем, которые собираются годами.
Отказоустойчивая архитектура может также включать компьютерное программное обеспечение, такое как репликация через процессы.
Форматы данных также могут быть спроектированы для естественного ухудшения. Например, HTML разработан для обеспечения прямой совместимости, что позволяет веб-браузерам, которые их не понимают, не делая документ непригодным для использования, игнорировать новые объекты HTML.
Previous Article
Что нового в Bitwar HEIC Converter for Mac V2.0.0 Резюме: Отказоустойчивость означает способность системы продолжать работать без перебоев, даже если один или несколько из ...Next Article
Quick Fix: The Volume Does Not Contain A Recognized File System Error Резюме: Отказоустойчивость означает способность системы продолжать работать без перебоев, даже если один или несколько из ...About Bitwar Data Recovery
3 Steps to get back 500+ kinds of deleted, formatted or lost documents, photos, videos, audios, archive files from various data loss scenarios.
Learn More