Uma breve introdução à tolerância a falhas
Índice
Definição de tolerância a falhas
A tolerância a falhas refere-se à propriedade que permite que o sistema continue a funcionar corretamente mesmo quando alguns de seus componentes falham. Em outras palavras, tolerância a falhas significa como um sistema operacional (SO) responde e permite mau funcionamento e falha de hardware ou software.
A capacidade do sistema operacional de recuperar e tolerar falhas pode ser tratada por meio de software, hardware ou uma solução combinada que aproveita balanceadores de carga. Alguns sistemas de computador usam vários sistemas de tolerância a falhas duplicados para lidar com falhas normalmente, o que é chamado de rede tolerante a falhas.
A computação tolerante a falhas inclui vários níveis de tolerância:
- To nível mais baixo:A capacidade de responder a uma falha de energia.
- Um passo à frenteou nível de fortalecimento:A capacidade de usar o sistema de backup imediatamente se um sistema falhar.
- Nível avançado:Quando um disco falha, os discos espelhados assumem imediatamente o controle. Este nível oferece funcionalidade apesar das falhas parciais do sistema ou degradação esperada, em vez de uma interrupção imediata e perda de funcionalidade.
- Alto nível:Vários processadores colaboram para varrer os dados e gerar a saída para detectar erros e, em seguida, corrigi-los imediatamente.
Os sistemas tolerantes a falhas usam componentes de backup que substituem automaticamente os componentes com falha para garantir que nenhuma interrupção ocorra no serviço.
- Os sistemas de hardware têm o mesmo sistema operacional de backup ou equivalente. É tolerante a falhas que um servidor com o mesmo servidor tolerante a falhas espelhe todas as operações em um backup e seja executado em paralelo. Ao eliminar um único ponto de falha, a tolerância a falhas de hardware de forma redundante pode tornar qualquer componente ou sistema mais seguro e confiável.
- Sistemas de software com backup de outras instâncias de software. Por exemplo, se os usuários replicarem o banco de dados do cliente continuamente e se o primeiro banco de dados for fechado, as operações no banco de dados principal podem ser redirecionadas automaticamente para o segundo.
- Se fontes alternativas podem assumir automaticamente durante falhas de energia, a energia redundante pode ajudar a evitar falhas do sistema e garantir que os serviços não sejam perdidos.
CulpaToleranceTtécnicas
- Replicação:Ele fornece várias instâncias idênticas do mesmo sistema ou subsistema, tarefas ou solicitações diretas para todas as instâncias em paralelo e seleciona os resultados corretos com base na arbitragem.
- Computação alheia a falhas:Ele permite que os programas de computador continuem em execução apesar dos erros, que podem ser aplicados em diferentes contextos.
- Pastoreamento de recuperação:É uma técnica leve que permite que os programas de software se recuperem de erros que de outra forma seriam fatais.
- Disjuntor:Este padrão de design é uma técnica para evitar falhas catastróficas em sistemas distribuídos.
RequisitosDe tolerância a falhas
A seguir estão os requisitos de características primárias para tolerância a falhas:
- Nenhum ponto único de falha:Se o sistema falhar, ele deve continuar a operar durante o reparo sem interrupção.
- Isolamento de falha para o componente com falhas:Em caso de falha, o sistema deve ser capaz de isolar a falha do componente em questão. Isso requer a adição de mecanismos de detecção de falhas dedicados que existem apenas para isolamento de falhas. A recuperação de um estado de falha requer classificação de falhas ou componentes com defeito
- Contenção de falhas para prevenira propagaçãodo fracasso:Alguns mecanismos de falha podem causar falhas no sistema pela propagação de falhas para o resto do sistema. O “transmissor invasor” é um exemplo de falha que leva à comunicação legítima no sistema e causa a falha completa do sistema. Um transmissor malicioso ou componente com falha precisa ser isolado para proteger o firewall do sistema ou outros mecanismos.
- Disponibilidade de modos de reversão.
DesvantagensDe tolerância a falhas
- Custo.
- Componentes inferiores.
- Interferência com detecção de falha em outro componente.
- Interferência com detecção de falhas do mesmo componente.
- Redução da prioridade de correção de falhas.
- Dificuldade do teste.
ExemplosDe tolerância a falhas
Às vezes, a tolerância a falhas de hardware exige que as peças danificadas sejam removidas e substituídas por novas peças enquanto o sistema ainda está funcionando. Esses sistemas implementados usando um único backup são chamados de tolerância de ponto único e representam a grande maioria dos sistemas tolerantes a falhas.
A tolerância a falhas é bem-sucedida em aplicativos de computador. A Tandem Computers constrói todo o seu negócio nesses computadores, que usam uma tolerância de ponto único para criar seus sistemas ininterruptos, que se acumulam com o passar dos anos.
Uma arquitetura à prova de falhas também pode incluir software de computador, como replicação por meio de processos.
Os formatos de dados também podem ser projetados para degradar naturalmente. Por exemplo, o HTML é projetado para ser compatível com versões futuras, permitindo que os navegadores da web que não os entendem, sem tornar o documento inutilizável, ignorem novas entidades HTML.
Artigo Anterior
O que há de novo no Bitwar HEIC Converter for Mac V2.0.0 Resumo: Tolerância a falhas significa a capacidade do sistema de continuar a operar ininterruptamente, mesmo se um ou mais dos ...Artigo seguinte
Correção rápida: o volume não contém um erro de sistema de arquivos reconhecido Resumo: Tolerância a falhas significa a capacidade do sistema de continuar a operar ininterruptamente, mesmo se um ou mais dos ...Sobre a recuperação de dados Bitwar
3 etapas para recuperar mais de 500 tipos de documentos, fotos, vídeos, áudios e arquivos excluídos, formatados ou perdidos de vários cenários de perda de dados.
Saber mais