Tolerância a Falhas
Carlos Oberdan Rolim
Ciência da Computação
Aplicações de sistemas Tolerantes aFalhas
Técnicas apresentadas anteriormente aumentam adependabilidade mas não garantem que todas as falhaspossam ser toleradas
Para a escolha adequada de um sistema de computaçãotolerante a falhas, as características especiais da aplicaçãoe as suas exigências quanto a confiabilidade edisponibilidade devem ser conhecidas em detalhe.
Áreas de Aplicação
As áreas tradicionais onde são empregados sistemastolerantes a falhas são:
aplicações críticas de sistemas de tempo real como medicina, controlede processos e transportes aéreos
aplicações seguras de tempo real como transportes urbanos;
aplicações em sistemas de tempo real de longo período de duraçãosem manutenção, como em viagens espaciais, satélites e sondas;
aplicações técnicas como telefonia e telecomunicações;
aplicações comerciais de alta disponibilidade como sistemas detransação e servidores de redes.
Sistemas de tempo real
resposta rigorosamente no prazo
controle, supervisão e automação de sistemas
controle de processos industriais, transportes, medicina
sistemas de comunicação
Sistemas de tempo real
Condições para aplicação desses sistemas são:
Disponibilidade de apenas um curto intervalo de tempo parareconhecimento de erros, de forma a não prejudicar o processamentoem tempo real;
Impossibilidade de emprego de recuperação por retorno, uma vez queeventos passados não são reproduzíveis em sistemas de tempo real;
Exigência de redundância estática para garantir a continuidade doprocessamento em tempo real em caso de falha de um componente;
Comportamento livre de falhas (fail-safe), ou seja, em caso deocorrência de uma falha que não possa ser mascarada, o sistema deveir imediatamente para um estado seguro.
Sistemas de tempo real
Podem ser de 3 tipos:
estrito
lato
 melhor esforço
quão rigorosamente no prazo a resposta deve ser
Tipos de sistema de tempo real
estrito: hard real time
sistemas críticos, processos contínuos
lato: soft real time
base de dados, reserva de voos, partes de processos contínuos
melhor esforço: best-effort
caso particular de estrito, mas sem poder assegurar hipótesestemporais
exemplo: controle de tráfego aéreo
Sistemas digitais de telefonia
alta disponibilidade
tempo máximo em falha < 2 horas em 30 anos
requisitos:
reconhecimento de erros por supervisão cíclica
alarme e localização automática de erros
tratamento automático de erros por reconfiguração
isolamento e substituição de componentes faltosos duranteoperação normal
A principal técnica de tolerância a falhas, presente nos processadoresem sistemas telefônicos, tem sido duplicação de componentes.
Sistemas de transações
 existência de uma base de dados comum usada interativa econcorrentemente por um grande número de usuários em máquinasclientesex.: bancos de dados para aplicações financeiras, bancárias, de bolsade valores, e para reserva internacional de vôos
requisitos básicos:
integridade e consistência de dados na base de dados
alta disponibilidade para processamento continuado de transações
requisitos complementares:
tratamento automático de erros sem interromper operação normal
reconfiguração de hardware e software sem interrupção
Sistemas de transações
requisitos mais importantes:
integridade e consistência de dados
disponibilidade, tratamento de erros e reconfiguração seminterrupção podem ser sacrificados para garantir a correção nabase de dados
modelo fail-stop
em caso de erro o sistema pára o processamento evitando dano àbase de dados
Servidores de redes
estações de trabalho interconectadas e, no mínimo, umservidor
servidor:
sistema completo de computação
serviços de suporte e controle da rede
armazenamento de dados e arquivos, gerenciamento e impressãode documentos e conexão a outras redes (locais e públicas)
Servidores de redes
requisitos semelhantes aos de sistemas de transação:
integridade e redundância de dados em cada estação de trabalho;
alta disponibilidade do servidor para continuidade de serviços na rede
reconfiguração da rede em caso de erro
reconfiguração com entrada de outras estações, sem interrupção doprocessamento
Servidores de redes
Características da série Sun Enterprise
Sistemas seguros
segurança mais importante que disponibilidade
exemplo: transportes urbanos
comportamento fail-safe
existência de um estado seguro e facilidade de alcançá-lo em casode erro
rapidez no detecção de erros
Ex.: trens
Sistemas seguros
Requisitos semelhantes ao requisitos para sistemas detempo real, uma vez que o controle desse tipo de sistematambém ocorre em tempo real:
Existência de um estado seguro e facilidade de alcançá-lo em caso deerro;
Rapidez no reconhecimento de erros;
Redundância para mascaramento e para reconhecimento de erros.