Downtime, parada não planejada, indisponibilidade, queda. Não importa a expressão usada para descrever um data center parado. O resultado será prejuízo para a empresa que perde vendas ou não consegue finalizar processos críticos diante de aplicações indisponíveis.

As causas de falhas que podem levar um data center à indisponibilidade são diversas. Entretanto, dados divulgados pela Emerson (imagem acima) revelam que a maioria das interrupções não previstas no data center são originadas ​​por erros humanos e mecânicos. A boa notícia é que, grande parte deles podem – e devem – ser prevenidos.

Manutenção adequada, procedimentos bem definidos e treinamento dos operadores são componentes indispensáveis da fórmula para manter a alta disponibilidade do data center.

Pensando nisso reunimos 10 causas comuns pelas quais os data centers falham. Embora nem todos os cenários possam coincidir com a arquitetura da instalação de sua empresa, esperamos que você possa refletir o quanto é importante agir de forma proativa, tentando mitigar os pontos potenciais de falha para evitar downtime:

1 Controle de Acesso Inadequado

Poucas pessoas devem ter acesso irrestrito ao data center. Caso contrário pode acontecer algo semelhante à empresa norte americana Joyent que experimentou em 2014 um longo período de downtime quando um operador reiniciou involuntariamente todas as máquinas virtuais da instalação.

Câmeras de segurança e controles de acesso biométricos, por cartão ou leitura de íris ajudam evitar que incidentes como esse ocorram.

2 Procedimentos incorretos

Após manutenção, o procedimento de retorno é um passo frequentemente negligenciado. Normalmente, o processo não é examinado e documentado cuidadosamente causando falhas ao reiniciar o data center.

Não são raros os erros causados por procedimentos incorretos. Um cliente da Redes&Cia por exemplo, ao contratar um fornecedor não especializado para efetuar manutenção no ar condicionado, desligou por engano o sistema de energia do data center, causando enorme transtorno para a empresa.

3 Mudanças excessivas

Fazer muitas mudanças ao mesmo tempo durante a manutenção do data center pode ser fonte de problemas.

O tempo reduzido para completar um grande numero de tarefas pode ocasionar erros de execução tornando a solução de problemas pós manutenção uma tarefa muito mais difícil de resolver

4 Ausência de manutenção e testes nos equipamentos redundantes

As causas mais comuns de downtime no data center estão relacionadas a falhas no sistema elétrico. As interrupções de energia ocorrem o tempo todo por isso os data centers são projetados com fontes redundantes como geradores e Nobreaks/UPS que entram em ação caso haja algum problema no abastecimento pela concessionária. O problema é que as baterias não são substituídas conforme necessário, e os geradores não são testados com frequência . Desta forma, os componentes redundantes podem não estar disponíveis quando você mais precisar.

5 Falhas no sistema de resfriamento

Os servidores liberam grande quantidade de calor. É por isso que o resfriamento é tão crítico. Uma instalação fria como uma geladeira em um minuto pode se tornar um forno sufocante no próximo; e realmente acontece muito rápido. Mesmo quando a sala possui sensores de temperatura e alertas enviados aos gerentes de TI, você deve ter certeza que os aparelhos de ar condicionado redundantes entrarão em ação antes de tudo derreter

6 Procedimentos de tolerância a falhas não automatizados

As empresas que têm operações extremamente críticas possuem data centers espelhados ou vários sistemas redundantes para garantir a disponibilidade das aplicações mesmo em condições extremamente adversas. No caso de downtime, os procedimentos automatizados de tolerância a falhas se iniciam e movem todo o tráfego para a instalação de backup ou iniciam os sistemas redundantes. Se for feito corretamente não há qualquer alteração no nível de serviço entregue para o usuário final.

Mas infelizmente esses procedimentos geralmente não funcionam como esperado. A causa usual do mau funcionamento é a falta de testes regulares. Mesmo mudanças pequenas na infraestrutura podem ter grande impacto nos processos de tolerância a falhas. Então, quando houver alguma alteração, os procedimentos devem ser testados para garantir que tudo ocorra bem.

Tier – Certificar ou não certificar o data center? Eis a questão – Leia o artigo para saber mais sobre níveis de redundância.

7 Manutenção não planejada

Se você já trabalhou em um data center, provavelmente esteve na situação de atender pequenas solicitações como alterações em um servidor ou peça de um equipamento de rede.

Oficialmente, o procedimento correto exige que você execute isso através de manutenções agendadas com a equipe de suporte , entretanto você sente que pode ser feito facilmente fora do processo formal. E 99 de 100 vezes, você está absolutamente correto. Mas de vez em quando, uma ação como essa tem consequências inesperadas. O resultado final é a interrupção inesperada (downtime) e uma grande dor de cabeça para o gerente de TI.

8 Hardware desatualizado

Em algum momento o hardware vai falhar. Todo mundo sabe disso, mas, muitas vezes, uma aplicação crítica cai porque ela estava sendo executada em hardware antigo. Esses problemas geralmente ocorrem devido à falta de um plano de migração abrangente para uma nova plataforma de hardware ou software – ou falta de orçamento. Se o problema for dinheiro, não há muito que fazer. Entretanto é necessário avaliar os riscos de manter o hardware obsoleto. Às vezes o risco envolvido é maior que o custo de upgrade

9 Sistemas de combate a incêndio à base de água

A maioria dos data centers modernos não usam sistemas de combate a incêndio à base de água. É bastante comum o uso pó químico como agente para combater o fogo. Ele é mais eficiente, pois não danifica os equipamentos quando entra em ação. Contudo, essa não é a realidade de instalações mais antigas. A água liberada pelos splinkers danifica os servidores na mesma velocidade que apagam o fogo, causando períodos longos de downtime.

10 Ativação acidental de desligamento de emergência – Emergency Power Off (EPO)

Os altos níveis de segurança física implementados na maioria dos data centers não são simplesmente para evitar ladrões e proteger os dados. Eles também garantem a integridade física das pessoas que trabalham na instalação.

Existem alguns dispositivos de segurança que podem ser acionados manualmente, o botão Emergency Power Off (EPO) por exemplo, é um grande botão vermelho usado para desligar a energia em todo o data center em caso de emergência. O problema é que poucas pessoas sabem da sua real utilidade tornando irresistível o impulso de empurrá-lo.

Mas como manter tudo sob controle e evitar downtime?

O gerenciamento de infraestrutura do Data Center (DCIM) é um aliado contra as interrupções não planejadas (downtime). As soluções DCIM existentes no mercado oferecem visão detalhada da operação envolvendo monitoramento e gerenciamento de capacidade, emissão de alertas e alarmes de não conformidade entre outros.

Veja mais no artigo: DCIM (Data Center Infraestruture Management)

E-book gratuito:

Data Center para Pequenas e Médias Empresas

Compartilhe!
58

Posts Relacionados

plugins premium WordPress

Identifique-se

Insira seus dados abaixo para acessar a Calculadora Laserway