Sintomas de falha iminente de hardware. Falha de hardware quase nunca acontece “do nada”. Na prática, o servidor costuma gritar antes de cair — a questão é saber ouvir os sinais certos. Aqui estão os sintomas reais de falha iminente, separados por componente, com foco em ambientes de produção (VPS, bare metal, storage, virtualização).
🧠 CPU (processador)
Sinais clássicos:
- Travamentos aleatórios sem padrão claro
- Kernel panic sob carga específica
- Erros de Machine Check Exception (MCE) no
dmesg - Performance errática mesmo com load baixo
O que normalmente aparece no log:
mce: CPU0: Machine Check Exception Hardware Error
⚠️ Observação importante: CPU raramente morre sozinha. Quando morre, costuma levar placa-mãe ou VRM junto.
🧮 Memória RAM
Um dos campeões de falha silenciosa.
Sintomas comuns:
- Processos crashando sem motivo aparente
- Erros intermitentes de aplicação (PHP, Java, MySQL)
- Arquivos corrompidos
- Reboots aleatórios
Logs típicos:
EDAC MC0: UE error detected Out of memory: Kill process
Indicador crítico:
Se erros aparecem somente sob carga, a RAM já está no fim.
💡 Em produção: ECC não evita falha — apenas evita corrupção silenciosa.
💽 SSD / HDD (armazenamento)
Aqui os sinais são claros — e ignorados até ser tarde.
SSD (SATA / NVMe)
Sintomas:
- Latência de disco subindo progressivamente
- IO wait alto sem aumento de tráfego
- Sistema “congela” por segundos
- Erros intermitentes de leitura/escrita
SMART denuncia antes:
Percentage Used Media and Data Integrity Errors
Se Percentage Used > 80% → contagem regressiva iniciada.
HDD (discos mecânicos)
Sintomas clássicos:
- Barulho anormal (cliques, zumbido)
- Lentidão absurda em operações simples
- Rebuild de RAID lento demais
- Setores realocados aumentando
SMART fatal:
- Reallocated_Sector_Ct
- Current_Pending_Sector
🔌 Fonte de alimentação (PSU)
A vilã invisível.
Sintomas típicos:
- Reboots aleatórios
- Servidor cai sob pico de carga
- Interface de rede “some” e volta
- Discos desconectam sozinhos
⚠️ Fonte ruim simula falha em TODOS os outros componentes.
Troca de PSU resolve “problemas místicos”.
🌡️ Superaquecimento (cooling / airflow)
Não é só temperatura alta — é variação térmica.
Sinais reais:
- Throttling de CPU
- Performance cai ao longo do dia
- Fans a 100% constantemente
- Shutdown térmico sem aviso
CPU throttling activated Thermal shutdown
💡 Poeira mata servidor lentamente. Datacenter não é imune.
🌐 Placa de rede (NIC)
Muito subestimada.
Sintomas:
- Perda de pacotes intermitente
- Latência variável sem causa externa
- Link sobe e desce
- Erros CRC no switch
ethtool -S eth0 | grep error
🧩 Placa-mãe / chipset
Quando ela começa a falhar, o caos é generalizado.
Sintomas:
- Problemas aleatórios e não reproduzíveis
- Portas USB falhando
- SATA/NVMe “some”
- BIOS perdendo configurações
⚠️ Se vários componentes “falham” ao mesmo tempo, desconfie da motherboard.
🚨 Sinais globais de alerta máximo
Se você vê dois ou mais abaixo ao mesmo tempo, prepare troca urgente:
- Reboots sem log claro
- Corrupção de dados
- Erros intermitentes impossíveis de reproduzir
- Latência crescente sem mudança de carga
- SMART / MCE / EDAC acusando erro
🛠️ Como detectar ANTES da falha
Checklist mínimo em produção:
- SMART ativo + monitorado
- Monitorar:
- Latência de disco
- IO wait
- Erros ECC
- Temperatura
- Reboots
- Alertas por tendência, não só por limite
- Backup testado (não só existente)
Verdade dura
Hardware não morre de repente.
Ele pede socorro — em silêncio.

