O que coletar antes de reiniciar um servidor em produção

reboot linux

O que coletar antes de reiniciar o servidor. Antes de reiniciar um servidor sempre colete evidências. Reinício apaga o rastro — e depois vira achismo. Aqui vai um checklist prático, direto da vida real de sysadmin 👇


1️⃣ Estado geral do sistema

Esses dados dizem como o servidor estava “se sentindo” no momento da falha.

uptime
w
top -b -n 1
htop

👉 Observe:

  • Load average fora do padrão
  • Processos travados (D, Z)
  • CPU 100% system ou iowait alto

2️⃣ Memória e swap

OOM é clássico e silencioso.

free -m
vmstat 1 10

👉 Verifique:

  • Swap cheia
  • Muitas páginas sendo trocadas
  • OOM Killer ativo

3️⃣ Disco e I/O

Disco lento derruba tudo sem aviso claro.

df -h
df -i
iostat -xz 1 5
iotop -o

👉 Atenção em:

  • Filesystem 100%
  • Inodes esgotados
  • Await alto / util 100%

4️⃣ Logs do sistema

Nunca reinicie sem olhar logs. Nunca.

journalctl -p err..alert --since "2 hours ago"
journalctl -xe
dmesg -T | tail -100

👉 Procure por:

  • OOM Killer
  • I/O error
  • Kernel panic
  • Soft lockup / hard lockup

5️⃣ Serviços críticos

Veja quem já morreu antes do reboot.

systemctl --failed
systemctl status nginx php-fpm mysql

👉 Anote:

  • Restart loops
  • Timeouts
  • Serviços “active (exited)”

6️⃣ Rede

Problemas de rede fingem ser problema de app.

ss -s
ss -tuna | wc -l
ip a
ip route

👉 Observe:

  • Conexões demais
  • SYN-SENT acumulado
  • Portas esgotadas

7️⃣ Processos suspeitos

Descubra quem estava abusando.

ps aux --sort=-%cpu | head
ps aux --sort=-%mem | head

👉 Normalmente aparecem:

  • PHP travado
  • Query pesada
  • Script rodando fora de hora

8️⃣ Hardware (se aplicável)

Especialmente em dedicado ou VM antiga.

smartctl -a /dev/sda
sensors

👉 Red flags:

  • Erros SMART
  • Temperatura alta
  • Disco em pré-falha

9️⃣ Snapshot rápido (opcional, mas ouro)

Se der tempo, salve tudo:

mkdir /root/pre-reboot-$(date +%F)
journalctl > /root/pre-reboot-$(date +%F)/journal.log
dmesg > /root/pre-reboot-$(date +%F)/dmesg.log

Regra de ouro 🧠

Se você não coletou dados antes de reiniciar, você escolheu não aprender com o problema.