O que coletar antes de reiniciar um servidor em produção

O que coletar antes de reiniciar o servidor. Antes de reiniciar um servidor sempre colete evidências. Reinício apaga o rastro — e depois vira achismo. Aqui vai um checklist prático, direto da vida real de sysadmin 👇

1️⃣ Estado geral do sistema

Esses dados dizem como o servidor estava “se sentindo” no momento da falha.

uptime
w
top -b -n 1
htop

uptime
w
top -b -n 1
htop

👉 Observe:

Load average fora do padrão
Processos travados (D, Z)
CPU 100% system ou iowait alto

2️⃣ Memória e swap

OOM é clássico e silencioso.

free -m
vmstat 1 10

free -m
vmstat 1 10

👉 Verifique:

Swap cheia
Muitas páginas sendo trocadas
OOM Killer ativo

3️⃣ Disco e I/O

Disco lento derruba tudo sem aviso claro.

df -h
df -i
iostat -xz 1 5
iotop -o

df -h
df -i
iostat -xz 1 5
iotop -o

👉 Atenção em:

Filesystem 100%
Inodes esgotados
Await alto / util 100%

4️⃣ Logs do sistema

Nunca reinicie sem olhar logs. Nunca.

journalctl -p err..alert --since "2 hours ago"
journalctl -xe
dmesg -T | tail -100

journalctl -p err..alert --since "2 hours ago"
journalctl -xe
dmesg -T | tail -100

👉 Procure por:

OOM Killer
I/O error
Kernel panic
Soft lockup / hard lockup

5️⃣ Serviços críticos

Veja quem já morreu antes do reboot.

systemctl --failed
systemctl status nginx php-fpm mysql

systemctl --failed
systemctl status nginx php-fpm mysql

👉 Anote:

Restart loops
Timeouts
Serviços “active (exited)”

6️⃣ Rede

Problemas de rede fingem ser problema de app.

ss -s
ss -tuna | wc -l
ip a
ip route

ss -s
ss -tuna | wc -l
ip a
ip route

👉 Observe:

Conexões demais
SYN-SENT acumulado
Portas esgotadas

7️⃣ Processos suspeitos

Descubra quem estava abusando.

ps aux --sort=-%cpu | head
ps aux --sort=-%mem | head

ps aux --sort=-%cpu | head
ps aux --sort=-%mem | head

👉 Normalmente aparecem:

PHP travado
Query pesada
Script rodando fora de hora

8️⃣ Hardware (se aplicável)

Especialmente em dedicado ou VM antiga.

smartctl -a /dev/sda
sensors

smartctl -a /dev/sda
sensors

👉 Red flags:

Erros SMART
Temperatura alta
Disco em pré-falha

9️⃣ Snapshot rápido (opcional, mas ouro)

Se der tempo, salve tudo:

mkdir /root/pre-reboot-$(date +%F)
journalctl > /root/pre-reboot-$(date +%F)/journal.log
dmesg > /root/pre-reboot-$(date +%F)/dmesg.log

mkdir /root/pre-reboot-$(date +%F)
journalctl > /root/pre-reboot-$(date +%F)/journal.log
dmesg > /root/pre-reboot-$(date +%F)/dmesg.log

Regra de ouro 🧠

Se você não coletou dados antes de reiniciar, você escolheu não aprender com o problema.