Vrrp
VRRP neboli Virtual Router Redundancy Protocol slouží k vytvoření jednoho nebo více routrů, které se navzájem zálohují a plně přebírají funkci pokud primární routr z jakéhokoli důvodu přestane fungovat, či pro loadbalancing serverů, což také není předmětem tohoto návodu. Záložních (backup) routrů může být 1 až n. Způsob zapojení routrů do HA není předmětem tohoto návodu, jde pouze o ukázku konfigurace a funkčnosti takovéhoto řešení vysoké dostupnosti routrů. Princip jako funguje VRRP, HSRP apod. také není předmětem tohoto návodu, jak VRRP funguje: [1]
Obsah
HW
Pro naši modelovou situaci použijeme jako routry dva PCengines APU s předinstalovaným základním systémem, switch a klientské zařízení na kterém budeme testovat funkčnost VRRP, v našem případě půjde o PC s Linuxem.
VRRP na Debianu
Konfigurace, použité verze aplikací a serverů platí pro, v době psaní návodu aktuální, stable release debianu a to verzi 8.5
- Nejdříve si nastavíme na obou routrech statické IP adresy, v našem případě jsem zvolil pro interface eth1 adresy 192.168.100.10 a 11 za předpokladu, že IP routru v síti (tedy z pohledu routrů virtuální adresa) má být 192.168.100.2
- Protože virtuální adresa nebude fyzicky nastavena na jednom nebo více routrech (pouze na aktivním), musíme systému říct, aby na tuto adresu odpovídal. Do /etc/sysctl.conf přidáme tento řádek:
net.ipv4.ip_nonlocal_bind=1
- Pro načtení změn v /etc/sysctl.conf provedeme příkaz:
sysctl -p
man sysctl -p: Load in sysctl settings from the file specified or /etc/sysctl.conf if none given. Specifying - as filename means reading data from standard input.
- Nainstalujeme keepalived
apt-get install keepalived
- Editujeme /etc/keepalived/keepalived.conf pro routr 1:
vrrp_instance VI_1 {
state MASTER !MASTER ma nejvyssi prioritu
interface eth1 !interface na kterem bude keepalived komunikovat, tedy ten interface ve stejne siti/vlan jako zalozni routr(y)
virtual_router_id 1 !identifikator virtualniho routru
priority 150 !priorita daneho routru, fakticky je to jedina hodnota, ktera se meni, plati, ze vim vyssi cislo, tim vyssi priorita
advert_int 1 !hodnota v sekundach jak casto se bude routr dotazovat ostatnich routru jestli jsou nazivu
authentication {
auth_type PASS !typ autentifikace, PASS je plaintext heslo
auth_pass TajneHeslo !heslo v plaintext
}
virtual_ipaddress {
192.168.100.2/24 dev eth1
!virtualni adresa a zarizeni, kteremu se ma priradit, pokud ma routr vic adres,
!vic interfacu, postupujeme analogicky IP dev INTERFACE, napr.
!192.168.101.1 dev vlan10
!192.168.102.1 dev vlan20
!apod.
}
}
- Pro routr 2 je konfigurák /etc/keepalived/keepalived.conf identický, pouze se změní hodnota priority na nějaké nižší číslo, třeba 100
- Spustím daemona keepalived:
service keepalived start
- Daemon by měl do logu vypsat něco jako:
Sep 6 14:35:03 host2 Keepalived[959]: Starting Keepalived v1.2.13 (05/28,2014)
Sep 6 14:35:03 host2 Keepalived[960]: Starting Healthcheck child process, pid=962
Sep 6 14:35:03 host2 Keepalived_healthcheckers[962]: Initializing ipvs 2.6
Sep 6 14:35:03 host2 Keepalived[960]: Starting VRRP child process, pid=963
Sep 6 14:35:03 host2 Keepalived_vrrp[963]: Registering Kernel netlink reflector
Sep 6 14:35:03 host2 Keepalived_vrrp[963]: Registering Kernel netlink command channel
Sep 6 14:35:03 host2 Keepalived_healthcheckers[962]: Registering Kernel netlink reflector
Sep 6 14:35:03 host2 Keepalived_vrrp[963]: Registering gratuitous ARP shared channel
Sep 6 14:35:03 host2 Keepalived_healthcheckers[962]: Registering Kernel netlink command channel
Sep 6 14:35:03 host2 Keepalived_healthcheckers[962]: Opening file '/etc/keepalived/keepalived.conf'.
Sep 6 14:35:03 host2 Keepalived_healthcheckers[962]: Configuration is using : 5295 Bytes
Sep 6 14:35:03 host2 Keepalived_vrrp[963]: Opening file '/etc/keepalived/keepalived.conf'.
Sep 6 14:35:03 host2 Keepalived_vrrp[963]: Configuration is using : 60752 Bytes
Sep 6 14:35:03 host2 Keepalived_vrrp[963]: Using LinkWatch kernel netlink reflector...
Sep 6 14:35:03 host2 Keepalived_healthcheckers[962]: Using LinkWatch kernel netlink reflector...
Sep 6 14:35:04 host2 Keepalived_vrrp[963]: VRRP_Instance(VI_1) Transition to MASTER STATE
Sep 6 14:35:05 host2 Keepalived_vrrp[963]: VRRP_Instance(VI_1) Entering MASTER STATE
Testování funkčnosti
V tuto chvíli máme připravené dva routry se zcela totožnou konfigurací (až na statické IP a prioritu)
- Situace 1:
- běží mi pouze záložní routr2,
- zapnu routr1, po naběhnutí systému si VRRP protokol zjistí, že v síti existuje další routr, ale s nižší prioritou,
- pošle tedy routru s nižší prioritou, že si přebírá roli mastera,
- routr2 si smaže virtuální IP,
- routr1 si nastaví virtuální IP a stane se tím MASTER routrem
V logu proces vypadá nějak takto (všimněte si časových značek):
routr2:
Sep 6 15:35:54 host2 Keepalived_vrrp[963]: VRRP_Instance(VI_1) Received higher prio advert
Sep 6 15:35:54 host2 Keepalived_vrrp[963]: VRRP_Instance(VI_1) Entering BACKUP STATE
routr1 (těsně po startu systému):
Sep 6 15:35:52 host1 Keepalived[440]: Starting Keepalived v1.2.13 (05/28,2014)
Sep 6 15:35:52 host1 Keepalived[472]: Starting Healthcheck child process, pid=475
Sep 6 15:35:52 host1 Keepalived[472]: Starting VRRP child process, pid=476
Sep 6 15:35:52 host1 Keepalived_healthcheckers[475]: Initializing ipvs 2.6
Sep 6 15:35:52 host1 Keepalived_vrrp[476]: Registering Kernel netlink reflector
Sep 6 15:35:52 host1 Keepalived_vrrp[476]: Registering Kernel netlink command channel
Sep 6 15:35:52 host1 Keepalived_vrrp[476]: Registering gratuitous ARP shared channel
Sep 6 15:35:52 host1 Keepalived_vrrp[476]: Opening file '/etc/keepalived/keepalived.conf'.
Sep 6 15:35:52 host1 Keepalived_vrrp[476]: Configuration is using : 60752 Bytes
Sep 6 15:35:52 host1 Keepalived_vrrp[476]: Using LinkWatch kernel netlink reflector...
Sep 6 15:35:52 host1 Keepalived_healthcheckers[475]: Registering Kernel netlink reflector
Sep 6 15:35:52 host1 Keepalived_healthcheckers[475]: Registering Kernel netlink command channel
Sep 6 15:35:52 host1 Keepalived_healthcheckers[475]: Opening file '/etc/keepalived/keepalived.conf'.
Sep 6 15:35:52 host1 Keepalived_healthcheckers[475]: Configuration is using : 5295 Bytes
Sep 6 15:35:52 host1 Keepalived_healthcheckers[475]: Using LinkWatch kernel netlink reflector...
Sep 6 15:35:53 host1 Keepalived_vrrp[476]: Kernel is reporting: interface eth1 DOWN
Sep 6 15:35:53 host1 Keepalived_vrrp[476]: VRRP_Instance(VI_1) Now in FAULT state
Sep 6 15:35:55 host1 Keepalived_vrrp[476]: VRRP_Instance(VI_1) prio is higher than received advert
Sep 6 15:35:55 host1 Keepalived_vrrp[476]: VRRP_Instance(VI_1) Transition to MASTER STATE
Sep 6 15:35:55 host1 Keepalived_vrrp[476]: VRRP_Instance(VI_1) Received lower prio advert, forcing new election
Sep 6 15:35:56 host1 Keepalived_vrrp[476]: VRRP_Instance(VI_1) Entering MASTER STATE
Z pohledu klienta se neděje vůbec nic, přechod je tak rychlý, že klient přesun IP z jednoho stroje na druhý ani nezaznamená. Testováno pomocí ping 192.168.100.2 -i 0.1 > nevypadne ani jeden packet.
- Situace 2:
- běží mi oba routry, routr1 je master,
- routr1 restartuji,
- routr2 po chvilce přebere roli mastera
routr2 (těsně po restartu routru1): Sep 6 15:35:12 host2 Keepalived_vrrp[963]: VRRP_Instance(VI_1) Transition to MASTER STATE Sep 6 15:35:13 host2 Keepalived_vrrp[963]: VRRP_Instance(VI_1) Entering MASTER STATE
z pohledu klienta jde asi o 2s výpadek brány.
- Situace 3:
- Na primárním routru chci dělat update, konkrétně upgrade kernelu, k takové změně musím systém restartovat
- na primárním routru si v konfiguraci snížím prioritu pod prioritu záložního routru (např. na 90) a restartuji keepalived
- záložní routr by si měl bezpečně a řízeně převezmout roli martera
- primární routr pak mohu bezpečně restartovat
VRRP a OSPF
Na záložním routru není nutné, ba ani žádoucí, aby běžel routovací daemon v době kdy tento stroj nemá aktivně plnit roli routru. Routovací daemony nebo i jakékoli jiné služby můžeme podle potřeby vypnout či zapnout podle aktuálního stavu ve kterém se routr nachází.
Toto lze docílit pomocí konstrukce v keepalived.conf: notify <script_to_run.sh> Script definovaný u položky "notify" se spustí vždy pokud dojde ke změně stavu, ať MASTER>BACKUP nebo BACKUP>MASTER nebo MASRTER>FAULT a scriptu jako parametr předá stav do kterého přešel, pokud chci tímto řídit spouštění a zastavování routovacích daemonů, script může vypadat nějak takto:
#!/bin/bash
TYPE=$1
NAME=$2
STATE=$3
case $STATE in
"MASTER")
service zebra start
service ospfd start
service ospf6d start
exit 0
;;
"BACKUP")
service zebra stop
service ospfd stop
service ospf6d stop
exit 0
;;
"FAULT")
service zebra stop
service ospfd stop
service ospf6d stop
exit 0
;;
*)
echo "unknown state"
exit 1
;;
esac
Check Script
Další možností jak řídit kdy a za jakých okolností přejde routr mezi stavy je konstrukce "Check Script" kde můžeme definovat vlastní příkaz nebo script a na základě jeho návratového kódu se Keepalived zachová přepnutím do daného stavu.
Řekněme, že chceme například sledovat jestli má routr přístup do Internetu pomocí pingu na IP 8.8.8.8, k tomuto nemusím spát žádný script, stačí mi použít pouze příkaz fping 8.8.8.8, ten vrátí návratovou hodnotu 0, pokud je IP dostupná a 1 pokud dostupná není. Check script se chová tak, že pokud je návratová hodnota příkazu/scriptu 0, je vše v pořádku, pokud není 0 (tedy jiné záporné nebo kladné číslo) znamená to chybu.
Do keepalived.conf přidáme tyto řádky (do vrrp_instance):
track_script {
chk_myscript
}
vrrp_script chk_myscript {
script "/usr/bin/fping 8.8.8.8"
weight 60 # weight of this check script
interval 2 # check every 2 seconds
fall 2 # require 2 failures for KO
rise 2 # require 2 successes for OK
}
- Track script {<vrrp_script name>} definuje seznam vrrp_scriptů, které se mají spouštět
- script <script/příkaz> definuje jaký externí script nebo příkaz se má spouštět (a vyhodnocovat jeho návratová hodnota)
- weight <int> je váha check scriptu - pokud se check vyhodnotí jako OK tato hodnota se přičte k prioritě master routru, pokud check selže hodnota se přičte k prioritě backup routru, lze tak definovat více checků, kde teprve při selhání více z nich dojde k přepnutí
- interval <int> definuje jak často [s] se bude chcek provádět
- fall <int> definuje kolikrát musí check po bezprostředně po sobě následujících pokusech selhat, aby byl prohlášen za KO
- rise <int> definuje kolikrát musí check po bezprostředně po sobě následujících pokusech selhat, aby byl prohlášen za OK
Mail notifikace
Keepalived umí posílat maily v případě změny stavu, lze k tomu buď využít globální konfiguraci notification_email {}, která ale není podle mého dostatečně ohebná, použijeme tedy konstrukce notify_master, notify_backup, notify_fault. Úplně stejně se dá použít konstrukce notify, která na to ale není primárně určena.
Definice tedy může být takováto, v keepalived.conf:
notify_master "/root/keepalivedEmailAlert.sh MASTER"
notify_backup "/root/keepalivedEmailAlert.sh BACKUP"
notify_fault "/root/keepalivedEmailAlert.sh FAULT"
Samotný script:
#!/bin/bash
HW="hrubinova routr1"
IP=10.107.237.1
LOG="/var/log/keepalivedEmailAlert.log"
#email definice#
ODESILATEL=kocourkov@hkfree.org
PRIJEMCE=kocourkov@hkfree.org
MAILAPP="/usr/bin/sendemail"
HOSTNAME=$HW
SMTP="smtp.hkfree.org:25"
MSG="$HOSTNAME Keepalived Alert"
#end email definice#
DATUM=`/bin/date '+%Y.%m.%d_%H.%M.%S'`
case $1 in
"MASTER")
echo $DATUM $HW became MASTER | tee -a $LOGFILE | $MAILAPP -u "$MSG transition to MASTER" -t $PRIJEMCE -f $ODESILATEL -s $SMTP -a /var/log/syslog
;;
"BACKUP")
echo $DATUM $HW became BACKUP | tee -a $LOGFILE | $MAILAPP -u "$MSG transition to BACKUP" -t $PRIJEMCE -f $ODESILATEL -s $SMTP -a /var/log/syslog
;;
"FAULT")
echo $DATUM $HW in FAULT state | tee -a $LOGFILE | $MAILAPP -u "$MSG FAULT state" -t $PRIJEMCE -f $ODESILATEL -s $SMTP -a /var/log/syslog
;;
*)
echo $DATUM $HW is in unknown state | tee -a $LOGFILE | $MAILAPP -u "$MSG" -t $PRIJEMCE -f $ODESILATEL -s $SMTP -a /var/log/syslog
;;
esac
exit 0
K emailu přikládám i syslog, což je primární logovací cíl pro keepalived.
Praktické zkušenosti s Keepalived
- Pokud chci nechat načíst novou konfiguraci, mělo by se to dělat odesláním signálu "HUP" hlavnímu procesu keepalived, nikoli kompletním restartem služby: kill -HUP $(cat /var/run/keepalived.pid)
- pozor na misconfig u keepalived.conf! některé nesrovnalosti v konfiguraci mohou odstavit primární routr a backup routr poslat do FAULT stavu, zle tak jednoduše dospět do stavu, že ani jeden z routrů nebude mít nastaveny VIP.
- keepalived provádí logování do syslogu (pokud není v logovacím systému definováno jinak), zprávy od daemona lze celkem bezpečně dostat takto: "cat /var/log/syslog | grep vrrp" případně je ještě možnost nechat spustit daemona tak, že logu je do lokální konzole (pouze pro debug): keepalived --log-console
- Pokud je pro vrrp komunikaci použit samostatný interface a samotný provoz jde přes jiný interface, případ kdy jsou routry propojeny na přímo kabelem a ne přes switch, je nutné mít v konfiguraci ještě položky "dont_track_primary" jinak by docházelo k tomu, že při spadnutí linku na sledovaném interface by záložní routr přešel do stavu FAULT místo aby si převzal roli master. Jde o typický příklad kdy jsou routry propojeny napřímo kabelem a jednomu z nich selže např. zdroj, routr tedy vůbec nenaběhne a nenahodí link. Tato fíčura neřeší výpadek switche do kterého jsou routry zapojeny, ale vzhledem k tomu, že switch bude s největší pravděpodobností single-poit-of-failure je to vlastně jedno.