Si on désire maîtriser l'informatique d'une TPE (ou même simplement une informatique domestique “indépendante”), il faut se protéger de diverses défaillances, la plus critique étant celle du lien internet. En effet à moins de payer chez orange des prix conséquents, chez tout autre opérateur, une simple panne de DSLAM, ou pire un câble rompu, peut couper internet pendant plusieurs jours, ce qui n'est en général pas acceptable pour une TPE.
Autant le lien entrant (download) peut être recréé avec un simple smartphone, autant le lien sortant (upload) nécessite des solutions plus radicales. Celle abordée ici consiste en un “petit” serveur de secours situé dans un autre lieu, et chargé de prendre le relais en cas de défaillance du serveur principal quelle qu'en soit la raison, serveur lui-même ou lien internet.
Avant de présenter le serveur de secours, il faut décrire le serveur principal.
Celui-ci contient plusieurs fonctions, serveur web, courriel, pabx… gérés dans autant de “containers” lxd.
lxd est un système de machines virtuelles - plus exactement de containers - qui permet de créer des serveurs spécialisés isolés les uns des autres. Par exemple, on veut mettre à jour un serveur www : on sauve l'ancien serveur par une simple commande, et on commence la mise à jour. Pendant ce temps, le serveur mail continue à tourner. Et en cas de catastrophe une simple commande de quelques secondes permet de revenir à l'ancien serveur www et de réfléchir. Et le serveur mail n'a pas arrêté de fonctionner…
lxd est magique.
On a donc des containers lxd dans un hôte, le serveur principal. Chaque container (www, mail, sip,…) a donc une fonction précise, une zone de paramètres, et une zone de données. Caque zone de paramètres est rangée dans l'hôte dans : /var/sauve/etc et chaque zone de données dans l'hôte dans /srv/. Le lien est fait par lxd, qui par exemple dans la machine www va “mapper” la zone /srv/www de l'hôte sur le répertoire www : /var/www du container www. Des liens judicieux complètent le dispositif de sorte que tous les paramètres importants de tous les containers soient concentrés dans l'hôte en /var/sauve/etc.
Le plus économique, mais aussi le plus discret et silencieux - par exemple dans un domicile privé près d'une box - , est basé sur un raspberry pi 4 tel que celui proposé par freva, ici dans une version sans ventilateur mais avec 8G de RAM et un SSD de 1T et avec la version lite de Raspberry Pi OS, que freva fournit tout installé.
L'architecture logiciel du serveur de secours est identique à celle du serveur principal. Il assure seulement la fonction de serveur DHCPD, et lxd. Il n'assure pas le routage, faite par la “box”, mais il le pourrait…
Pour ce type d'usage, sans utilisateur humain, avec seulement des connexions ssh en vue d'opérations de maintenance, on va travailler toujours en root, avec certificats (avec comme filet un mot de passe à rallonge pour l'utilisateur pi). Toute la suite est donc sous root.
D'autre part, on a décidé de ne pas utiliser DHCPCD, standard sur Raspberry OS, mais le bon vieux networking service.
systemctl stop dhcpcd systemctl disable dhcpcd apt remove dhcpcd5
Et on paramètre une adresse fixe sur le réseau local.
auto lo iface lo inet loopback auto eth0 iface eth0 inet static address 192.168.163.251 netmask 255.255.255.0 gateway 192.168.163.254 network 192.168.163.0 broadcast 192.168.163.255 dns-nameservers 192.168.163.30 8.8.8.8 dns-search couderc.eu
Après :
ifup eth0
(Il peut apparaître un “too few arguments” inexpliqué, mais semble-t-il sans conséquence).
La nouvelle ainsi que l'ancienne adresse IP doivent répondre au ping…
On va utiliser le système de fichier btrfs qui se coordonne très bien avec lxd. Ce n'est pas trivial sur Raspberry OS…On utilise la procédure décrite par " Piskvor left the building".
On va charger le module btrfs dans la partition boot du disque dans un initramfs :
apt install btrfs-progs initramfs-tools echo 'btrfs' | sudo tee -a /etc/initramfs-tools/modules mkdir -p /etc/initramfs-tools/hooks mkdir -p /etc/initramfs-tools/scripts/local-premount cp /usr/share/initramfs-tools/hooks/btrfs /etc/initramfs-tools/hooks cp /usr/share/initramfs-tools/scripts/local-premount/btrfs /etc/initramfs-tools/scripts/local-premount chmod +x /etc/initramfs-tools/hooks/btrfs /etc/initramfs-tools/scripts/local-premount/btrfs uname -r
Le dernier uname -r affiche la révision courante du noyau, par exmple “5.10.52-v7l+”, c'est ce numéro qu'il faut reporter ci-dessous.
On crée l'initramfs pour le noyau en cours :
update-initramfs -c -k $(uname -r)
On va informer le système en ajoutant à la fin de /boot/config.txt :
initramfs initrd.img-5.10.60-v7l+ followkernel
Le système tel quel ne fonctionnera que jusqu'au prochain changement de kernel. Il faut automatiser la mise à jour avec les scripts et opérations suivants :
A ce point là on peut rebooter avant d'aller plus loin, pour vérifier qu'on n'a rien cassé…
On va maintenant migrer la partition de root en btrfs. On fait cela sur un PC linux, en connectant le SSD sur une prise USB. On repère la partition par lsblk : c'est la grande, pas le boot… Chez moi, c'est /dev/sda2. Puis toujours sous root, on va sauver la partition, la formater en btrfs et la restaurer :
mount /dev/sda2 /media/usb cd /media/usb tar -czvf ~/rpi-rootfs-backup.tgz * cd ~ umount /media/usb mkfs.btrfs /dev/sda2 partprobe mount /dev/sda2 /media/usb cd /media/usb tar -xzvf ~/rpi-rootfs-backup.tgz vim etc/fstab
On recherche la partition en ext4 et on remplace ce type par “btrfs” avec les paramètres suivants le mot “bttrfs” comme ci-dessous comme parametre :
PARTUUID=abcdef01234-02 / btrfs defaults 0 1
On peut maintenant démonter la partition, et monter la partition boot (/dev/sda1?).
On va avoir besoin de l'UUID de la partition, on le trouve avec un blkid. Note : un UUID, pas un PARTUUID ou un UUID_SUB… Cela ressemble à UUID=“cafebeef-0000-1234-aaaa-12346589”. On va mettre à jour dans la partition boot à la racine le fichier cmdline.txt et on remplace les deux parametres :
root=PARTUUID=1234-5678 rootfstype=ext4
avec :
root=UUID=cafebeef-0000-1234-aaaa-12346589 rootfstype=btrfs
On démonte, on remonte le cable USB du SSD sur le Raspberry pi.
Et on boote !
N'est-il pas vrai que ce n'est pas trivial…
Le serveur de secours est prêt. On le met à jour (apt update upgrade…) et on fait une première sauvegarde (voir plus loin). Il faut maintenant l'éteindre après lui mis la même adresse IP que le serveur principal - en remplaçant le 251 ci-dessus par la bonne valeur -, afin d'avoir la même structure de réseau sur le site de secours que sur le site principal. Puis on le transporte sur le site distant où on programme le routeur pour utiliser les mêmes adresses IPs locales que le site principal (192.168.163.XXX).
Une fois le serveur à destination, on peut y accéder de n’importe où par ssh. Et en particulier de son pc préféré.
On va copier les données sur le serveur de secours avec un script basé sur rsync (dans le serveur principal !):
#!/bin/sh while true; do echo Start saving rsync $1 -az --del -e 'ssh -p 1433' /var/sauve/* sauve.couderc.eu:/var/sauve rsync $1 -az --del -e 'ssh -p 1433' /srv/mail/* sauve.couderc.eu:/srv/mail rsync $1 -az --del -e 'ssh -p 1433' /srv/git/* sauve.couderc.eu:/srv/git rsync $1 -az --del -e 'ssh -p 1433' /srv/gabc/* sauve.couderc.eu:/srv/gabc rsync $1 -az --del -e 'ssh -p 1433' /srv/www/* sauve.couderc.eu:/srv/www rsync $1 -az --del -e 'ssh -p 1433' /srv/photos/* sauve.couderc.eu:/srv/photos ... echo End Saving sleep 5m done
Ce script relance la synchronisation toutes les 5 minutes, et est exécuté comme un service dans /etc/systemd/system/savsynchro.service
[Unit] Description= Sauvegarde toutesles 5 mn sur sos.couderc.eu After=network-online.target [Service] Type=simple ExecStart=/usr/local/bin/savrsync.sh Restart=on-failure CPUSchedulingPolicy=idle [Install] WantedBy=multi-user.target
Note : le port 1433 est utilisé pour différencier le trafic de sauvegarde à très basse priorité sur ce port, du trafic ssh normal, il est routé sur le port 22 à l'arrivée. Un système de contrôle de QoS est indispensable pour que ce script ne sature pas le débit montant de la ligne internet. Sinon,il faut le lancer à des heures tranquilles…
Si la sauvegarde a été décrite ici dans un ordre logique, on peut - euh, on doit absolument - cependant faire une première sauvegarde en local pendant la phase de préparation avant de déplacer le serveur de secours sur site…
Le serveur de secours est en place, a des données mais aucun programme. On procède aux installations, du serveur DHCP:
apt update apt upgrade apt install isc-dhcp-server
Les paramètres du serveur DHCP sont dans /var/sauve/etc/dhcp. En plus des adresses variables, le serveur DHCP est chargé d'attribuer les mêmes adresses fixes à certains systèmes et en particulier aux containers lxd.
On ne va pas ici gérer de serveur DHCP en IPV6 et donc on commente la ligne INTERFACEV6=“” dans /etc/default/isc-dhcp-server. On remplace les paramètres par défaut du serveur DHCP par ceux de /var/sauve/etc/dhcp au moyen d'un lien.
Il nécessite snap (je HAIS snap, mais il n'y a pas d'alternative sous debian) et ses fantaisies :
apt install snapd snap install core snap refresh snap install lxd reboot lxd init
Note : en cas d'erreurs avec “libarmmem”, arreter lxd (ctrl-c), commenter d'un # la ligne correspondante dans /etc/ld.so.preload et relancer lxd init.
Garder les valeurs par défaut de lxd init sauf :
Would you like to create a new local network bridge? (yes/no) [default=yes]: no Would you like to configure LXD to use an existing bridge or host interface? (yes/no) [default=no]: yes Name of the existing bridge or host interface: eth0
On va utiliser un “bridge” externe pour pouvoir accéder de l'extérieur aux différents serveurs de l'extérieur, la suite de cette procédure de préparation de lxd est décrite ici .
Une fois lxd installé, chacun des “mini-serveurs” (containers lxd) doit être paramétré pour être prêt à prendre le relais…
En cas de panne, on ne sera pas prêt…
Si c'est possible, fermer les services au mieux, et essayer de mettre au propre la dernière sauvegarde par la procédure ci-dessus au besoin avec un lien de fortune (smartphone…).
Puis lancer les containers sur le serveur de secours.
Des répétitions s'imposent : par exmple, on éteint le routeur principal et on mesure en combien de temps les serveurs de secours sont en fonction…