Removing bad domains.
Globalement la procédure c'est :
rm domaines-organismes-publics.txt
python scripts/consolidate.py sources/*.txt
± les problèmes aiohttp (ça va me faire ouvrir qq issues/PR chez aiohttp je pense...) ± les serveurs qui me rate-limit
Mais en repassant deux-trois fois consolidate.py (en laissant du temps entre chaque pour me faire oublier du rate-limiting) ça finit par se stabiliser à cette liste.
On perd bien sûr le confortable diff domaines-organismes-publics.txt <(sort sources/*.txt)
, maintenant on a les "bons" domaines à la racine, et tous les domaines dans "sources/".
Comme le README.md
l'indique, à coup de comm
, on peut aisément lister les domaines à problème, mais c'est un tout autre projet.