Processus peu coûteux de surveillance du traitement de l’eau optimisé par l’apprentissage automatique

Les petites usines rurales de traitement de l’eau potable (DWT) utilisent généralement uniquement du chlore pour mettre en œuvre le processus de désinfection. Pour ces usines, le chlore libre résiduel (FCR) constitue une mesure clé de performance en matière de désinfection. Le FCR est indiqué comme la concentration de chlore libre restant dans l’eau, une fois que le chlore a oxydé les contaminants cibles.

En pratique, le FCR est déterminé par les exploitants de centrales en fonction de leur expérience. Concrètement, les opérateurs choisissent une dose de chlore pour atteindre une concentration de FCR satisfaisante, mais doivent souvent faire une estimation des besoins en chlore.

Le défi consistant à déterminer un FCR précis a conduit à l’utilisation de techniques avancées de prédiction du FCR. En particulier, les algorithmes d’apprentissage automatique (ML) se sont révélés efficaces pour atteindre cet objectif. En identifiant les corrélations entre de nombreuses variables dans des systèmes complexes, une mise en œuvre réussie du ML pourrait prédire avec précision le FCR, même à partir de données de surveillance rentables et de faible technologie.

Dans une nouvelle étude publiée dans Frontières des sciences et de l’ingénierie de l’environnement, les auteurs ont implémenté un modèle ML de boosting de gradient (GB) avec boosting catégoriel (CatBoost) pour prédire le FCR. Les algorithmes GB, dont CatBoost, accumulent des arbres de décision pour générer la fonction de prédiction.

Les données d’entrée ont été collectées dans une usine DWT en Géorgie, aux États-Unis, et comprenaient une grande variété d’enregistrements de surveillance DWT et de paramètres de processus opérationnels. Quatre itérations d’une approche de modélisation généralisée ont été développées, comprenant (1) le cas de base, (2) la moyenne mobile, (3) la consolidation des paramètres et (4) les paramètres intuitifs.

L’équipe de recherche a également appliqué la méthode d’explication SHapely Additive (SHAP) à cette étude. SHAP est un logiciel open source permettant d’interpréter des modèles ML avec de nombreux paramètres d’entrée, qui permet aux utilisateurs de comprendre visuellement comment chaque paramètre affecte la fonction de prédiction. Nous pouvons étudier l’influence de chaque paramètre sur la sortie prédite, en calculant sa valeur SHAP correspondante. Par exemple, l’analyse SHAP classe le canal Cl₂ comme paramètre le plus influent.

Parmi les quatre itérations, la quatrième et dernière itération n’a pris en compte que les relations physiques intuitives et la qualité de l’eau mesurées en aval de la filtration. Les auteurs ont résumé les performances comparatives des quatre itérations de modélisation ML. Selon eux, les principales conclusions sont les suivantes : 1) avec un nombre suffisant de paramètres d’entrée associés, les modèles ML peuvent produire des résultats de prédiction précis ; 2) Les modèles ML peuvent être pilotés par des corrélations qui peuvent ou non avoir une base physique ; 3) Les modèles ML peuvent être analogues à l’expérience de l’opérateur.

Pour l’avenir, l’équipe de recherche suggère que les études futures devraient explorer l’élargissement du domaine d’applicabilité. Par exemple, l’ensemble de données analysé était limité à une seule année complète. Par conséquent, une plus grande disponibilité des données devrait élargir le domaine d’applicabilité et améliorer la prédictivité.

Fourni par Frontiers Journals