Sacco system Cefriel

Sacco System avec Cefriel pour l’optimisation du processus de production

Céfriel, centre d’innovation numérique fondé par l’École Polytechnique de Milan, lancé avec Système Sacco – pôle biotechnologique d’excellence international dans les industries agroalimentaire, nutraceutique et pharmaceutique – un projet d’optimisation du processus de production de probiotiques axé sur l’analyse des données et les algorithmes d’apprentissage automatique.

L’objet du partenariat entre Cefriel et Sacco System

La collaboration entre Sacco System et Cefriel est née du besoin de l’entreprise de production de probiotiques de comprendre comment accroître la prise de conscience de l’efficacité de son processus de production afin de rendre prévisible sa qualité et son rendement final. Dans la première phase du projet, une analyse de faisabilité et d’impact a été réalisée au cours de laquelle la possibilité de comprendre la variabilité de la qualité finale du produit a été étudiée à travers les données disponibles (environ 24 millions de lignes de données) et l’impact du paramètres et variables de qualité. Dans cette phase, un modèle préliminaire a également été créé, capable d’estimer la qualité du processus sur la base des données collectées. Après cette première phase, la prochaine étape serait l’affinement de ce modèle et l’identification de la meilleure configuration des paramètres et variables du processus de production pour augmenter sa qualité.

Le parcours d’optimisation de la production a commencé par une activité initiale de collecte et d’analyse d’informations sur le processus de production en cours et par une rationalisation des besoins commerciaux et des questions auxquelles il faut répondre.

Image : Sacco

Le projet

Dans le cadre du projet, les données historiques de 400 lots de production relatifs à 2 produits, collectés sur 7 ans, ont été analysées. Initialement, des centaines de paramètres et variables faisant partie du processus de production ont été pris en compte. Compte tenu de la grande quantité de données disponibles, il était nécessaire de combiner l’expertise du domaine de Cefriel avec la connaissance du domaine de Sacco System. Cela nous a permis d’éliminer les paramètres et variables les moins significatifs et de mettre en œuvre une phase d’ingénierie de fonctionnalités visant à créer de nouveaux paramètres et variables plus synthétiques et pertinents au sein du processus. Au cours de cette phase, le contenu sémantique des paramètres et variables a également été analysé et la nomenclature utilisée a été standardisée si nécessaire.

Après la phase d’ingénierie des fonctionnalités et la préparation de l’ensemble des données globales à analyser, trois types de modèles statistiques et d’apprentissage automatique ont été conçus et testés, visant à identifier les dépendances entre les variables du processus de production et son rendement final :

  • Régression linéaireun modèle statistique classique qui permet de trouver une relation linéaire entre une ou plusieurs propriétés (les paramètres et variables du processus de production) et une variable cible (le rendement final).
  • Sac aléatoire de forêt et d’arbre il s’agit plutôt d’algorithmes d’apprentissage automatique supervisés qui combinent les résultats de plusieurs arbres de décision pour arriver à un résultat unique. Alors qu’un arbre de décision crée des règles qu’il utilise ensuite pour prendre des décisions, ces algorithmes construisent un ensemble d’arbres de décision et font ensuite la moyenne des résultats. Parce qu’ils s’appuient sur un grand nombre d’arbres non corrélés, Random Forest et Tree Bag ont tendance à créer des prédictions plus précises qu’un seul arbre de décision.

La différence entre les deux est que Tree Bag entraîne chaque arbre en utilisant des sous-ensembles d’observations différentes, tandis que Random Forest les entraîne également en utilisant des sous-ensembles de caractéristiques différentes.

Image de Sacco

L’analyse des données

Grâce à l’analyse des données, il a été possible d’expliquer jusqu’à 50 % de la variabilité du processus de production. Puisqu’aucun des modèles ne s’est avéré significativement plus précis que les autres, pour identifier et hiérarchiser les principaux paramètres et variables expliquant la variabilité du rendement, les résultats des trois modèles ont été pris en compte par un processus de classement.

Le mécanisme de classement tenait compte à la fois de l’ordre d’importance accordé aux paramètres et variables par un certain modèle et du fait d’avoir été sélectionné parmi plusieurs modèles. Ainsi, les 28 variables qui créent le plus de variabilité dans le rendement final ont été identifiées.

Enfin, pour identifier le type d’impact de ces variables sur le rendement final, leur comportement dans les meilleurs et les pires lots de production a été analysé. Ce faisant, il a été possible d’identifier 15 variables présentant des comportements nettement différents (en termes de valeurs et/ou de tendances) entre les meilleurs et les pires lots.

Ces informations ont permis de définir des actions d’amélioration de la qualité des processus grâce à la modération de ces variables spécifiques.

Cefriel et Sacco System, un projet pour prédire la qualité du processus de production

« Le projet avec Cefriel – il prétend Simone Passolunghidirecteur des opérations corporatives de Sacco System – cela nous a permis de comprendre l’importance de la phase de collecte des données et combien elle doit être adaptée et homogène pour pouvoir l’organiser et l’étudier afin de garantir une amélioration continue du processus et surtout une augmentation constante du rendement de nos produits. Le chemin entamé avec Cefriel permet de mettre en place un modèle, de le valider, de l’utiliser et surtout de vérifier son efficacité en mode prédictif. Nous ne sommes qu’au début d’un voyage beaucoup plus vaste et plus long dans le temps, mais le premier objectif que nous avons atteint est la prise de conscience de l’importance des données. L’activité réalisée jusqu’à présent nous a permis de voir la réalité de l’entreprise avec des « lentilles nouvelles et différentes », pour un processus plus structuré et surtout axé sur les données à l’avenir.».

Cefriel a proposé à Sacco System la création d’outils numériques pour prédire la qualité du processus de production à travers une réduction dimensionnelle de certaines variables afin de construire un modèle capable de suggérer des actions d’amélioration pour optimiser la qualité. Cette première évaluation a déjà conduit à d’importants bénéfices mesurables, en identifiant les 7% de variables et de paramètres qui ont un plus grand impact sur la qualité et le rendement final. Compte tenu de son impact, le projet a été considéré comme le début d’un parcours d’entreprise qui a permis l’évaluation de modèles basé sur les données et qui pour cette raison a été utilisé en interne dans le cadre d’une formation interne visant à accroître la culture de la donnée.

« Nous sommes heureux de soutenir Sacco System sur la voie de devenir une entreprise axée sur les données. Chez Cefriel, nous savons que pour améliorer et optimiser la production, nous avons besoin de processus décisionnels rapides et efficaces qui exploitent au maximum les données disponibles. Les modèles analytiques et l’apprentissage automatique peuvent non seulement conduire à des modèles prédictifs, mais également permettre à l’entreprise de prendre des décisions éclairées et meilleures. » déclare Alphonse FuggettaPDG et directeur scientifique du Cefriel.