Pl@ntNet: un modèle collaboratif pour une IA plus précise dans l’identification des espèces végétales

Dans un article récemment publié dans le journal de la British Ecological Society, l’équipe Pl@ntNet, s’appuyant notamment sur le travail de thèse de Tanguy Lefort, propose une avancée significative dans l’optimisation des modèles d’intelligence artificielle pour l’identification des espèces végétales.

L’enjeu de l’annotation: un élément crucial de Pl@ntNet

Les modèles de deep learning appliqués à l’identification des plantes nécessitent de vastes ensembles de données annotées. Le système Pl@ntNet joue un rôle central en permettant aux utilisateurs du monde entier de produire, de soumettre et d’annoter des observations botaniques. Cependant, cette approche entraîne mécaniquement une hétérogénéité dans la qualité des labels, en effet l’expertise des utilisateurs n’étant pas équivalente, cela produit un décalage. L’agrégation de ces labels devient alors un enjeu central pour l’entrainement des modèles d’IA.

Les approches classiques posent deux problèmes majeurs. Soit, elles conservent toutes les observations, entraînant un bruit important dans les données ; soit elles ne gardent que les annotations ayant reçu suffisamment de votes, ce qui entraîne une perte d’informations précieuses, en particulier pour les espèces rares.

L’équipe de chercheurs propose donc à travers cette publication une méthode alternative d’agrégation des labels basée sur une estimation de la compétence des utilisateurs via un score de confiance. Ce score évalue leur capacité à identifier correctement des espèces végétales sur la base des données crowdsourcées. Contrairement aux méthodes traditionnelles, cette approche exploite les connaissances des experts botaniques sans pénaliser leur faible fréquence d’annotation et vient supprimer les observations jugées peu fiables tout en conservant celles ayant un nombre limité d’annotations de confiance.

Expérimentation grandeur nature

Les chercheurs ont appliqué cette stratégie à un large sous-ensemble de la base Pl@ntNet, dédié à la flore européenne, un jeu de données qui comprend à ce jour plus de 6 millions d’observations et environ 800 000 utilisateurs anonymisés.

Les résultats démontrent que l’évaluation des compétences des utilisateurs sur la diversité de leur expertise améliore considérablement la qualité des labels produits. En intégrant également des votes générés par IA en complément des annotations humaines, l’agrégation des labels devient plus robuste et permet de détecter des observations peu fiables, même lorsqu’elles ont reçu peu de votes.

Les conclusions de l’équipe mettent en lumière l’importance d’une synergie entre annotations humaines et filtres basés sur les données pour optimiser l’entraînement des modèles d’intelligence artificielle. Cette approche ouvre des perspectives prometteuses pour affiner encore davantage les jeux de données d’entraînement et améliorer la fiabilité des systèmes d’identification botanique.

Si l’article dans son intégralité vous intéresse, retrouvez le ici !