L'IA peut-elle nous dire si ces appels de zoom s'écoulent en douceur? Une nouvelle étude dit oui

Depuis le début de la pandémie Covid-19, les travailleurs ont passé d’innombrables heures dans des vidéoconférences – maintenant un élément de la vie de bureau. Alors que de plus en plus de gens travaillent et en direct à distance, les plateformes de vidéoconférence telles que Zoom, MS Teams, FaceTime, Slack et Discord font également partie de la socialisation parmi la famille et les amis.

Certains échanges sont plus agréables et coulent mieux que d’autres, ce qui soulève des questions sur la façon dont le moyen des réunions en ligne pourrait être amélioré afin d’augmenter à la fois l’efficacité et la satisfaction au travail.

Une équipe de scientifiques de l’Université de New York a développé un modèle d’IA qui peut identifier les aspects du comportement humain dans les vidéoconférences, tels que la prise de virage conversationnelle et les actions faciales, et prédire, en temps réel, que les réunions soient considérées ou non ou non comme un tournant – basée sur ces comportements.

« Notre modèle d’apprentissage automatique révèle la dynamique complexe de l’interaction sociale de haut niveau en décodant les modèles subtils au sein des signaux audio et vidéo de base des vidéoconférences », explique Andrew Chang, boursier postdoctoral du département de psychologie de la NYU et l’auteur principal de l’article, qui apparaît dans la publication de la conférence de la conférence de la conférence de la conférence de la NYU et de la publication, qui apparaît dans la publication de la conférence de la conférence Conférence internationale de l’IEEE sur l’acoustique, la parole et le traitement du signal (ICASSP).

« Cette percée représente une étape importante vers l’amélioration dynamique des expériences de vidéoconférence en montrant comment éviter les déraillements conversationnels avant qu’ils ne se produisent. »

Afin de développer ce modèle d’apprentissage automatique, les chercheurs l’ont formé sur plus de 100 heures de personne d’enregistrements de zoom, le modèle prenant en tant que voix d’entrée, expressions faciales et mouvements corporels pour identifier les moments perturbateurs où les conversations sont devenues peu nulles ou incendiables. Plus précisément, les scientifiques ont formé le modèle à faire la différence entre les moments Unfluid qui ont perturbé une réunion virtuelle et des échanges plus fluides.

Notamment, le modèle a évalué les conversations avec des lacunes inhabituellement longues en tournant comme moins fluide et agréable que celles dans lesquelles les participants se sont parlé. Autrement dit, des «silences maladroits» se sont révélés plus préjudiciables que la dynamique chaotique et enthousiaste d’un débat houleux.

Pour confirmer la précision des évaluations du modèle, une équipe indépendante de plus de 300 juges humains a vu des échantillons des mêmes images de vidéoconférence, évaluant la fluidité des conversations et combien ils pensaient que les participants à la réunion appréciaient les échanges. Dans l’ensemble, les évaluateurs humains correspondaient étroitement aux évaluations du modèle d’apprentissage automatique.

« La vidéoconférence est désormais une caractéristique de premier plan dans nos vies, donc la compréhension et la lutte contre ses moments négatifs est essentiel non seulement pour favoriser une meilleure communication et une connexion interpersonnelles, mais aussi pour améliorer l’efficacité de la rencontre et la satisfaction au travail des employés », explique Dustin Freeman, érudit invité au Département de psychologie de NYU et auteur principal du journal.

« En prédisant les moments de rupture conversationnelle, ce travail peut ouvrir la voie à des systèmes de vidéoconférence pour atténuer ces pannes et lisser le flux de conversations en manipulant implicitement les retards de signal pour s’adapter ou fournir explicitement des indices aux utilisateurs, ce que nous expérimentons actuellement. »