Entraîner des réseaux de neurones artificiels pour traiter les images du point de vue d'un enfant
Des études en psychologie ont démontré qu’à l’âge de 4 ou 5 ans, les jeunes enfants ont développé des modèles visuels complexes du monde qui les entoure. Ces modèles visuels internes leur permettent de surpasser les techniques avancées de vision par ordinateur sur diverses tâches de reconnaissance d'objets.
Des chercheurs de l'Université de New York ont récemment entrepris d'explorer la possibilité de former des réseaux de neurones artificiels sur ces modèles sans biais inductifs spécifiques à un domaine. Leur article, publié dans Intelligence des machines naturellesaborde finalement l’une des questions philosophiques les plus anciennes, à savoir le dilemme « nature contre culture ».
Le dilemme entre nature et culture soulève la question de savoir si les humains possèdent des préjugés inductifs innés qui influencent la façon dont ils perçoivent les objets, les personnes et le monde qui les entoure en général, ou s'ils sont initialement une « ardoise vierge », développant des préjugés à la suite de leurs expériences. Certains des préjugés innés présumés sont liés à la capacité de catégoriser et d’étiqueter les objets.
L’équipe de l’Université de New York a entrepris d’étudier ce dilemme d’un point de vue moderne. Pour ce faire, ils ont formé des réseaux neuronaux profonds autosupervisés de pointe sur un vaste ensemble de données contenant des vidéos prises du point de vue de jeunes enfants à l'aide de headcams (caméras fixées à un chapeau ou un casque).
« Les jeunes enfants développent des modèles internes sophistiqués du monde basés sur leur expérience visuelle », ont écrit A. Emin Orhan et Brenden M. Lake dans leur article. » De tels modèles peuvent-ils être appris à partir de l'expérience visuelle d'un enfant sans de forts biais inductifs ? Pour étudier cela, nous formons des réseaux neuronaux de pointe sur un proxy réaliste de l'expérience visuelle d'un enfant sans aucune supervision explicite ni biais inductifs spécifiques à un domaine. « .
Orhan et Lake ont formé deux types de techniques d'apprentissage profond, à savoir les modèles intégrés et génératifs, sur environ 200 heures de séquences vidéo de caméra frontale collectées auprès d'un seul enfant sur une période de deux ans. Après avoir pré-entraîné plus de 70 de ces modèles, ils ont testé leurs performances sur une série de tâches de vision par ordinateur et de reconnaissance d'objets, en les comparant avec d'autres modèles de vision par ordinateur de pointe.
« En moyenne, les meilleurs modèles d'intégration fonctionnent à un respectable 70 % de celui d'un modèle hautes performances formé par ImageNet, malgré des différences substantielles dans les données de formation », ont écrit Orhan et Lake. « Ils apprennent également de larges catégories sémantiques et des capacités de localisation d'objets sans supervision explicite, mais ils sont moins centrés sur les objets que les modèles formés sur l'ensemble d'ImageNet.
« Les modèles génératifs formés avec les mêmes données extrapolent avec succès des propriétés simples d'objets partiellement masqués, comme leur contour approximatif, leur texture, leur couleur ou leur orientation, mais ont du mal à obtenir des détails plus fins. »
Pour valider leurs résultats, les chercheurs ont mené d'autres expériences impliquant deux autres jeunes enfants. Leurs résultats concordaient avec ceux recueillis lors de leur première expérience, suggérant que des représentations visuelles de niveau supérieur peuvent être apprises à partir des expériences visuelles uniques d'un enfant sans intégrer de forts préjugés inductifs.
Les découvertes de ces travaux récents d’Orhan et Lake pourraient servir d’inspiration aux psychologues et aux neuroscientifiques, éclairant d’autres études explorant le dilemme entre nature et culture à l’aide d’outils informatiques. Dans l’ensemble, l’équipe suggère que les biais de catégorisation des objets dépendent des caractéristiques uniques du système visuel humain, qui aboutissent à des images différentes de celles généralement utilisées pour former des modèles d’apprentissage profond.
« Nous espérons que nos travaux inspireront de nouvelles collaborations entre l'apprentissage automatique et la psychologie du développement, car l'impact de l'apprentissage profond moderne sur la psychologie du développement a été relativement limité jusqu'à présent », concluent Orhan et Lake dans leur article.
« Les avancées algorithmiques futures, combinées à des ensembles de données de développement plus riches et plus vastes, peuvent être évaluées selon la même approche, enrichissant ainsi notre compréhension de ce qui peut être appris de l'expérience d'un enfant avec un minimum de biais inductifs. »