Localisation

Adresses

Aix-Marseille Université
Institut de Mathématiques de Marseille (I2M) - UMR 7373
Site Saint-Charles : 3 place Victor Hugo, Case 19, 13331 Marseille Cedex 3
Site Luminy : Campus de Luminy - Case 907 - 13288 Marseille Cedex 9

Soutenance de thèse

Classification non-supervisée des productions vocales chez le bébé humain entre 0 et 12 mois

Guillem Bonafos
I2M, Aix-Marseille Université

Date(s) : 11/12/2023   iCal
15h00 - 18h00

Composition du jury

M. Pierre PUDLO  Aix Marseille Université  Directeur de thèse
M. Bertrand MICHEL  École Centrale de Nantes  Rapporteur
Mme Florence LEVRERO  Université Jean Monnet  Rapporteure
Mme Marianne CLAUSEL  Université de Lorraine  Examinatrice
M. Vincent VANDEWALLE  Université Côte d’Azur  Président
M. Jean-Marc FREYERMUTH  Aix-Marseille Université  Co-directeur de thèse
M. Samuel TRONçON  Résurgences R&D  Co-encadrant de thèse
M. Arnaud REY  Aix Marseille Université  Invité
Mots-clés : Classification, Apprentissage statistique, Développement du langage, Statistique bayésienne, Analyse Topologique des Données

 

Keywords : Clustering, Machine learning, Language Development, Bayesian Statistics, Topological Data Analysis

 

Résumé :  
Aux alentours de son premier anniversaire, l’enfant humain prononce son premier mot. Cette première production n’est pourtant pas le début de son apprentissage de la langue. Celui-ci commence dès sa naissance. En effet, tout au long de sa première année, l’enfant développe des capacités motrices lui permettant de produire une gamme de vocalisations de plus en plus large, en les calibrant au langage qui l’entoure. Les moyens d’enregistrements et de stockage récents permettent de construire de nouvelles bases de données de vocalisations produites tout au long de l’année. Nous construisons dans cette thèse une telle base et présentons trois contributions pour aider à étudier la question des vocalisations infantiles pré-langagières. Nous proposons d’abord une méthodologie pour détecter et classifier automatiquement les vocalisations dans les enregistrements audios massifs. Elle permet l’apprentissage d’un réseau de neurones à partir d’un peu plus d’une heure de données étiquetées, qui fait ensuite le travail d’extraction de vocalisations d’enregistrements naturels massifs. Elle a été appliquée sur deux ensembles d’enregistrements, prouvant son adaptabilité : les enregistrements de bébé récoltés pour ce travail de thèse ainsi que des enregistrements d’un mois d’un enclos de singe, permettant de produire deux nouveaux ensembles de données, un de vocalisation de bébé et un de vocalisation de singe. Nous avons rendu ce dernier librement accessible, tout comme le code permettant de reproduire la méthodologie. Nous emmenons ensuite des preuves empiriques de l’intérêt d’incorporer une information topologique dans la représentation d’un signal vocal humain pour une tâche de classification. Nous quantifions la plus-value d’une approche topologiquement augmentée et les différences selon l’objet représentant une vocalisation identique. On montre que l’information topologique est complémentaire à une information fréquentielle et que les homologies persistantes calculées sur chaque objet sont complémentaires entre elles. Pour répondre à cette question, nous avons construit une nouvelle base d’enregistrements de 11 200 voyelles, que nous avons rendu librement accessible. Nous avons comparé les résultats sur trois tâches de classification selon que la représentation du signal est topologiquement augmentée ou non, ainsi que la meilleure façon de vectoriser l’information contenue dans un diagramme de persistance. Enfin, nous avons classifié de manière non-supervisée, par une modélisation bayésienne non-paramétrique, les vocalisations produites par un enfant durant sa première année de vie, à partir d’une représentation topologiquement augmentée du signal. On découvre huit classes de vocalisations, dont la proportion de production varie selon le développement, et avec des caractéristiques fréquentielles différentes.
 
Abstract :  
Around her first birthday, the human child utters her first word. This first utterance is not, however, the beginning of language learning. This begins at birth. Throughout the first year of life, children develop motor skills that enable them to produce an increasingly wide range of vocalizations, calibrated to the language around them. Recent recording and storage technologies have made it possible to build new databases of vocalizations produced throughout the year. In this thesis, we build such a database and present three contributions to help study the question of pre-language infant vocalizations. First, we propose a methodology for automatically detecting and classifying vocalizations in massive audio recordings. It enables a neural network to be trained from just over an hour’s worth of labeled data, which then does the job of extracting vocalizations from massive natural recordings. It has been applied to two sets of recordings, proving its adaptability: the baby recordings collected for this thesis work and one month’s recordings from a monkey pen, enabling us to produce two new data sets, one of baby vocalizations and one of monkey vocalizations. We have made the latter freely accessible, as has the code enabling the methodology to be reproduced. We then provide empirical evidence of the value of incorporating topological information into the representation of a human vocal signal for a classification task. We quantify the added value of a topologically augmented approach and the differences depending on the object representing an identical vocalization. We show that topological information is complementary to frequency information and that the persistent homologies computed on each object are complementary to each other. To answer this question, we built a new database of recordings of 11,200 vowels, which we made freely accessible. We compared results on three classification tasks depending on whether the signal representation is topologically augmented or not, as well as the best way to vectorize the information contained in a persistence diagram. Finally, we performed an unsupervised classification, using non-parametric Bayesian modeling, of the vocalizations produced by a child during its first year of life, based on a topologically augmented representation of the signal. Eight classes of vocalizations were discovered, with different proportions of production depending on development, and with different frequency characteristics.
 

Emplacement
Saint-Charles - FRUMAM (2ème étage)

Catégories

Tags :

Secured By miniOrange