Segmentation et description des mouvements cycliques d’objets articulés à partir de séquences vidéos via une représentation squelettique de l’objet

Maîtrise

Sébastien Quirion

Robert Bergevin (Directeur)

Problème: La reconnaissance d’activités par un système de vision numérique fait l’objet de plusieurs recherches depuis quelques années et plusieurs y ont déjà apporté des solutions intéressantes. Toutefois, dans la majorité de ces recherches, les solutions proposées fonctionnent sous l’hypothèse qu’il n’y a qu’une activité dans la séquence vidéo analysée. Par contre, dans une application réelle, que ce soit pour un système de surveillance localisé dans un aéroport ou dans un système d’assistance aux personnes âgées, les séquences vidéos analysées peuvent comporter un grand nombre d’activités exécutées les unes après les autres (ex.: marcher, courir, puis saluer). Nous nous proposons donc d’extraire automatiquement les activités d’une séquence vidéo en utilisant l’information fournie par un modèle de squelette représentant l’évolution temporelle d’un être humain ou d’un autre objet articulé. Notre méthode s’appliquera à n’importe quel format de squelette décrit en terme de joints reliés par des segments de droites. Nous pourrons donc fournir des séquences ne comportant qu’une seule activité aux algorithmes de reconnaissance d’activités, remplissant ainsi leur hypothèse de départ.

Approche: L’approche proposée est basée sur une analyse de périodicité de signaux 1D. Cela nous permet d’utiliser des théories propres au traitement de signal, un domaine largement plus exploré que celui de la segmentation temporelle de séquences vidéos. Notre approche se divise en quatre étapes. Dans un premier temps, nous devons identifier quels signaux 1D, de ceux pouvant être déduits d’une séquence de squelettes (ex. : angle entre deux joints du squelette à chaque temps, vitesse du centroïde de tous les joints, position en X d’un joint à chaque temps, etc. ), portent le plus d’information quant aux activités effectuées par le squelette. La deuxième étape consiste à élaborer un algorithme permettant une segmentation robuste d’un signal 1D en parties cycliques. Suite à cette étape, nous devons élaborer un algorithme permettant de combiner les segmentations obtenues sur tous les signaux retenus afin d’obtenir une segmentation unique pour la séquence vidéo traitée. L’étape finale consiste à fournir une description des activités isolées par notre segmentation de façon à exprimer quels signaux contribuent à chaque activité et dans quelles proportions.

Défis: Bien que cela soit très simple pour un être humain, la segmentation automatique en activités d’une séquence vidéo comporte plusieurs difficultés. Afin de pouvoir segmenter efficacement des vidéos montrant un sujet humain, notre système devra être robuste aux petites variations qu’un être humain peut introduire dans différents cycles d’une même activité. Il devra aussi tenir compte de la possibilité pour un être humain, ou un autre objet articulé de superposer plusieurs activités (tel que marcher en saluant). De plus, afin de ne pas limiter ses possibilités d’application, notre système devra tenir compte du bruit dans les signaux d’entrée. Ce bruit se traduit visuellement par un mauvais positionnement du squelette par rapport à la position du sujet dans l’image d’origine. Tout dépendant du processus d’ajustement du squelette, ce bruit peut avoir plusieurs origines. Par exemple, il peut provenir d’un processus de soustraction d’arrière-plan qui fournira une silhouette difforme ou encore d’un processus d’ajustement d’un squelette sur une silhouette, qui peut mal interpréter une silhouette et y ajuster un squelette erroné. Notre système devra donc faire preuve d’une grande robustesse face à ce bruit quasi-inévitable dans nos séquences. Finalement, un défi de taille sera d’assurer la validation des algorithmes développés.

Applications: Notre projet de recherche fournira des descripteurs robustes aux systèmes de classification et de reconnaissance d'activités. Notre contribution originale se situe au niveau de l'extraction des caractéristiques pour la reconnaissance statistique des formes appliquée à l'analyse de mouvement.

Calendrier: Janvier 2004 – Août 2005

Dernière modification: 2007/09/28 par squirion

		Accueil \| A propos \| Personnes \| Recherche \| Publications \| Événements \| Profil
		©2002-. Laboratoire de Vision et Systèmes Numériques. Tous droits réservés