|
Séminaires |
|
21-11-2014 Laboratoire LVSN Dép. de génie électrique et de génie informatique, Université Laval Variante de l'algorithme k-prototypes pour le traitement de données complexes extraites de bases de données administratives en santéRésumé La disponibilité de grandes bases de données composées d'objets hétérogènes souligne l'importance de regroupement à grande échelle d'entités complexes. Plusieurs algorithmes ont été développés pour les ensembles de données mixtes composées de variables numériques et catégorielles, une approche bien connue étant l'algorithme k-prototypes. Cet algorithme est efficace pour le regroupement (clustering) de grands ensembles de données compte tenu de sa complexité linéaire. Les données administratives en santé comportent des entités complexes, décrites par un ensemble de variables numériques, catégorielles et catégorielles multivaluées. Le dernier type de variable ne peut pas être traité directement par l'algorithme k-prototypes. Nous proposons une variante de l'algorithme k-prototypes qui peut gérer ces entités complexes, en utilisant une représentation de type sac-de-mots (Bag-of-Words) pour les variables catégorielles multivaluées. Nous présentons l'application de notre approche sur des données extraites de bases de données administratives médicales de la RAMQ et du MSSS. Note: Le séminaire sera présenté à 11h30 à la salle PLT-1120.
|
||||
©2002-. Laboratoire de Vision et Systèmes Numériques. Tous droits réservés |