Logo LVSN
EnglishAccueil
A proposPersonnesRecherchePublicationsEvenementsProfil
A propos
Publications

 

 

 

 

CERVIM

REPARTI

MIVIM

Une approche probabiliste pour la reconnaissance des sommaires


Souad Bensafi, Hubert Emptoz, Franck Lebourgeois and Marc Parizeau


Abstract - L’analyse et la reconnaissance des documents écrits consistent à traduire leurs images numérisées sous une forme électronique réutilisable. L’analyse permet d’extraire à partir de l’image d’un document une structure dite physique, tandis que la reconnaissance associe aux composants de la structure physique leurs fonctions logiques dans le document. Le travail présenté dans cet article porte sur la phase de reconnaissance de documents dont la structuration logique est caractérisée par des marquages typographiques tels que les sommaires ou les tables des matières. Nous proposons une approche perceptuelle qui se base sur l’extraction de ces marquages typographiques directement à partir des images des documents. Ces documents présentent cependant une structuration variable et complexe. La complexité pose des difficultés au niveau de la phase d’analyse et peut conduire à des erreurs dans les données présentées à la phase de reconnaissance. Quant à la variabilité, elle impose d’entreprendre une modélisation générique de la structure logique et du processus de reconnaissance associé. Notre objectif est d’aborder ce problème de reconnaissance en présence de ces difficultés. Nous avons développé un système de reconnaissance automatique basé sur un modèle hybride combinant un classifieur bayésien et un automate probabiliste. Le rôle du classifieur est la correspondance entre les blocs de texte extraits dans les images des documents et les entités logiques à un niveau de structuration de base, alors que l’automate permet de regrouper ces entités logiques sur plusieurs niveaux hiérarchiques reconstruisant ainsi toute la structure logique. Ce modèle hybride est construit par apprentissage semi-supervisé, en s’appuyant d’une part sur la connaissance fournie de manièreinteractive par l’utilisateur, et d’autre part sur les propriétés typographiques des documents considérés. Nous avons expérimenté le système proposé pour l’indexation de sommaires de revues. La complexité et la variabilité de la structuration de ces documents nous ont permis de montrer l’efficacité de l’approche développée.

download document

Bibtex:

@article{Bensafi611,
    author    = { Souad Bensafi and Hubert Emptoz and Franck Lebourgeois and Marc Parizeau },
    title     = { Une approche probabiliste pour la reconnaissance des sommaires },
    volume    = { 22 },
    number    = { 3 },
    year      = { 2005 },
    journal   = { Traitement du Signal },
    keywords  = { Analyse de documents, reconnaissance de documents, structure physique, structure logique, classifieur bayésien, automate probabiliste, typographie, apprentissage supervisé. }
}

Dernière modification: 2006/01/24 par parizeau

     
   
   

©2002-. Laboratoire de Vision et Systèmes Numériques. Tous droits réservés