Voir aussi la page "Dans les labos !"
Un moteur de description de contenu
Pour la vision humaine, images et vidéos ont une signification immédiate et universelle, indépendamment des différences culturelles ou linguistiques. Pour la machine, à l'inverse, une image n'est ni plus ni moins qu'une matrice de nombre.
Donner un sens au contenu visuel était jusque là la chasse gardée du cerveau humain. Aujourd'hui, LTU Technologies a développé un système temps-réel qui permet à la machine de voir, comprendre et expliciter le contenu visuel. Notre technologie, résultat de nombreuses années de recherche réalisées par les fondateurs à l'INRIA (Institut National de Recherche en Informatique et Automatique), l'université d'Oxford, et le MIT Media Lab, est désormais la propriété exclusive de LTU. Ses applications sont protégées par brevets. Le coeur du système est un analyseur à forte sensibilité capable d'indexer, de reconnaître et de comparer des images à partir de leurs composantes visuelles. Qu'il s'agisse d'une photographie, d'un dessin, d'une illustration ou de tout autre document visuel numérisé, le système produit en temps-réel la description automatique de son contenu.

Images dupliquées, clones et similaires
La technologie LTU permet de distinguer les images dupliquées (copies binaires, strictement identiques au sens des hashes MD5 ou SHA-1), les images clones (visuellement très proches, modulo des transformations géo ou photométriques) et les images similaires (niveau le plus sémantique).

Les signatures ADN de LTU sont robustes à un grand nombre de transformations (plus de 200 ont été testées).

Classification, clustering, catégorisation, annotation automatique

De l'analyse des pixels à l'extraction de l'ADN de l'image...
La segmentation de l'image constitue la première étape du processus d'analyse d'images : la technologie LTU permet de découper l'image en fonction des différents objets qui la composent (Fig. 2) selon une approche non-paramétrique et multi-échelle.
La deuxième étape est l'indexation : pour chaque image préalablement segmentée, le système extrait un identifiant unique, également appelé signature numérique ou ADN de contenu. Cette ADN est une représentation optimisée des attributs visuels de l'image, tel que la forme, la couleur, la texture, la configuration spatiale, etc. Elle possède des propriétés d'invariance à la qualité, la taille de l'image, la luminosité, les contrastes, la distorsion, la rotation et la translation d'objets ainsi qu'au changement d'échelle.
En conséquence, l'image est codée sous la forme d'un vecteur de valeurs compacte qui code efficacement toutes les informations relatives au contenu de l'image. Dans la représentation duale, l'image peut être vue comme un point dans un espace des caractéristiques de grande dimension, convenablement choisi. Afin d'améliorer la discriminance du processus de description qui va suivre, l'espace des caractéristiques a été intensivement testé et optimisé.
La décomposition d'une image complexe en différentes régions visuellement pertinentes (segmentation de l'image) constitue un pré requis à l'indexation de contenu.
...de l'analyse de l'ADN à la description sémantique
Au cours du processus de description, le contenu de l'ADN est analysé par différents modules experts afin d'être reconnu relativement à la base de connaissance. (Fig. 3). Cette base de connaissance est ou bien une base interne (permettant une description absolue du contenu), ou bien une base externe (permettant une description relative du contenu).
Les modules experts utilisent des algorithmes sophistiqués de reconnaissance de formes, tels que des réseaux de neurones, des fonctions à base radiale, des estimations Baysiennes, et des « Support Vector Machines ». Le processus de reconnaissance a été développé pour reproduire de manière statistique le comportement humain, sur la base de nombreux tests psychosensoriels menés par LTU.
La puissance du moteur d'analyse LTU vient également de ses facultés d'apprentissage. Le système est capable d'apprendre des catégories d'objets, d'intégrer des variations d'apparence et d'enrichir ainsi sa base de connaissances. La technologie LTU est également capable d'apprendre en ligne les interactions de l'utilisateur. Enfin, le système a été conçu pour avoir des capacité de traitement temps-réel.
Déduire une description sémantique à partir de l'ADN de l'image est un problème complexe de reconnaissance des formes.
