Article

Attention modulation using short- and long-term knowledge.

ICVS 2008, Lecture Notes in Computer Science, Springer 5008:151-160.
0 Bookmarks
 · 
50 Views
  • Source
    [Show abstract] [Hide abstract]
    ABSTRACT: L'analyse temps réel de la masse de données générée par les mécanismes de gestion de la vision dans les applications interactives est un problème toujours ouvert, promettant des avancées importantes dans des domaines aussi variés que la robotique, l'apprentissage à distance ou les nouvelles formes d'interactions avec l'utilisateur, sans clavier ni souris. Dans le cadre général de la vision, les algorithmes d'analyse de scène doivent trouver un compromis entre d'une part la qualité des résultats recherchés et d'autre part la quantité de ressources allouable aux différents tâches. Classiquement, ce choix est effectué à la conception du système (sous la forme de paramètres et d'algorithmes prédéfinis), mais cette solution limite le champ d'application de celui-ci. Une solution plus flexible consiste à utiliser un système de vision adaptatif qui pourra modifier sa stratégie d'analyse en fonction des informations disponibles concernant son contexte d'exécution. En conséquence, ce système doit posséder un mécanisme permettant de guider rapidement et efficacement l'exploration de la scène afin d'obtenir ces informations. Chez l'homme, les mécanismes de l'évolution ont mis en place le système d'attention visuelle. Ce système sélectionne les informations importantes afin de réduire la charge cognitive et les ambiguïtés d'interprétation de la scène. Nous proposons, dans cette thèse, un système d'attention visuelle, dont nous définissons l'architecture et les principes de fonctionnement. Ce dernier devra permettre l'interaction avec un système de vision afin qu'il adapte ses traitements en fonction de l'intérêt de chacun des éléments de la scène, i.e. ce que nous appelons saillance. A la croisée des chemins entre les modèles centralisés et hiérarchiques (ex : [Koch1985], puis [Itti1998]), et les modèles distribués et compétitifs (ex : [Desimone1995], puis [Deco2004, Rolls2006]), nous proposons un modèle hiérarchique, compétitif et non centralisé. Cette approche originale permet de générer un point de focalisation attentionnel à chaque pas de temps sans utiliser de carte de saillance ni de mécanisme explicite d'inhibition de retour. Ce nouveau modèle computationnel d'attention visuelle temps réel est basé sur un système d'équations proies / prédateurs, qui est bien adapté pour l'arbitrage entre un comportement attentionnel non déterministe et des propriétés de stabilité, reproductibilité, et réactivité. L'analyse des expérimentations menées est positive : malgré le comportement non-déterministe des équations proies / prédateurs, ce système possède des propriétés intéressantes de stabilité, reproductibilité, et réactivité, tout en permettant une exploration rapide et efficace de la scène. Ces propriétés ouvrent la possibilité d'aborder différents types d'applications allant de l'évaluation de la complexité d'images et de vidéos à la détection et au suivi d'objets. Enfin, bien qu'il soit destiné à la vision par ordinateur, nous comparons notre modèle au système attentionnel humain et montrons que celui-ci présente un comportement aussi plausible (voire plus en fonction du comportement défini) que les modèles classiques existants.
    01/2010;
  • Source
    [Show abstract] [Hide abstract]
    ABSTRACT: Humans selectively process and store details about the vicinity based on their knowledge about the scene, the world and their current task. In doing so, only those pieces of information are extracted from the visual scene that is required for solving a given task. In this paper, we present a flexible system architecture along with a control mechanism that allows for a task-dependent representation of a visual scene. Contrary to existing approaches, our system is able to acquire information selectively according to the demands of the given task and based on the system's knowledge. The proposed control mechanism decides which properties need to be extracted and how the independent processing modules should be combined, based on the knowledge stored in the system's long-term memory. Additionally, it ensures that algorithmic dependencies between processing modules are resolved automatically, utilizing procedural knowledge which is also stored in the long-term memory. By evaluating a proof-of-concept implementation on a real-world table scene, we show that, while solving the given task, the amount of data processed and stored by the system is considerably lower compared to processing regimes used in state-of-the-art systems. Furthermore, our system only acquires and stores the minimal set of information that is relevant for solving the given task.
    Cognitive Computation 03/2011; 3(1):124-145. · 0.87 Impact Factor
  • Source
    [Show abstract] [Hide abstract]
    ABSTRACT: A cognitive visual system is generally intended to work robustly under varying environmental conditions, adapt to a broad range of unforeseen changes, and even exhibit prospective behavior like systematically anticipating possible visual events. These properties are unquestionably out of reach of currently available solutions. To analyze the reasons underlying this failure, in this paper we develop the idea of a vision system that flexibly controls the order and the accessibility of visual processes during operation. Vision is hereby understood as the dynamic process of selective adaptation of visual parameters and modules as a function of underlying goals or intentions. This perspective requires a specific architectural organization, since vision is then a continuous balance between the sensory stimulation and internally generated information. Furthermore, the consideration of intrinsic resource limitations and their organization by means of an appropriate control substrate become a centerpiece for the creation of truly cognitive vision systems. We outline the main concepts that are required for the development of such systems, and discuss modern approaches to a few selected vision subproblems like image segmentation, item tracking and visual object classification from the perspective of their integration and recruitment into a cognitive vision system.
    01/1970: pages 215-247;

Sven Rebhan