Estado actual

Lenguajes de descripción de escenas

La respuesta a las necesidades planteadas anteriormente es la utilización de lenguajes de descripción de escenas o lenguajes intermedios, donde el usuario puede describir el escenario resaltando las características de especial relevancia para la aplicación, habitualmente formando ontologías con los conceptos extraídos del análisis del problema. Estos lenguajes son flexibles, expresivos y abstractos, permitiendo el modelado del fondo y de cada una de las entidades de interés. Usualmente se parte de características básicas (por ejemplo, píxeles), para componer regiones de interés (blobs o siluetas) y con ellas componer objetos de interés. El conjunto de los objetos, junto con el modelo del fondo y de la cámara describen la escena. Durante la ejecución del sistema se realiza un control sobre el estado de las entidades. El término “estado” suele expresar la agregación de todas las propiedades y relaciones de todas las entidades relevantes en un instante dado. Por otro lado, los eventos son disparados por cambios detectados en el estado de alguna entidad, habiendo eventos complejos que se construyen a partir de otros más sencillos. Según qué autores, unos se refieren a estados primitivos y compuestos, así como a eventos primitivos y compuestos (llamados “actividades” cuando se refieren sólo a objetos físicos) [Bremond et al., 2004], mientras que otros hablan de eventos primitivos (un evento aislado), monohilados (varios eventos secuenciales) y multihilados (varios eventos con solapamientos parciales y/o totales) [Bolles & Nevatia, 2004]. Pueden añadirse dentro del mismo lenguaje reglas de inferencia que permitan explicar con sencillez características físicas y lógicas de las entidades, evitando siempre que el operador deba indicar el modo de obtener las características requeridas. El lenguaje de descripción de escenas utiliza las herramientas de bajo nivel de forma transparente al usuario, creándose una capa de abstracción donde incluso varios agentes físicos y/o lógicos puedan soportar en conjunto la representación intermedia.
Frente a algunos trabajos que basan el seguimiento en características genéricas, como la apariencia [Zhong et al., 2000], otros grupos, tratan de utilizar todo el conocimiento disponible para reducir la ambigüedad existente [Vacchetti et al. 2004]. Así, en el proyecto europeo 'Cognitive Vision Systems' [CVS] orientan su investigación hacia la categorización, el reconocimiento, el aprendizaje, la interpretación y su integración en sistemas de visión para sistemas situados inteligentes. Nagel (2004) propone una jerarquía de niveles en la que se puedan diferenciar distintos niveles de representación y, por tanto, hacer referencia a distintos tipos de conocimiento. Algunos grupos de investigación están utilizando modelos simplificados de humanos para su seguimiento y caracterización [Wang et al., 2003]. También se han utilizado modelos basados en elipsoides para el seguimiento robusto de humanos a media distancia [Zhao & Nevatia, 2004]. El sistema W4 [Haritaoglu, 2000] utiliza histogramas verticales para distinguir humanos en grupos.

Vigilancia apoyada en realidad mixta

El éxito de un sistema de vigilancia depende generalmente de la robustez del algoritmo de seguimiento. Existen distintos problemas a la hora de realizar el seguimiento de objetos en una escena, en concreto, podemos citar los siguientes: oclusiones parciales y/o totales, cambios en la iluminación, sombras, fondo cambiante, movimiento del fondo por movimiento de la cámara, objetos que se mueven lentamente, objetos que aparecen y desaparecen de la escena, etc. En general, los métodos utilizados para el seguimiento dependen de las suposiciones realizadas para cada tarea concreta. Las suposiciones más habituales son las siguientes: el número y tipo de objetos es conocido de antemano, es posible modelar los tipos de oclusiones producidos (distintos estados) para una tarea concreta, el fondo es modelable, el modelo del fondo permite detectar ciertas oclusiones, existe continuidad en la apariencia, existe continuidad en el movimiento, existe continuidad espacial y temporal, etc. Muchos sistemas de seguimiento solamente funcionan medianamente bien en entornos muy limitados, donde el fondo de imagen es poco dinámico y los objetivos están claramente separados entre sí. Aún en estos casos es especialmente conveniente el desarrollar un subsistema de identificación de humanos.
Como alternativa válida se puede construir un modelo explícito de la escena bien mediante aprendizaje no supervisado [Collins et al., 2001] o manualmente [Xu & Ellis, 2006]. El término realidad virtual fue acuñado en 1989 [Lanier et al., 1989] como una simulación interactiva que implica a todos los sentidos, generada por un ordenador, explorable, visible y manipulable en tiempo real, dando la sensación de presencia en el entorno. Hoy en día se acepta de forma general que esta tecnología nos permite crear sustitutos aceptables de objetos o entornos reales. A diferencia de la realidad virtual, en donde el usuario se sumerge en un mundo sintético que reemplaza completamente al real, el paradigma de la realidad aumentada no persigue reemplazar sino complementar al real, permitiendo al usuario ver el mundo real con objetos virtuales superpuestos o en composición con él. El usuario, por tanto, tiene una visión de la realidad "aumentada", al percibir los objetos virtuales coexistiendo en el mismo espacio tridimensional con los reales [Azuma, 1997; Ikeuchi, 2001].

Vigilancia multisensorial distribuida

La disponibilidad de nuevos tipos de redes inalámbricas y un gran número de dispositivos sensores, con mayores capacidades computacionales, permite la implementación de sistemas de vigilancia cada vez más sofisticados [Conci et al., 2005]. Estos sistemas están formados por redes de sensores (cámaras de video, micrófonos, detectores, etc.), capaces de trabajar en modo omnidireccional o direccional (orientables en las tres dimensiones) [Boult et al., 1999], y pueden ser montados sobre plataformas móviles (artefactos monitorizados que permiten el movimiento alrededor de entornos bajo vigilancia) o fijas (anclados en puntos específicos del entorno) [Molina et al., 2003]. Una parte importante de este tipo de sistemas es su control.
Tradicionalmente, el control de un sistema de vigilancia se ha realizado bajo una configuración centralizada. Estos sensores informan a un controlador central que es el que toma las decisiones sobre qué hacer y transmite órdenes a los dispositivos remotos. Aunque el diseño de esta solución es conceptualmente sencillo, tiene varias limitaciones respecto a su robustez y escalabilidad. Estas limitaciones provienen de la rigidez jerárquica de la arquitectura centralizada. Por ejemplo, al darse fallos o intrusiones en la red de comunicaciones, algunas áreas del sistema bajo vigilancia pueden quedar sin cubrir. O bien un evento grave puede causar un gran flujo de alarmas y llevar a un colapso del sistema de control, dificultando su capacidad de decidir y reaccionar. Por ello, las razones previas llevan a considerar nuevas arquitecturas, más descentralizadas y distribuidas. En esta distribución se ha de tener en cuenta dos temas principales. Por un aparte, los distintos componentes del sistema deben tener un cierto grado de autonomía, de modo que puedan tomar decisiones localmente. De este modo se facilita la solución de varios problemas que pueden aparecer como consecuencia del aislamiento de estos componentes y reducir las comunicaciones en el sistema, lo que mejora también el rendimiento global del mismo. Por otra parte, debe tenerse en cuenta la coordinación de los componentes en estos sistemas distribuidos. Esta coordinación va a mejorar el funcionamiento del sistema, por ejemplo, en la evaluación de la relevancia de los eventos capturados por varios sensores, o en la posibilidad de seguir elementos en movimiento en el sistema vigilado, o para la colaboración de varios efectores para resolver algún problema.

Vigilancia modelada por sistemas multiagente

Una forma de implementar las necesidades de descentralización, autonomía y coordinación es por medio de la tecnología de agentes. Desde el punto de vista de esta tecnología, el sistema de vigilancia inteligente plurisensorial se consideraría un sistema multiagente (SMA) [Remagnino et al., 2004]. Los agentes son componentes software distribuidos con autonomía para tomar sus propias decisiones y con la habilidad de percibir de y actuar sobre su entorno. Esta distribución de la inteligencia como SMA va a permitir afrontar las cuestiones que aparecen al desarrollar un sistema de vigilancia inteligente plurisensorial: (a) Ancho de banda. (b) Productividad. (c) Velocidad. (d) Robustez. (e) Autonomía. (f) Escalabilidad [Bradshaw, 1997].
El uso de agentes en sistemas de vigilancia tiene algunos precedentes en la bibliografía. Por ejemplo, Monitorix [Abreu et al., 2000] es un SMA de vigilancia de tráfico basado en video donde la monitorización de los vehículos se realiza por medio de un modelo de tráfico y de algunos algoritmos de aprendizaje que ajustan los parámetros del modelo. El grupo VSAM (Video Surveillance and Monitoring) ha desarrollado un sistema de vigilancia multicámara que permite al operador humano monitorizar las actividades a partir de un conjunto de sensores de vídeo activos [Boult et al, 1999]. El sistema permite detectar personas y vehículos automáticamente y tenerlos localizados respecto de un modelo geoespacial. Recientemente, otro grupo propone una arquitectura SMA para la interpretación de las dinámicas de una escena por medio de la unión de la información capturada desde diversas cámaras. Mirando a SMAs para vigilancia multisensorial encontramos los trabajos de Molina y colaboradores [Molina et al., 2004]. Utilizan la lógica fuzzy para la evaluación de las prioridades de las tareas multisensoriales en aplicaciones de vigilancia en defensa, todo ello soportado por un SMA para la lógica de razonamiento.
Como enfoque de modelado, INGENIAS [Pavón et al., 2005], una metodología basada en agente que cubre el análisis, el diseño y la implementación, y que está soportada por herramientas, es una alternativa excelente, Esta metodología y sus herramientas relacionadas permite a los desarrolladores obtener la implementación automáticamente, dejando la mayor parte del esfuerzo a la especificación de la funcionalidad y al desarrollo del sistema de vigilancia. 2.3.6. Integración de sensores fijos con otros sobre robots móviles En aplicaciones de vigilancia, los robots móviles se utilizan para proporcionar un punto de vista dinámico y reactivo ante cada situación. Es decir, que transportan sensores y actuadores para colocarlos en la posición y orientación más favorables o necesarias en cada momento. Esto permite que el sistema AVISADOS tenga en cuenta la información de la posición y orientación actual del robot, necesaria para la integración adecuada de los sensores móviles en el esquema global de vigilancia.
En el trabajo de Collins y colaboradores [Collins et al., 2001] se aborda el problema de una red de sensores visuales activos y cooperativos para la detección y seguimiento de vehículos y humanos. El sistema opera en tiempo real como sistema de seguridad y vigilancia activa. Bhanu y Zou (2004) utilizan una red neuronal con retraso temporal (TDNN) para fusionar la información de audio y vídeo para detectar a una persona que se mueve en una escena con otras personas. Desnoyer y colaboradores [Desnoyer et al., 1990] intentan hacer una integración utilizando métodos estocásticos para realizar un modelo del medio a partir de los datos captados por un robot con múltiples tipos de sensores. Wu y colaboradores [Wu et al., 2003] proponen un sistema de vigilancia con múltiples cámaras para la detección, representación y reconocimiento en secuencias de video para tareas de vigilancia en un parking. También hay otro tipo de enfoque, mediante un tratamiento probabilístico de los datos proporcionados por configuraciones de sensores [Kumar et al., 2004].