UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA

ESCUELA TÉCNICA SUPERIOR DE INGENIERÍA INFORMÁTICA

 

Proyecto de fin de Carrera: "Detección de presencia humana en secuencias de vídeo, basada en la búsqueda de píxeles de piel"

Autor: Lazaro Collados Viñado
Director: Enrique J. Carmona Suárez
Año: Junio, 2009.

RESUMEN

El proyecto fin de carrera (PFC) que aquí se desarrolla está relacionado con una de las subtareas pertenecientes a un proyecto de investigación, denominado AVISA, desarrollado en el departamento de Inteligencia Artificial(IA) de la E.T.S. de Ingeniería informática de la UNED. Básicamente, el objetivo global de AVISA es modelar, operacionalizar e implementar un conjunto de componentes reutilizables (agentes) implicados en la tarea de video vigilancia, válidos en distintos escenarios, tanto interiores como exteriores, en los que hay personas, vehículos y otros objetos en movimiento.

 Para describir el alcance del PFC propuesto se utilizará la figura 1. En el marco de un sistema de visión, el frame de una secuencia de vídeo se utiliza como entrada a un módulo de segmentación (ya implementado, ver [Carmona et al 2008]) que produce como salida un conjunto de blobs, asociados a todos los objetos que se mueven en la escena. Seguidamente, tomando como entrada este conjunto de blobs, hay que etiquetar cada uno de ellos en una de estas dos clases: “blobhumano” y “blobhumano”. La tarea objeto de este PFC consiste precisamente en implementar el módulo asociado a esta última tarea, es decir, la detección de presencia humana en la escena. 

Figura 1: Diagrama  general  PFC

Un estudio de la bibliografia del campo, que hemos realizado en el estado del arte, revelará que existen distintas formas de abordar el problema planteado. Este PFC se centra en una técnica concreta: la detección de presencia humana a partir de la existencia o no de pixeles de piel en los blobs obtenidos tras el proceso de segmentación. Para ello se utilizará la aproximación descrita en [Jones&Rehg 2002], consistente en utilizar un mapa de probabilidades, obtenido a partir de una amplia base de datos de imágenes descargadas de Internet. Este mapa proporciona la probabilidad de que un determinado píxel, con valores RGB determinados, sea un píxel de piel.

El proceso de funcionamiento interno del detector de presencia humana (explicacion detallada) consiste en tomar cada fotograma de la secuencia como entrada y para cada píxel del fotograma obtenemos los valores de intensidad de los tres canales de color RGB (Rojo, Verde, Azul). Estos valores de color los usamos como índices para acceder al mapa de probabilidades, del que obtenemos la probabilidad de que dicho píxel sea un píxel de piel. Comparamos ese valor de probabilidad con un umbral  y si el valor de probabilidad es mayor o igual que el umbral, entonces etiquetaremos ese píxel como perteneciente a la clase piel. Finalmente, el uso de un conjunto de reglas permitirá decidir si en un fotograma concreto hay presencia humana. La decisión final de este conjunto de reglas se basa en la clasificación de piel/no piel realizada previamente sobre todos y cada uno de los pixeles pertenecientes a cada blob.

Al  estar situado el modulo de detección de presencia humana tras el modulo de segmentación (ver figura 1), el detector solo busca pixeles de piel en la parte de la imagen donde hay movimiento de objetos, reduciéndose drásticamente el número de pixeles a examinar y por tanto aumentando la velocidad de procesado de la imagen.

Puede ver un video del funcionamiento del detector de presencia humana

La pagina completa de la presentacion del proyecto esta disponible en http://www.lazaro-id.es/pagina_proyecto/index.htm