iCaveats
Integración de componentes y arquitecturas para la visión
embebida en aplicaciones de transporte y seguridad

Objetivo general:

Concebir, implementar y demostrar un conjunto de operaciones de sensado y procesamiento cercano al sensor que permitan la aceleración de tareas de visión de bajo y medio nivel, con el fin de poder construir un sistema de visión integrado orientado a aplicaciones que, como en el transporte inteligente y la seguridad, requieren de sistemas autónomos, compactos, de alto rendimiento pero de bajo consumo de potencia. Estas tareas aceleradas por hardware van a poder ser utilizadas por parte de los programadores de aplicaciones de manera transparente, es decir, sin que sean expertos en hardware, ya que van a estar definidas conforme a estándares industriales para la visión por computador.

En cuanto a las aplicaciones, nuestro esfuerzo va a estar encaminado al desarrollo de sistemas de visión optimizados para plataformas móviles no tripuladas y nudos de una red de sensores de visión para vigilancia adaptativa y coordinada. Este diagrama conceptual correspondería al sistema de visión integrado:

 




 

 

Objetivos específicos:

  1. La implementación de manera concurrente de sensores con procesamiento de bajo nivel de la imagen totalmente paralelo con el fin de generar una representación simplificada de la escena. Nos fijamos como objetivo de eficiencia a realización de estas tareas con un consumo máximo de 150mW.
  2. La minimización del hardware per pixel con el fin de no comprometer la resolución espacial del sensor de imagen. Nos planteamos como objetivo una resolución espacial mínima de 640x480 píxeles (VGA).
  3. La incorporación de nuevas modalidades de operación de las estructuras de sensado de la luz compatibles CMOS que permitan extraer información tridimensional de la escena. El objetivo va a ser integrar la captura de información 2D y 3D en un mismo chip, cosa que hasta la fecha sólo se ha logrado de manera testimonial.
  4. El diseño de un convertidor de tiempo a digital (TDC) capaz de detectar intervalos temporales con una precisión por debajo de los 100ps. Este componente es básico para la lectura de diferencias en tiempo de vuelo equivalentes a distancias por debajo de los 3cm. En aplicaciones de vigilancia o de ayuda a la navegación en plataformas móviles no tripuladas, va a ser necesario un mapa de profundidades con una resolución en el eje z de ese orden.
  5. La generación on-chip de representaciones alternativas de la escena basadas en la extracción de características, y mediante la explotación de la relativa levedad de la descripción de la escena en ciertas bases de referencia. Nos planteamos mantener un frame rate de 30fps al tiempo que logramos reducir el consumo de potencia apoyados en estas técnicas.
  6. El diseño de algoritmos de visión distribuida basados en el intercambio de información de alto nivel de la imagen, bien sea para la visión colaborativa en aplicaciones de seguimiento a través del área vigilada o bien para la visión cooperativa en aplicaciones de detección de eventos, gestos o actitudes dentro del área observada mediante la combinación de información de diferentes puntos de vista.
  7. El desarrollo de un demostrador de aplicación orientado a la vigilancia en entornos naturales en asuntos como la detección temprana de incendios, la monitorización de perímetros y el seguimiento de actividad en áreas controladas de manera autónoma.
  8. Hacer un estudio a nivel de dispositivo de las estructuras fotosensoras más adecuadas para trabajar tanto en modo imagen como en modo recolección de energía fotoeléctrica.
  9. Diseñar un chip en tecnología CMOS estándar de 0.18µm reconfigurable en modo recolección de energía fotoeléctrica y captación de imágenes con bajo consumo de potencia. El chip deberá generar decenas de µW/mm2 en iluminación exterior (~30klux), energía suficiente para alimentar el modo captación de imagen.
  10. Aplicar técnicas de escalado dinámico de tensión (DVS) a la circuitería digital que implementa los operadores de medio nivel para bajar consumo de potencia. Dada nuestra relativa inexperiencia en este tema, y dada la fuerte dependencia con la circuitería a implementar, no cuantificamos la ganancia en consumo de potencia. Sí cuantificamos, sin embargo, la métrica de los convertidores DC/DC, tratando de alcanzar el nivel del estado del arte con capacidades MIM, cuantificado en una eficiencia de al menos 80% con 1mW/mm2 y tres niveles de tensión a seleccionar.
  11. Implementar algoritmos de visión por computador basados en detectores de características para realizar seguimiento de objetos móviles (tracking) en la plataforma Parallela con el chip Epiphany para evaluar diferentes arquitecturas. Aunque el objetivo es evaluar arquitecturas, nos proponemos alcanzar los 30fps para imágenes de tamaño VGA.
  12. Evaluar el impacto de los errores derivados de una implementación física de un circuito integrado en los algoritmos arriba señalados.
  13. Implementar un camino de datos con operadores de bajo nivel y medio nivel por medio de detectores FAST, descriptores BRIEF y operadores de correspondencias (matching). La implementación se hará tanto a nivel de lenguaje de descripción hardware (VHDL), como a nivel de transistor en tecnología CMOS estándar de 0.18µm, contribuyendo al diseño final del Chip III. En términos numéricos el objetivo es llegar a 30fps para resolución VGA sobre FPGA, y menos de 200mW en circuito integrado.
  14. Implementar la parte correspondiente a la detección de características para ejecutar V-SLAM sobre el UAV AscTec Pelican del CiTIUS, mostrando cierre de lazos en interiores al menos a 10fps.
  15. Diseñar la circuitería de conversión analógico-digital en tecnología CMOS estándar de 0.18 µm que optimice de forma global el consumo y el área de silicio para satisfacer las especificaciones de fps del sensor de visión (VGA, 30fps).
  16. Sintetizar a nivel de registro (VHDL) los algoritmos de procesado de nivel intermedio de la escena (operadores de correlación y detector SIFT). Esta implementación tendrá como primer objetivo alcanzar tasas generación de 6.5µs por vector descriptor, equivalente a 5ms por frame para una complejidad de imagen VGA estándar que arroje un 1% de puntos de interés.
  17. Realizar la integración y evaluación de los algoritmos de procesado de nivel intermedio descritos a nivel de registro por los grupos USC y UPCT sobre un chip de lógica programable de tipo FPGA. A partir de los resultados obtenidos se proporcionará la realimentación adecuada para corregir las desviaciones observadas.
  18. Sintetizar a nivel de dispositivo en tecnología CMOS estándar de 0.18µm los algoritmos de procesado de nivel intermedio (operadores de correlación y detector SIFT) para su integración en el chip III, con el objetivo de alcanzar tasas de generación de 6µs por vector descriptor.
  19. Realizar la integración de las comunicaciones y transferencia de datos entre los señores/procesadores y el chipset, de acuerdo con los estándares industriales (SPI, I2C).
  20. Implementar la parte correspondiente del demostrador sobre plataforma fija para la identificación y seguimiento de objetivos en entornos no estructurados.