RDF description Adrian Núñez-Marcos

PhD


profile-picture
Sep. 2016  -  Dec. 2020

Profiles

social-network-icon GitHub
social-network-icon LinkedIn
social-network-icon ORCID


Contributions to Human Action Recognition using Deep Learning: Applications in Egocentric Vision

Directed by: Gorka Azkune     Co-advisor:  Diego López-de-Ipiña

 18 Dec 2020 - 09:00
 Universidad de Deusto
 Cum Laude by unanimity

 Viva panel

Aitor Almeida Secretary
Jan Kybic Vocal
Basilio Sierra Chair


Thanks to the exponential increase in the use of Information and Communication Technologies, smart homes that provide services to their inhabitants have become a reality. Among these services, those that secure the health of people are contained within the Ambient Assisted Living paradigm, in which this dissertation is included. In fact, monitoring people in their daily activities may help predict mental health issues such as dementia, so these kinds of applications have become increasingly important. For that, action recognition systems are pivotal, i.e., systems capable of analysing the performance of actions and activities to be able to detect beforehand outliers that could be given by a cognitive decline. In that sense, ensuring that action recognition systems are able to yield the best possible information is essential. That is why there have been many efforts in the Computer Vision community to tackle the human action recognition task. In fact, it is noticeable the recent contribution of the egocentric action recognition towards predicting actions using wearable devices. In this research line, this dissertation proposes to contribute a method to introduce external knowledge to bias the predictions of action recognition systems towards real-world frequencies in zero-shot settings. Action recognition systems usually output action predictions with some confidence, given only by the input they have seen. Nevertheless, this ignores the frequency with which those actions occur in our daily lives, and that is why introducing a prior probability distribution with this knowledge is important. More frequently performed actions should have more importance than those that are rare, balancing the distribution. This is implemented in a zero-shot setting, in which actions are decoupled into the motion and the object that is being manipulated. With this approach, motion and objects can be separately learnt by an action recognition system and any combination of both sets can be predicted as a result, offering a much wider range of possibilities requiring fewer annotations. The experiments carried out for action classification with unseen classes have shown promising results when prior probability distributions fit better the users’ action distributions.


Gracias al crecimiento exponencial en el uso de las Tecnologías de la Información y la Comunicación, las casas inteligentes que proveen de servicios a sus ocupantes se han vuelto una realidad. Entre esos servicios, aquellos que buscan asegurar la salud de las personas se encuentran dentro de los entornos asistenciales inteligentes, en los cuales se incluye esta tesis doctoral. De hecho, la monitorización de las personas en sus actividades del día a día puede ayudar a predecir problemas de salud mental tales como la demencia, así que este tipo de aplicaciones se ha vuelto cada vez más importante. Para ello, los sistemas de reconocimiento de acciones, es decir, sistemas capaces de analizar la ejecución de acciones y actividades, son cruciales para poder detectar de antemano casos atípicos que pueden ser dados por un declive cognitivo. En ese sentido, es esencial asegurar que los sistemas de reconocimiento de acciones sean capaces de ofrecer la información de más calidad. Por esta razón, la comunidad de Visión por Computador ha realizado un gran esfuerzo por mejorar en la tarea del reconocimiento de acciones humanas. De hecho, es notable la reciente contribución del reconocimiento de acciones egocéntricas hacia la predicción de acciones usando dispositivos vestibles. En esta línea de investigación, esta tesis doctoral propone contribuir con un método para introducir conocimiento externo para sesgar las predicciones de los sistemas de reconocimiento de acciones hacia su frecuencia del mundo real en el marco del aprendizaje basado en cero muestras. Los sistemas de reconocimiento de acciones normalmente emiten predicciones de acciones con una cierta confianza, dada únicamente por el dato de entrada que ven. Sin embargo, esto ignora la frecuencia con la cual esas ocurren en nuestras vidas cotidianas, y es por ello que introducir una distribución de probabilidades a priori con este conocimiento es importante. Las acciones realizadas con mayor frecuencia deberían tener más importancia que aquellas que son raras, equilibrando la distribución. Con este enfoque, el movimiento y los objetos pueden ser aprendidos de forma separada por un sistema de reconocimiento de acciones y cualquier combinación de ambos conjuntos puede ser predicha como resultado, ofreciendo un abanico de posibilidades más amplio y necesitando menos anotaciones. Los experimentos llevados a cabo para el reconocimiento de acciones con clases nunca antes vistas muestran resultados prometedores cuando las distribuciones de probabilidades a priori se ajustan mejor a las distribuciones de acciones reales.