Exploring Modulated Detection Transformer as a Tool for Action Recognition in Videos

Tomás Crisol; Joel Ermantraut; Adrián Rostagno; Santiago L. Aggio; Javier Iparraguirre

Exploring Modulated Detection Transformer as a Tool for Action Recognition in Videos

Autores/as

Tomás Crisol Universidad Tecnológica Nacional, Argentina
Joel Ermantraut Universidad Tecnológica Nacional, Argentina
Adrián Rostagno Universidad Tecnológica Nacional, Argentina
Santiago L. Aggio Universidad Tecnológica Nacional, Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Argentina
Javier Iparraguirre Universidad Tecnológica Nacional, Argentina

Palabras clave:

Multi-modal transformers, Action detection, Model generalization

Resumen

During recent years transformers architectures have been growing in popularity. Modulated Detection Transformer (MDETR) is an end-to-end multi-modal understanding model that performs tasks such as phase grounding, referring expression comprehension, referring expression segmentation, and visual question answering. One remarkable aspect of the model is the capacity to infer over classes that it was not previously trained for. In this work we explore the use of MDETR in a new task, action detection, without any previous training. We obtain quantitative results using the Atomic Visual Actions dataset. Although the model does not report the best performance in the task, we believe that it is an interesting finding. We show that it is possible to use a multi-modal model to tackle a task that it was not designed for. Finally, we believe that this line of research may lead into the generalization of MDETR in additional downstream tasks.

Descargas

Publicado

2022-12-23

Número

Vol. 8 Núm. 10 (2022): SAIV 2022 - Simposio Argentino de Imágenes y Visión

Sección

SAIV - Simposio Argentino de Imágenes y Visión

Licencia

Derechos de autor 2022 Tomás Crisol, Joel Ermantraut, Adrián Rostagno, Santiago L. Aggio, Javier Iparraguirre

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

Acorde a estos términos, el material se puede compartir (copiar y redistribuir en cualquier medio o formato) y adaptar (remezclar, transformar y crear a partir del material otra obra), siempre que a) se cite la autoría y la fuente original de su publicación (revista y URL de la obra), b) no se use para fines comerciales y c) se mantengan los mismos términos de la licencia.

Cómo citar

Crisol, T., Ermantraut, J., Rostagno, A., Aggio, S. L., & Iparraguirre, J. (2022). Exploring Modulated Detection Transformer as a Tool for Action Recognition in Videos. JAIIO, Jornadas Argentinas De Informática, 8(10), 6-10. https://revistas.unlp.edu.ar/JAIIO/article/view/18309