Reconocimiento de acciones egoc´entricas usando Visual Transformers
Palabras clave:
reconocimiento de acciones egoncéntricas, visual transformer, datos 2d, keypointsResumen
El reconocimiento de acciones es importante para la comprensi´on de videos, m´as a´un cuando se trata de videos egoc´entricos.
Existen m´ultiples aplicaciones para este tipo de reconocimiento, como el monitoreo autom´atico y continuo de actividades de la vida cotidiana, resumen de videos, interpretaci´on de interacciones sociales, entre otros. El desaf´ıo de este tipo de videos se encuentra en la velocidad de la c´amara, oclusiones y fondos de escena desordenados. Una manera de abordar este problema se centra en explorar la informaci´on de la ubicaci´on de las manos y objetos del portador del dispositivo de captura (Gopro, HoloLens). Con el fin de disminuir el costo computacional, un abordaje es utilizar datos 2D. En este estudio se propone el reconocimiento de acciones egoc´entricas empleando la pose 2D de manos y objetos para la clasificaci´on de secuencias utilizando un m´etodo basado en la combinaci´on de YOLOv8 y Visual Transfomer sobre un subconjunto del dataset H2O.
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2025 Maximiliano Giusto, Mar´ıa Elena Buemi

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Acorde a estos términos, el material se puede compartir (copiar y redistribuir en cualquier medio o formato) y adaptar (remezclar, transformar y crear a partir del material otra obra), siempre que a) se cite la autoría y la fuente original de su publicación (revista y URL de la obra), b) no se use para fines comerciales y c) se mantengan los mismos términos de la licencia.











