Evaluación del Aprendizaje por Refuerzo Multiagente para tareas de transporte cooperativo en Sistemas de Fabricación Flexible
DOI:
https://doi.org/10.24215/15146774e089Palabras clave:
optimización de procesos, control inteligente, manufactura colaborativa, fábricas inteligentesResumen
Los avances en inteligencia artificial y Sistemas Multi-Agente permiten coordinar agentes para cumplir múltiples objetivos, incluso contrapuestos, aplicables en ”fábricas flexibles”. Estas, impulsadas por tecnologías que integran lo físico, digital y biológico, evolucionan hacia ”fábricas inteligentes”. Modelar un proceso productivo como un sistema multi-agente permite optimizar simultáneamente la eficiencia, reducción de desperdicios, sustentabilidad (económica, social y ambiental), ahorro de costos y reducción de tiempos de inactividad. Sin embargo, la flexibilidad requerida en entornos reconfigurables incrementa la complejidad del control descentralizado. Las pequeñas y medianas empresas (PyMEs) son un caso emblemático, ya que suelen producir lotes pequeños o bienes personalizados, lo que exige una adaptación constante. El aprendizaje por refuerzo multi-agente surge como una solución viable, evitando esquemas centralizados poco prácticos ante entornos cambiantes. Este trabajo analiza dicho enfoque para tarea colaborativas en manufactura, como la manipulación de materiales (una operación sin valor agregado donde la eficiencia es clave). Se presenta un caso de estudio preliminar que utiliza entornos virtuales para entrenar múltiples agentes en tareas de manipulación coordinada en escenarios de diversa complejidad.
Referencias
Albrecht, S. V., Christianos, F. y Schafer, L. (2024). Multi-agent reinforcement learning: Foundations and modern approaches. MIT Press.
Boggino, A. S. G. (2005). Anémona: una metodología multi agente para sistemas holónicos de fabricación [Tesis de doctorado no publicada]. Universitat Politècnica de València.
Chen., Cheng, C. y Li, J. (2018). Resource-constrained assembly line balancing problems with multi-manned workstations. Journal of Manufacturing Systems, 48, 107–119. https://doi.org/10.1016/j.jmsy.2018.07.001
Chen, X., Chen, R. y Yang, C. (2022). Research to key success factors of intelligent logistics based on iot technology. Journal of Supercomputing, 78, 3905–3939. https://doi.org/10.1007/s11227-021-04009-7
Coumans, E. y Bai, Y. (2016). Pybullet, a python module for physics simulation for games, robotics and machine learning.
Curşeu, P. L., Rusu, A., Maricuţoiu, L. P., Vîrgǎ, D. y Mǎgurean, S. (2020). Identified and engaged: A multi-level dynamic model of identification with the group and performance in collaborative learning. Learning and Individual Differences, 78. https://doi.org/10.1016/j.lindif.2020.101838
Durão, L. F. C. S., McMullin, H., Kelly, K. y Zancul, E. (2022). Manufacturing execution system as an integration backbone for industry 4.0. IFIP Advances in Information and Communication Technology, 639, 461–473. https://doi.org/10.1007/978-3-030-94335-6_33
Foerster, J. N., Farquhar, G., Afouras, T., Nardelli, N. y Whiteson, S. (2018). Counterfactual multi-agent policy gradients. Proceedings of the AAAI Conference on Artificial Intelligence, 32(1). https://doi.org/10.1609/aaai.v32i1.11794
Hanski, J. y Baris, K. (2021). An evaluation of the unity machine learning agents toolkit in dense and sparse reward video game environments [Tesis de maestría, Faculty of Arts Department of Game Design]. http://www.diva-portal.org/smash/record.jsf?pid=diva2:1563588
Haykin, S. (2009). Neural networks and learning machines. (3ª ed.). Pearson.
Ilosvay, V. B. y Iaccarino, E. (2024). Unity ml agents: Wall jump and soccertwos environment using reinforcement learning (rl) technique [Tesis de grado, Universidad de Deusto]. https://doi.org/10.13140/RG.2.2.32633.65125
Juliani, A., Berges, V.-P., Teng, E., Cohen, A., Harper, J., Elion, C., Goy, C., Gao, Y., Henry, H., Mattar, M. y Lange, D. (2018). Unity: A general platform for intelligent agents. arXiv e-prints, 1809.02627. https://ui.adsabs.harvard.edu/abs/2018arXiv180902627J/abstract
Koenig, N. y Howard, A. (2004). Design and use paradigms for gazebo, an opensource multi-robot simulator. 2004 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 3, 2149–2154. https://ieeexplore.ieee.org/document/1389727
Li, J., Pang, D., Zheng, Y., Guan, X. y Le, X. (2022). A flexible manufacturing assembly system with deep reinforcement learning. Control Engineering Practice, 118(1), 104957. https://doi.org/10.1016/j.conengprac.2021.104957
Lowe, R., Wu, Y., Tamar, A., Harb, J., Abbeel, P. y Mordatch, I. (2017). Multiagent actor-critic for mixed cooperative-competitive environments. Advances in Neural Information Processing Systems, 2017-December, 6380–6391. https://doi.org/10.48550/arXiv.1706.02275
Mantravadi, S., Li, C. y Møller, C. (2019). Multi-agent manufacturing execution system (mes): Concept, architecture & ml algorithm for a smart factory case. ICEIS 2019 - Proceedings of the 21st International Conference on Enterprise Information Systems, 1, 465–470. https://doi.org/10.5220/0007768904770482
Meyer-Hentschel, M., Lohse, O., Rao, S. y Lepratti, R. (2020). Manufacturing operations management for smart manufacturing – a case study. IFIP Advances in Information and Communication Technology, 591, 91–98. https://doi.org/10.1007/978-3-030-57993-7_11
Quintero Henao, L. F. (2009). Un modelo de control inteligente para sistemas de manufactura basado en los paradigmas holónico y multi-agente [Tesis de maestrpia, Universidad Nacional de Colombia]. https://repositorio.unal.edu.co/handle/unal/3405
Rashid, A., Danezis, G., Chivers, H., Lupu, E., Martin, A., Lewis, M. y Peersman, C. (2018). Scoping the cyber security body of knowledge. IEEE Security & Privacy, 16(4), 96–102. https://doi.org/10.1109/MSP.2018.2701150
Rolón, M. y Martínez, E. (2012). Agent-based modeling and simulation of an autonomic manufacturing execution system. Computers in Industry, 63, 53–78. https://doi.org/10.1016/j.compind.2011.10.005
Saavedra Sueldo, C., Perez Colo, I., De Paula, M., Villar, S. A. y Acosta, G. G. (2023). Ros-based architecture for fast digital twin development of smart manufacturing robotized systems. Annals of Operations Research, 322(1), 75–99. https://doi.org/10.1007/s10479-022-04759-4
Saavedra Sueldo, C., Perez Colo, I., De Paula, M., Villar, S. A. y Acosta, G. G. (2024). Simulation-based metaheuristic optimization algorithm for material handling. Journal of Intelligent Manufacturing, 36(3), 1689-1709. https://doi.org/10.1007/s10845-024-02327-0
Schulman, J., Wolski, F., Dhariwal, P., Radford, A. y Klimov, O. (2017). Proximal policy optimization algorithms. arXiv e-prints, 1707.06347. https://doi.org/10.48550/arXiv.1707.06347
Schwung, D., Reimann, J. N., Schwung, A. y Ding, S. X. (2018). Self learning in flexible manufacturing units: A reinforcement learning approach. 9th International Conference on Intelligent Systems 2018: Theory, Research and Innovation in Applications, 31–38. https://doi.org/10.1109/IS.2018.8710460
Shoham, Y. y Leyton-Brown, K. (2008). Multiagent systems: Algorithmic, game-theoretic, and logical foundations. Cambridge University Press. https://doi.org/10.1017/CBO9780511811654
Smith, R. G. (1980). The contract net protocol: High-level communication and control in a distributed problem solver. IEEE Transactions on Computers, 29(12), 1104-1113. https://doi.org/10.1109/TC.1980.1675516
Sutton, R. S. y Barto, A. G. (2018). Reinforcement learning: An introduction. (2ª ed.). MIT Press.
Van Brussel, H., Wyns, J., Valckenaers, P., Bongaerts, L. y Peeters, P. (1998). Reference architecture for holonic manufacturing systems: Prosa. Computers in Industry, 37(3), 255–274. https://doi.org/10.1016/S0166-3615(98)00102-X
Velastegui, R., Poler, R. y Díaz-Madroñero, M. (2023). Aplicación de algoritmos de aprendizaje automático a sistemas robóticos multiagente para la programación y control de operaciones productivas y logísticas: Una revisión de la literatura reciente. Dirección y Organización, 80, 60–70. https://doi.org/10.37610/dyo.v0i80.643
Wang, C., Kim, Y. S. y Kim, C. Y. (2021). Causality between logistics infrastructure and economic development in China. Transport Policy, 100, 49–58. https://doi.org/10.1016/j.tranpol.2020.10.005
Zhang, M., Li, P., Xia, Y., Wang, K. y Jin, L. (2021). Labeling trick: A theory of using graph neural networks for multi-node representation learning. Advances in Neural Information Processing Systems, 11, 9061–9073. https://dl.acm.org/doi/abs/10.5555/3540261.3540954
Descargas
Publicado
Número
Sección
Licencia
Derechos de autor 2026 Manuel Ezequías Vazquez, Carolina Saavedra Sueldo, Luis O. Ávila, Gerardo G. Acosta, Mariano De Paula

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Aquellos autores/as que tengan publicaciones con esta revista, aceptan los términos siguientes:
- Los autores/as conservarán sus derechos de autor y garantizarán a la revista el derecho de primera publicación de su obra, el cuál estará simultáneamente sujeto a la Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0) que permite a terceros compartir la obra siempre que se indique su autor y su primera publicación esta revista, no hagan uso comercial de ella y las obras derivadas de hagan bajo la misma licencia.
- Los autores/as podrán adoptar otros acuerdos de licencia no exclusiva de distribución de la versión de la obra publicada (p. ej.: depositarla en un archivo telemático institucional o publicarla en un volumen monográfico) siempre que se indique la publicación inicial en esta revista.
- Se permite y recomienda a los autores/as difundir su obra a través de Internet (p. ej.: en archivos telemáticos institucionales o en su página web) antes y durante el proceso de envío, lo cual puede producir intercambios interesantes y aumentar las citas de la obra publicada. (Véase El efecto del acceso abierto).















