Evaluación del Aprendizaje por Refuerzo Multiagente para tareas de transporte cooperativo en Sistemas de Fabricación Flexible

Manuel Ezequías Vazquez; Carolina Saavedra Sueldo; Luis O. Ávila; Gerardo G. Acosta; Mariano De Paula

doi:10.24215/15146774e089

Autores/as

Manuel Ezequías Vazquez Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina https://orcid.org/0009-0008-0601-9657
Carolina Saavedra Sueldo Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina https://orcid.org/0000-0001-9883-4369
Luis O. Ávila Universidad Nacional de San Luis, Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), Argentina https://orcid.org/0000-0003-0321-068X
Gerardo G. Acosta Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina https://orcid.org/0000-0003-3295-1604
Mariano De Paula Universidad Nacional del Centro de la Provincia de Buenos Aires, Argentina https://orcid.org/0000-0001-7582-9188

DOI:

https://doi.org/10.24215/15146774e089

Palabras clave:

optimización de procesos, control inteligente, manufactura colaborativa, fábricas inteligentes

Resumen

Los avances en inteligencia artificial y Sistemas Multi-Agente permiten coordinar agentes para cumplir múltiples objetivos, incluso contrapuestos, aplicables en ”fábricas flexibles”. Estas, impulsadas por tecnologías que integran lo físico, digital y biológico, evolucionan hacia ”fábricas inteligentes”. Modelar un proceso productivo como un sistema multi-agente permite optimizar simultáneamente la eficiencia, reducción de desperdicios, sustentabilidad (económica, social y ambiental), ahorro de costos y reducción de tiempos de inactividad. Sin embargo, la flexibilidad requerida en entornos reconfigurables incrementa la complejidad del control descentralizado. Las pequeñas y medianas empresas (PyMEs) son un caso emblemático, ya que suelen producir lotes pequeños o bienes personalizados, lo que exige una adaptación constante. El aprendizaje por refuerzo multi-agente surge como una solución viable, evitando esquemas centralizados poco prácticos ante entornos cambiantes. Este trabajo analiza dicho enfoque para tarea colaborativas en manufactura, como la manipulación de materiales (una operación sin valor agregado donde la eficiencia es clave). Se presenta un caso de estudio preliminar que utiliza entornos virtuales para entrenar múltiples agentes en tareas de manipulación coordinada en escenarios de diversa complejidad.

Referencias

Albrecht, S. V., Christianos, F. y Schafer, L. (2024). Multi-agent reinforcement learning: Foundations and modern approaches. MIT Press.

Boggino, A. S. G. (2005). Anémona: una metodología multi agente para sistemas holónicos de fabricación [Tesis de doctorado no publicada]. Universitat Politècnica de València.

Chen., Cheng, C. y Li, J. (2018). Resource-constrained assembly line balancing problems with multi-manned workstations. Journal of Manufacturing Systems, 48, 107–119. https://doi.org/10.1016/j.jmsy.2018.07.001

Chen, X., Chen, R. y Yang, C. (2022). Research to key success factors of intelligent logistics based on iot technology. Journal of Supercomputing, 78, 3905–3939. https://doi.org/10.1007/s11227-021-04009-7

Coumans, E. y Bai, Y. (2016). Pybullet, a python module for physics simulation for games, robotics and machine learning.

Curşeu, P. L., Rusu, A., Maricuţoiu, L. P., Vîrgǎ, D. y Mǎgurean, S. (2020). Identified and engaged: A multi-level dynamic model of identification with the group and performance in collaborative learning. Learning and Individual Differences, 78. https://doi.org/10.1016/j.lindif.2020.101838

Durão, L. F. C. S., McMullin, H., Kelly, K. y Zancul, E. (2022). Manufacturing execution system as an integration backbone for industry 4.0. IFIP Advances in Information and Communication Technology, 639, 461–473. https://doi.org/10.1007/978-3-030-94335-6_33

Foerster, J. N., Farquhar, G., Afouras, T., Nardelli, N. y Whiteson, S. (2018). Counterfactual multi-agent policy gradients. Proceedings of the AAAI Conference on Artificial Intelligence, 32(1). https://doi.org/10.1609/aaai.v32i1.11794

Hanski, J. y Baris, K. (2021). An evaluation of the unity machine learning agents toolkit in dense and sparse reward video game environments [Tesis de maestría, Faculty of Arts Department of Game Design]. http://www.diva-portal.org/smash/record.jsf?pid=diva2:1563588

Haykin, S. (2009). Neural networks and learning machines. (3ª ed.). Pearson.

Ilosvay, V. B. y Iaccarino, E. (2024). Unity ml agents: Wall jump and soccertwos environment using reinforcement learning (rl) technique [Tesis de grado, Universidad de Deusto]. https://doi.org/10.13140/RG.2.2.32633.65125

Juliani, A., Berges, V.-P., Teng, E., Cohen, A., Harper, J., Elion, C., Goy, C., Gao, Y., Henry, H., Mattar, M. y Lange, D. (2018). Unity: A general platform for intelligent agents. arXiv e-prints, 1809.02627. https://ui.adsabs.harvard.edu/abs/2018arXiv180902627J/abstract

Koenig, N. y Howard, A. (2004). Design and use paradigms for gazebo, an opensource multi-robot simulator. 2004 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 3, 2149–2154. https://ieeexplore.ieee.org/document/1389727

Li, J., Pang, D., Zheng, Y., Guan, X. y Le, X. (2022). A flexible manufacturing assembly system with deep reinforcement learning. Control Engineering Practice, 118(1), 104957. https://doi.org/10.1016/j.conengprac.2021.104957

Lowe, R., Wu, Y., Tamar, A., Harb, J., Abbeel, P. y Mordatch, I. (2017). Multiagent actor-critic for mixed cooperative-competitive environments. Advances in Neural Information Processing Systems, 2017-December, 6380–6391. https://doi.org/10.48550/arXiv.1706.02275

Mantravadi, S., Li, C. y Møller, C. (2019). Multi-agent manufacturing execution system (mes): Concept, architecture & ml algorithm for a smart factory case. ICEIS 2019 - Proceedings of the 21st International Conference on Enterprise Information Systems, 1, 465–470. https://doi.org/10.5220/0007768904770482

Meyer-Hentschel, M., Lohse, O., Rao, S. y Lepratti, R. (2020). Manufacturing operations management for smart manufacturing – a case study. IFIP Advances in Information and Communication Technology, 591, 91–98. https://doi.org/10.1007/978-3-030-57993-7_11

Quintero Henao, L. F. (2009). Un modelo de control inteligente para sistemas de manufactura basado en los paradigmas holónico y multi-agente [Tesis de maestrpia, Universidad Nacional de Colombia]. https://repositorio.unal.edu.co/handle/unal/3405

Rashid, A., Danezis, G., Chivers, H., Lupu, E., Martin, A., Lewis, M. y Peersman, C. (2018). Scoping the cyber security body of knowledge. IEEE Security & Privacy, 16(4), 96–102. https://doi.org/10.1109/MSP.2018.2701150

Rolón, M. y Martínez, E. (2012). Agent-based modeling and simulation of an autonomic manufacturing execution system. Computers in Industry, 63, 53–78. https://doi.org/10.1016/j.compind.2011.10.005

Saavedra Sueldo, C., Perez Colo, I., De Paula, M., Villar, S. A. y Acosta, G. G. (2023). Ros-based architecture for fast digital twin development of smart manufacturing robotized systems. Annals of Operations Research, 322(1), 75–99. https://doi.org/10.1007/s10479-022-04759-4

Saavedra Sueldo, C., Perez Colo, I., De Paula, M., Villar, S. A. y Acosta, G. G. (2024). Simulation-based metaheuristic optimization algorithm for material handling. Journal of Intelligent Manufacturing, 36(3), 1689-1709. https://doi.org/10.1007/s10845-024-02327-0

Schulman, J., Wolski, F., Dhariwal, P., Radford, A. y Klimov, O. (2017). Proximal policy optimization algorithms. arXiv e-prints, 1707.06347. https://doi.org/10.48550/arXiv.1707.06347

Schwung, D., Reimann, J. N., Schwung, A. y Ding, S. X. (2018). Self learning in flexible manufacturing units: A reinforcement learning approach. 9th International Conference on Intelligent Systems 2018: Theory, Research and Innovation in Applications, 31–38. https://doi.org/10.1109/IS.2018.8710460

Shoham, Y. y Leyton-Brown, K. (2008). Multiagent systems: Algorithmic, game-theoretic, and logical foundations. Cambridge University Press. https://doi.org/10.1017/CBO9780511811654

Smith, R. G. (1980). The contract net protocol: High-level communication and control in a distributed problem solver. IEEE Transactions on Computers, 29(12), 1104-1113. https://doi.org/10.1109/TC.1980.1675516

Sutton, R. S. y Barto, A. G. (2018). Reinforcement learning: An introduction. (2ª ed.). MIT Press.

Van Brussel, H., Wyns, J., Valckenaers, P., Bongaerts, L. y Peeters, P. (1998). Reference architecture for holonic manufacturing systems: Prosa. Computers in Industry, 37(3), 255–274. https://doi.org/10.1016/S0166-3615(98)00102-X

Velastegui, R., Poler, R. y Díaz-Madroñero, M. (2023). Aplicación de algoritmos de aprendizaje automático a sistemas robóticos multiagente para la programación y control de operaciones productivas y logísticas: Una revisión de la literatura reciente. Dirección y Organización, 80, 60–70. https://doi.org/10.37610/dyo.v0i80.643

Wang, C., Kim, Y. S. y Kim, C. Y. (2021). Causality between logistics infrastructure and economic development in China. Transport Policy, 100, 49–58. https://doi.org/10.1016/j.tranpol.2020.10.005

Zhang, M., Li, P., Xia, Y., Wang, K. y Jin, L. (2021). Labeling trick: A theory of using graph neural networks for multi-node representation learning. Advances in Neural Information Processing Systems, 11, 9061–9073. https://dl.acm.org/doi/abs/10.5555/3540261.3540954