La defensa de una reciente tesis doctoral en el programa de Ingeniería Mecatrónica de la Universidad de Málaga (UMA) ha puesto de relieve los avances logrados gracias a la colaboración entre el IMECH.UMA y la HAW Hamburg. La investigación, realizada por Vanya Aziz bajo la dirección del Prof. Dr. Eligius MT Hendrix, investigador del instituto, y la co-dirección del Prof. Dr. Ivo Nowak, ha desarrollado algoritmos avanzados de aprendizaje automático aplicables a robótica y sistemas complejos, consolidando la cooperación internacional iniciada en 2016 y su impacto en proyectos conjuntos de innovación y experimentación en entornos robóticos.

La tesis presenta un nuevo algoritmo de aprendizaje por refuerzo distribuido, denominado Cramér-based Soft Distributional Actor-Critic (C-DSAC), que permite a los agentes aprender comportamientos óptimos de manera más eficiente que los métodos tradicionales, reduciendo el efecto de sobreestimación y mejorando la estabilidad de las políticas aprendidas.
“El aprendizaje por refuerzo estudia cómo los agentes aprenden tomando decisiones paso a paso para maximizar la recompensa acumulada. Este trabajo mejora la eficiencia del aprendizaje mediante un algoritmo que ha demostrado rendimiento de vanguardia en entornos de prueba estándar”, explica Vanya Aziz.
La investigación ha desarrollado herramientas y algoritmos que mejoran significativamente el aprendizaje y control de robots complejos. Entre sus contribuciones más destacadas:
- Algoritmo RL-Inverse Kinematics (RL-IK): permite que robots multiarticulados aprendan más rápido a ejecutar movimientos coordinados y precisos, acelerando la obtención de comportamientos cercanos a los óptimos.
- Aprendizaje supervisado para percepción de estados: se implementaron estrategias que permiten al robot interpretar su entorno a partir de imágenes, combinando varios modelos (ensembles) para aumentar la precisión y robustez de las predicciones.
- Fundamentos teóricos del algoritmo C-DSAC: se demostraron matemáticamente las propiedades de convergencia del nuevo algoritmo, garantizando que el aprendizaje del robot sea estable y confiable incluso en entornos complejos.
El algoritmo se evaluó en entornos simulados, donde los agentes aprenden a controlar articulaciones complejas para caminar y mantenerse en pie. Los resultados muestran mejoras significativas respecto a otros métodos de aprendizaje por refuerzo existentes. Estos avances son relevantes para la robótica aplicada, sistemas autónomos y la Industria 4.0, ofreciendo soluciones para control adaptativo y aprendizaje eficiente en entornos de alta complejidad.