Mientras la ciencia avanza rápidamente en la creación de sistemas de inteligencia artificial, Google se encuentra en el proceso de desarrollo de un "gran botón rojo", mecanismo que podría prevenir actos dañinos de los robots agentes de aprendizaje por refuerzo.
En su nuevo informe los investigadores advierten que en el mundo real es poco probable que los agentes de aprendizaje por refuerzo funcionen siempre de manera óptima. "Si un agente opera en tiempo real bajo supervisión humana, a un operador humano le puede surgir la necesidad de tocar el gran botón rojo para prevenir que el agente continúe haciendo una secuencia de acciones dañinas ―para el agente o para su entorno― y llevar al agente a una situación más segura", reza el documento.
El equipo de Google DeepMind junto con otros científicos ha propuesto un protocolo que le permitiría al operador humano interrumpir el funcionamiento de la plataforma de inteligencia en caso de que sea necesario y, además, asegurar que el robot no aprenda a prevenir o invalidar estas interrupciones. Se espera que de esta manera se pueda evitar consecuencias irreversibles.
Tras analizar varios algoritmos, los científicos llegaron a la conclusión de que algunos de ellos, como el Q-learning, ya pueden funcionar de manera segura, mientras que otros, como el Sarsa, pueden ser modificados para convertirse en ininterrumpibles.