Cómo un pequeño proveedor y un gigante de las telecomunicaciones hicieron caer una gran parte de Internet

El 24 de junio, algunos de los principales servicios de Internet colapsaron, incluido el servicio de almacenamiento de la nube de Amazon, el sitio web de Reddit, la plataforma de transmisión de Twitch, el servicio de mensajería Discord y la página DownDetector, que monitorea las caídas de Internet. El fallo ocurrió a las 12:00 (UTC) y duró aproximadamente dos horas.

El problema se asoció originalmente con el servicio de entrega de contenido Cloudflare, utilizado por millones de sitios. La compañía afirma que perdió cerca del 15 % de su tráfico global, pero sus propios sistemas funcionaron bien: el tráfico no le llegó debido a los errores de otros servicios, incluida Verizon, una de las compañías de telecomunicaciones más grandes de EE.UU.

Cloudflare publicó un extenso comunicado con duras críticas contra Verizon explicando las causas de lo ocurrido, en el que señala que "a Internet le dio un pequeño ataque al corazón".

El fallo se generó en el sistema de enrutamiento de tráfico en Internet. Cloudflare, para simplificar, lo compara con la elección del camino óptimo utilizando un navegador GPS. Las redes que forman Internet (los denominados sistemas autónomos) están conectadas entre sí mediante un protocolo llamado BGP e intercambian información sobre rutas.

"BGP une estas redes y crea un 'mapa' de Internet que permite que el tráfico se desplace desde su proveedor hasta un sitio popular en otra parte del mundo", escribió Cloudflare. La ruta puede ser tanto general como más específica (como escoger entre una ruta a Londres y otra al palacio de Buckingham).

Error de un pequeño proveedor

Ese día, un pequeño proveedor del estado de Pensilvania (EE.UU.), DQE Communications, que atiende a unos 2.000 edificios en Pittsburgh, utilizó en su red una herramienta llamada BGP Optimizer que le permite optimizar la velocidad y el costo de la entrega de tráfico a los clientes. Esta herramienta está diseñada para dar prioridad a rutas más específicas y dirigir el tráfico a través de ellas.

Los problemas comenzaron cuando DQE lanzó por error estas rutas al mundo exterior, transfiriéndolas a uno de sus clientes, la empresa metalúrgica Allegheny Technologies, reseña Slate. En una situación normal, las redes autónomas les comunican a sus 'vecinos' solo los identificadores de sus rutas, pero a veces pueden, por error o con intención, comunicarles identificadores de otras ruta, lo que hace cambiar la dirección del tráfico.

"Esta pequeña compañía [de hecho] dijo: 'Estas 2.400 redes, incluidas partes de Cloudflare, Amazon, Google y Facebook, nos pertenecen, pueden enviarnos su tráfico'", explicó John Graham-Cumming, director técnico de Cloudflare.

Allegheny Technologies, a su vez, transfirió las rutas a otro proveedor, Verizon, que las anunció al resto del mundo. Como resultado, cuando intentaban conectarse a las redes afectadas, los usuarios se dirigían a las redes de DQE Communications, Allegheny Technologies y Verizon, que no estaban listas para tal afluencia de tráfico.

¿Cómo pudieron evitarlo?

Cloudflare insiste en que Verizon podría haber evitado el problema si hubiera utilizado herramientas existentes desde hace mucho tiempo para limitar el número de identificadores de ruta que acepta una red autónoma y también para verificar quién era el propietario de la ruta. La empresa también afirma que Verizon no respondió a llamadas y correos durante al menos ocho horas.

La situación fue resuelta, según Cloudfare, gracias a la colaboración con los ingenieros de DQE Communications. Mientras, Verizon asegura que fueron ellos mismos quienes resolvieron el problema.