Artículo de Javier Zurera, sobre los fallos más comunes en un centro de datos y cómo identificar el coste por minuto de corte
Cada vez los centros de datos tienen más impacto en la economía de las empresas. Muchos procesos que antes se realizaban de forma manual ahora se han digitalizado o incluso automatizado. Por ello, según avanza el tiempo, cada vez que ocurre un problema en un centro de datos de una compañía más impacto en esta produce.
Por lo tanto es importante identificar el coste que nos supone tener un corte en nuestro centro de datos y estudiar si merece la pena realizar inversiones que puedan evitar un corte del servicio o bien reducir el tiempo de caída diseñando un plan de disaster recovery. Pero, ¿cómo identificar el coste por minuto de la caída de nuestro centro de datos? No es nada sencillo ya que hay muchos costes asociados, directos e indirectos:
- Coste de detección del fallo: tiempo que se dedica a investigar que está pasando buscando el origen del problema.
- Coste de contención del fallo: una vez detectado el coste que supondría impedir que el problema vaya a más.
- Coste de recuperación: el coste que dedicamos a recuperarnos del problema. Este coste puede ser interno o también externo si se ha de contar con una empresa externa que nos de soporte.
- Coste de reparación: el coste que implicaría la sustitución de hardware si fuera necesario.
- Coste de pérdida de producción: durante el tiempo que tenemos nuestro centro de datos fuera de servicio el coste que implica tener el personal y procesos parados.
- Pérdida de ventas durante el corte: en el caso de un negocio online todo el tiempo que el centro de datos esté fuera de servicio tendremos nuestras ventas bloqueadas.
- Pérdidas indirectas: las que se originarán en un futuro debido a la mala imagen producida por el corte del servicio.
Según este listado no todos las caídas de un centro de datos van a sufrir los mismos tipos de corte, ya que el origen del mismo y el tipo de empresa influirá mucho en cuál de ellos les verá afectado. Un estudio realizado por Vertiv junto a Ponemon Institute, ha evaluado 63 centros de datos de diferente capacidad en Estados Unidos los tiempos medios de caída de un data center, el origen del corte y el impacto económico del mismo.
De este estudio encontramos que el corte medio no programado en un centro de datos se va a 130 minutos de media. Si asumimos todos costes implicados en la pérdida de servicio el importe medio alcanza los 700.000$. Pero según el tamaño de la compañía los importes pueden ser mucho mayores. La caída del centro de datos de British Airways en 2017 le supuso un coste a la compañía de 80 millones de libras, dato facilitado por la propia compañía después de hacer un estudio tras la caída del servicio.
British Airways reconoció que el origen de este corte fue un fallo humano. Según el estudio de Vertiv, el origen del 22% de los cortes del servicio son producidos por factores humanos no voluntarios y el 42% por un fallo en la infraestructura. Por lo tanto es crucial evitar un fallo en la infraestructura y la mejor forma de hacerlo es teniendo una visibilidad en tiempo real de todos los equipos que son críticos y que podrían causar un problema serio a la plataforma IT de la compañía.
Para ello la mejor opción es contar con un sistema de monitorización que sea capaz de avisarnos en cuanto detecte algún valor fuera de unos umbrales preestablecidos de alarma y a la vez sea capaz de analizar patrones extraños en el comportamiento del equipo que pudieran producir un fallo en corto o medio plazo.
Para reducir los tiempos de detección del fallo y de contención del mismo, es fundamental contar con alguna herramienta que nos proporcione la visión global de la infraestructura y la dependencia de los equipos IT. Con estas herramientas podemos realizar una simulación de impacto y ver qué equipos se verían afectados ante un fallo en la infraestructura o bien ante una intervención programada de mantenimiento de un equipo crítico.
Como se ha comentado anteriormente el 22% de las caídas son producidas por errores humanos y en algunos casos como el de British Airways son muy graves. Para poder reducir los errores humanos es fundamental seguir estas recomendaciones:
- Disponer de un personal cualificado, metódico y comprometido.
- Proporcionar herramientas software que ayuden al trabajo diario.
- Disponer de herramientas de gestión de la capacidad.
- Definir procesos para las tareas más comprometidas y no dejar nada al azar.
Un software DCIM nos facilita todas estas herramientas para poder evitar y reducir los cortes en nuestro data center. Nos permite monitorizar nuestra instalación, analizar patrones y umbrales de valores de equipos, gestionar dependencias entre infraestructura y servidores IT, gestionar la capacidad de nuestras instalaciones e infraestructura IT y llevar un inventario actualizado para facilitar el trabajo en campo de los técnicos encargados del centro de datos.
Por todo ello el mismo informe del Ponemon Institute confirma que disponer de un software DCIM reduce un 50% el tiempo de caída en un centro de datos.
Javier Zurera Andrés
Data Center Project Manager
Software Greenhouse, S.A.