Alta Disponibilidad de Sistemas: Una Definición
por Ken Akren, vicepresidente de operaciones de Vision Solutions
El huracán Andrew, las inundaciones del río Mississippi, las grandes lluvias en Europa, el terremoto de Northridge, los grandes incendios en Australia. Los disturbios en Europa y Estados Unidos, los atentados en el World Trade Center. Estos y muchos otros graves desastres han hecho estallar una ola de interés en la planificación y prevención de contingencias.
Eventos externos como los mencionados, ciertamente pueden traducirse en una catástrofe económica para una empresa, pero no son la única amenaza para la operación estable de un negocio. Eventos internos, tales como errores de procesadores, errores de software, “aterrizajes” de discos, caídas de comunicaciones, errores de operación, descargas accidentales de halón, vandalismo o sabotaje, plantean un peligro real, aunque menos “espectacular”. Pero inclusive los tiempos muertos planificados - como copias de seguridad, ampliaciones de hardware y cambios de versión de software, instalación de PTF´s y mantenimiento preventivo - tienen un impacto en los costes de su empresa y deben estar cubiertos en todo buen plan de contingencias.
El huracán Andrew, las inundaciones del río Mississippi, las grandes lluvias en Europa, el terremoto de Northridge, los grandes incendios en Australia. Los disturbios en Europa y Estados Unidos, los atentados en el World Trade Center. Estos y muchos otros graves desastres han hecho estallar una ola de interés en la planificación y prevención de contingencias.
Eventos externos como los mencionados, ciertamente pueden traducirse en una catástrofe económica para una empresa, pero no son la única amenaza para la operación estable de un negocio. Eventos internos, tales como errores de procesadores, errores de software, “aterrizajes” de discos, caídas de comunicaciones, errores de operación, descargas accidentales de halón, vandalismo o sabotaje, plantean un peligro real, aunque menos “espectacular”. Pero inclusive los tiempos muertos planificados - como copias de seguridad, ampliaciones de hardware y cambios de versión de software, instalación de PTF´s y mantenimiento preventivo - tienen un impacto en los costes de su empresa y deben estar cubiertos en todo buen plan de contingencias.
Los costes de los tiempos muertos, planificados o no, son muy reales. El terremoto de Northridge, por ejemplo, desplazó de sus casas y oficinas a 100.000 personas - y puso en peligro 2.500 sistemas AS/400 en el área de Los Angeles.
Si aún no está convencido de la importancia de la planificación de contingencias, considere las siguientes estadísticas: un estudio recientemente realizado en 450 grandes empresas, indica que una hora de tiempo muerto representa un promedio de pérdidas equivalente a 9.852.000 Ptas. Por lo tanto, un paro de 4 horas representa un impacto negativo de casi 40 millones en la cuenta de resultados.
(Este estudio, realizado en el mes de abril de 1.992, obtuvo información de 450 ejecutivos de Sistemas de Información al servicio de grandes empresas estadounidenses, pertenecientes a siete sectores industriales distintos. Fue publicado en diciembre de 1992 en “Software Economics Letter”, boletín mensual de “Computer Economics, Inc., en Carlsbad, California.)
Otra consecuencia de los fallos de sistemas es la pérdida de productividad. Para las empresas incluidas en el estudio, una hora de tiempo muerto del sistema, significa un promedio de pérdida de 355 horas de trabajo productivo. En muchos casos la pérdida de productividad fue aún mayor, de hecho, el 26% de las empresas estima que la pérdida del tiempo productivo supera las 500 horas por cada hora de tiempo muerto del sistema.
Los gráficos muestran la frecuencia y la duración de los fallos del sistema en las empresas estudiadas. Más de 58% de los fallos duró 2 horas o menos y más de la mitad de las empresas ha tenido más de 5 fallos en un año. Además, el 75% de los ejecutivos de Sistemas de Información piensa que en el futuro, la dependencia de sus empresas de los sistemas en línea aumentará y el 40% piensan que el creciente uso de redes de comunicaciones aumenta su vulnerabilidad ante semejantes fallos. El diagrama “Las causas de los tiempos muertos” (fig. A), muestra estadísticas sobre las causas de los paros de los sistemas.
Teniendo en cuenta todos los posibles accidentes y desastres que puede sufrir su ordenador, la planificación de contingencias debería ser una tarea de máxima prioridad para todas las empresas. Para realizarla, es necesario entender las estrategias para lograr el grado requerido de disponibilidad de su instalación central y las redes y los costes asociados a estas estrategias. Un buen punto de partida: aprender los conceptos de la disponibilidad de sistemas.
Las definiciones esenciales
No existe una definición estándar para el concepto de disponibilidad de sistemas. Sin embargo, trabajar a partir de un juego de definiciones previamente establecidas, es de importancia crítica para la elaboración de un plan de contingencias apropiado para su empresa y las necesidades de sus usuarios.
Este artículo utiliza el estándar de definiciones presentado a continuación, para cuatro términos relacionados con la disponibilidad de sistemas, que muchas veces son confundidos - o utilizados en vez de - la expresión Disponibilidad de Sistema: Alta Disponibilidad, Operación Continuada, Planificación de Contingencias y Disponibilidad Continuada. (El Plan de Recuperación de Contingencias también representa un nivel de disponibilidad)
- Alta Disponibilidad: Todos los tiempos muertos no planificados son eliminados o imperceptibles
- Operación Continuada: Todos los tiempos muertos planificados son eliminados o imperceptibles
- Planificación de Contingencias: Término utilizado frecuentemente para Alta Disponibilidad, Operación Continuada o Plan de Recuperación de Contingencias.
- Disponibilidad Continuada: Combinación de Alta Disponibilidad, Operación Continuada y de Plan de Recuperación de Contingencias.
Ahora consideremos estos términos desde la perspectiva del usuario final; después de todo, la consideración más importante respecto a un tiempo muerto, es su efecto sobre el usuario de la aplicación. Tengamos en cuenta también, que no existen escenarios “todo o nada”. La Alta Disponibilidad pura, nunca tendrá un paro de sistema perceptible, porque estos presumiblemente han sido eliminados. Sin embargo, ello puede tener un coste inaccesible en caso de algunas configuraciones o aplicaciones en particular. Puede resultar más aceptable el tener un Sistema con Alta Disponibilidad, que pueda tolerar un corto tiempo muerto. Por tanto, el grado de Alta Disponibilidad es mucho más una decisión económica que técnica, y en particular, algunas aplicaciones requerirán un nivel de disponibilidad del sistema más alto que otras.