Costo del Riesgo TI

Hoy en día es muy difícil encontrar una empresa de tamaño medio a grande que no se apoye en una infraestructura computacional para las operaciones de su negocio. El grado de dependencia que la empresa tenga de esta infraestructura determina el efecto sobre los resultados del negocio que pueda implicar una eventual falla de sus Tecnologías Informáticas (TI), esto nos lleva plantear que:

A mayor dependencia de las TI, la empresa está más expuesta ante una falla de las TI.

O, dicho de otra manera:

El riesgo TI es mayor, en tanto mayor sea la dependencia del negocio de las TI.

Debe considerarse que teniendo en cuenta todos los avances tecnológicos aún se producen fallas en las bases de datos, hardware y software; además de los errores humanos de operación. Las fallas –caídas de sistema– pueden durar desde minutos a varios días. Y, tienen un impacto negativo sobre el negocio en términos de dinero y de reputación.

De manera, que una falla de las TI, en particular una relacionada con alguna aplicación crítica para el negocio, indefectiblemente tendrá un costo para la empresa. En las secciones siguientes revisaré las causas más probables de una falla, la estimación de su costo y cómo mitigar el Riesgo TI.

Falla TI

En términos simples una Falla TI es cualquier evento que deja inoperativa a las TI para dar el soporte operacional pertinente al negocio, independientemente si el origen es una falla de hardware, software, comunicaciones o humana, lo relevante es que el servicio se interrumpe. Al tiempo que media entre el inicio de la falla y el momento de la reactivación de los servicios se denomina downtime o tiempo de caída del sistema.

Por consiguiente, se puede postular que:

A mayor downtime mayor es el costo para el negocio.

Luego, para gestionar las Fallas TI hay dos aspectos principales a considerar:

  • Cómo disminuir la probabilidad de ocurrencia de una Falla TI. Esto lleva a sistemas redundantes, a prueba de fallas y a un exhaustivo control de calidad.
  • Cómo, en presencia de una Falla TI, disminuir el Los elementos principales para ello son disponer de infraestructura TI específica para ser utilizada en caso de una falla y a Planes de Contingencia actualizados y conocidos por el personal.

Causas de un Falla

Hardware

Con un 55% [1], la falla de hardware es la causa número uno de downtime para pequeñas y medianas empresas. Aun si se disponen múltiples niveles de redundancia de varios componentes, como múltiples fuentes de alimentación, controladores de red y discos duros, nadie puede predecir cuándo el aire acondicionado fallará en un día caluroso, qué evento imprevisto desencadenará un apagón generalizado, o qué la fibra óptica será dañada por una operación de construcción en lugares aledaños a la empresa.

Las fallas en la red de área de almacenamiento –Storage Area Network– (SAN) se encuentran entre los desastres por fallos de hardware que experimentan muchas pequeñas y medianas empresas. Es común que estas empresas tengan una SAN grande, y todos los servidores de almacenamiento virtualizados en esa SAN. Desafortunadamente, esto significa que cuando la SAN falla, el entorno entero de una empresa falla con él.

Errores humanos

Según el informe de la referencia [1], el 22% de los desastres son causados por errores humanos. Esto podría incluir borrar accidentalmente un sistema de archivos en un servidor, operar inadecuadamente un proceso manual, modificar los parámetros del Sistema Operativo, asignar privilegios a quién no corresponde, etc. En general, las fallas humanas tienen una correlación directa con factores como: experiencia, capacitación y responsabilidad de los colaboradores.

Software

Una falla del software ocupa el tercer lugar en los desastres generales con un 18%, y no es de extrañar, dado el número de parches ­–correcciones– enviados rutinariamente por los proveedores de software o los desarrolladores que trabajan para una empresa. El problema radica en la falta de atención a la prueba de parches antes de ser enviados, lo que resulta en la corrupción de las aplicaciones que pueden comprometer a los sistemas, al punto de colocarlos inoperativos.

Los sistemas operativos, componente de software fundamental,  que han estado fallando  durante algún tiempo y que requieren re-inicializaciones frecuentes, finalmente fallan.

Y no se debe pasar por alto el impacto que los virus, malware, ransomware y otros tienen.

De acuerdo con ANSI91, la Confiabilidad de Software se define como: la probabilidad de funcionamiento de software sin fallos durante un período de tiempo especificado en un entorno especificado. Aunque la Confiabilidad del Software se define como una función probabilística y viene con la noción de tiempo, se debe tener en cuenta que, a diferencia de la Confiabilidad de Hardware tradicional, la Confiabilidad del Software no es una función directa del tiempo. Las piezas electrónicas y mecánicas pueden volverse «viejas» y agotarse con el tiempo y el uso, pero el software no se oxida ni se desgasta durante su ciclo de vida. El software no cambiará con el tiempo a menos que sea intencionalmente cambiado o actualizado.

Las empresas están expuestas a amenazas externas o internas: virus, sustracción de datos, ransomware, etc. Las partes afectadas pueden ir desde la infraestructura de toda la empresa hasta aplicaciones específicas. Es evidente que un ataque de ésta naturaleza a un organización le puede generar daños de consideración.

Desastres naturales

Dado que los huracanes, terremotos, inundaciones y similares son a menudo los primeros que vienen a la mente cuando se considera la palabra “desastre”, es irónico que los desastres naturales comprendan sólo un 5% de las causas reales del tiempo de inactividad. Sin embargo, sus efectos son desbastadores.

Estimación de Costo del Downtime

La lista siguiente incluye los conceptos de costo más evidentes en relación a una Falla TI:

  1. Ingresos de Venta Perdidos.
  2. Baja de precios de las acciones[2].
  3. Impacto en la experiencia de los clientes. Quiebre en la confianza.
  4. Cuando sea aplicable, violaciones del cumplimiento de contratos, compromisos comerciales o pérdida de materiales o productos.
  5. Encontrar la causa: Costos de detección incurridos para investigar el incidente de interrupción parcial o completa.
  6. Mantenimiento de la interrupción contenida: Costos incurridos para evitar que una interrupción se extienda, empeore o cause mayor trastorno.
  7. Costo de recuperación: Costos incurridos para recuperar a su estado normal las redes, servidores y sistemas de su organización.
  8. Costo de respuesta ex post: Todos los costos incidentales posteriores al hecho asociados con la interrupción y recuperación de negocios.
  9. Costo del equipo: El costo de las adquisiciones de nuevos equipos y el de reparaciones de equipos existentes. Se incluyen las renovaciones de equipos a que obligó la Falla TI.
  10. Pérdida de productividad de TI: El tiempo perdido y los gastos relacionados asociados con el tiempo de inactividad del personal de TI.
  11. Pérdida de productividad del usuario: El tiempo perdido y los gastos relacionados asociados con el tiempo de inactividad del usuario final.
  12. Costo de terceros: El costo de los contratistas y el trabajo del proyecto.

Mitigación del Riesgo TI

  • Chequear los SLA –Service Level Agreement / Niveles de Servicio Contratados– con los proveedores y socios claves.
  • Monitorear permanentemente los sistemas críticos.
  • Contar con una infraestructura computacional, de comunicaciones y de instalaciones adecuada y, actualizada.
  • Planes de Capacitación.
  • Respaldos / Backup.
  • Planes de Contingencia.
  • Mejoramiento continuo de los Procesos de Negocios.

 

Referencias

[1]  http://www.continuitycentral.com/news06645.html

[2]  Wharton, Corporate Strategies for Managing Catastrophic Risks in the S&P 500 (preliminary study), 2013

Deja un comentario