Un sistema de monitoreo permanente: el principio básico para evitar las caídas de tu centro de datos. Parte 1

Home » Blog » Un sistema de monitoreo permanente: el principio básico para evitar las caídas de tu centro de datos. Parte 1

¡Bienvenido una vez más al blog de TKmE®! Queremos comenzar esta nueva entrada, que dividiremos en dos partes, hablando de que hoy en día, la continuidad operativa de cualquier negocio es fundamental. La evolución constante hace que los centros de datos se encuentren en constante movimiento para lograr cumplir con las necesidades de una operación continua y eficiente. Y como veremos a continuación, el monitoreo se nos presenta como un aliado excepcionar ante los retos actuales.

La realidad absoluta del costo que representa la “caída” de los sistemas de información, en la mayoría de los casos, es desconocida e inclusive incalculable. Las organizaciones desean evitar a toda costa que esto suceda. Sin embargo, es común que se cuente con fallas y desastres que se presentan en diversos momentos, por lo general, cuando no hay gente operativa en el sitio. La sorpresa de encontrarse con este tipo de problemáticas es común y las empresas invierten en soluciones complejas de operar, procedimientos y redundancias en sus equipos.

¿Cuáles son las principales causas de las caídas?

Diversas estadísticas, como la que publicó el Instituto Ponemon este mismo año informan que la mayoría de las “caídas” de los centros de datos son ocasionadas por las siguientes razones:

  1. Fallo en UPS
  2. Hackers
  3. Errores humanos
  4. Problemas en los aires acondicionados
  5. Falla en la planta de emergencia
  6. Falla en los equipos de TI

La lista anterior revela que la infraestructura es el principal punto débil dentro de las Tecnologías de la Información (TI), y ni qué decir de la parte humana que, por desconocimiento, falta de tiempo o de herramientas adecuadas, genera incertidumbre en la continuidad de un negocio. Nuestra falta de cultura al respecto o la ignorancia en materia de los costos que representa la falta de continuidad nos lleva a invertir en nueva infraestructura y evita la inversión correcta, que debe orientarse siempre a la prevención y la eficiencia.

Algunas soluciones son costosas y difíciles de implementar

Muchas encuestas indican que la inversión en los próximos dos o tres años se concentrará  en herramientas conocidas como DCIM´s (Data Center Infraestructure Management, por sus siglas en inglés) para la parte de gestión, eficiencia, optimización de recursos físicos, disminución de impactos en los procesos del negocio y manutención de los estándares de los SLA´s (Service Level Agreement, por sus siglas en inglés).

No obstante, la experiencia demuestra que la elección correcta de una solución de este tipo y la correspondiente implementación pueden convertirse en procesos tortuosos e inoperantes. Y esto es lógico, pues la implementación de este tipo de soluciones, que pueden ser complejas, requiere mantenerse actualizada y con un grupo de gente, bien capacitada, operándola bajo ciertos lineamientos rigurosos.

Más allá de una solución DCIM de la marca que sea, se requiere de elecciones e implementaciones correctas bajo los procedimientos dictados a partir de toda una serie de análisis previos, así como de actualizaciones constantes de la información a fin de mantenerlas al día. De la misma manera que ocurrió con los sistemas  ERP hace más de una década, se prevé que los DCIM tengan un boom en los próximos años y que su costo de implementación sea bastante significativo.

De lo anterior se deduce que habrá complicaciones en cuestión de tiempos y costos, y es evidente que no todas las empresas podrán contar en el corto plazo con una solución de este tipo, que sin duda se vuelve esencial en estos momentos en los que es necesario mantener la continuidad operativa. Sin embargo, actualmente existen soluciones menos complejas y menos costosas que resuelven gran parte de la problemática, e incluso pueden servir como una base para crecer a soluciones más complejas en un futuro.

¿Realmente existe conciencia de los riesgos de una caída?

Durante la experiencia que hemos tenido y en un estudio de mercado que realizamos en 200 empresas, hicimos, entre otras, las siguientes preguntas:

  • ¿Has sido proactivo ante posibles fallas del centro de datos?
  • ¿Visualizas todas las variables críticas del centro de datos en un solo lugar y con un solo aplicativo?
  • ¿Cuántas soluciones de monitoreo ambiental y eléctrico conoces?
  • ¿Cuántas veces has tenido una caída de tu centro de datos o alguna falla en los últimos 12 meses?
  • ¿Conoces el costo que representa una “caída” de sistema dentro de tu organización?

A través de su retroalimentación, encontramos que más del 67% de las empresas encuestadas no son proactivas y que más del 70% han tenido alguna falla y no cuentan con herramientas de monitoreo, o en su caso no saben utilizarlas. Asimismo, se revela que desconocen por completo el costo financiero que esto representa. Y si hablamos de la eficiencia, se trata de un tema que en la mayoría de los casos queda en el olvido. Por fortuna, un buen número de empresas ya ha aplicado medidas correctivas a partir de estos datos.

Todos los directores de las empresas desean que su operación sea continua, por lo cual es necesario minimizar cualquier posible falla en la operación de una organización. Tradicionalmente, la resolución de estos problemas se ha enfocado en diversas medidas de precaución e inversiones considerables en todo lo que sea necesario para evitar una falla o, peor aún, un desastre. Inclusive se invierte en DRP´s (Disaster Recovery Plan, por su siglas en inglés). Pero es una realidad que para mejorar es necesario medir, monitorear y contar con información valiosa que nos permita tomar decisiones adecuadas para poder planear y ser más proactivos en el día a día.

En busca de centros de datos saludables, el monitoreo es la mejor opción

Desde cualquier punto de vista, es fundamental contar con una herramienta de monitoreo adecuada para una organización ya que nos proporcionará gran tranquilidad. Si además de eso, logramos que la solución sea sencilla de operar, administrar, instalar e implementar, entonces daremos un importante paso en cuanto a prevención de fallas y procederemos a planear adecuadamente, terminando por ser eficientes al contar con un centro de datos “saludable”.

Las soluciones de este tipo no necesariamente deben de ser costosas ni complejas de implementar. Es importante conocer lo que deseamos monitorear. En este sentido, el levantamiento de información es el punto clave para conocer las necesidades reales que se tienen, y es el procedimiento que permitirá definir las mediciones a realizar con base en el asesoramiento de expertos. Entre las consideraciones generales mínimas que se deben de tener y que de manera ideal se deben de cumplir están las siguientes:

  1. Debemos recordar que las mediciones son de tipo puntual. Por lo tanto, es necesario medir la temperatura en los lugares adecuados (salida de aire, retorno de aire, servidores, equipos críticos, etc.)
  2. Un tema importante de medir. Es el “cáncer de los equipos”. Comúnmente no se mide a pesar de que las pérdidas por corrosión son constantes.
  3. Derrame de líquidos. Las tuberías y caídas de agua son sorpresivas en cualquier momento y en ocasiones no las visualizamos (debajo del piso falso).
  4. Apertura de puertas. Pérdida de aire que genera costos en consumos eléctricos.
  5. Corriente y voltaje:
    1. CFE.
    2. Entrada y salida de los UPS.
    3. Planta de emergencia.
    4. Los PDU.
  6. Planta de emergencia. El nivel de diésel.

Lo ideal es que todo lo anterior sea centralizado en una sola pantalla. Sin embargo, debemos considerar que la mayoría de las organizaciones no tendrán un centro de operaciones 24/7 para monitorear estos factores. Es prácticamente incosteable. Es por ello que un sistema de monitoreo debe de alertar de diversas maneras que permitan ver que algún elemento se ha salido de su parámetro establecido y que debe de estar bajo las normas de un centro de datos.

Por ahora es momento de poner una pausa, pero no te pierdas la próxima entrada del blog en la que comentaremos de qué manera deben gestionarse las alertas emitidas cuando algún parámetro se rompe. Al mismo tiempo, seguiremos presentando valiosa información que nos lleve al desarrollo óptimo de nuestros centros de datos y te contaremos de qué manera TKmE® es capaz de brindarte las mejores soluciones. ¡Te esperamos!

Posted on