Introducción a la Clasificación TIER
Imagina que necesitas elegir un vehículo para transportar un cargamento valioso. Podrías seleccionar
desde una motocicleta básica hasta un camión blindado con múltiples sistemas de seguridad. La elección
dependería del valor de la carga y las consecuencias de perderla. De manera similar, cuando hablamos de
centros de datos, la clasificación TIER nos proporciona un marco estandarizado para evaluar su
confiabilidad y disponibilidad.
La clasificación TIER fue desarrollada por el Uptime Institute —organización líder mundial en
certificación y asesoría para infraestructura crítica— como un método objetivo para evaluar el
desempeño, la inversión y el retorno que ofrecen las distintas infraestructuras de centros de datos en
términos de disponibilidad de servicio.
Como lo describe el propio Uptime Institute:
"El sistema de Clasificación TIER evalúa el rendimiento potencial de la infraestructura instalada de
un sitio en términos de tiempo de actividad. Define los requisitos y beneficios de cuatro
clasificaciones de topologías de infraestructura de centros de datos, y establece criterios para
diferenciar la capacidad de estas infraestructuras para mantener la disponibilidad del sitio."
Este sistema de clasificación, que se ha convertido en el estándar de facto a nivel mundial, establece
cuatro niveles progresivos (TIER I, II, III y IV) que describen la robustez de la infraestructura física
del centro de datos y, en consecuencia, su capacidad para mantener las operaciones frente a diversos
eventos disruptivos, desde fallos de equipos hasta catástrofes mayores.
Niveles TIER Detallados: Del I al IV
Cada nivel TIER representa un salto significativo en términos de redundancia, tolerancia a fallos y
capacidad para realizar mantenimientos sin interrupciones. Veamos en detalle cada uno:
TIER I: Infraestructura Básica
El nivel más elemental de la clasificación proporciona una infraestructura dedicada para sistemas TI,
separada de los espacios de oficina, pero con capacidades limitadas de resistencia ante eventos
disruptivos.
Características clave:
- Sin redundancia en componentes críticos
- Un unico camino para distribución de energía y refrigeración
- Susceptible a interrupciones por eventos planeados e imprevistos
- Disponibilidad anual típica del 99.671% (equivalente a unas 29 horas de inactividad al año)
- Requiere apagado completo para mantenimientos
- Posee generador de respaldo, pero sin garantía de funcionar ante fallos
Casos de uso: Pequeñas empresas con necesidades tecnológicas básicas, entornos donde
algunas horas de inactividad anual no representan un impacto crítico, o como complemento a operaciones
principales alojadas en instalaciones de mayor nivel.
TIER II: Componentes Redundantes
Este nivel introduce el concepto fundamental de redundancia parcial, mejorando significativamente la
disponibilidad frente al TIER I.
Características clave:
- Redundancia básica en componentes críticos (N+1)
- Un unico camino para distribución, pero con elementos redundantes
- UPS y generadores con capacidad N+1
- Sistemas de refrigeración con cierta redundancia
- Disponibilidad anual típica del 99.741% (aproximadamente 22 horas de inactividad al año)
- Sigue siendo vulnerable a interrupciones durante mantenimientos planificados
Casos de uso: Empresas medianas donde la tecnología es importante pero no crítica para
la operación minuto a minuto, instalaciones educativas, gobiernos locales, y organizaciones con
presupuestos más ajustados que necesitan un buen nivel de confiabilidad.
TIER III: Mantenimiento Concurrente
El salto al TIER III representa un cambio fundamental en la filosofía de diseño, introduciendo la
capacidad crítica de realizar mantenimiento sin detener operaciones.
Características clave:
- Múltiples caminos para distribución de energía y refrigeración, pero solo uno activo
- Todos los componentes son concurrentemente mantenibles (pueden recibir mantenimiento sin
interrupción del servicio)
- Redundancia N+1 en todos los sistemas críticos
- Sin puntos únicos de fallo que causen interrupción
- Disponibilidad anual típica del 99.982% (menos de 1.6 horas de inactividad al año)
- El mantenimiento no requiere apagado de equipos
- Sigue siendo vulnerable a algunos eventos críticos o errores humanos
Casos de uso: Proveedores de servicios IT, empresas donde la tecnología es crítica
para el negocio, instituciones financieras, hospitales, centros de colocación comerciales, y compañías
con operaciones internacionales 24/7.
TIER IV: Tolerancia a Fallos
El nivel más alto y robusto de la clasificación está diseñado para soportar fallos severos o eventos
catastróficos sin impacto en las cargas críticas.
Características clave:
- Completamente tolerante a fallos
- Múltiples sistemas activos independientes (2N o 2N+1)
- Compartimentación física para evitar que un evento afecte todos los sistemas
- Cuatro caminos de distribución eléctrica independientes
- Disponibilidad anual típica del 99.995% (aproximadamente 26 minutos de inactividad al año)
- Capacidad para soportar el peor escenario de fallo sin afectar la carga crítica
- Protección contra prácticamente todos los escenarios físicos excepto desastres naturales mayores
Casos de uso: Infraestructuras de importancia nacional, grandes instituciones
financieras, procesadores de pagos, empresas cuyo modelo de negocio depende totalmente de la
disponibilidad digital (como bolsas de valores, grandes plataformas de e-commerce o servicios cloud
globales).
Disponibilidad y SLAs por Nivel
El porcentaje de disponibilidad es quizás el indicador más visible y comprensible de la clasificación
TIER, pero estas cifras aparentemente similares esconden diferencias dramáticas en términos prácticos:
Nivel TIER |
Disponibilidad |
Tiempo de inactividad anual |
SLA típico ofrecido |
TIER I |
99.671% |
28.8 horas |
No suele ofrecer SLA garantizado |
TIER II |
99.741% |
22.7 horas |
99.5% (en algunos casos) |
TIER III |
99.982% |
1.6 horas |
99.9% - 99.95% |
TIER IV |
99.995% |
0.4 horas (26 minutos) |
99.99% - 100% |
Es fundamental entender la diferencia real que estos porcentajes representan en términos operativos:
Diferencia entre 99% y 99.9% de disponibilidad: El salto del 99% (87.6 horas de
inactividad anual) al 99.9% (8.76 horas) representa una mejora de magnitud 10x. Esto puede significar la
diferencia entre perder un día completo de operaciones cada mes versus menos de una hora mensual.
El costo verdadero del tiempo caído: Según estudios de la industria, el costo promedio
de inactividad para empresas medianas y grandes oscila entre $5,600 y $9,000 por minuto. Para
organizaciones de misión crítica como instituciones financieras, este valor puede superar los $100,000
por minuto. Así, el salto de TIER II a TIER III podría representar un ahorro potencial de millones de
dólares anuales en costos por interrupciones.
SLAs y penalizaciones: Los Acuerdos de Nivel de Servicio (SLAs) que ofrecen los
proveedores de centros de datos están directamente relacionados con su certificación TIER. Estos
acuerdos suelen incluir penalizaciones financieras si no se cumple el nivel de disponibilidad prometido,
lo que representa un compromiso formal respaldado por garantías económicas.
Costos, Inversión y Beneficios por Nivel
La elección entre diferentes niveles TIER implica un equilibrio entre inversión inicial, costos
operativos y nivel de protección. Conocer esta relación es fundamental para tomar decisiones informadas:
Estructura de Costos por Nivel
Si tomamos como referencia base el costo de un centro de datos TIER I (100%), la relación aproximada de
costos por nivel sería:
- TIER I: 100% (base de comparación)
- TIER II: 130% (+30% sobre TIER I)
- TIER III: 170% (+70% sobre TIER I)
- TIER IV: 240% a 300% (+140% a +200% sobre TIER I)
Estos incrementos cubren principalmente:
- Equipamiento adicional: Sistemas redundantes, componentes de respaldo, UPS
adicionales
- Infraestructura física: Mayor espacio para equipamiento, compartimentación,
refuerzos estructurales
- Sistemas especializados: Protección contra incendios avanzada, monitorización
compleja, automatización
- Costos operativos: Personal más especializado, mantenimiento más riguroso, pruebas
regulares
El Retorno de la Inversión (ROI)
El ROI de invertir en niveles TIER superiores debe evaluarse considerando:
- Costo de inactividad: ¿Cuánto cuesta cada minuto de interrupción para el negocio?
- Riesgo reputacional: ¿Cómo afectaría una interrupción prolongada a la confianza de
clientes y socios?
- Requisitos regulatorios: ¿Existen normativas sectoriales que impongan niveles
mínimos de disponibilidad?
- Ventaja competitiva: ¿Puede la mayor disponibilidad convertirse en un diferenciador
en el mercado?
Para muchas empresas, el punto óptimo suele encontrarse en el TIER III, que ofrece un equilibrio
razonable entre alta disponibilidad y costos controlados. Sin embargo, organizaciones donde cada minuto
de inactividad tiene impactos millonarios suelen inclinarse por el TIER IV a pesar de su costo
significativamente mayor.
El Proceso de Certificación TIER
Obtener una certificación TIER oficial del Uptime Institute es un proceso riguroso que implica múltiples
fases y evaluaciones. Es importante destacar que muchos centros de datos afirman cumplir con cierto
nivel TIER sin contar con la certificación formal, lo que puede generar confusión en el mercado.
Tipos de Certificaciones
El Uptime Institute ofrece cuatro tipos de certificaciones que cubren diferentes aspectos y etapas del
ciclo de vida de un centro de datos:
-
Certification of Design Documents (TCDD): Certifica que los planos y especificaciones
de diseño cumplen con los requisitos del nivel TIER solicitado. Es el primer paso y se realiza antes
de la construcción.
-
Certification of Constructed Facility (TCCF): Verifica que la instalación construida
cumple efectivamente con los requisitos del nivel TIER. Incluye inspecciones físicas y pruebas de
sistemas.
-
Certification of Operational Sustainability (TCOS): Evalúa aspectos de gestión y
operación que afectan el rendimiento a largo plazo, como procedimientos, dotación de personal,
formación y ubicación.
-
Certification of Performance Verification: Implica pruebas de demostración completas
de los sistemas en condiciones de fracaso, verificando que la instalación opera según lo diseñado
durante eventos críticos.
Pasos del Proceso
El recorrido hacia la certificación TIER suele seguir la siguiente ruta:
-
Pre-evaluación: Análisis preliminar para identificar cualquier deficiencia en el
diseño o implementación.
-
Presentación de documentación: Entrega de planos detallados, especificaciones
técnicas y cálculos que demuestren cumplimiento.
-
Revisión de diseño: Ingenieros del Uptime Institute evalúan la documentación técnica
(para TCDD).
-
Visita e inspección: Evaluación in situ de la instalación construida (para TCCF).
-
Pruebas de validación: Simulación de escenarios de fallo para verificar el
comportamiento real de los sistemas (para CPV).
-
Correcciones: Implementación de cambios si se identifican desviaciones respecto a los
estándares.
-
Certificación final: Emisión del certificado oficial que especifica el nivel TIER
alcanzado.
Certificación vs. "TIER-Ready" o "TIER-Compatible"
Es crucial distinguir entre instalaciones con certificación oficial y aquellas que solo afirman ser
"compatibles" con cierto nivel. Esta diferencia puede ser importante para:
- Cumplimiento de requisitos contractuales con clientes exigentes
- Verificación independiente de capacidades reales
- Negociación con aseguradoras (las instalaciones certificadas suelen obtener mejores primas)
- Demostración formal de compromiso con estándares de calidad
Consideraciones para Elegir el Nivel Adecuado
La selección del nivel TIER apropiado debe ser una decisión estratégica basada en múltiples factores, no
solo en preferir "lo mejor posible". Las organizaciones deben evaluar:
1. Análisis de Impacto en el Negocio (BIA)
El punto de partida debe ser un análisis formal que determine:
- Costo cuantificable por hora/minuto de interrupción
- Pérdidas indirectas (reputación, confianza del cliente, oportunidades perdidas)
- Tiempo máximo tolerable de interrupción para aplicaciones críticas
- Impacto acumulativo de interrupciones frecuentes pero cortas versus eventos raros pero prolongados
2. Evaluación de Requisitos Regulatorios
Ciertos sectores tienen normativas específicas que pueden determinar el nivel mínimo aceptable:
- Sector financiero: Regulaciones como CNBV en México pueden requerir niveles altos
de disponibilidad
- Salud: Normativas sobre protección de datos médicos
- Gobierno: Requisitos específicos para infraestructura crítica nacional
- Telecomunicaciones: Estándares regulatorios para servicios esenciales
3. Alineación con Arquitectura TI Global
El nivel TIER debe ser coherente con la estrategia general de disponibilidad:
- Estrategia de recuperación ante desastres
- Arquitectura multi-sitio y distribución geográfica
- Balance entre redundancia física y soluciones basadas en software
- Modelo de escalabilidad a futuro
4. Consideraciones Presupuestarias Realistas
El análisis financiero debe incluir:
- Costo total de propiedad (TCO) a 5-10 años
- Capacidad para mantener los costos operativos incrementales
- Costo de oportunidad versus otras inversiones tecnológicas
- Posibilidad de implementación por fases (diseño que permita evolucionar de un nivel a otro)
5. Escenarios Híbridos y Enfoque Selectivo
Una estrategia cada vez más común es implementar diferentes niveles TIER para distintos componentes o
cargas de trabajo:
- Aplicaciones de misión crítica en espacios TIER IV
- Sistemas importantes pero no críticos en áreas TIER III
- Entornos de desarrollo y pruebas en infraestructura TIER II
- Utilización de servicios cloud como complemento para ciertos escenarios
Esta aproximación selectiva permite optimizar la inversión y dirigir los recursos hacia donde realmente
importan, evitando el sobredimensionamiento costoso pero innecesario para toda la infraestructura.
Conclusión: Más Allá de los Números
La clasificación TIER proporciona un lenguaje común y un marco de referencia valioso para evaluar
centros de datos, pero no debe convertirse en un fin en sí mismo ni en una simple competición de
números. Lo verdaderamente importante es que la infraestructura seleccionada responda a las necesidades
reales del negocio y ofrezca el equilibrio óptimo entre inversión y protección.
En un panorama tecnológico cada vez más complejo, donde las arquitecturas híbridas y multi-nube son la
norma, la clasificación TIER sigue siendo relevante pero debe integrarse en una estrategia más amplia de
resiliencia digital que considere no solo la infraestructura física, sino también la arquitectura de
aplicaciones, la seguridad, la recuperación ante desastres y la continuidad del negocio.
Recordemos que incluso el centro de datos TIER IV más sofisticado debe complementarse con buenas
prácticas operativas, personal capacitado y procesos rigurosos para entregar realmente el valor
prometido.