el blog de DIMENSIS

Blog sobre los servicios de alojamiento web y servidores de DIMENSIS

Fallo en el arranque y tabla de particiones de los discos duros del RAID1 de la máquina ESP07

Posted on | agosto 5, 2008 | No Comments

[ Translate to English ] [ Traduir al català ]

Esta madrugada se ha detectado un fallo en la máquina ESP07 y se ha estado intentando reiniciarla sin éxito hasta las 09:00 horas. En ese momento, el técnico responsable ha empezado a trabajar para generar una nueva imagen de disco y restablecer el servicio desde otra máquina.

Esta nueva incidencia en ESP07 (segunda en menos de 1 semana) ha puesto al descubierto el problema real que afecta a esta máquina desde hace una semana. Al parecer se trata de un problema en el sistema backup por particiones, que ha generado varias inconsistencias en el sistema de archivos del disco principal, y que ha afectado al segundo disco duro sincronizado en tiempo real con el RAID 1.

Es una incidencia muy grave, puesto que afecta al sistema de almacenamiento de archivos (hardware), pero en realidad es un fallo del software, que provoca además una sobrecarga de CPU. Por lo tanto se trata de un fallo múltiple, que afecta a varios componentes y que tiene una solución compleja que requiere mucho tiempo de trabajo (más de 6 horas).

12:00 horas:

Poco antes de las 12:00 horas hemos logrado corregir los problemas en el sistema de archivos backup y particiones. Ya se ha recuperado el acceso remoto a la máquina y se han arrancado algunos servicios. También se han verificado los contenidos de los servidores virtuales y la última copia backup completa (2 de agosto).

Estamos trabajando para reiniciar los servicios de cada servidor virtual, con los contenidos y configuraciones intactos tal y como estaban antes de la incidencia (5 de agosto).

14:15 horas:

El proceso de copia de configuraciones y revisión de particiones todavía no se ha completado. Los intentos de realizar todas las copias y reactivar los sistemas de forma automática han fallado y ponen en peligro una recuperación total del servicio. Por este motivo, se ha decidido realizar el proceso de forma manual. Aunque sea mucho más lento, es más seguro de cara a la recuperación completa y un reinicio seguro de los servicios.

No hay una previsión de finalización. De hecho, se irán completando las copias y se irán reiniciando de forma secuencial, según el orden marcado por el disco duro, por lo que es posible que los servicios empiecen a recuperarse entre las 16:00 y las 20:00 horas. Pero no podemos concretar cuando estará resuelto para cada cliente.

20:00 horas:

Tras diferentes intentos de reiniciar el servicio desde la máquina y el disco afectados, ya se ha comprobado que es imposible. Se está trabajando desde hace varias horas en copiar todos los contenidos actualizados del disco duro deteriorado y así remontar los servicios desde una nueva máquina que se está configurando con la misma versión freebsd y las mismas configuraciones. El proceso es lento y se ha estimado que serán necesarias unas 16 horas, por lo que se prevee que mañana por la mañana los servicios ya podrían estar de nuevo operativos.

22:30 horas:

Seguimos trabajando en la recuperación de configuraciones y contenidos. La velocidad de generación de los backups es bastante lenta, porque el disco está más dañado de lo que se preveía. La velocidad de lectura y copiado del disco es demasiado baja en algunos sectores y eso ralentiza mucho el proceso.

De todos modos, los técnicos que realizan el copiado preveen terminarlo alrededor de la medianoche. después se empezará a restaurar los backups en una máquina nueva o en otros servidores virtuales de los clientes (si disponen de más de uno).

Además, se espera la llegada de un técnico especializado en recuperación de discos duros para tratar de recuperar el funcionamiento del disco y hacer una copia-imagen que pueda utilizarse en la misma máquina. Eso permitiría recuperar más rápidamente todos los servicios, sin cambios ni alteraciones en los contenidos. Pero antes de trabajar sobre el disco se ha decidido copiar todo manualmente, por si algo fallase en la recuperación automática.

6 de agosto: 01:30 horas:

Ya se ha finalizado con la copia de todos los contenidos del disco duro que ha sido posible. Durante la copia se ha observado que algunos sectores defectuosos han provocado fallos de consistencia y algunas carpetas de varias particiones no se han podido copiar. No obstante, el porcentaje de contenidos salvados supera el 95% (más de 200 GBs).

6 de agosto: 04:00 horas:

Tras efectuar varias correcciones sobre el disco duro, se ha determinado que los defectos no son compatibles con la continuidad del servicio, por lo que se ha reemplazado el disco y se está procediendo a la reconstrucción del RAID. Este proceso suele tardar entre 30 segundos y 1 minuto por GB, por lo que esperamos que se complete en un plazo entre 2 y 4 horas.

6 de agosto: 07:00 horas:

El proceso de reconstrucción del RAID todavía no se ha completado. Si finaliza con éxito todos los recursos deberían quedar nuevamente accesibles a lo largo de esta mañana. Pero si la reconstrucción falla, se tendrán que trasladar todos los contenidos y configuraciones a una nueva máquina y el plazo de tiempo necesario aumentaría considerablemente.

6 de agosto: 11:00 horas:

Finalmente la reconstrucción del sistema de almacenamiento no ha sido posible. Ya se está trabajando para restaurar las copias backup en una nueva máquina que ayer se provisionó y en la que esta madrugada ya se ha instalado la versión existente en la máquina ESP07 (FreeBSD 6.3).

También se están utilizando otras máquinas de Dimensis en activo para restaurar backups de servidores virtuales privados lo antes posible. El primero de los 10 servidores afectados ya ha sido recuperado parcialmente.

Ahora los técnicos de software comprobarán la instalación y procederán a personalizar el entorno para adaptarlo a VDSmanager (aplicación que gestiona las máquinas) y después realizar el volcado de las configuraciones de cada ISPmanager (licencias para entornos de servidores virtuales).

Si no surgen complicaciones con el nuevo hardware, el proceso debería dejar lista la máquina para iniciar la restauración de los backups antes de las 15:00 horas.

6 de agosto: 15:30 horas:

Hace unos minutos se ha iniciado la restauración de los backups generales. Este proceso tardará aproximadamente 1 hora y media, por lo que calculamos que alrededor de las 18:00 horas ya comenzará la restauración de los servidores virtuales y sus dominios alojados.

No podemos decir en qué momento exacto será restaurado un dominio concreto o un servidor virtual. Pero desde las 18:00 horas se iniciarán los primeros servicios y el proceso será ininterrumpido hasta que finalicemos con todos los recursos alojados. Debido a la gran cantidad de archivos y configuraciones de usuarios, es posible que el proceso tarde en completarse entre 6 y 9 horas.

6 de agosto: 19:30 horas:

Se ha restaurado parcialmente el segundo de los servidores virtuales afectados.

7 de agosto: 06:30 horas:

A las 05:00 horas ya se había completado el 50% de las restauraciones de servidores virtuales. Pero se han localizado nuevos fallos en la estructura de archivos de algunos servidores virtuales pendientes de reactivar. Nuestros técnicos están trabajando para resolverlos. En esta ocasión la previsión de resolución es de aproximadamente 4 horas, por lo que entre las 12:00 y las 13:00 horas se prevee restablecer el servicio en los servidores virtuales de ESP07 que todavía no han sido reiniciados.

7 de agosto: 10:30 horas:

El departamento de atención al cliente está preparando un servicio especial de reclamaciones para atender a todos los afectados por la incidencia, a partir del momento en que se de por finalizada. También se habilitará un correo especial para el intercambio de comunicaciones.

El servicio telefónico está teniendo algunos problemas debido a sobrecargas en la línea. Ya se ha contactado con la empresa Vodafone para tratar de habilitar un nuevo número si los problemas no pueden ser resueltos en las próximas horas.

7 de agosto: 15:00 horas:

Ya se han logrado recuperar 7 de los 10 servidores que estaban alojados en la máquina ESP07. En estos momentos, todos los servidores de alojamiento compartido vuelven a funcionar correctamente (con un porcentaje de errores inferior al 5% después de recuperar los backups, con fecha 3 de agosto).

La incidencia general ya puede darse por finalizada, pero los técnicos siguen trabajando en los 3 restantes. A partir de este momento, se modifica el alcance de la incidencia desde el grado “general” al “parcial”, ya que afecta a un porcentaje inferior al 20% de la utilización de la máquina.

Los problemas ahora, una vez recuperados los servicios y las configuraciones, están surgiendo por algunos backups incompletos, corruptos o con problemas para restaurarlos correctamente.

Siguiendo con las previsiones, hoy quedarán definitivamente restablecidos todos los servicios en todos los servidores. Aunque mañana abriremos una nueva incidencia para tratar los problemas surgidos después de la restauración de los backups.

7 de agosto: 19:00 horas:

Ya se han restablecido todos los servidores, con la excepción de dos servidores virtuales privados. Ambos son los más afectados por el fallo del sistema de archivos y sus copias backups y archivos más recientes están demasiado dañados para utilizarse directamente.

Técnicos especializados en recuperación de datos ya están trabajando para intentar recuperar las informaciones.

8 de agosto: 10:00 horas:

Hoy se ha reiniciado el servicio de otro servidor virtual, aunque parcialmente a las espera de recuperar el contenido de sus páginas web. Todos los demás servicios funcionan correctamente.

Se continúa trabajando para recuperar los datos del último servidor virtual privado afectado por la incidencia.

El departamento de atención al cliente ha habilitado el correo reclamaciones@dimensis.es para gestionar todas las quejas y reclamaciones correspondientes a esta grave incidencia. Los clientes afectados tendrán derecho a una compensación sobre su cuota de alojamiento, en función del tiempo de desconexión de sus recursos. Las compensaciones podrán oscilar entre un 25% y un 50% de la última cuota de alojamiento pagada, dependiendo de si fue una cuota anual o trimestral.

Comments

Comments are closed.