el blog de DIMENSIS

Blog sobre los servicios de alojamiento web y servidores de DIMENSIS

Hardware defectuoso de Ibercom provoca el cambio de máquina y traslado provisional a otro datacenter

Posted on | agosto 21, 2008 | No Comments

[ Translate to English ] [ Traduir al català ]

Hace unas horas se ha detectado un nuevo fallo en el acceso al hardware de una de las máquinas alojadas en el datacenter de Ibercom en San Sebastián. La incidencia está afectando a 4 servidores virtuales privados y 3 servidores de alojamiento compartido (dimensis.es, dimensis.net y dimensis.org).

12:55 horas: El servicio ha quedado totalmente restablecido, tras resolver un problema con los módulos de memoria.

13:00 horas: A pesar que el servicio ha sido restablecido durante unos minutos, poco después ha vuelto a perderse la conexión. En estos momentos estamos trabajando en el firewall y en shell local para detectar cuál es el origen de la sobrecarga del software.

13:15 horas: Hemos recuperado el acceso remoto al hardware, pero la conexión normal con la máquina está bloqueada desde el firewall hasta que se identifiquen los accesos que sobrecargan la máquina. Esperamos resolver definitivamente la incidencia antes de las 14:00 horas.

15:00 horas: No está siendo posible recuperar el servicio. Todos los esfuerzos no logran recuperar el funcionamiento y en cada paso aparecen errores nuevos. Desde el datacenter están haciendo todo lo posible para colocar una máquina nueva durante el día de hoy.

16:45 horas: Los problemas de sobrecarga y de ataque externo no han hecho más que ocultar el problema real en el sistema raid1 de la máquina.

Los técnicos han determinado que nos encontramos de nuevo ante un fallo del sistema de almacenamiento y será necesario reemplazar la máquina, los discos duros y recuperar los contenidos del disco averiado. No se prevee ninguna nueva pérdida de contenidos, pero la restauración del servicio puede alargarse unas 10 horas.

Dos de nuestros responsables se han desplazado a San Sebastián esta tarde para coordinar los trabajos.

21:00 horas: Se ha logrado recuperar el acceso al disco y corregir los problemas del RAID. En estos momentos se trabaja para recuperar las particiones del disco principal. Este proceso puede tardar en completarse entre tres y cuatro horas.

Viernes, 22 de agosto: 03:00 horas: Los técnicos van a proceder al reinicio de la máquina y chequeo de los servicios principales. Si todo es correcto los servicios podrían restablecerse en 1 hora.

Viernes, 22 de agosto: 04:30 horas: Se han resuelto algunos pequeños problemas y se está realizando una copia backup general, antes de poner de nuevo la máquina online.

Viernes, 22 de agosto: 06:00 horas: Todos los servicios han sido restablecidos.

Pese a comunicar en varias ocasiones, desde principios de agosto, el fallo de los sistemas RAID1 y de los discos duros de la máquina ESP07, propiedad de Ibercom, no se ha intervenido la máquina ni han reemplazado el hardware hasta que los discos duros han sido inservibles.
Debido al deficiente servicio recibido por parte de Ibercom, en esta última incidencia y en las dos anteriores que afectaron a esta misma máquina, se ha decidido dar de baja esta máquina y trasladar todos sus recursos a otro datacenter.

Sábado, 30 de agosto: 06:00 horas: Se ha completado el traslado de todos los contenidos a una nueva máquina en otro datacenter.

Comments

Comments are closed.