el blog de DIMENSIS

Monthly Archive

Agosto 2008

21 - Agosto - 2008

Hardware defectuoso de Ibercom provoca el cambio de máquina y traslado provisional a otro datacenter

Tema: Incidencias — dim - 10:19 am

Hace unas horas se ha detectado un nuevo fallo en el acceso al hardware de una de las máquinas alojadas en el datacenter de Ibercom en San Sebastián. La incidencia está afectando a 4 servidores virtuales privados y 3 servidores de alojamiento compartido (dimensis.es, dimensis.net y dimensis.org).

[leer noticia completa]

9 - Agosto - 2008

Compensaciones a los clientes afectados por más de 48 horas sin servicio

Tema: Incidencias — dim - 9:06 am

En Dimensis no queremos esconder nuestros errores. La situación vivida esta primera semana de agosto por parte de algunos clientes de alojamiento web y servidores virtuales ha sido realmente dramática y nos sentimos realmente disgustados.

Una de nuestras máquinas principales ha tenido una grave incidencia, que ha desencadenado otras complicaciones posteriores y ha provocado un corte en el servicio superior a 48 horas para casi un centenar de clientes.

Desde Dimensis hemos trabajado intensivamente, algunos técnicos han estado toda la incidencia sin descansar, realizando horas extras, porque no debemos olvidar que la incidencia se ha producido cuando parte de los técnicos habituales están de vacaciones. La incidencia en agosto también nos ha alargado el tiempo de respuesta por parte de algunos proveedores, además de la imposibilidad de contar con otros que están cerrados hasta mediados de agosto.

Pero no hay excusas. Sólo disculpas sinceras. Hemos hecho todo lo posible para restablecer el servicio lo antes posible. Muchos clientes no tendrán esta percepción, porque más de 48 horas sin servicio no es aceptable. Pero el resultado final de la incidencia ha sido la recuperación total de contenidos y servicios para un porcentaje superior al 90% de los clientes, a pesar que el sistema de almacenamiento RAID1 afectado todavía no ha podido recuperarse.

Dimensis ha realizado un importante esfuerzo de medios materiales, humanos y económicos. A la espera del cierre definitivo de la incidencia, el gasto económico para Dimensis ya supera los 2.000 euros, y a esa cantidad habrá que sumar las compensaciones económicas a los clientes afectados y las horas extras de los técnicos, por lo que el gasto final superará los 6.000 euros.

Han sido muchas horas de trabajo intenso, de inconvenientes, de esperas, de atención telefónica a clientes enfadados, de previsiones sin poder cumplir, …

Poco a poco la situación fue remitiendo, desde que se inició la recuperación progresiva de los servicios a las 36 horas (10%), 48 horas (30%), 55 horas (60%), 60 horas (75%) … En estos momentos todavía hay un 10% de los servicios que han podido ser recuperados, pero se estima que sólo entre un 3-5% serán realmente irrecuperables.

El departamento de atención al cliente ha habilitado el correo reclamaciones@dimensis.es para gestionar todas las quejas y reclamaciones correspondientes a esta grave incidencia. Los clientes afectados tendrán derecho a una compensación sobre su cuota de alojamiento, en función del tiempo de desconexión de sus recursos. Las compensaciones podrán oscilar entre un 25% y un 50% de la última cuota de alojamiento pagada, dependiendo de si fue una cuota anual o trimestral.

5 - Agosto - 2008

Fallo en el arranque y tabla de particiones de los discos duros del RAID1 de la máquina ESP07

Tema: Incidencias — dim - 10:16 am

Esta madrugada se ha detectado un fallo en la máquina ESP07 y se ha estado intentando reiniciarla sin éxito hasta las 09:00 horas. En ese momento, el técnico responsable ha empezado a trabajar para generar una nueva imagen de disco y restablecer el servicio desde otra máquina.

Esta nueva incidencia en ESP07 (segunda en menos de 1 semana) ha puesto al descubierto el problema real que afecta a esta máquina desde hace una semana. Al parecer se trata de un problema en el sistema backup por particiones, que ha generado varias inconsistencias en el sistema de archivos del disco principal, y que ha afectado al segundo disco duro sincronizado en tiempo real con el RAID 1.

Es una incidencia muy grave, puesto que afecta al sistema de almacenamiento de archivos (hardware), pero en realidad es un fallo del software, que provoca además una sobrecarga de CPU. Por lo tanto se trata de un fallo múltiple, que afecta a varios componentes y que tiene una solución compleja que requiere mucho tiempo de trabajo (más de 6 horas).

[leer noticia completa]