el blog de DIMENSIS

Blog sobre los servicios de alojamiento web y servidores de DIMENSIS

Sustitución de hardware defectuoso en ESP05

Posted on | diciembre 11, 2008 | No Comments

[ Translate to English ] [ Traduir al català ]

Desde hace unos días se están produciendo algunos pequeños cortes en la conexión a la máquina ESP05, que afectan durante 5-6 minutos el acceso a los servicios para los clientes alojados en esa máquina.

Inicialmente se consideró que podía estar relacionado con diversos problemas detectados tras la última actualización del kernel y varias aplicaciones principales, pero la situación ha ido empeorando y los reinicios de la máquina son cada vez más frecuentes. Tras revisar detenidamente todo el software y realizar diferentes pruebas, se ha comprobado que el problema se origina en uno de los discos duros del RAID. También se han detectado algunos errores en la controladora de discos, por lo que nuestros técnicos han decidido hacer una sustitución conjunta de varios componentes del hardware.

En un primer intento se ha reemplazado el disco afectado por otro similar en stock, pero han surgido varios errores en la reconstrucción del RAID y, por precaución, se ha optado por mantener el disco viejo hasta recibir uno nuevo.

Los contenidos de esta máquina están siendo copiados diariamente a una máquina secundaria conectada a través de una segunda tarjeta ethernet, por lo que no hay riesgo de pérdida de información en el caso que el sistema de ficheros llegue a dañarse y obligue también a reemplazar el disco principal.

La previsión de entrega del nuevo disco es de 24-48 horas. Por lo que se ha programado una nueva intervención en ESP05 para hoy jueves o mañana viernes, tan pronto como se tenga disponible todos los componentes del hardware necesarios.

Viernes, 12 de diciembre:

El disco duro defectuoso ha sido reemplazado a las 12:00 horas. Tras comprobar su correcto funcionamiento, se ha procedido a “reconstruir” la estructura del RAID, de forma que desde el segundo disco que estaba almacenando correctamente los datos, se ha trasladado toda la configuración y contenidos al nuevo disco. De esta forma, no ha sido necesario hacer uso de las copias backup, y los datos del nuevo disco serán exactamente los que había en el momento de la última desconexión.

También se ha aprovechado para hacer una nueva actualización del kernel.

Esperamos que estas dos intervenciones pongan punto y final a los problemas que la máquina ha sufrido en los últimos días.

Actualización 15:00 horas

La máquina ha vuelto a fallar. El problema ya no es del disco duro, que se muestra estable y bien configurado. Los técnicos están tratando de localizar cual es el origen de los nuevos problemas, con la sospecha que se trate de un fallo de la controladora o de los puertos usb.

Al margen de intentar solventar los problemas de esta máquina, ya se ha iniciado el procedimiento para trasladar a todos los clientes a una máquina nueva. Está previsto que esto pueda realizarse a mediados o finales de la próxima semana. En primer lugar hay que realizar una configuración del sistema similar a la actual y después los clientes se irán trasladando de forma progresiva en un par de días.

Lunes, 15 de diciembre:

Desde el pasado viernes no se han producido nuevos reinicios en la máquina, por lo que la incidencia se considera definitivamente resuelta.

Comments

Comments are closed.