el blog de DIMENSIS

Incidencias

18 - Mayo - 2009

Problemas en la red adsl de Telefónica

Tema: Incidencias — dim - 12:36 pm

18-05-2009 a las 12:30 horas:

Desde las primeras horas de esta madrugada hemos detectado ciertos problemas de acceso a varias ips de nuestras máquinas. No se trata de un problema general, porque afecta a un volumen reducido de ips (inferior al 5%), y porque sólo sucede desde conexiones adsl de Telefónica.

El problema detectado no supone la imposibilidad de acceder al servicio, pero si está generando timeouts, pérdida de paquetes y fallos temporales de conexión en las ips afectadas.

Dimensis ha abierto una incidencia en Telefónica, pero no tenemos previsión sobre la resolución de la incidencia. Desde Telefónica nos recomiendan que los clientes afectados comuniquen igualmente el problema a Telefónica, para que ellos tengan constancia y revisen cada caso de forma personalizada.

18-05-2009 a las 13:45 horas:

Según nos informa el equipo de atención al cliente de Telefónica se ha localizado una incidencia general a nivel nacional que afecta a la resolución de varios servidores DNS de Telefónica. La previsión de resolución es “a lo largo de la tarde de hoy”.

19-05-2009 a las 06:45 horas:

Persiste el fallo de resolución en los servidores DNS de Telefónica que impide acceder a miles de ips nacionales. A pesar que hace más de 30 horas que se detectó la incidencia, desde Telefónica no dan una estimación exacta para su resolución. Ni siquiera una explicación clara sobre el problema.

El teléfono de contacto para notificar incidencias en el servicio adsl para pymes y autónomos es el 902.357.022

19-05-2009 a las 15:15 horas:

La incidencia sigue sin resolverse y la actuación por parte de telefónica está siendo, como de costumbre, detestable. Dependiendo del número de teléfono al que se llame para comunicar la incidencia, la respuesta más habitual hoy es indicarle al cliente que no existe ningún problema, cómo han tratado de convencernos hoy mismo a las 13:30 horas. Sin embargo, a las 14:45 horas hemos recibido una llamada de Telefónica para comunicarnos que siguen trabajando en la incidencia y que efectivamente existen fallos generales a nivel nacional en el servicio de resolución DNS de la red adsl de Telefónica que impide acceder correctamente a diferentes IPs, sin especificar rangos afectados, motivos de la incidencia o una previsión para su resolución.

19-05-2009 a las 16:45 horas:

Ante la pasividad de Telefónica en resolver sus propias incidencias, nos hemos visto obligados a realizar algunos cambios en ips y enrutamiento interno del tráfico, para tratar de reducir los problemas que están sufriendo una parte de nuestros clientes.

No obstante, aunque nuestra intervención reduzca el problema, la resolución definitiva de la incidencia no se alcanzará hasta que Telefónica solucione sus problemas de software.

20-05-2009 a las 09:45 horas:

Según nos reportan varios usuarios, parece que la incidencia en Telefónica ya está prácticamente resuelta.

11 - Diciembre - 2008

Sustitución de hardware defectuoso en ESP05

Tema: Incidencias, Mantenimiento — dim - 9:12 am

Desde hace unos días se están produciendo algunos pequeños cortes en la conexión a la máquina ESP05, que afectan durante 5-6 minutos el acceso a los servicios para los clientes alojados en esa máquina.

Inicialmente se consideró que podía estar relacionado con diversos problemas detectados tras la última actualización del kernel y varias aplicaciones principales, pero la situación ha ido empeorando y los reinicios de la máquina son cada vez más frecuentes. Tras revisar detenidamente todo el software y realizar diferentes pruebas, se ha comprobado que el problema se origina en uno de los discos duros del RAID. También se han detectado algunos errores en la controladora de discos, por lo que nuestros técnicos han decidido hacer una sustitución conjunta de varios componentes del hardware.

En un primer intento se ha reemplazado el disco afectado por otro similar en stock, pero han surgido varios errores en la reconstrucción del RAID y, por precaución, se ha optado por mantener el disco viejo hasta recibir uno nuevo.

Los contenidos de esta máquina están siendo copiados diariamente a una máquina secundaria conectada a través de una segunda tarjeta ethernet, por lo que no hay riesgo de pérdida de información en el caso que el sistema de ficheros llegue a dañarse y obligue también a reemplazar el disco principal.

La previsión de entrega del nuevo disco es de 24-48 horas. Por lo que se ha programado una nueva intervención en ESP05 para hoy jueves o mañana viernes, tan pronto como se tenga disponible todos los componentes del hardware necesarios.

Viernes, 12 de diciembre:

El disco duro defectuoso ha sido reemplazado a las 12:00 horas. Tras comprobar su correcto funcionamiento, se ha procedido a “reconstruir” la estructura del RAID, de forma que desde el segundo disco que estaba almacenando correctamente los datos, se ha trasladado toda la configuración y contenidos al nuevo disco. De esta forma, no ha sido necesario hacer uso de las copias backup, y los datos del nuevo disco serán exactamente los que había en el momento de la última desconexión.

También se ha aprovechado para hacer una nueva actualización del kernel.

Esperamos que estas dos intervenciones pongan punto y final a los problemas que la máquina ha sufrido en los últimos días.

Actualización 15:00 horas

La máquina ha vuelto a fallar. El problema ya no es del disco duro, que se muestra estable y bien configurado. Los técnicos están tratando de localizar cual es el origen de los nuevos problemas, con la sospecha que se trate de un fallo de la controladora o de los puertos usb.

Al margen de intentar solventar los problemas de esta máquina, ya se ha iniciado el procedimiento para trasladar a todos los clientes a una máquina nueva. Está previsto que esto pueda realizarse a mediados o finales de la próxima semana. En primer lugar hay que realizar una configuración del sistema similar a la actual y después los clientes se irán trasladando de forma progresiva en un par de días.

Lunes, 15 de diciembre:

Desde el pasado viernes no se han producido nuevos reinicios en la máquina, por lo que la incidencia se considera definitivamente resuelta.

10 - Octubre - 2008

Tarea de mantenimiento no programada

Tema: Incidencias, Mantenimiento — dim - 12:13 pm

A las 12:51 horas ha sido necesario realizar una intervención de urgencia no programada en la red local del datacenter de San Sebastian, que ha afectado a la conexión con las máquinas y servidores virtuales con IP dentro del rango 213.195.72.XXX

A las 13:03 horas se ha restablecido por completo la conexión.

[ Ni las máquinas ni los servidores han sufrido la incidencia. Han continuado funcionando con normalidad y ejecutando sus tareas internas (rotación de logs, generación de estadísticas, etc.) Los mensajes enviados hacia y desde las máquinas también se han procesado con normalidad una vez recuperada la conectividad interna.  ]

Disculpen las molestias.

21 - Agosto - 2008

Hardware defectuoso de Ibercom provoca el cambio de máquina y traslado provisional a otro datacenter

Tema: Incidencias — dim - 10:19 am

Hace unas horas se ha detectado un nuevo fallo en el acceso al hardware de una de las máquinas alojadas en el datacenter de Ibercom en San Sebastián. La incidencia está afectando a 4 servidores virtuales privados y 3 servidores de alojamiento compartido (dimensis.es, dimensis.net y dimensis.org).

[leer noticia completa]

9 - Agosto - 2008

Compensaciones a los clientes afectados por más de 48 horas sin servicio

Tema: Incidencias — dim - 9:06 am

En Dimensis no queremos esconder nuestros errores. La situación vivida esta primera semana de agosto por parte de algunos clientes de alojamiento web y servidores virtuales ha sido realmente dramática y nos sentimos realmente disgustados.

Una de nuestras máquinas principales ha tenido una grave incidencia, que ha desencadenado otras complicaciones posteriores y ha provocado un corte en el servicio superior a 48 horas para casi un centenar de clientes.

Desde Dimensis hemos trabajado intensivamente, algunos técnicos han estado toda la incidencia sin descansar, realizando horas extras, porque no debemos olvidar que la incidencia se ha producido cuando parte de los técnicos habituales están de vacaciones. La incidencia en agosto también nos ha alargado el tiempo de respuesta por parte de algunos proveedores, además de la imposibilidad de contar con otros que están cerrados hasta mediados de agosto.

Pero no hay excusas. Sólo disculpas sinceras. Hemos hecho todo lo posible para restablecer el servicio lo antes posible. Muchos clientes no tendrán esta percepción, porque más de 48 horas sin servicio no es aceptable. Pero el resultado final de la incidencia ha sido la recuperación total de contenidos y servicios para un porcentaje superior al 90% de los clientes, a pesar que el sistema de almacenamiento RAID1 afectado todavía no ha podido recuperarse.

Dimensis ha realizado un importante esfuerzo de medios materiales, humanos y económicos. A la espera del cierre definitivo de la incidencia, el gasto económico para Dimensis ya supera los 2.000 euros, y a esa cantidad habrá que sumar las compensaciones económicas a los clientes afectados y las horas extras de los técnicos, por lo que el gasto final superará los 6.000 euros.

Han sido muchas horas de trabajo intenso, de inconvenientes, de esperas, de atención telefónica a clientes enfadados, de previsiones sin poder cumplir, …

Poco a poco la situación fue remitiendo, desde que se inició la recuperación progresiva de los servicios a las 36 horas (10%), 48 horas (30%), 55 horas (60%), 60 horas (75%) … En estos momentos todavía hay un 10% de los servicios que han podido ser recuperados, pero se estima que sólo entre un 3-5% serán realmente irrecuperables.

El departamento de atención al cliente ha habilitado el correo reclamaciones@dimensis.es para gestionar todas las quejas y reclamaciones correspondientes a esta grave incidencia. Los clientes afectados tendrán derecho a una compensación sobre su cuota de alojamiento, en función del tiempo de desconexión de sus recursos. Las compensaciones podrán oscilar entre un 25% y un 50% de la última cuota de alojamiento pagada, dependiendo de si fue una cuota anual o trimestral.

5 - Agosto - 2008

Fallo en el arranque y tabla de particiones de los discos duros del RAID1 de la máquina ESP07

Tema: Incidencias — dim - 10:16 am

Esta madrugada se ha detectado un fallo en la máquina ESP07 y se ha estado intentando reiniciarla sin éxito hasta las 09:00 horas. En ese momento, el técnico responsable ha empezado a trabajar para generar una nueva imagen de disco y restablecer el servicio desde otra máquina.

Esta nueva incidencia en ESP07 (segunda en menos de 1 semana) ha puesto al descubierto el problema real que afecta a esta máquina desde hace una semana. Al parecer se trata de un problema en el sistema backup por particiones, que ha generado varias inconsistencias en el sistema de archivos del disco principal, y que ha afectado al segundo disco duro sincronizado en tiempo real con el RAID 1.

Es una incidencia muy grave, puesto que afecta al sistema de almacenamiento de archivos (hardware), pero en realidad es un fallo del software, que provoca además una sobrecarga de CPU. Por lo tanto se trata de un fallo múltiple, que afecta a varios componentes y que tiene una solución compleja que requiere mucho tiempo de trabajo (más de 6 horas).

[leer noticia completa]

19 - Junio - 2008

Grave ataque contra una de nuestras IPs

Tema: Incidencias — dim - 4:38 pm

Ayer sufrimos el peor ataque de denegación de servicio que se recuerda desde que Dimensis se dedica a dar servicios de alojamiento en Internet. Una de nuestras IPs sufrió un brutal ataque desde varias IPs, proveedores y nacionalidades.

[leer noticia completa]

12 - Mayo - 2008

Ataque externo aprovechando un fallo de seguridad temporal

Tema: Incidencias — dim - 3:40 pm

Un spammer ha aprovechado un fallo de seguridad, después de resolver una incidencia de enrutamiento, para acceder a la máquina ESP 07 y reconfigurar el sistema para enviar spam por medio de la IP principal de la máquina.

El objetivo del atacante no ha sido acceder a datos personales, ni bloquear el servicio, ni desconfigurar el sistema. Se trató de un simple ataque para enviar varios miles de mensajes spam gratuitamente. El ataque no hubiera tenido mayor importancia si no fuera porque la reconfiguración que realizó el atacante afectó de forma crítica al sistema interno de procesamiento y entrega de correos en la máquina.

Ningún servidor virtual recibió el ataque directo del spammer, ni sufrío modificación alguna en la configuración, pero los 6 servidores virtuales que comparten ESP 07 se vieron afectados por un corte del servicio de envío de correos (SMTP con SendMail). El problema fue difícil de localizar, porque todos los servicios estaban activos y bien configurados. Todos los puertos respondían correctamente y el servicio DNS era correcto. Sin embargo, los servidores virtuales no permitían el RELAY de mensajes.

Tras varias horas de revisiones y pruebas, se identificó el problema real, que afectaba la máquina y no a los servidores virtuales, como se había pensado y como apuntaban los mensajes de error.

Se trata de un problema realmente raro, que ha servido para detectar el fallo de seguridad y resolverlo. Lamentablemente ha supuesto la imposibilidad de utilizar sendmail durante unas horas. Rogamos disculpen las molestias.

9 - Mayo - 2008

Problemas con la pasarela de correo principal

Tema: Incidencias — dim - 8:10 pm

Una incidencia crítica en la pasarela de correo principal ha provocado la interrupción del servicio de filtrado antispam desde las 17:30 horas aproximadamente. A partir de las 15:00 horas se han detectado los primeros problemas, pero han sido resueltos inicialmente. Más tarde se ha perdido la conexión con la máquina que aloja la pasarela principal y todavía no ha podido ser restablecida.

La incidencia se considera crítica porque afecta al hardware de la máquina y requiere el cambio de varios componentes. Un técnico se ha desplazado a la máquina y está trabajando para reiniciar el servicio lo antes posible.

Esta incidencia ha afectado al filtrado antispam y al servicio SMTP (Sendmail) en una veintena de servidores virtuales que utilizan esta pasarela. Para minimizar los problemas derivados, se ha desactivado el filtrado antispam de forma temporal en algunos servidores, o se ha redireccionado hacia otras pasarelas de correo secundarias.

Actualizado a las 23:00 horas: La máquina averiada ya ha sido reparada. La pasarela de correo principal se reiniciará en unos minutos y progresivamente se volverá a restablecer el servicio antispam en los servidores que quedó deshabilitado temporalmente.

Disculpen las molestias.

11 - Abril - 2008

Incidencia en el servidor central impide actualizar correctamente el software

Tema: Incidencias — dim - 7:04 am

La madrugada del 10 de abril estaba prevista una actualización del software preinstalado que forma parte de los servidores virtuales con IspManager. Todo estaba preparado y revisado, pero una incidencia en el servidor central de actualizaciones generó una actualización incorrecta en varios servidores.

Afortunadamente, el sistema de actualizaciones detecta los fallos de actualización en remoto y detiene el proceso inmediatamente. Aún así, a las 09:00 de ayer se detectó que una de las máquinas ya había iniciado la actualización incorrecta de varias aplicaciones.

La incidencia afectó algunas librerías importantes del sistema, utilizadas por casi todos los servicios, pero los técnicos pudieron restringir el problema a partir de las 12:00 horas. A pesar de los esfuerzos para realizar una reinstalación manual de las librerías afectadas  y una reconfiguración de sendmail y proftp, la resolución de la incidencia se retrasó hasta las últimas horas del día.

Desde Dimensis solicitamos disculpas por las molestias que la incidencia causó a los clientes alojados en la máquina ESP05. Se trató de subsanar lo más pronto posible, pero en este caso era imprescindible la participación de los técnicos de IspServer (empresa propietaria de IspManager y encargada del desarrollo y mantenimiento del software), por lo que el tiempo de respuesta se incrementó por encima de los plazos de intervención garantizados por Dimensis.

Next Page »