Si hay una utilidad de monitorización conocida por todo administrador de sistemas es Nagios, aunque en muchas ocasiones he visto como se utiliza unicamente para monitorizar servicios dejando de lado el estado del hardware de las máquinas, en este mini how-to vamos a explicar como monitorizar el estado del RAID de los servidores con las herramientas que nos proporcionen los fabricantes.
En nuestro caso tenemos servidores de dos tipos, dependiendo de la controladora que tengamos, unos pueden ser monitorizados con la utilidad de DELL OMSA (OpenManage Server Administrator) imagino que cualquiera que disponga de servidores DELL ya conoce la herramienta, en el otro caso utilizaremos la utilidad mpt-status.
La instalación en ambos casos es muy sencilla, en máquinas con CentOS 5 de 64 bits para instalar OMSA:
# wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi | bash # yum install srvadmin-all # srvadmin-services.sh start
Lo que hemos hecho ha sido instalar el repositorio oficial de DELL en la máquina (con las firmas y todo lo que necesita) instalar todos los modulos y luego arrancar los servicios de monitoring, incluyendo el interfaz web del omsa.
Una vez hecho esto podemos comprobar que funciona:
# omreport storage controller Controller PERC 6/i Integrated (Embedded) Controllers ID : 0 Status : Non-Critical Name : PERC 6/i Integrated Slot ID : Embedded State : Degraded Firmware Version : 6.0.3-0002 Minimum Required Firmware Version : 6.2.0-0012 Driver Version : 00.00.04.08-RH2 Minimum Required Driver Version : Not Applicable Storport Driver Version : Not Applicable Minimum Required Storport Driver Version : Not Applicable Number of Connectors : 2 Rebuild Rate : 30% BGI Rate : 30% Check Consistency Rate : 30% Reconstruct Rate : 30% Alarm State : Not Applicable Cluster Mode : Not Applicable SCSI Initiator ID : Not Applicable Cache Memory Size : 256 MB Patrol Read Mode : Auto Patrol Read State : Stopped Patrol Read Rate : 30% Patrol Read Iterations : 111 Abort Check Consistency on Error : Not Applicable Allow Revertible Hot Spare and Replace Member : Not Applicable Load Balance : Not Applicable Auto Replace Member on Predictive Failure : Not Applicable Redundant Path view : Not Applicable Persistent Hot Spare : Not Applicable Security Capable : Not Applicable Security Key Present : Not Applicable Spin Down Unconfigured Drives : Not Applicable Spin Down Hot Spares : Not Applicable
Y para instalar mpt-status, podemos optar por descargar un RPM o compilarlo, yo optaria por lo sencillo si podeis elegir, en mi caso descargo el RPM de la version de 64bits:
# wget http://repo.nixval.com/nixval-centos/5/updates/mpt-status-1.2.0-72.x86_64.rpm # rpm -i mpt-status-1.2.0-72.x86_64.rpm
Una vez tenemos los 2 sistemas de monitorización para cada tipo de servidor, nos queda enlazarlo con nuestro Nagios, para ello utilizaremos 2 plugins que podemos descargar de su propia web de nagios exchange, en el primer caso utilizaremos el check_openmanage, y para el mpt-status el check_mpt.
Para poder utilizar estas herramientas en nuestros servidores vamos a instalar el plugin NRPE, este plugin permite a nuestro servidor Nagios ejecutar comandos y obtener los resultados de servidores remotos, hay otras alternativas por snmp que ofrecen similares resultados, pero esta es de las mas sencillas de configurar.
En nuestro caso, hemos instalado el paquete RPM de NRPE del repositorio rpmforge, si no lo teneis activo tendreis que instalarlo primero (en caso de tener una CentOS 5 de 64 bits, en caso contrario visitad la web de Dag para seleccionar el correcto):
# rpm -Uhv http://apt.sw.be/redhat/el5/en/x86_64/rpmforge/RPMS//rpmforge-release-0.3.6-1.el5.rf.x86_64.rpm
Una vez instalado el repositorio, instalamos el paquete nagios-nrpe:
# yum install nagios-nrpe
Una vez instalado, nos descargamos los plugins check_openmanage, o check_mpt segun proceda, y los ponemos en un directorio de nuestra elección, en nuestro caso el RPM de check_openmanage nos crea la estructura de directorios de nagios “/usr/lib64/nagios/plugins/” en el caso del check_mpt podemos optar por crear ese mismo directorio y darle permisos de ejecución.
Ahora tendremos que configurar en el fichero /etc/nagios/nrpe.cfg las lineas importantes que son estas (en el caso de openmanage):
command[check_storage]=/usr/lib64/nagios/plugins/check_openmanage -b ctrl_fw=all/ctrl_driver=all --only storage
Una vez configurado, reiniciamos nrpe:
service nrpe reload Y ya tendriamos acceso desde nuestro nagios a la monitorización del estado del RAID.