そもそもNagiosって?監視って?

コンピュータシステムの運用となると、例えば 24H×7D (日本語的に書くと24時間365日) 稼働するといったものがあるでしょう。 場所によっては平日の営業時間に稼働というのもあります。 そんな稼働すべき時間に、そのコンピュータのハードウェア(部品)やソフトウェアが正しく稼動しているかどうかをチェックすることを「監視」(Monitoring) なんて言っています。


稼働すべき時間に稼動しているかを確認する方法としては、人間が行う場合と、コンピュータが自動で行う場合の2種類があるでしょう。 人力を使う場合でしたら、実際にそのシステムを操作してみれば良いでしょう。 この場合、システムが利用できないといった人間からの連絡をもって、システムの以上を知ることが出来ます。 コンピュータを使って自動で確認する方法としては、例えばWebサイトならば、そのWebサイトのページを表示する操作で行われるデータの取得といったものをコンピュータのプログラムで行い、設定した時間内にデータの取得が出来なければ異常と判断して通知する、といったことを行います。


人間がチェックする場合の良いところとしては、チェックする手順をコンピュータのプログラムとして書く必要がなく、わりと曖昧なことも判断してくれます。 欠点としては、人間によって判断の基準にバラつきがあったり、そもそも人間を使うこと自体が金銭的に高コストです。 またチェックする人を雇うことなく利用者からの連絡でシステムの異常を知る方法もありますが、利用者によってシステムを異常と判断する基準は、ルールを作って判断するよりも、更に曖昧なものとなってしまいます。 また、利用者がシステム管理者に連絡するのは非常に面倒なことなので、そもそも連絡がない可能性もあります。


コンピュータでチェックする場合、人間がチェックする場合の欠点はほぼ解消されます。 ただし、チェックするプログラムを正しく設定し、止まらないように運用する必要があります。


ここ数日紹介しているNagiosですが、このコンピュータによる監視を行うソフトウェアです。 http://www.nagios.org/ Linux などのUnixなOSで動作します。 他にも Zabbix ( http://www.zabbix.jp/ ) などもあります。 これらのソフトウェアを使って監視する場合、おおよそ下記のような条件を設定します。



  • Web サイトの監視の場合: 指定したURLからのデータ取得がx秒以内に完了することを確認。 x秒経っても完了しない場合には通知

  • ネットワークの監視の場合: Ping という、パケット(データ)を送信したら返答を返す機能を用いて、同様にx秒以内に返答があるかを確認。 返答がなければ異常として通知。

  • HDDなどの容量の場合: 例えばHDDの利用量が80%を超えたら警告、95%を超えたら重大、といったことを通知するように設定。

  • マシンの温度: 例えばHDDが60℃を超えたら異常、とか。

  • 部品の故障: HDDなどの場合は、故障があるとコンピュータ本体に通知したり、故障箇所の問い合わせをすると故障箇所を返答してくれる機能があります。 これらの故障診断機能を用いて、故障を発見したりします。


このように、実行しているシステムの各機能に異常な場合の条件を設定し、異常な状態になったら通知する、といったことを設定します。


この通知ですが、いくつかの方法で通知されるようにします。



  • E-mail で送信。 PC宛や携帯電話に送るなど。 地域によっては携帯電話のSMSで送信したり、昔でしたらポケットベルに送信といったものもあるようです。

  • 電話で呼び出す。 事前に決めたシステム管理者の携帯電話などに電話する、というものがあります。 「メールを受信したら、その内容を電話で知らせる」ということを業務としている会社があり、そのような会社に依頼して電話してもらう、という場合もあります。

  • 赤色回転灯を回す。 パトカーの赤色回転灯の代名詞ともなっている「パトライト」さんが、コンピュータネットワークに対応したパトライトを売っています。 http://www.patlite.jp/ 使ったこと無いけど。


ってな感じに、システム管理者はシステムの異常を知り、直したりします。 そのおかげで、Webサイトに何時見に行っても見られる、といった具合になっているのです。

コメント

このブログの人気の投稿

ICOM IC-7300 と RS-BA1 Version 2 でリモート操作

Windows 11 で Win10Pcap のアンインストール方法

大型特殊自動車免許を取った時の話。