人間の障害検知は難しい

サーバやストレージなどの機器は全社的な業務を支えているため、何らかの方法で監視されていることが多い。監視したからといって故障しないわけではないが、回避できたはずのトラブルを未然に防止することが出来るからだ。HDDが1本だけ壊れたとか、冗長化されている電源の1つが壊れたなど、気がつきさえすれば機器を止めることすらなく対処できるトラブルも多い。監視は「していなくても普段は問題ない」だけにおざなりにされていたり、正しく監視できているか継続的に確認することを怠ってしまっていたりするが、監視は運用における重要な要素であることを忘れてはいけないだろう。
障害対策には大きくわけて2通りの方法があって、「壊れないようにする」ことと「壊れても大丈夫なようにする」ことがある。また、どのレベルでこれらの対策を取るかということも考える必要がある。最終的にはシステムを保持することが目的ではなく、サービスを維持することが目的なのだから、いってしまえばどんなレベルでシステムが壊れてもユーザからみてサービスが継続されてさえいればいいわけだ。どんなに信頼性の高い機械を使用したとしても、1台で運用していて壊れたらそれでおしまいだ。たとえ1週間に1度止まってしまう機械を使っていたとしても、100台で動いていて何台か壊れてもサービスを継続できるのであれば、その方が優れたシステムだといえる。
さて、では社会において人間は監視するべきモジュールなのだろうか。中央集中的なシステムではないので、そういう意味では単一の障害が全体に及ぼす影響はそこまで致命的ではない。しかし、人間を冗長化することは難しい。また、ちょっとしたトラブルであっても「監視」によって検知することは難しい。気がついたときにはもう遅いということもある。そしてなんといっても、人間の場合は「結果としてのサービスさえ継続されていればいい」といいきってしまっていいものなのかどうかという点が単なるシステムとは違う課題として存在する。
だからこそ、対策ではなく予防に重点がおかれるわけだが、逆に多くの人間が社会というシステムを構成しているために、個々に対応した予防を行うこともまた難しい。
きっと根本的な対応策はないはずだ。だからこそ、人間の障害を検知できるのは人間だけなのだから、人間は日々考え続けていく必要がある。