GlasterFsで、分散ファイルサーバーを構築し、webサーバー(apache)から そのサーバーをマウントしているwebサービスにおいて、webサーバーのcpu load averageが高くなる現象が発生しました。
glasterFsへのアクセスプロセスのCPU使用率が高い状態だったので、glasterFsが影響しているまではわかるものの、
cpu負荷は下がったり、高負荷になったりを繰り返していたため、しばらく監視していました。
結局、不安定な状態が続いたので、httpdを再起動しました。
httpdのプロセスのどれかが、glasterFsへのアクセスプロセスを、ずっとキープしてしまい、io waitを起こし、cpuを不安定にさせていたことは確かです。
こういった場合、影響を与えているhttpdプロセスを特定して、そのプロセスをkillするか、
特定が難しい場合は httpdを再起動する処理が必要です。当然ですが、プロセスを切らない reload httpdでは直りません。
systemctl restart httpdで対処し、処理時間は 1分くらい。httpdの再起動処理時間が、通常より長くかかりました。
glasterFsは、CPU使用率が高いことが ネット上でも複数報告されています。
対応として 分散ファイルサーバー(glasterFs)のCPUスペックを上げたところ 現在安定して稼働しています。