[pgsql-jp: 34765] Re: pgpoolが無応答になる

Tatsuo Ishii t-ishii @ sra.co.jp
2005年 1月 29日 (土) 08:32:54 JST


石井です.

> 伊藤です。
> 
> pgpoolのソースをダウンロードさせて頂きました。
> まさか、作者の方とお話しているとは、思いませんでした。
> 私の意見に耳を傾けて頂いて大変恐縮です。
> どうもありがとうございます。 > 石井様

こちらこそお手数お掛けしています.

> さて、これまでの経緯をまとめてみました。
> 
> (1)  1、2日に1回ぐらいの頻度でpgpoolが応答しなくなる。
> (2)  (1)発生時、pgpoolを動かしているサーバは、CPU使用率が100%。
> (3) (1)発生時、pgpool経由でSQLを発行しても、応答なし。
> (4)  pgpoolサーバと、WEB1,2の間は、普通のSW-HUB。
> (5)  現象発生時、負荷の高そうなpgpoolに対してstraceをかけたが、
>        正常に動いているように見える。(select,acceptのログ)
>        このときは、2秒間で8回の接続があった。
> (6)  再度現象発生時、straceをかけた結果も、正常に動いているログだった。
> (7)  (6)のpgpoolは起動時に、-d -n をつけているにも関わらず、pgpool
>      のデバッグログが出力されていない。
> 
> 気になる事
> (ア)  (1)、(3)でpgpoolが応答しないと言う事になっているにも関わらず、
>         (5)、(6)の結果からは、誰かが接続して正常に動いているという結論に
>         なってしまうこと。
> (イ)   (6)で、pgpoolのデバッグログが出力されないこと。
> 
> 推論
> 本当に、pgpoolがハングアップ状態、もしくは、永久ループしている事が
> 原因で、この現象が発生しているのでしょうか?

そうなんですよね.最初は単純に無限ループかと思ったのですが,どうも別の
原因を疑った方がよいような気がしてきました.

> あるとうれしい情報
> 現象発生時の、 vmstat 1 の結果。(30秒ほどたったら、Ctrl+Cで止めてください)
> 現象発生時の、ps の結果。(全プロセス、親プロセスID、ロングフォーマットがうれしいです)
> 現象発生時の、netstat -a の結果。
> pgpoolサーバの、dmesg
> 上記コマンドの出力結果のうち、公開出来ない部分は適当にマスクしてもらって結構です。

こちらも週末にソースを追ってみます.
--
Tatsuo Ishii



pgsql-jp メーリングリストの案内