[pgcluster: 1020] pgreplicate の大量発生

田中 美紀雄 comsosys @ mb.snowman.ne.jp
2008年 2月 20日 (水) 19:25:18 JST


田中と申します。

現在、 Apache + PHP で構築したWEBサイトのバックエンドとして
次のサーバ構成によるDBを運用していたのですが、ある日突然、
Pgreplicate が2台のクラスタサーバの両方で大量に発生し、
WEBサーバからアクセスできない状態になりました。
ここでWEBサーバを停止したところ問題の Pgreplicate は20分前後で
タイムアウトかなにかで終了しているようなのですが、次から次へと
新しい Pgreplicate が起動して来る状況となりました。
本番稼動している環境なのでデバッグモードにするわけにもいかず
収集できた情報はわずかなのですが、どなたかこのような状況に
遇われた方はいらっしゃいませんでしょうか?

何卒御助力お願い致します。

PostgreSQL 8.1.8
PGCluster 1.5.0rc16

LB × 2 + RP × 2 + CL × 2
※(LB は heartbeat を使用して冗長化)

症状は何度か発生しており以下がログになります。
1度目、2度目とも各機能のログも出ている場合と出ていない場合があり
困っております。

障害発生時(1度目)の pglb.log

-------------------------------------------------------------------------

Tue Feb 12 13:18:01 2008  pool_read: read failed (Connection reset by peer)
Tue Feb 12 13:18:01 2008  ProcessFrontendResponse(): failed to read kind
Tue Feb 12 13:20:46 2008  pool_read: EOF encountered
Tue Feb 12 13:25:42 2008  PGRload_balance():no cluster available
Tue Feb 12 13:25:42 2008  load_balance_main():load balance process failed
Tue Feb 12 13:25:42 2008  PGRload_balance():no cluster available
Tue Feb 12 13:25:42 2008  load_balance_main():load balance process failed
Tue Feb 12 13:25:44 2008  PGRload_balance():no cluster available
Tue Feb 12 13:25:44 2008  load_balance_main():load balance process failed
Tue Feb 12 13:25:44 2008  PGRload_balance():no cluster available
Tue Feb 12 13:25:44 2008  load_balance_main():load balance process failed
Tue Feb 12 13:25:44 2008  PGRload_balance():no cluster available
Tue Feb 12 13:25:44 2008  load_balance_main():load balance process failed
Tue Feb 12 13:25:44 2008  load_balance_main():no cluster available

-------------------------------------------------------------------------

障害発生時(1度目)のRP#2 の pgreplicate.log

Tue Feb 12 13:37:52 2008  Connection overflow. sleep and retrying...
Tue Feb 12 13:37:52 2008  Connection overflow. sleep and retrying...
Tue Feb 12 13:37:52 2008  Connection overflow. sleep and retrying...
Tue Feb 12 13:37:52 2008  Connection overflow. sleep and retrying...


-------------------------------------------------------------------------

障害発生時(2度目)のRP#1 の pgreplicate.log

Tue Feb 12 18:09:28 2008  PGRreturn_result():send error: 32(Broken pipe)
Tue Feb 12 18:09:28 2008  PGRreturn_result():send error: 32(Broken pipe)
Tue Feb 12 18:09:28 2008  PGRcreateConn():Retry. h_errno is 1,reason is
'could not connect to server: Connection refused
 Is the server running on host "xxx.xxx.xxx.2" and accepting
 TCP/IP connections on port 15432?
'
Tue Feb 12 18:09:28 2008  PGRcreateConn():Retry. h_errno is 1,reason is
'could not connect to server: Connection refused
 Is the server running on host "xxx.xxx.xxx.2" and accepting
 TCP/IP connections on port 15432?
'
Tue Feb 12 18:09:28 2008  PGRcreateConn():Retry. h_errno is 1,reason is
'could not connect to server: Connection refused
 Is the server running on host "xxx.xxx.xxx.2" and accepting
 TCP/IP connections on port 15432?
'
Tue Feb 12 18:09:28 2008  PGRcreateConn():Retry. h_errno is 1,reason is
'could not connect to server: Connection refused
 Is the server running on host "xxx.xxx.xxx.2" and accepting
 TCP/IP connections on port 15432?


-------------------------------------------------------------------------

障害発生時(2度目)のRP#2 の pgreplicate.log

Tue Feb 12 18:27:02 2008  PGRcreateConn():Retry. h_errno is 1,reason is
'could not connect to server: Connection refused
 Is the server running on host "xxx.xxx.xxx.2" and accepting
 TCP/IP connections on port 15432?

Tue Feb 12 18:27:02 2008  PGRcreateConn():Retry. h_errno is 1,reason is
'could not connect to server: Connection refused
 Is the server running on host "xxx.xxx.xxx.2" and accepting
 TCP/IP connections on port 15432?

Tue Feb 12 18:27:02 2008  PGRcreateConn():Retry. h_errno is 1,reason is
'could not connect to server: Connection refused
 Is the server running on host "xxx.xxx.xxx.2" and accepting
 TCP/IP connections on port 15432?






pgcluster メーリングリストの案内