[pgcluster: 1020] pgreplicate の大量発生
田中 美紀雄
comsosys @ mb.snowman.ne.jp
2008年 2月 20日 (水) 19:25:18 JST
田中と申します。
現在、 Apache + PHP で構築したWEBサイトのバックエンドとして
次のサーバ構成によるDBを運用していたのですが、ある日突然、
Pgreplicate が2台のクラスタサーバの両方で大量に発生し、
WEBサーバからアクセスできない状態になりました。
ここでWEBサーバを停止したところ問題の Pgreplicate は20分前後で
タイムアウトかなにかで終了しているようなのですが、次から次へと
新しい Pgreplicate が起動して来る状況となりました。
本番稼動している環境なのでデバッグモードにするわけにもいかず
収集できた情報はわずかなのですが、どなたかこのような状況に
遇われた方はいらっしゃいませんでしょうか?
何卒御助力お願い致します。
PostgreSQL 8.1.8
PGCluster 1.5.0rc16
LB × 2 + RP × 2 + CL × 2
※(LB は heartbeat を使用して冗長化)
症状は何度か発生しており以下がログになります。
1度目、2度目とも各機能のログも出ている場合と出ていない場合があり
困っております。
障害発生時(1度目)の pglb.log
-------------------------------------------------------------------------
Tue Feb 12 13:18:01 2008 pool_read: read failed (Connection reset by peer)
Tue Feb 12 13:18:01 2008 ProcessFrontendResponse(): failed to read kind
Tue Feb 12 13:20:46 2008 pool_read: EOF encountered
Tue Feb 12 13:25:42 2008 PGRload_balance():no cluster available
Tue Feb 12 13:25:42 2008 load_balance_main():load balance process failed
Tue Feb 12 13:25:42 2008 PGRload_balance():no cluster available
Tue Feb 12 13:25:42 2008 load_balance_main():load balance process failed
Tue Feb 12 13:25:44 2008 PGRload_balance():no cluster available
Tue Feb 12 13:25:44 2008 load_balance_main():load balance process failed
Tue Feb 12 13:25:44 2008 PGRload_balance():no cluster available
Tue Feb 12 13:25:44 2008 load_balance_main():load balance process failed
Tue Feb 12 13:25:44 2008 PGRload_balance():no cluster available
Tue Feb 12 13:25:44 2008 load_balance_main():load balance process failed
Tue Feb 12 13:25:44 2008 load_balance_main():no cluster available
-------------------------------------------------------------------------
障害発生時(1度目)のRP#2 の pgreplicate.log
Tue Feb 12 13:37:52 2008 Connection overflow. sleep and retrying...
Tue Feb 12 13:37:52 2008 Connection overflow. sleep and retrying...
Tue Feb 12 13:37:52 2008 Connection overflow. sleep and retrying...
Tue Feb 12 13:37:52 2008 Connection overflow. sleep and retrying...
-------------------------------------------------------------------------
障害発生時(2度目)のRP#1 の pgreplicate.log
Tue Feb 12 18:09:28 2008 PGRreturn_result():send error: 32(Broken pipe)
Tue Feb 12 18:09:28 2008 PGRreturn_result():send error: 32(Broken pipe)
Tue Feb 12 18:09:28 2008 PGRcreateConn():Retry. h_errno is 1,reason is
'could not connect to server: Connection refused
Is the server running on host "xxx.xxx.xxx.2" and accepting
TCP/IP connections on port 15432?
'
Tue Feb 12 18:09:28 2008 PGRcreateConn():Retry. h_errno is 1,reason is
'could not connect to server: Connection refused
Is the server running on host "xxx.xxx.xxx.2" and accepting
TCP/IP connections on port 15432?
'
Tue Feb 12 18:09:28 2008 PGRcreateConn():Retry. h_errno is 1,reason is
'could not connect to server: Connection refused
Is the server running on host "xxx.xxx.xxx.2" and accepting
TCP/IP connections on port 15432?
'
Tue Feb 12 18:09:28 2008 PGRcreateConn():Retry. h_errno is 1,reason is
'could not connect to server: Connection refused
Is the server running on host "xxx.xxx.xxx.2" and accepting
TCP/IP connections on port 15432?
-------------------------------------------------------------------------
障害発生時(2度目)のRP#2 の pgreplicate.log
Tue Feb 12 18:27:02 2008 PGRcreateConn():Retry. h_errno is 1,reason is
'could not connect to server: Connection refused
Is the server running on host "xxx.xxx.xxx.2" and accepting
TCP/IP connections on port 15432?
Tue Feb 12 18:27:02 2008 PGRcreateConn():Retry. h_errno is 1,reason is
'could not connect to server: Connection refused
Is the server running on host "xxx.xxx.xxx.2" and accepting
TCP/IP connections on port 15432?
Tue Feb 12 18:27:02 2008 PGRcreateConn():Retry. h_errno is 1,reason is
'could not connect to server: Connection refused
Is the server running on host "xxx.xxx.xxx.2" and accepting
TCP/IP connections on port 15432?
pgcluster メーリングリストの案内