[pgsql-jp: 37721] Re: INDEX を残したまま大量データを高速に挿入したい

Daisuke Yamazaki yamajaki @ gmail.com
2006年 11月 24日 (金) 14:28:05 JST


山崎です.

PostgreSQLの話とはどんどんずれていくのですが..

On Fri, 24 Nov 2006 11:33:24 +0900
河本陽一 <komoto.yoichi @ kcc.co.jp> wrote:

> こうもとです。
> 
> NAITO Masaaki さんの書いたこと:
> > 元のデータがどのように供給されるか分かりませんが、データベース外で
> > ソートと集計をしたらどうでしょうか。
> 
>  元のデータは、複数のテキストファイルです。
>  各ファイル500M程度あるので、これを加工とかは難しいです。
>  このファイルの形式を変えることはできません。

最近のマシンは非常に高性能なので,500M程度のファイルだったら
結構リーズナブルな時間で処理できちゃったりします.

例えば1100万行,712MBなファイルに対して下記の処理(rev+sortを2回)をやると7
分くらいで終了しました(なおソートエリアのディスクを別ディスクにしてます).

% rev  data1000.tsv  |sort -T ~/work | rev | sort -T ~/work > ./hoehoe

DBMSに任せると安全とかいろいろありますが,参考まで.

-- 
プログラマ集団 スケールアウト
Daisuke Yamazaki <yamajaki @ gmail.com>
Blog:最速配信研究会
http://d.hatena.ne.jp/yamaz/




pgsql-jp メーリングリストの案内