[pgsql-jp: 37721] Re: INDEX を残したまま大量データを高速に挿入したい
Daisuke Yamazaki
yamajaki @ gmail.com
2006年 11月 24日 (金) 14:28:05 JST
山崎です.
PostgreSQLの話とはどんどんずれていくのですが..
On Fri, 24 Nov 2006 11:33:24 +0900
河本陽一 <komoto.yoichi @ kcc.co.jp> wrote:
> こうもとです。
>
> NAITO Masaaki さんの書いたこと:
> > 元のデータがどのように供給されるか分かりませんが、データベース外で
> > ソートと集計をしたらどうでしょうか。
>
> 元のデータは、複数のテキストファイルです。
> 各ファイル500M程度あるので、これを加工とかは難しいです。
> このファイルの形式を変えることはできません。
最近のマシンは非常に高性能なので,500M程度のファイルだったら
結構リーズナブルな時間で処理できちゃったりします.
例えば1100万行,712MBなファイルに対して下記の処理(rev+sortを2回)をやると7
分くらいで終了しました(なおソートエリアのディスクを別ディスクにしてます).
% rev data1000.tsv |sort -T ~/work | rev | sort -T ~/work > ./hoehoe
DBMSに任せると安全とかいろいろありますが,参考まで.
--
プログラマ集団 スケールアウト
Daisuke Yamazaki <yamajaki @ gmail.com>
Blog:最速配信研究会
http://d.hatena.ne.jp/yamaz/
pgsql-jp メーリングリストの案内