生成TPC-H資料集

卡卡西村長發表於2018-10-19

下載tpc-h tool 版本有點老,2.14.3,夠用了。

 

在解壓的資料夾下面cd到dbgen下,找到makefile.suite。

~/tpch_2_14_3$ cd dbgen
~/tpch_2_14_3/dbgen$ vim makefile.suite

-----------------------------

CC = gcc
# Current values for DATABASE are: INFORMIX, DB2, TDAT (Teradata)
# SQLSERVER, SYBASE, ORACLE, VECTORWISE
# Current values for MACHINE are: ATT, DOS, HP, IBM, ICL, MVS,
# SGI, SUN, U2200, VMS, LINUX, WIN32
# Current values for WORKLOAD are: TPCH
DATABASE = MYSQL
MACHINE = LINUX
WORKLOAD = TPCH

---------------------------------

  • 設定C語言編譯器為gcc(如果你用的是其他的編譯器就改成其他對應名字)
  • DATABASE設為MYSQL(注意註釋裡寫的提供的資料庫格式沒有mysql,所以等一下要自己寫一個格式,見步驟3)
  • MACHINE = LINUX 和 WORKLOAD = TPCH 就不用說啥意思了……

改好之後儲存為makefile,這樣才好用make命令。

 

修改tpcd.h

#ifdef MYSQL
#define GEN_QUERY_PLAN  ""
#define START_TRAN      "START TRANSACTION"
#define END_TRAN        "COMMIT"
#define SET_OUTPUT      ""
#define SET_ROWCOUNT    "limit %d;\n"
#define SET_DBASE       "use %s;\n"
#endif

開始構建
~/tpch_2_14_3/dbgen$ make

生成tbl資料檔案

接下來要用dbgen生成資料,一共會生成8個表(.tbl)。

檢視README裡面有命令列引數解說,這裡我們在dbgen目錄下用

./dbgen -s 1

-s 1 表示生成1G的資料 (如果你之前曾經嘗試過生成資料,最好先make clean,再重新make,接著到這步加上-f覆蓋掉)

生成之後可以用head命令檢查一下tbl們,會看到每一行都有一些用“|”隔開的欄位。

 

壓縮包裡自帶兩個指令碼:

  • dss.ddl:用來建表
  • dss.ri:關聯表中primary key和foreign key。

相關文章