Cascalog簡介

std1984發表於2014-09-09
環境: CentOS 5.7,  CDH 4.2.0

Cascalog是一款基於cascading和hadoop上用clojure定義的DSL。由於clojure的後設資料和函式程式設計正規化,它很好地定義函式和查詢。

下面講解下使用場景:

1. 使用lein建立一個工程
lein cascalog_incanter

2. 切入到cascalog_incanter,編輯project.clj 如下所示:

(defproject cascalog_incanter "0.1.0-SNAPSHOT"
  :description "FIXME: write description"
  :url ""
  :license {:name "Eclipse Public License"
            :url ""}
  :dependencies [[org.clojure/clojure "1.6.0"]
                 [cascalog/cascalog-core "2.1.1"]
                 [incanter "1.5.5"]]
  :repositories [["conjars.org" ""]
               ["cloudera" ""]]
  :profiles {
              :provided {
                         :dependencies [
                                        ;[org.apache.hadoop/hadoop-core "1.2.1"] ; Apache Hadoop MapReduce v1
                                        ;[org.apache.hadoop/hadoop-core "2.0.0-mr1-cdh4.2.0"] ; CDH 4.2.0 MapReduce v1
                                        [org.apache.hadoop/hadoop-common "2.0.0-cdh4.2.0" ] ; Cloudera Hadoop 4.2.0 YARN
                                        [org.apache.hadoop/hadoop-mapreduce-client-core "2.0.0-cdh4.2.0" ] ; Cloudera Hadoop 4.2.0 MapReduce v2
                                        ]
                         }
             :dev {
                   :dependencies [
                                  [org.apache.hadoop/hadoop-minicluster "2.0.0-cdh4.2.0"] ; Cloudera Hadoop 4.2.0
                                  ]}
             }
)

3. 進入程式設計模式
lein repl

4. 參考示例

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/16582684/viewspace-1266236/,如需轉載,請註明出處,否則將追究法律責任。