E-Mapreduce如何處理RDS的資料

ap1811w4z發表於2016-04-08

一、引言

目前網站的一些業務資料存在資料庫中,這些資料往往需要做進一步的分析,如:需要根據一些日誌資料關聯分析,或者需要進行一些如機器學習的分析。在阿里雲上,目前E-Mapreduce能滿足這種分析的需求。
在E-Mapredcue中操縱RDS中資料(這裡以mysql為例),一般有三種方式,下面分別說明下。
為了實驗,筆者建立了一個mysql的示例,建立了一個資料庫school,在其中建立一個表student,並匯入了一部分的資料。

二、從mysql匯入到oss中,再啟用e-mapreduce分析

從mysql匯入到oss中,可以使用 資料整合這個產品。

1、 使用資料整合 把資料匯入到OSS中(都是頁面配置)
  • 進入資料整合的控制平臺,建立一個Pipeline或者Ecs Pipeline
  • 在新建立的Pipeline中,新建作業。目前沒有直接的頁檢視,可以直接使用JSON檢視
  • 源型別選擇Mysql,目標型別選擇OSS,填寫一些資訊。再立即執行,指令碼參考:
{
    "type": "job",
    "traceId": "stream to stream job test",
    "version": "1.0",
    "configuration": {
        "setting": {},
        "reader": {
            "plugin": "mysql",
            "parameter": {
                "instanceName": "rdst1234567890",
                "database": "school",
                "table": "student",
                "splitPk": "",
                "username": "hadoop",
                "password": "hadoop",
                "column": ["*"],
                "where": ""
            }
        },
        "writer": {
            "plugin": "oss",
            "parameter": {
                "endpoint": "http://oss-xxx",
                "accessId": "your accessId",
                "accessKey": "your accessKey",
                "bucket": "your bucket",
                "object": "your bucket,eg:   emr/school/student",
                "writeMode": "truncate",
                "encoding": "UTF-8",
                "nullFormat": "",
                "dateFormat": "",
                "fieldDelimiter": ","
            }
        }
    }
}
2、編寫hive指令碼

此部分可以參考文件:在Hive中使用OSS
特別如果想登陸到機器上執行hive指令碼,一定要 sudo su hadoop到hadoop賬戶下或者新建一個賬號。不要在root下操作。

三、通過sqoop匯入mysql資料到HDFS中

目前E-Mapreduce映象中沒有直接提供sqoop,你可以登陸master機器,sudo su hadoop帳號下,再下載sqoop(master機器是可以訪問網際網路的)

  • 下載sqoop及mysql-connector-java,目前列出的地址可以訪問,如果不能訪問,請直接訪問官方下載。
//下載
wget http://apache.fayea.com/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
wget http://cdn.mysql.com//Downloads/Connector-J/mysql-connector-java-5.1.38.tar.gz
//解壓
tar -xvf mysql-connector-java-5.1.38.tar.gz
tar -xvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
//把mysql-connector-java的jar拷貝到sqoop的lib中
cp mysql-connector-java-5.1.38/mysql-connector-java-5.1.38-bin.jar sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/
  • 執行命令,拷貝資料。sqoop有很多的用法,大家可以看下sqoop官方文件,或者google。
 ./sqoop-1.4.6.bin__hadoop-2.0.4-alpha/bin/sqoop import  --connect jdbc:mysql://rdsmcnlgxxxxxxx.mysql.rds.aliyuncs.com:3306/school --username yourMysqlusername--password yourMysqlPassword --table student --hive-import --hive-table school.student --target-dir student
  • 查詢下
hive> select count(*) from student;
Query ID = hadoop_20160408180707_a3326bcd-3a06-433c-94ba-002a29bb71ab
840
Time taken: 25.898 seconds, Fetched: 1 row(s)

四、可以直接連線mysql

這一步是需要寫一些程式碼的,在程式碼中可以直接配置訪問mysql。


package com.aliyun.emr;

import org.apache.spark.SparkConf;
import org.apache.spark.SparkContext;
import org.apache.spark.sql.DataFrameReader;
import org.apache.spark.sql.SQLContext;

/**
 * Hello world!
 */
public class VisitMysql {
    public static void main(String[] args) {
        String url = "jdbc:mysql://rdstxxxxxxxxxxxx.mysql.rds.aliyuncs.com:3306/school";
        SparkConf conf = new SparkConf();
        conf.setAppName("test");
        SparkContext sc = new SparkContext(conf);
        SQLContext sqlContext = new SQLContext(sc);
        DataFrameReader reader = sqlContext.read().format("jdbc");
        reader.option("url", url);
        reader.option("dbtable", "student");
        reader.option("driver", "com.mysql.jdbc.Driver");
        reader.option("user", "hadoop");
        reader.option("password", "hadoop");
        reader.load().show();
    }
}
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>com.aliyun.emr</groupId>
  <artifactId>examples</artifactId>
  <packaging>jar</packaging>
  <version>1.0-SNAPSHOT</version>
  <name>examples</name>
  <url>http://maven.apache.org</url>
  <dependencies>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.10</artifactId>
      <version>1.6.0</version>
    </dependency>
    <dependency>
      <groupId>com.aliyun.emr</groupId>
      <artifactId>emr-sdk_2.10</artifactId>
      <version>1.1.0</version>
    </dependency>
    <dependency>
      <groupId>mysql</groupId>
      <artifactId>mysql-connector-java</artifactId>
      <version>5.1.30</version>
    </dependency>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>3.8.1</version>
      <scope>test</scope>
    </dependency>
  </dependencies>
</project>

注意

RDS預設是拒絕訪問的,所以需要在RDS中配置網路白名單。在資料安全性->新增白名單分組。
如果是使用資料整合,則需要配置資料整合的IP地址,如果是使用sqoop或者直接相連,則需要配置E-Mapreduce的白名單(這個可以在叢集的詳情頁看到)


相關文章