E-Mapreduce如何處理RDS的資料

ap1811w4z發表於2016-04-08

一、引言

目前網站的一些業務資料存在資料庫中，這些資料往往需要做進一步的分析，如：需要根據一些日誌資料關聯分析，或者需要進行一些如機器學習的分析。在阿里雲上，目前E-Mapreduce能滿足這種分析的需求。
在E-Mapredcue中操縱RDS中資料(這裡以mysql為例)，一般有三種方式，下面分別說明下。
為了實驗，筆者建立了一個mysql的示例，建立了一個資料庫school，在其中建立一個表student，並匯入了一部分的資料。

二、從mysql匯入到oss中，再啟用e-mapreduce分析

從mysql匯入到oss中，可以使用資料整合這個產品。

1、使用資料整合把資料匯入到OSS中（都是頁面配置）

進入資料整合的控制平臺，建立一個Pipeline或者Ecs Pipeline
在新建立的Pipeline中，新建作業。目前沒有直接的頁檢視，可以直接使用JSON檢視
源型別選擇Mysql，目標型別選擇OSS，填寫一些資訊。再立即執行，指令碼參考：

{
    "type": "job",
    "traceId": "stream to stream job test",
    "version": "1.0",
    "configuration": {
        "setting": {},
        "reader": {
            "plugin": "mysql",
            "parameter": {
                "instanceName": "rdst1234567890",
                "database": "school",
                "table": "student",
                "splitPk": "",
                "username": "hadoop",
                "password": "hadoop",
                "column": ["*"],
                "where": ""
            }
        },
        "writer": {
            "plugin": "oss",
            "parameter": {
                "endpoint": "http://oss-xxx",
                "accessId": "your accessId",
                "accessKey": "your accessKey",
                "bucket": "your bucket",
                "object": "your bucket，eg:   emr/school/student",
                "writeMode": "truncate",
                "encoding": "UTF-8",
                "nullFormat": "",
                "dateFormat": "",
                "fieldDelimiter": ","
            }
        }
    }
}

2、編寫hive指令碼

此部分可以參考文件：在Hive中使用OSS
特別如果想登陸到機器上執行hive指令碼，一定要 sudo su hadoop到hadoop賬戶下或者新建一個賬號。不要在root下操作。

三、通過sqoop匯入mysql資料到HDFS中

目前E-Mapreduce映象中沒有直接提供sqoop，你可以登陸master機器，sudo su hadoop帳號下，再下載sqoop（master機器是可以訪問網際網路的）

下載sqoop及mysql-connector-java，目前列出的地址可以訪問，如果不能訪問，請直接訪問官方下載。

//下載
wget http://apache.fayea.com/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
wget http://cdn.mysql.com//Downloads/Connector-J/mysql-connector-java-5.1.38.tar.gz
//解壓
tar -xvf mysql-connector-java-5.1.38.tar.gz
tar -xvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
//把mysql-connector-java的jar拷貝到sqoop的lib中
cp mysql-connector-java-5.1.38/mysql-connector-java-5.1.38-bin.jar sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/

執行命令，拷貝資料。sqoop有很多的用法，大家可以看下sqoop官方文件，或者google。

 ./sqoop-1.4.6.bin__hadoop-2.0.4-alpha/bin/sqoop import  --connect jdbc:mysql://rdsmcnlgxxxxxxx.mysql.rds.aliyuncs.com:3306/school --username yourMysqlusername--password yourMysqlPassword --table student --hive-import --hive-table school.student --target-dir student

查詢下

hive> select count(*) from student;
Query ID = hadoop_20160408180707_a3326bcd-3a06-433c-94ba-002a29bb71ab
840
Time taken: 25.898 seconds, Fetched: 1 row(s)

四、可以直接連線mysql

這一步是需要寫一些程式碼的，在程式碼中可以直接配置訪問mysql。


package com.aliyun.emr;

import org.apache.spark.SparkConf;
import org.apache.spark.SparkContext;
import org.apache.spark.sql.DataFrameReader;
import org.apache.spark.sql.SQLContext;

/**
 * Hello world!
 */
public class VisitMysql {
    public static void main(String[] args) {
        String url = "jdbc:mysql://rdstxxxxxxxxxxxx.mysql.rds.aliyuncs.com:3306/school";
        SparkConf conf = new SparkConf();
        conf.setAppName("test");
        SparkContext sc = new SparkContext(conf);
        SQLContext sqlContext = new SQLContext(sc);
        DataFrameReader reader = sqlContext.read().format("jdbc");
        reader.option("url", url);
        reader.option("dbtable", "student");
        reader.option("driver", "com.mysql.jdbc.Driver");
        reader.option("user", "hadoop");
        reader.option("password", "hadoop");
        reader.load().show();
    }
}

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>com.aliyun.emr</groupId>
  <artifactId>examples</artifactId>
  <packaging>jar</packaging>
  <version>1.0-SNAPSHOT</version>
  <name>examples</name>
  <url>http://maven.apache.org</url>
  <dependencies>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.10</artifactId>
      <version>1.6.0</version>
    </dependency>
    <dependency>
      <groupId>com.aliyun.emr</groupId>
      <artifactId>emr-sdk_2.10</artifactId>
      <version>1.1.0</version>
    </dependency>
    <dependency>
      <groupId>mysql</groupId>
      <artifactId>mysql-connector-java</artifactId>
      <version>5.1.30</version>
    </dependency>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>3.8.1</version>
      <scope>test</scope>
    </dependency>
  </dependencies>
</project>

注意

RDS預設是拒絕訪問的，所以需要在RDS中配置網路白名單。在資料安全性->新增白名單分組。
如果是使用資料整合，則需要配置資料整合的IP地址，如果是使用sqoop或者直接相連，則需要配置E-Mapreduce的白名單(這個可以在叢集的詳情頁看到)

java大資料處理：如何使用Java技術實現高效的大資料處理
2023-11-22
Java大資料
資料庫如何處理大資料訪問
2015-10-27
資料庫大資料
處理百萬級以上的資料處理
2013-12-16
前端如何處理十萬級別的大量資料
2019-04-14
前端
thinkPHP 分頁後如何處理資料
2024-03-06
PHP
Python資料處理（二）：處理 Excel 資料
2019-02-16
PythonExcel
資料處理
2024-07-18
天翼雲RDS資料庫如何修改資料庫引數
2022-03-23
資料庫
資料庫–如何連線RDS例項，使用雲資料庫？
2017-07-20
資料庫
java 如何簡單快速處理 xml 中的資料
2020-06-28
JavaXML
教你如何處理Oracle資料庫中的壞塊
2007-02-27
Oracle資料庫
如何在 PHP 中處理 Protocol Buffers 資料
2016-05-11
PHPProtocol
大量資料如何做分頁處理
2024-04-10
拿到登入資料以後如何處理？
2024-07-30
如何遠端管理天翼雲RDS資料庫
2022-03-29
資料庫
下載資料的處理
2018-12-24
資料預處理的形式
2007-05-15
籠統的資料處理
2024-11-19
資料預處理
2021-09-09
javascript - 資料處理
2020-12-02
JavaScript
Excel 資料處理
2022-07-21
Excel
海量資料處理
2018-03-08
Panda資料處理
2024-07-15
你知道MySQL是如何處理千萬級資料的嗎？
2020-08-10
MySql
java 如何簡單快速處理 json 中的資料
2020-06-28
JavaJSON
go 如何處理資料庫返回的多結果集
2019-05-28
Go資料庫
資料清洗和資料處理
2020-03-03
資料預處理-資料清理
2020-01-19
資料分析--資料預處理
2023-12-14
pytest 用例資料依賴如何處理
2020-12-27
Kafka Connect如何實現同步RDS binlog資料?
2018-05-15
Kafka
剖析大資料平臺的資料處理
2020-04-04
大資料
大資料學習之Hadoop如何高效處理大資料
2018-09-20
大資料Hadoop
大資料處理的基本流程
2019-06-11
大資料
時間序列資料的處理
2018-05-30
海量資料的併發處理
2018-03-14
處理json格式的資料
2024-07-23
JSON
雲資料庫RDS是什麼？雲資料庫RDS有什麼優勢？
2021-03-29
資料庫