E-Mapreduce如何處理RDS的資料
一、引言
目前網站的一些業務資料存在資料庫中,這些資料往往需要做進一步的分析,如:需要根據一些日誌資料關聯分析,或者需要進行一些如機器學習的分析。在阿里雲上,目前E-Mapreduce能滿足這種分析的需求。
在E-Mapredcue中操縱RDS中資料(這裡以mysql為例),一般有三種方式,下面分別說明下。
為了實驗,筆者建立了一個mysql的示例,建立了一個資料庫school,在其中建立一個表student,並匯入了一部分的資料。
二、從mysql匯入到oss中,再啟用e-mapreduce分析
從mysql匯入到oss中,可以使用 資料整合這個產品。
1、 使用資料整合 把資料匯入到OSS中(都是頁面配置)
- 進入資料整合的控制平臺,建立一個Pipeline或者Ecs Pipeline
- 在新建立的Pipeline中,新建作業。目前沒有直接的頁檢視,可以直接使用JSON檢視
- 源型別選擇Mysql,目標型別選擇OSS,填寫一些資訊。再立即執行,指令碼參考:
{
"type": "job",
"traceId": "stream to stream job test",
"version": "1.0",
"configuration": {
"setting": {},
"reader": {
"plugin": "mysql",
"parameter": {
"instanceName": "rdst1234567890",
"database": "school",
"table": "student",
"splitPk": "",
"username": "hadoop",
"password": "hadoop",
"column": ["*"],
"where": ""
}
},
"writer": {
"plugin": "oss",
"parameter": {
"endpoint": "http://oss-xxx",
"accessId": "your accessId",
"accessKey": "your accessKey",
"bucket": "your bucket",
"object": "your bucket,eg: emr/school/student",
"writeMode": "truncate",
"encoding": "UTF-8",
"nullFormat": "",
"dateFormat": "",
"fieldDelimiter": ","
}
}
}
}
2、編寫hive指令碼
此部分可以參考文件:在Hive中使用OSS
特別如果想登陸到機器上執行hive指令碼,一定要 sudo su hadoop到hadoop賬戶下或者新建一個賬號。不要在root下操作。
三、通過sqoop匯入mysql資料到HDFS中
目前E-Mapreduce映象中沒有直接提供sqoop,你可以登陸master機器,sudo su hadoop帳號下,再下載sqoop(master機器是可以訪問網際網路的)
- 下載sqoop及mysql-connector-java,目前列出的地址可以訪問,如果不能訪問,請直接訪問官方下載。
//下載
wget http://apache.fayea.com/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
wget http://cdn.mysql.com//Downloads/Connector-J/mysql-connector-java-5.1.38.tar.gz
//解壓
tar -xvf mysql-connector-java-5.1.38.tar.gz
tar -xvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
//把mysql-connector-java的jar拷貝到sqoop的lib中
cp mysql-connector-java-5.1.38/mysql-connector-java-5.1.38-bin.jar sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib/
- 執行命令,拷貝資料。sqoop有很多的用法,大家可以看下sqoop官方文件,或者google。
./sqoop-1.4.6.bin__hadoop-2.0.4-alpha/bin/sqoop import --connect jdbc:mysql://rdsmcnlgxxxxxxx.mysql.rds.aliyuncs.com:3306/school --username yourMysqlusername--password yourMysqlPassword --table student --hive-import --hive-table school.student --target-dir student
- 查詢下
hive> select count(*) from student;
Query ID = hadoop_20160408180707_a3326bcd-3a06-433c-94ba-002a29bb71ab
840
Time taken: 25.898 seconds, Fetched: 1 row(s)
四、可以直接連線mysql
這一步是需要寫一些程式碼的,在程式碼中可以直接配置訪問mysql。
package com.aliyun.emr;
import org.apache.spark.SparkConf;
import org.apache.spark.SparkContext;
import org.apache.spark.sql.DataFrameReader;
import org.apache.spark.sql.SQLContext;
/**
* Hello world!
*/
public class VisitMysql {
public static void main(String[] args) {
String url = "jdbc:mysql://rdstxxxxxxxxxxxx.mysql.rds.aliyuncs.com:3306/school";
SparkConf conf = new SparkConf();
conf.setAppName("test");
SparkContext sc = new SparkContext(conf);
SQLContext sqlContext = new SQLContext(sc);
DataFrameReader reader = sqlContext.read().format("jdbc");
reader.option("url", url);
reader.option("dbtable", "student");
reader.option("driver", "com.mysql.jdbc.Driver");
reader.option("user", "hadoop");
reader.option("password", "hadoop");
reader.load().show();
}
}
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.aliyun.emr</groupId>
<artifactId>examples</artifactId>
<packaging>jar</packaging>
<version>1.0-SNAPSHOT</version>
<name>examples</name>
<url>http://maven.apache.org</url>
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.10</artifactId>
<version>1.6.0</version>
</dependency>
<dependency>
<groupId>com.aliyun.emr</groupId>
<artifactId>emr-sdk_2.10</artifactId>
<version>1.1.0</version>
</dependency>
<dependency>
<groupId>mysql</groupId>
<artifactId>mysql-connector-java</artifactId>
<version>5.1.30</version>
</dependency>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>3.8.1</version>
<scope>test</scope>
</dependency>
</dependencies>
</project>
注意
RDS預設是拒絕訪問的,所以需要在RDS中配置網路白名單。在資料安全性->新增白名單分組。
如果是使用資料整合,則需要配置資料整合的IP地址,如果是使用sqoop或者直接相連,則需要配置E-Mapreduce的白名單(這個可以在叢集的詳情頁看到)
相關文章
- java大資料處理:如何使用Java技術實現高效的大資料處理Java大資料
- 資料庫如何處理大資料訪問資料庫大資料
- 處理百萬級以上的資料處理
- 前端如何處理十萬級別的大量資料前端
- thinkPHP 分頁後如何處理資料PHP
- Python資料處理(二):處理 Excel 資料PythonExcel
- 資料處理
- 天翼雲RDS資料庫如何修改資料庫引數資料庫
- 資料庫–如何連線RDS例項,使用雲資料庫?資料庫
- java 如何簡單快速處理 xml 中的資料JavaXML
- 教你如何處理Oracle資料庫中的壞塊Oracle資料庫
- 如何在 PHP 中處理 Protocol Buffers 資料PHPProtocol
- 大量資料如何做分頁處理
- 拿到登入資料以後如何處理?
- 如何遠端管理天翼雲RDS資料庫資料庫
- 下載資料的處理
- 資料預處理的形式
- 籠統的資料處理
- 資料預處理
- javascript - 資料處理JavaScript
- Excel 資料處理Excel
- 海量資料處理
- Panda資料處理
- 你知道MySQL是如何處理千萬級資料的嗎?MySql
- java 如何簡單快速處理 json 中的資料JavaJSON
- go 如何處理資料庫返回的多結果集Go資料庫
- 資料清洗和資料處理
- 資料預處理-資料清理
- 資料分析--資料預處理
- pytest 用例資料依賴如何處理
- Kafka Connect如何實現同步RDS binlog資料?Kafka
- 剖析大資料平臺的資料處理大資料
- 大資料學習之Hadoop如何高效處理大資料大資料Hadoop
- 大資料處理的基本流程大資料
- 時間序列資料的處理
- 海量資料的併發處理
- 處理json格式的資料JSON
- 雲資料庫RDS是什麼?雲資料庫RDS有什麼優勢?資料庫