SQLServer/MySQL等 -> sqoop -> hadoop -> hive -> spark -> cassandra
1)mysql
mysql.server start
2)nginx
sudo nginx
3)redis
redis-server
4)elasticsearch-v1.6.0
./elasticsearch
5)zookeeper
zkServer start
1)sqoop v1.4.5_hadoop-2.0.4
将数据库中的数据导出为hdfs
> 要先启动hadoop后,才可执行 在后面执行
2)hadoop v2.7.1
启动hadoop
> cd /usr/local/Cellar/hadoop/2.7.1/sbin
> ./start-all.sh
hdfs的有关命令 进入 hdfs
> cd /usr/local/Cellar/hadoop/2.7.1/sbin
hadoop启动有时会报错
>hdfs namenode - format //格式化namenode
hdfs dfs -mkdir /test 创建test目录
hdfs dfs -ls / 看能否找到test目录,找到表示成功
sqoop导出后即可生成以下文件
删除
> ./hdfs dfs -rm -r /user/wanglichao/test
查看
> ./hdfs dfs -cat /user/wanglichao/test/part-m-00000
3)hive v1.0.1 进入hive
> cd /usr/local/Cellar/hive/apache-hive-1.0.1-bin/bin
启动hive
>./hive --service metastore
>./hive --seervice hiveserver2 进入hive命令行
> ./hive **4)spark v1.5.1** 进入spark服务
> cd /usr/local/Cellar/apache-spark/1.5.1/libexec/sbin
启动spark
> ./start-all.sh 进入spark命令行
> cd /usr/local/Cellar/apache-spark/1.5.2/libexec/sbin
> ./start-all.sh
spark服务的启动
spark启动thriftserver服务 默认端口是10000
>./start-thriftserver.sh --hiveconf hive.server2.thrift.port=14000
5)cassandra v2.2.2 进入cassandra服务
> cd /usr/local/Cellar/cassandra/2.2.2/bin
启动 cassandra
> cassandra
进入cassandra命令行
> cqlsh
1)安装参考链接
2)安装成功后,即可从MySql中拉取数据
>cd /usr/local/Cellar/sqoop/1.4.6/bin
>./sqoop import --connect jdbc:mysql://127.0.0.1:3306/hive --username root --password anywhere --table test --fields-terminated-by : -m 1
1)安装参考链接
2)依据参考链接,测试安装成功后,读取sqoop导出的数据
1)安装参考链接1
2)安装参考链接2
4)启动metastore服务
<property>
<name>hive.metastore.uris</name>
<value>thrift://127.0.0.1:9083</value>
</property>
> ./hive --service metastore
5)依据参考链接,测试安装成功后,读取hdfs中的数据
hive创建数据库
> CREATE DATABASE sqltest01;
> USE sqltest01;
hive创建数据表
hive> CREATE TABLE IF NOT EXISTS hive_test (
> id int,
> name string)
> row format delimited
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '|';
从hdfs导入到hive
> cd /usr/local/Cellar/hive/apache-hive-1.0.1-bin/bin
> hive
hive >load data inpath '/user/wanglichao/test/part-m-00000' into table hive_test;
1)安装参考链接1
2)安装参考链接2
3)将hive-site.xml复制到spark的conf里面
4)spark启动后,然后进入spark命令行
> cd /usr/local/Cellar/apache-spark/1.5.1/libexec/bin/spark-shell
5)spark读取hive数据
> cd /usr/local/Cellar/apache-spark/1.5.1/libexec/bin
> ./spark-shell
> val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc);
> import sqlContext._;
//指定数据库
> sqlContext.sql("use sqltest01");
> sqlContext.sql("SELECT * FROM hive_test").collect().foreach(println)
1)brew install即可