欢迎光临
一个有态度、有温度的分享型博客

使用Idea在Windows上开发spark程序

环境搭建

由于平时开发工作主要在windows平台进行,所以在Windows平台搭建spark开发环境很有必要,在开始进行程序开发之前你可能需要参考以下文章:

  1. 在Windows平台安装Hadoop(不借助cygwin)
  2. 在Windows上运行Apache Spark

假定以上环境你都搭建好了,那么进行接下来的工作。

运行程序

1.首先运行Idea程序,点击File –>New –>Project新建一个Scala工程,如下图;

2.在工程根目录下,新建一个目录lib,用来引入需要的jar文件,然后在File –> Project Structure –>Libraries中把目录添加进去,如下图:

3.在你下载的spark-1.6.1-bin-hadoop2.6中的lib目录找到spark-assembly-1.6.1-hadoop2.6.0.jar,并把它放到lib目录下;

4.新建一个Scala Object,如下图;

5.写入以下代码

package spark

import org.apache.spark.{SparkContext, SparkConf}
/**
  * Created by iwwenbo on 2016/4/29.
  */
object WordCount {
   def main(args: Array[String]) {
     //这里spark是单机模式,所以master为local
     val conf = new SparkConf().setMaster("local").setAppName("WordCount")
     val sc = new SparkContext(conf)
     val line = sc.textFile("hdfs://localhost:9000/user/input/wordcount.txt")
     line.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).collect().foreach(println)
     sc.stop()
   }
 }

6.新建一个wordcount.txt文件,把它输入到hdfs中,常用的hadoop shell命令参考这里

7.运行程序,输出如下:

补充:上述示例的代码文件请到Github下载参考;

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址