欧普下载是国内较新、较齐、较安全的软件下载基地!
当前位置:首页 ›› 其他软件 ›› 编程相关 ›› spark java(jar包)下载

spark java(jar包) v2.5.5 免费版

spark java 中文版[下载地址]
spark java(jar包) v2.5.5 免费版

spark java 中文版是一款免费的开源集群计算环境,主要用来开发spark的Java应用宝,采用内存分布数据集,可以轻松实现交互式查询、优化迭代工作负载等。是Java开发中一款必不可少的jar包,从事Java开发的朋友赶快下载吧!

spark java(jar包) v2.5.5 免费版

spark java特点

  更快的速度

  内存计算下,Spark 比 Hadoop 快100倍。

  易用性

  Spark 提供了80多个高级运算符。

  通用性

  Spark 提供了大量的库,包括SQL、DataFrames、MLlib、GraphX、Spark Streaming。 开发者可以在同一个应用程序中无缝组合使用这些库。

  支持多种资源管理器

  Spark 支持 Hadoop YARN,Apache Mesos,及其自带的独立集群管理器

  Spark生态系统

  Shark:Shark基本上就是在Spark的框架基础上提供和Hive一样的HiveQL命令接口,为了最大程度的保持和Hive的兼容性,Shark使用了Hive的API来实现query Parsing和 Logic Plan generation,最后的PhysicalPlan execution阶段用Spark代替HadoopMapReduce。通过配置Shark参数,Shark可以自动在内存中缓存特定的RDD,实现数据重用,进而加快特定数据集的检索。同时,Shark通过UDF用户自定义函数实现特定的数据分析学习算法,使得SQL数据查询和运算分析能结合在一起,最大化RDD的重复使用。

  SparkR:SparkR是一个为R提供了轻量级的Spark前端的R包。 SparkR提供了一个分布式的data frame数据结构,解决了 R中的data frame只能在单机中使用的瓶颈,它和R中的data frame 一样支持许多操作,比如select,filter,aggregate等等。(类似dplyr包中的功能)这很好的解决了R的大数据级瓶颈问题。 SparkR也支持分布式的机器学习算法,比如使用MLib机器学习库。SparkR为Spark引入了R语言社区的活力,吸引了大量的数据科学家开始在Spark平台上直接开始数据分析之旅。

spark基本原理

  Spark Streaming:构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行引擎(100ms+),虽然比不上专门的流式数据处理软件,也可以用于实时计算,另一方面相比基于Record的其它处理框架(如Storm),一部分窄依赖的RDD数据集可以从源数据重新计算达到容错处理目的。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。

spark计算方法

  Bagel: Pregel on Spark,可以用Spark进行图计算,这是个非常有用的小项目。Bagel自带了一个例子,实现了Google的PageRank算法。

  当下Spark已不止步于实时计算,目标直指通用大数据处理平台,而终止Shark,开启SparkSQL或许已经初见端倪。

  近几年来,大数据机器学习和数据挖掘的并行化算法研究成为大数据领域一个较为重要的研究热点。早几年国内外研究者和业界比较关注的是在 Hadoop 平台上的并行化算法设计。然而, HadoopMapReduce 平台由于网络和磁盘读写开销大,难以高效地实现需要大量迭代计算的机器学习并行化算法。随着 UC Berkeley AMPLab 推出的新一代大数据平台 Spark 系统的出现和逐步发展成熟,近年来国内外开始关注在 Spark 平台上如何实现各种机器学习和数据挖掘并行化算法设计。为了方便一般应用领域的数据分析人员使用所熟悉的 R 语言在 Spark 平台上完成数据分析,Spark 提供了一个称为 SparkR 的编程接口,使得一般应用领域的数据分析人员可以在 R 语言的环境里方便地使用 Spark 的并行化编程接口和强大计算能力。

使用Eclipse构建Spark Java集成开发环境

  一.软件准备

  1. spark1.5.1

spark java(jar包) v2.5.5 免费版

  这里选择了已经为Hadoop2.4编译好的版本,为了能和Hadoop2.4更好的结合。当然有能力你可自己编译。

  2. Eclipse IDE for Java EE Developers

spark java(jar包) v2.5.5 免费版

  根据自己的系统选择合适的版本,下载安装。

  二.搭建spark单机环境

  1.解压缩文件

spark java(jar包) v2.5.5 免费版

  2.系统环境变量配置

  1)新建SPARK_HOME。

spark java(jar包) v2.5.5 免费版

  2)修改Path

spark java(jar包) v2.5.5 免费版

  3)检测环境变量

spark java(jar包) v2.5.5 免费版

  三.基于Spark使用Java开发WordCount

  1.使用Eclipse建立Java工程,新建WordCount类。

  2.添加依赖jar包(位于SPARK_HOME/lib/下)

spark java(jar包) v2.5.5 免费版
spark java(jar包) v2.5.5 免费版

  3.编写WordCount类

  WordCount.java

  package chaobo.spark.examples;

  import java.util.Arrays;

  import java.util.List;

  import java.util.regex.Pattern;

  import org.apache.spark.SparkConf;

  import org.apache.spark.api.java.JavaPairRDD;

  import org.apache.spark.api.java.JavaRDD;

  import org.apache.spark.api.java.JavaSparkContext;

  import org.apache.spark.api.java.function.FlatMapFunction;

  import org.apache.spark.api.java.function.Function2;

  import org.apache.spark.api.java.function.PairFunction;

  import scala.Tuple2;

  public class WordCount {

  public static void main(String[] args) {

  final Pattern SPLIT = Pattern.compile(" ");

  SparkConf conf = new SparkConf().setMaster("local[4]").setAppName("word count");

  JavaSparkContext context = new JavaSparkContext(conf);

  JavaRDDlines = context.textFile("C:\\Users\\chaobo\\Desktop\\spark.txt");

  JavaRDDwords = lines.flatMap(new FlatMapFunction() {

  @Override

  public Iterablecall(String line) throws Exception {

  return Arrays.asList(SPLIT.split(line));

  }

  });

  JavaPairRDDones = words.mapToPair(new PairFunction() {

  @Override

  public Tuple2call(String word) throws Exception {

  return new Tuple2(word, 1);

  }

  });

  JavaPairRDDcounts = ones.reduceByKey(new Function2() {

  @Override

  public Integer call(Integer arg0, Integer arg1) throws Exception {

  return arg0 + arg1;

  }

  });

  List output = counts.collect();

  for (Tuple2tuple : output) {

  System.out.println(tuple._1() + ": " + tuple._2());

  }

  context.close();

  }

  }

  4,测试结果

spark java(jar包) v2.5.5 免费版
spark java(jar包) v2.5.5 免费版

  作者:墨加

  链接:http://www.jianshu.com/p/a617005df355

  來源:简书

下载spark java(jar包) v2.5.5 免费版
本地下载地址:
本地电信下载
本地电信下载
本地联通下载
本地联通下载
本地迅雷下载
本地迅雷下载
移动用户下载
移动用户下载

版权声明:本站提的序列号、注册码、注册机、补丁等均来自互联网,仅供学习交流之用,请在下载后24小时内删除。

相关文章
软件评论
请自觉遵守互联网相关政策法规,评论内容只代表网友观点,与本站立场无关!
    登录   注册