Spark教程
-
【SparkML机器学习】聚类(K-Means、GMM、LDA)
聚类的概念 聚类就是对大量未知标注(无监督)的数据集,按照数据之间的相似度,将N个对象的数据集划分为K个划分(K个簇),使类别内的数据相似度较大,而类别间的数据相似较小。比如用户画…
-
【SparkML机器学习】特征工程(二)特征转化(Binarizer、StandardScaler、Normalizer、N-gram、Tokenizer等)
特征转化 为什么要转化数据呢,就是要让它成为有效的特征,因为原始数据是很多脏数据无用数据的。常用的方法是标准化,归一化,特征的离散化等等。比如我输入的数据是句子,我得把它切分为一个…
-
【SparkML机器学习】特征工程(一)特征提取(TF-IDF、Word2Vec、CountVectorizer)
特征工程 我们都知道特征工程在机器学习中是很重要的,然而特征工程到底是什么?怎么样通俗的理解它呢?打个比方,即使你有再好的渔具,如果给你一片没有鱼的池塘,那也是白费力气的。而特征工…
-
【SparkStreaming教程】(七)SparkStreaming性能调优
批次时间间隔 最常见的问题是SparkStreaming可以使用的最小批次间隔是多少。 批处理时间应小于批处理间隔时间,很好理解,假如大于,那么数据在5s内还没处理完,又启动一个j…
-
【SparkStreaming教程】(六)容错性保障:检查点机制和预写日志
SparkStreaming若需要24/7不间断的运行,那么必然要有强大的容错性保障,当出现故障的时候,即使是驱动器程序错误,也需要做到就好像没有发生任何节点失败一样。 检查点机制…
-
【SparkStreaming教程】(五)输出操作Output Operations
Output Operations将DStream的数据推送到外部系统,如数据库或文件系统。类似于RDD的惰性求值,输出操作才会触发计算的实际执行。 print() 在驱动器程序中…
-
【SparkStreaming教程】(四)有状态和无状态的转化操作
在之前RDD的教程中:弹性分布式数据集Rdd,我们讲解了RDD的转化操作。我们知道SparkStreaming DStream实质就是连续的RDD,那么它自然也有RDD那些转化操作…
-
【SparkStreaming教程】(三)SparkStreaming高级输入源:Kafka
SparkStreaming+Kafka 在旧版本(kafka 0.8)中,SparkStreaming整合Kafka有两种方式,一种是基于接收器的方法,另一种是直接方法(无接收器…
-
【SparkStreaming教程】(二)基础输入源:TCP+HDFS 实时读取文件数据并处理
初始化SparkStreaming 前面我们架构原理上讲到,SparkStreaming依赖于StreamingContext和SparkContext 因此首先是要初始化它们。 …
-
【SparkStreaming教程】(一)概述、特点、架构原理
什么是SparkStreaming Spark Streaming类似于Apache Storm,用于流式数据的处理。 什么是流式数据的处理: 即数据源源不断的产生,像水流一样,S…