RDD 的操作的两大阶段（operation）

spark

字数统计: 305 | 阅读时长≈ 1 分钟

RDDA—>RDDB

从已经存在的RDD创建一个新的RDD

例：rddb=rdda.map(……..)

所有的tansformation并不会lazy（不会计算），只有transformation遇到action操作时才会计算

方法：

map:

map(func)

将func函数作用在数据集（RDD）的每个元素上，生成一个新的分布式数据集（RDD）返回。
filter (过滤)

filter（func）

选出所有func函数返回值为true的元素，生成一个新的分布式数据集
flatMap（将所有元素合并，然后拆分。）

flatMap(func)

输入的item(每一个元素)能否被map到0或者多个Items输出，返回值是一个sequence()
groupByKey

将根据key值，将相同的key的数据分发到一块
reduceBykey
将相同的kEY 分发到一块并进行相应的计算（传进的函数）