Spark SQL

不仅仅是Sql这么简单的事情,他还能做很多的事情。

spark sql 操作数据的方式:

SQL 
DataFrame API
Dataset API

DataFrame/Dataset分布式数据集(1.6)

==DataFrame是一个以列(列名/列类型/列值)的形式构成分布式的数据集(dataset)==

DataFrame类似于关系型数据库的表

列名:和列属性

通过SparkSession来创建

通过.sql使用sql语句操作DataFrame
可以创建一个临时视图(createOrReplaceTempView)
image

RDD=>DataFrame

==1.通过推导生成Schema创建DF==
读取数据为df,将RDD转换为Row之后,然后根据RDD(Row)创建DataFream
image
==2.通过编程方式创建schema创建DF==

image

打赏
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!
  • Copyrights © 2018-2020 丁振莹
  • 访问人数: | 浏览次数:

你的每一分支持,是我努力下去的最大的力量 ٩(๑❛ᴗ❛๑)۶

支付宝
微信