QQ在线客服
免费咨询热线
400-615-1233
工作时间-工作日
8:30-17:30

Spark编程基础及项目实践

  • 类  别:大数据与云计算
  • 书  名:Spark编程基础及项目实践
  • 主  编:李国辉 时瑞鹏
  • 定  价:45
  • 开  本:16开
  • 印刷方式:双色
  • 页  数:228
  • 时  间:2020年4月
  • 出  版  社:北京邮电大学出版社
  • 书  号:978-7-5635-6018-9
上传时间:2023-06-15
在线试读 样章下载 样书申请

内容摘要

        本书介绍了Spark编程的基础知识。全书共8个项目,内容包括Spark与大数据、Scala语言基础、Spark的设计与运行原理、RDD编程实践、Spark SQL实践、Spark Streaming、Spark图计算和Spark MLlib。
        本书适合作为Spark编程基础课程的教材,也可供广大大数据学习爱好者参考使用。

目录

项目1 Spark与大数据
 任务1 认识大数据技术
  1.1.1 大数据技术概述
  1.1.2 大数据时代面临的挑战
  1.1.3 大数据的解决方案:Hadoop生态系统
 任务2 初识Spark
  1.2.1 Spark的起源
  1.2.2 Spark的特点
  1.2.3 Spark生态系统BDAS
  1.2.4 Spark的应用场景
 任务3 搭建Spark环境
  1.3.1 Spark集群所需软件的下载
  1.3.2 搭建单机版环境
  1.3.3 搭建单机伪分布式环境
  1.3.4 搭建完全分布式环境
项目2 Scala语言基础
 任务1 Scala简介
  2.1.1 Scala的特性
  2.1.2 Scala的安装
  2.1.3 运行Scala程序
 任务2 Scala语法基础
  2.2.1 数据类型
  2.2.2 变量
  2.2.3 操作符
  2.2.4 条件语句
  2.2.5 循环控制
  2.2.6异常处理
 任务3 Scala的数据结构
  2.3.1 数组
  2.3.2 Map
  2.3.3 List
  2.3.4 Tuple
  2.3.5 Set
 任务4 Scala面向对象技术
  2.4.1 类和对象
  2.4.2 函数式
  2.4.3 模式匹配
  2.4.4 类型系统
  2.4.5 隐式转换
  2.4.6 文件操作
 实训 学生信息查询
项目3 Spark的设计与运行原理
 任务1 Spark运行架构
  3.1.1 Spark架构设计
  3.1.2 Spark运行流程
 任务2 Spark工作机制
  3.2.1 Spark内存管理
  3.2.2 Spark容错机制
  3.2.3 Spark监控管理
项目4 RDD编程实践
 任务1 RDD编程基础
  4.1.1 RDD创建
  4.1.2 RDD操作
 任务2 RDD应用——学生成绩分析
  4.2.1 创建RDD
  4.2.2 查找每门课程成绩排名前3的同学
  4.2.3 输出单科成绩为100分的学生ID
 任务3 持久化与数据分区
  4.3.1 持久化
  4.3.2 数据分区
项目5 Spark SQL实践
 任务1 初识Spark SQL
  5.1.1 Spark SQL的前世
  5.1.2 Spark SQL架构
  5.1.3 Spark SQL的优势
 任务2 DataFrame基础操作
  5.2.1 创建DataFrame对象
  5.2.2 DataFrame查看数据
  5.2.3 DataFrame查询操作
  5.2.4 DataFrame输出操作
项目6 Spark Streaming
 任务1 初识Spark Streaming
  6.1.1 Spark Streaming概述
  6.1.2 Spark Streaming的运行原理
  6.1.3 Spark Streaming快速体验案例
 任务2 理解Spark Streaming
  6.2.1 DStream简介
  6.2.2 DStream接收输入源方法
  6.2.3 DStream转换操作
  6.2.4 DStream窗口操作
  6.2.5 DStream输出操作
 任务3 Spark Streaming实战
  6.3.1 统计本地文本单词个数
  6.3.2 有状态操作累计统计单词个数
  6.3.3 windows划窗统计热搜词
项目7 Spark图计算
 任务1 认识Spark GraphX
  7.1.1 图的基本概念
  7.1.2 图计算的应用
  7.1.3 GraphX的基础概念
  7.1.4 GraphX的属性图
 任务2 GraphX常用图操作
  7.2.1 图的创建操作
  7.2.2 图获取属性的操作
  7.2.3 图转换属性的操作
  7.2.4 图结构转换操作
  7.2.5 图的关联操作
  7.2.6 图的近邻聚合操作
 任务3 Spark GraphX实战
  7.3.1 Spark GraphX编程入门实战
  7.3.2 PageRank查找最重要用户名单
项目8 Spark MLlib
 任务1 初识机器学习
  8.1.1 机器学习的概念
  8.1.2 机器学习的分类
  8.1.3 MLlib数据类型
  8.1.4 MLlib基本统计实践
 任务2 特征提取和转换
  8.2.1 特征提取
  8.2.2 常用特征转换
  8.2.3 特征选择
 任务3 MLlib常用算法实战——决策树预测
参考文献

主编信息

李国辉,天津职业大学副教授。

相关图书