大数据分析 课程标准 一、课程定位
现在企业为了提升客人使用体验,提高业务效率,在大数据蓬勃发展的阶段里,需要对现有业务系统进行转型升级;作为大数据核心部分,大数据研发工程师应用成为有大量数据的企业必备人才,在数据处理,数据分析方面,大数据研发是不可或缺的技能。
随着大数据应用的大量普及,开源框架,比如hadoop,spark等,也得到长足发展。本课程除了着力于统数据的收集和搭建,使得作为大数据的研发/分析带来基础设施,让学员掌握,同时,对大数据的离线/实时处理和部分数据分析进行深度理解和把握。通过本课程,掌握大数据平台并且对大数据分析的基本技能和方法,为将来在企业分析大数据做决策打下基础。
二、课程性质与作用 课程性质 大数据分析课程。 课程作用
大数据分析是数据清洗过后使得数据产生价值的过程。在企业丰富应用场景中,通过标准的大数据分析方法不能胜任的情况下,就需要通过先验知识来验证大数据并找出规律来达到业务目标。在实际工作中,掌握大数据研分析需要展示的数理统计分析的知识,敏锐的数据观察力,和部分软件开发的知识,也需要比较扎实的计算机基础。本课程大纲是完整的课程,实际培训课程中,会根据学员实际情况进行分组。通过本课程的学习。
三、课程目标
课程教学以灵活运用分析方法为目标,以实际项目为中心,以合理知识结构分解为手段,结合实际的应用场景,对大数据进行文本,图标等大数据进行分析和学习,主要以实际操作让学员对相关知识点掌握,达到理论与实际结合,教学与企业融合的内容。学员学成后,能够利用清洗后的数据,根据提供的先验知识,可以做出模型并能够预测业务数据。课程内容始终围绕全面提升学生的理论和操作的熟练程度、规范化程度以及职业素质三个方面展开。
(一)知识目标
1. 理解大数据概念及应用场景,先导课程Linux的操作 2. 掌握开发语言R 或python
3. 掌握大数据HDFS、HBase、Hadoop集群搭建及数据批处理。 4. 离线工具ETL和hive的安装及应用。
如对你有帮助,请购买下载打赏,谢谢!
5. 数据可视化的应用 6. 真实 (二)能力目标
1.全局的眼光理解大数据,理解大数据的应用,并有总体的概念。 2.理解企业中实际生产环境的大数据搭建,收集,分析,应用的过程。 3.具备在实际应用场景中,能对数据处理流程,数据挖掘进行个性化处理。 四、课程设计 主要指课程设计的总体思路:
课程设计围绕大数据分析的基础和方法,考虑到实际企业生产环境中的应用场景,课程中采用实际案例, 从案例分析、启动、实施、验证各环节剖析讲解,与真实环境同步。
课程案例选取:
以搭建支持10GB的数据为目标,在目标3机器上部署大数据仓库,并能实际运行。模拟手机1GB的数据,能够通过Hive进行查询,为将来数据清洗和数据分析提供基础。
五、课程内容与要求 知识块 先导知识 Linux系统 Linux 基础 Linux-常用命令介绍 Linux-shell的特殊符号以及VI编译工具 Linux-高级指令(系统管理、查询、作业控制、进程管理和Linux三剑客) Linux-环境变量、初始化文件和定时服务 Linux-shell脚本及编程 知识点 课程目标 课时 案例 先导课程,以掌握Linux基本操作未基础,加上对Linux操作系统的进程管理的知识,为后续的部署打下基础。主要能够熟练编辑和配置Linux下的系统文件并能够查找文件和文字 如对你有帮助,请购买下载打赏,谢谢!
Linux-备份工具 Linux-安全性 Linux-网络互联 Linux-软件的安装和日志 大数据基础 大数据概论 大数据背景 大数据基本概念 大数据案例 大数据技术 HDFS分布式文件系统 HDFS简介 HDFS基本架构 使用场景 核心设计 体系架构 命令行使用 JAVA接口 运行机制 IO操作 Hodoop集群安装部署 Linux环境准备 按照JDK 能够高度概括大数据系统的前世今生,实际了解企业里面使用的大数据的场景 掌握DFS架构,配置及日常管理 理解Hadoop生态, 能够安装并验证 按照并配置Hadoop Hadoop集群。并实 启动并验证Hadoop际操作在现有生态集群 MapReduce计算框架 编程模型 编程案例 应用编程开发 MP工作机制和YARN YARN平台简介 增加组件的安装及调整方式 WordCount高级编程 如对你有帮助,请购买下载打赏,谢谢!
YARN结构 YARN资源调度 作业调度 数据库知识 Hbase分布式数据库 简介 理解和掌握HBase的原理及操作,并能对HBase做日常管理 安装部署 和Hadoop的关系 核心功能模块 基本概念 Hbase Shell命令行工具 JAVA客户端操作 MAPreduce批量操作HBASE 块数据导入HBASE 核心概念 高级特性 安装部署 工作原理 客户端使用 离线计算 工作引擎azkaban 使用 能够实际部署并做配置 安装部署 应用 安装部署 基本概念 安装部署 数据定义 数据查询 理解ETL的实质,并了解ETL在大数据清洗中的作用 ETL工具sqoop 数据仓库查询HIVE 掌握Hive的安装部署及其他的 如对你有帮助,请购买下载打赏,谢谢!
内置函数和UDF 自定义函数和UDAF UDTF 实时计算 storm实时流计算框架 简介 架构 按照部署 核心概念和数据流模型 编程实例 Spark Streaming 简介 架构 按照部署 核心概念和数据流模型 编程实例 R语言(二选一) 能够实际部署并做配置 能够实际部署并做配置 R简介 函数与对象 编写脚本 R绘图 编写函数 数据保存 R是开源软件,多操应用于各行各业。 作系统,众多程序包, Python语言(二选一) 1.环境搭建及Python基础 1.环境搭建 2.Python基本数据结构 3.Python基本语法 2.python基础工具库 1. NumPy基础:数组 和矢量计算 2. 高级数据结构和操作工具:Pandas 如对你有帮助,请购买下载打赏,谢谢!
3. 数据加载、存储与文件格式 4. 数据规则化 5. 绘图与可视化 mllib开发和Graphx 简介 MLlib的架构 MLLib中的算法 算法应用案例 Graphx简介与核心功能 数据分析 数据分析与挖掘 1.数据聚合与分组运算 2.利用statsmodels进行统计分析 3.利用statsmodels进行回归分析 4.时间序列分析 5.常见算法介绍 6.数据挖掘项目实操 案例分析 营销数据案例分析 互联网数据案例分析 ARPU分析 漏斗分析 1.感知机 2.决策树、随机森林 3.支持向量机(SVM) 4.正则化方法 机器学习 机器学习基础 机器学习高级 5.主成分分析(PCA) 1. 特征工程 2. 参数调优 3. 集成学习 4. 文本挖掘 机器学习案例 讲解 如对你有帮助,请购买下载打赏,谢谢!
数据可视化 1.web数据可视化概 述 2.爬虫与数据处理 3.图表可视化 4.webGIS数据可视化 5.图可视化 webGIS数据可 视化 图可视化 1.风控架构 2.反欺诈 3.信用评估 4.贷后管理 五、考核标准
数据风控 本课程属于实践性、应用性比较强的课程,所以要加强过程性检查,每个学员可以在搭建好的大数据环境下,进行数据流程更改及数据挖掘的个性化调整。
考核课程中提供100G的大系统数据,然后倒入到环境,然后进行查询和分析。
因篇幅问题不能全部显示,请点此查看更多更全内容