请询价
适合对象:对大数据挖掘培训,大数据分析培训,大数据培训等有兴趣学习的学员
开设课程校区:上地十街,高粱桥斜街59号,厂洼街校区
课程亮点:
朝九晚九全程跟班答疑、一对一督学、定期直播串讲、五分钟内有问必答、出勤率和进度监督、作业与测试
学习目标:
1.零基础脱产学习,5个月学会大数据技术
2.计算机、统计、数学等专业学习更佳
3.包学会,成为大数据稀缺人才,高薪就业
4.*DA大数据就业帮,助你前程似锦
5.大数据未来已来,只等你改变自己
课程内容:
1章业务分析基础技能
1-1数据分析概述
1-2常用高阶函数
1-3条件格式应用
1-4数据透视表高阶应用
1-5图表进阶
1-6项目排期管理
1-7案例背景介绍
1-8动态考勤表制作
1-9每月考勤统计
1-10考勤汇总统计
1-11常用指标概述
1-12基础指标统计
1-13人力资源指标体系概述
1-14案例背景介绍
1-15员工绩效评定思路解析
1-16实操绩效统计及可视化
1-17案例背景介绍
1-18活动评估报表思路解析
1-19实操活动评估指标统计
1-20指导撰写报表结论
1-21图表应用
1-22零碎需求分析方法
1-23案例应用-核心产品分析
1-24案例应用-零售业商业智能看板
1-25RFM基础模型及拓展
1-26案例应用-用户画像
1-27树状结构分析方法概述
1-28案例应用-汽车行业分析报告
2章数据库应用技能
2-1数据库简介
2-2表结构的特点
2-3数据库分类
2-4MySQL简介
2-5数据库基本结构
2-6SQL语言分类
2-7SQL书写要求
2-8创建、使用及删除数据库
2-9创建表
2-10数据类型
2-11约束条件
2-12修改及删除表
2-13插入数据
2-14批量导入数据
2-15更新数据
2-16删除数据
2-17查询指定列
2-18查询不重复记录
2-19条件查询
2-20常用运算符
2-21空值查询
2-22设置别名
2-23模糊查询
2-24查询结果排序
2-25限制查询
2-26聚合运算
2-27分组查询
2-28分组后筛选
2-29内连接
2-30左连接
2-31右连接
2-32合并查询
2-33标量子查询
2-34行子查询
2-35列子查询
2-36表子查询
2-37字符串函数
2-38数学函数
2-39日期和时间函数
2-40分组合并函数
2-41逻辑函数
2-42开窗函数
2-43进阶练习
2-44数据来源及业务背景
2-45表关系梳理
2-46数据导入及字段处理
2-47数据查询
3章商业智能分析技能
3-1数据仓库结构说明
3-2基于数据仓库的数据处理方法
3-3数据仓库数据处理进阶
3-4数据仓库应用案例
3-5创建多维数据模型
3-6理解多维模型表连接规则
3-7业务数据分析指标介绍
3-8业务数据汇总分析进阶
3-9时间维度分析方法说明
3-10业务背景介绍
3-11理解及加工处理数据
3-12可视化界面创建方法介绍
3-13制作零售业销售情况分析仪
3-14业务背景介绍
3-15客户价值模型说明
3-16数据加工处理
3-17制作电商客户行为分析仪
3-18业务背景介绍
3-19理解餐饮业关键运营指标
3-20数据加工处理
3-21制作餐饮业日销售情况监控仪
3-22电商业务背景介绍
3-23电商流量指标体系说明
3-24数据加工处理
3-25制作电商流量分析仪
3-26业务背景介绍
3-27进销存关键指标说明
3-28数据加工处理
3-29制作经销商经营情况分析仪
3-30业务背景介绍
3-31数据说明
3-32制作车企销售情况分析仪
3-33由讲师介绍业务背景
3-34由讲师提供数据
3-35由学员独立完成业务分析仪的制作过程
3-36由学员分组发表制作成果并由讲师点评
4章数据挖掘数学基础
4-1函数
4-2极限
4-3微分及应用
4-4定积分
4-5向量
4-6线性方程组
4-7线性变化与矩阵
4-8矩阵乘法
4-9行列式
4-10矩阵的秩
4-11逆矩阵
4-12点乘与内积
4-13外积
4-14特征值与特征向量
4-15集中趋势的度量
4-16离散程度的度量
4-17偏态与峰态的度量
4-18统计量概念与常用统计量
4-19抽样分布
4-20样本均值的分布与中心极限定理
4-21样本比例的抽样分布
4-22两个样本平均值之差的分布
4-23样本方差的分布
4-24假设检验的基本概念
4-25一个总体参数的检验
4-26两个总体参数的检验
4-27分类数据与X2统计量
4-28拟合优度检验
4-29列联分析:独立性检验
4-30线性关系的方向和强度
4-31协方差
4-32相关系数
4-33一元线性回归模型
4-34多元线性回归模型
4-35逻辑回归模型
5章Python编程基础
5-1Python简介
5-2Python安装环境介绍
5-3Python常用IDE及Jupyter介绍
5-4Python第三方库安装
5-5编码与标识符
5-6Python保留字
5-7注释和缩进
5-8输入和输出
5-9变量及赋值
5-10数值
5-11字符串
5-12布尔值
5-13列表
5-14元组
5-15集合
5-16字典
5-17条件语句: If
5-18循环语句For和While
5-19Break语句
5-20Continue语句
5-21Pass语句
5-22错误和异常捕捉语句
5-23异常和错误处理
5-24逻辑判断函数
5-25数值运算函数
5-26序列函数
5-27类型转换函数
5-28函数定义
5-29函数参数
5-30默认参数
5-31变量作用域
5-32全局变量和局部变量
5-33匿名函数
5-34列表生成式
5-35高级函数: map、Reduce、 filter等
5-36模块概念介绍
5-37import模块导入
5-38自定义模块
5-39文件读写
5-40利用Python操作文件和目录
5-41类的定义
5-42类对象
5-43类方法
5-44Python连接数据库方法
5-45利用Python操作数据库
6章Python数据清洗
6-1NumPy基本介绍
6-2NumPy基本数据结构: Ndarray
6-3数组的索引与切片
6-4数组其他常用函数与方法
6-5Pandas基本数据结构: Series与DataFrame
6-6索引、切片与过滤
6-7排序与汇总
6-8DataFrame简单处理缺失值方法
6-9数据集的合并与连接
6-10重复值的处理
6-11数据集映射转化方法
6-12异常值查找与替换
6-13排序和随机抽样
6-14DataFrame字符串常用操作
6-15DataFrame分组操作
6-16
6-17 DataFrame聚合操作
6-18DataFrame透视表的创建方法
6-19数据的获取与存储
6-20数据探索
6-21数据清洗实战案例一
6-22数据清洗实战案例二
7章Python数据可视化
7-1数据可视化入门
7-2常用可视化第三方库介绍: matplotlib、seaborn、PyEcharts
7-3常用可视化图形介绍,如饼图、柱图、条形图、线图散点图等
7-4图形选择
7-5Pandas绘图方法
7-6图例配置方法和常用参数
7-7颜色条配置方法和常用参数
7-8subplot多子图绘制方法
7-9文字与注释、自定义坐标轴方法
7-10Seaborn入门介绍
7-11Seaborn API介绍
7-12Seaborn绘图示例
7-13Echarts介绍
7-14PyEcharts API介绍
7-15PyEcharts绘图示例
8章Python统计分析
8-1数据描述
8-2数据分布与统计信息
8-3数据角色定义
8-4大数据存储
8-5最小二乘估计
8-6线性回归与相关
8-7线性回归与方差分析
8-8数据分析流程
8-9多元线性回归的假设
8-10正态分布问题
8-11异方差问题与处理
8-12异常值问题与处理
8-13共线性问题与处理
8-14内生性问题与处理
8-15logistic回归与卡方
8-16大似然估计
8-17logistic回归解析
8-18评分与预测
8-19分类比例平衡问题
8-20工具变量的使用
8-21哑变量处理
8-22变量筛选
9章机器学习快速入门
9-1机器学习入门介绍:机器学习基本思想、常用算法分类、算法库等
9-2Python机器学习算法库Scikit-Learn入门介绍
9-3超参数与模型验证:学习曲线、网格搜索
9-4特征工程概念介绍
9-5分类特征、文本特征
9-6图像特征、特征衍生
9-7缺失值填充、特征管道
9-8KNN基本原理
9-9KNN函数详解
9-10KNN高级数据结构实现
9-11原理补充:归一化方法、学习曲线、交叉验证
9-12KNN-最近邻分类器
9-13KNN算法示例
9-14无监督学习与聚类算法
9-15聚类分析概述与簇的概念
9-16距离衡量方法
9-17聚类目标函数和质心计算方法
9-18Scikit-Learn实现K-Means及主要参数解
9-19决策树工作原理
9-20构建决策树(ID3算法构建决策树及局限性)
9-****.5与CART算法
9-22决策树的Scikit-Learn实现:八个参数、一个属性、四个接口解析
9-23分类模型的评估指标(混淆矩阵原理)
9-24实例:泰坦尼克号幸存者的预测
9-25过拟合与欠拟合
9-26决策树算法评价(优点与缺点)
9-27决策树在保险行业中的应用
10章机器学习进阶
10-1线性回归概述
10-2多元线性回归基本原理
10-3模型参数求解方法
10-4回归类模型评价标准:精准性、拟合度
10-5多重共线性与岭回归、Lasso
10-6非线性问题及其处理方法
10-7多项式回归
10-8MSE
10-9R^2
10-10最小二乘法
10-11梯度下降
10-12名为“回归\"的分类器
10-13二元逻辑回归的损失函数
10-14逻辑回归的重要参数
10-15梯度下降求解逻辑回归最小损失函数
10-16概率分类器概述
10-17朴素贝叶斯概述
10-18不同分布下的朴素贝叶斯
10-19高斯贝叶斯下的拟合效果与运算速度
10-20多项式朴素贝叶斯及其优化
10-21AUC
10-22ROC
10-23关联规则概述:频繁项集的产生与
10-24关联发现
10-25Apriori算法原理:先验原理
10-26使用Apriori算法来发现频繁项集(生成候选项集(函数的构建与封装)、项集迭代函数)
10-27协同概率概述
10-28协同过滤算法分类
10-29基于商品的协同过滤
10-30基于协同过滤的商品个性化推荐
10-31集成算法概述Bagging Vs Boosting、集成算法的认识
10-32随机森林分类器的实现:重要参数、重要属性和接口
10-33随机森林回归器的实现:重要参数、属性与接口
10-34机器学习中调参的基本思想(泛化误差)
10-35调参应用:随机森林在乳腺癌数据上的调参
10-36MSE
10-37R^2
10-38最小二乘法
10-39梯度下降
10-40数据处理概述
10-41数据量纲处理:归一化、标准化
10-42缺失值处理
10-43分类型数据处理:数据编码与哑变量
10-44连续性数据处理:二值化与分箱
10-45特征选择:过滤法、嵌入法、包装法
10-46SVM概述: SVM工作原理
10-47SVM模型构建
10-48线性SVM:线性SVM的损失函数、函数间隔有几何间隔、SVM决策边界
10-49非线性SVM: SVC模型概述、重要参数、核函数、SVC重要参数(C、class weight)
10-50感知机
10-51多层感知机
10-52初识神经网络
10-53梯度提升树概述
10-54XGBoost选择若分类器
10-55求解目标函数
10-56参数化决策树
10-57建立目标函数与树结构的直接关系
10-58贪婪算法与求解优树
10-59XGBoost的剪枝参数:减轻过拟合
10-60XGBoost分类中的样本不均衡问题处
10-61基于XGboost的航空预测
11章评分卡案例
11-1评分卡业务逻辑介绍
11-2案例业务背景介绍
11-3基本分析工具与环境准备
11-4数据准备
11-5数据预处理
11-6数据比例调节:过度抽样
11-7构造训练集和测试集
11-8变量相关性分析
11-9数据的缺失值与异常值
11-10变量数据类型重编码
11-11Logistic模型原理回顾
11-12Logistic建模
11-13利用Logistic模型进行变量筛选
11-14分类模型评估指标回顾
11-15过度抽样调整
11-16收益矩阵
11-17模型转化评分卡
11-18Python模型部署方法
11-19构建机器学习流
11-20模型效果监测与更新
12章电商零售
12-1项目商业问题简述
12-2项目策略与方法
12-3项目推荐计划
12-4项目时间规划
12-5购买倾向模型
12-6方法原理介绍
12-7目标以及数据介绍
12-8Python算法实现(Gradient Boosting)
12-9建模结果解读
12-10购买倾向模型
12-11目标以及数据介绍
12-12Python算法实现
12-13建模结果解读
12-14活动设计
12-15结果评价
13章Python网络爬虫(录播)
13-1网络爬虫定义
13-2网络爬虫用途
13-3通用搜索引擎工作的原理和局限性
13-4爬虫基本原理与流程
13-5常见网络爬虫分类
13-6基于IP地址搜索策略
13-7广度优先搜索策略
13-8深度优先搜索策略
13-9优先搜索策略
13-10http基本原理介绍
13-11http请求过程
13-12网页组成
13-13HTML:超文本标记语言
13-14CSS:层叠样式表
13-15网页样式
13-16JavaScript(JS)
13-17网页的结构
13-18爬虫基本流程
13-19抓取数据的数据类型解析
13-20JavaScript渲染页面
13-21cookies介绍
13-22爬虫代理
13-23Robots协议介绍
13-24爬虫攻防入门
14章Tableau数据分析 (录播)
14-1Tableau产品介绍
14-2Tableau操作界面介绍
14-3Tableau常用功能介绍
14-4Tableau连接数据源方法
14-5层级与下钻
14-6排序和分组
14-7创建和使用集
14-8筛选方法:筛选栏和筛选器
14-9数据处理常用参数
14-10参考线与趋势线
14-11常用预测方法
14-12可视化基本方法
14-13初级图表绘制方法:条形图、折线图、饼图、文字云、散点图、地图、树形图、气泡图等
14-14高级图表:子弹图、环形图、瀑布图、Bump Chart、Table Formatting
14-15使用Tableau制作仪表板
14-16逻辑运算
14-17数值运算
14-18字符串处理函数
14-19日期函数
14-20聚合函数
14-21数据背景和需求分析
14-22数据读取与预处理
14-23Top N客户汇总分析
14-24Top N客户销售额分析
15章分布式集群架构
15-1大数据概念介绍
15-2Hadoop入门与分布式集群基本概念
15-3Hadoop生态和及其技术栈
15-4Linux生态介绍
15-5常用虚拟化工具介绍
15-6常用Linux操作系统
15-7Vmware与VirtualBox
15-8Ubuntu操作系统与CentOS
15-9Ubuntu安装与常用命令
15-10JDK的安装与使用
15-11Hadoop安装与使用
15-12Hadoop单机运行方法
15-13Hadoop伪分布式运行方法
15-14利用多节点安装Hadoop集群
15-15Hadoop生态其他常用组件基本介绍
15-16数据仓库Hive安装方法
15-17分布式数据库Hbase安装方法
15-18ETL工具Sqoop安装方法
15-19Scala与Spark安装方法
16章Hadoop基础
16-1HDFS概念及设计原理
16-2HDFS体系结构和运行机制
16-3NameNode、DataNode、SecondaryNameNode配置文件及修改方法
16-4HDFS备份机制和文件管理机制
16-5NameNode、DataNode、SecondaryNameNode作用及运行机制
16-6HDFS的常用操作方法介绍
16-7HDFS Java API介绍
16-8HDFS Shell命令格式
16-9HDFS创建文件目录命令
16-10HDFS文件复制、重命名命令
16-11HDFS文件移动、删除命令
16-12HDFS其他常用命令
16-13YARN基本概念
16-14YARN相关进程介绍
16-15YARN核心组件及其功能
16-16YARN运行原理
16-17MapReduce概念及设计原理
16-18MapReduce运行过程类的调用过程
16-19Mapper类和Reducer类的继承机制
16-20Job生命周期
16-21MapReduce中block的调度及作业分配机制
16-22Mapreduce程序格式介绍
16-23MapReduce程序执行流程介绍
16-24MapReduce程序在浏览器中查看
16-25Mappre类和Reducer类的主要编写内容和模式
16-26Job的编写和实现
16-27MapReduce程序编写实操
16-28Jar包打包方法和集群运行
17章Sqoop安装与使用
17-1Sqoop组件介绍与发展历史
17-2Sqoop组件特性及核心功能
17-3ETL基本概念
17-4Hadoop生态中的数据转化方法
17-5Linux中安装Sqoop方法
17-6Sqoop集成MySQL方法
17-7Sqoop集成Hbase方法
17-8Sqoop集成Hive方法
17-9Sqoop功能测试
17-10Sqoop导入功能介绍
17-11Sqoop数据导入import命令基本格式
17-12Sqoop数据导入import命令常用参数
17-13利用Sqoop从MySQL中导入数据至HDFS
17-14Sqoop生成相应Java代码方法codegen
17-15利用Sqoop导入数据至Hive
17-16利用Sqoop导入数据至Hbase
17-17Sqoop导出功能介绍
17-18Sqoop数据导入export命令基本格式
17-19Sqoop数据导入export命令常用参数
17-20从HDFS中导出数据到MySQL
17-21从Hive导出数据到MySQL
17-22从Hbase导出数据到MySQL
18章分布式数据仓库Hbase
18-1分布式数据库和关系型数据库
18-2No-SQL数据库与面向列数据库特性讲解
18-3Hbase发展历史
18-4Hbase核心特性
18-5Hbase在Linux中的安装方法
18-6Hbase配置文件与修改方法
18-7Hbase与Zookeeper集成
18-8Hbase完全分布式安装与运行
18-9简单备份模式
18-10Hbase逻辑模型
18-11Hbase物理模型
18-12paxos算法与运行机制
18-13静态迁移与动态迁移
18-14Hbase基本操作方法
18-15Hbase Shell通用命令General
18-16表格创建命令Create
18-17常用查看命令list、describe
18-18使用put命令添加数据
18-19删除数据delete、delete all命令
18-20查看数据scan、get命令
18-21修改数据命令alter
18-22表格删除方法
18-23其他统计方法
18-24Hbase和Hive集成概述
18-25Hbase和Hive集成方法
18-26使用HQL操作Hbase中数据
18-27Hbase和Spark集成概述
18-28Hbase和Spark集成方法
18-29利用Spark编程读取Hbase中数据
19章数据仓库工具Hive
19-1数据仓库诞生背景与概念介绍
19-2常用数据仓库工具介绍
19-3分布式数据仓库工具介绍
19-4Hive核心特性
19-5Hive部署与访问
19-6Hive常用元数据服务与访问接口
19-7Hive数据模型
19-8数据存储结构
19-9Hive API distinct
19-10Hive API multi insert
19-11Hive API union all
19-12Hive API union all
19-13Hive API group by&order by
19-14Hive基本数据类型
19-15Hive复杂数据类型
19-16Hive数据定义方法
19-17创建、修改和删除表方法
19-18视图和索引的创建、修改和删除
19-19表中加载数据的方法
19-20表中导出数据方法
19-21查询操作
19-22连接操作
19-23子查询
19-24数据仓库企业开发平台
19-25数据仓库模型设计
19-26自助查询系统设计
19-27宽表设计与用户画像
19-28利用Hive进行网站流量分析
20章Spark基本原理与核心组件
20-1分布式计算框架介绍
20-2Spark诞生背景与发展历程
20-3Spark基本定位与核心特性
20-4Scala语言介绍:基础语法、编译环境、常用类型、声明;行、字符、二进制与文本文件的读取与写入
20-5Scala 函数:控制结构(赋值、条件、循环、输入输出)与函数(参数与过程);数组操作(定义、遍历、转换)及常用算法
20-6Scala对象操作:的类和对象构造与继承、重写、抽象、转换;类与对象中特质的属性与使用,包的使用与引入
20-7Spark运行架构
20-8Spark运行基本流程
20-9RDD设计背景与基本概念
20-10RDD特性
20-11RDD之间依赖关系
20-12RDD运行过程
20-13Spark三种部署方式
20-14Spark与Hadoop统一部署
20-15Spark结构化数据模块Spark SQL
20-16Spark机器学习算法库Spark MLlib
20-17Spark流式计算框架Spark Streaming
20-18新一代Spark流式计算框架Structured Streaming
20-19Spark图计算框架GraphX
21章PySpark编程
21-1RDD创建方法
21-2RDD转换操作
21-3RDD行动操作
21-4RDD惰性机制
21-5RDD持久化操作
21-6打印元素方法
21-7键值对RDD创建方法
21-8常用键值对转换操作:reduceByKey、groupByKey、keys、values、sortByKey、mapValues、join等操作
21-9键值对RDD编程案例
21-10广播变量
21-11累加器
21-*********.sql模块
21-***************ming模块
21-********k.ml模块
21-***********llib模块
21-***************Conf类
21-******************text类
21-****************iles类
21-*********.RDD类
21-*****************ator类
21-***************cast类
22章Spark SQL
22-1Spark SQL与shark
22-2Spark SQL基本设计结构
22-3Spark SQL高级数据结构
22-4高级数据结构DataFrame概念介绍
22-5DataFrame与RDD
22-6DataFrame创建方法
22-7DataFrame常用操作
22-8利用RDD转化生成DataFrame
22-9利用反射机制推断RDD模式方法
22-10使用编程方式定义RDD模式
22-11常用外部数据源
22-12Parquet基本介绍
22-13读写Parquet方法
22-14读取MySQL中数据方法
22-15连接Hive读写数据方法
23章Spark ML
23-1机器学习入门介绍:机器学习基本思想、常用算法分类、算法库等
23-2Spark机器学习包ML和MLlib介绍
23-3特征矩阵与标签数组
23-4评估器与解释器
23-5特征工程概念介绍
23-6机器学习流概念介绍
23-7MLlib入门介绍
23-8MLlib向量的创建与使用,包括密集向量、稀疏向量、标签向量等
23-9MLlib矩阵的创建与使用,包括行矩阵、坐标矩阵、本地矩阵等
23-10MLlib基本统计方法:概括统计、相关性、抽样方法、假设检验、核密度估计等
23-11降维操作:PCA主成分分析与SVD奇异值分解
23-12线性回归分析
23-13逻辑归回
23-14决策树和随机森林
23-15支持向量机SVM
23-16ML机器学习流创建方法
23-17特征抽取、转化和选择:TF-IDF、CountVectorizer、Word2Vec
23-18快速聚类算法
23-19协同过滤算法
23-20集成算法
23-21反向传播神经网络
23-22SVM支持向量机分类和支持向量机回归
24章Spark Streaming
24-1流式计算简介
24-2流式计算核心概念
24-3常用流式计算框架介绍
24-4Spark流式计算框架:Spark Streaming与Structured Streaming
24-5流式计算数据源介绍
24-6常用高级数据源
24-7分布式日志系统Flume介绍与安装
24-8Flume使用方法
24-9分布式消息系统Kafka介绍与安装
24-10Kafka使用方法
24-11Kafka和Flume集成
24-12Spark Streaming简介
24-13Spark Streaming计算框架基本架构
24-14Dstream队列流基本概念
24-15Spark Streaming与基本数据源集成:文件流、套接字流、RDD队列流
24-16Spark Streaming与高级数据源集成:Kafka、Flume
24-17 Dstream转化操作与输出操作
24-18Structured Streaming简介
24-19Structured Streaming基本架构与计算流程
24-20DatazFrame创建与转换
24-21利用Structured Streaming进行流查询
24-22通过编写独立应用使用Structured Streaming
25章GraphX
25-1图计算基本概念
25-2图概念
25-3图处理技术,如图数据库、图数据查询、图数据分析、图数据可视化等
25-4图计算软件
25-5属性图概念
25-6属性图实例
25-7创建属性图方法
25-8graphx类介绍
25-9使用RDD构建图
25-10查看操作列表
25-11属性操作
25-12结构操作
25-13关联操作
25-14聚合操作
25-15缓存操作
25-16PageRank算法
25-17连通分支算法
25-18三角形计算算法
26章Flink流处理框架
26-1Flink的重要特点
26-2IDEA 集成开发环境
26-3Java基础及应用:基础语法、面向对象、异常处理、IO流、注解、反射等
26-4Flink部署
26-5Flink运行架构
26-6Flink 流处理API
26-7Flink中的Window
26-8时间语义与Wartermark
26-9ProcessFunction API
26-10状态编程和容错机制
26-11Table API 与SQL
26-12Flink CEP
27章大数据分析案例(三选二)
27-1数据采集平台、数仓、离线\\实时分析平台设计、框架选型、搭建流程及常见问题总结
27-2数据挖掘方法回顾
27-3CRISP-DM方法和SEMMA方法
27-4数据挖掘方法在大数据分析中的实践应用方法
27-5利用HDFS和Hbase进行简单数据处理
27-6利用Sqoop完成数据ETL过程
27-7利用数据仓库工具和Spark SQL进行数据清洗
27-8利用Spark MLlib构建机器学习流进行建模分析
27-9利用PyEcharts进行结果可视化展示
27-10流量:用户画像与精细化营销
27-11产品:产品生命周期管理
27-12活动:KPI检测体系构建
27-13品牌:品类管理与多位能力模型构建
27-14客户:客户细分与用户画像
27-15产品:产品生命周期与用户关系管理
27-16营销:精准营销、网络获客、客户维护与客户生命周期管理
27-17用户离网分析
27-18客户价值评估
27-19用户细分
27-20电信反欺诈模型的构建1章业务分析基础技能
1-1数据分析概述
1-2常用高阶函数
1-3条件格式应用
1-4数据透视表高阶应用
1-5图表进阶
1-6项目排期管理
1-7案例背景介绍
1-8动态考勤表制作
1-9每月考勤统计
1-10考勤汇总统计
1-11常用指标概述
1-12基础指标统计
1-13人力资源指标体系概述
1-14案例背景介绍
1-15员工绩效评定思路解析
1-16实操绩效统计及可视化
1-17案例背景介绍
1-18活动评估报表思路解析
1-19实操活动评估指标统计
1-20指导撰写报表结论
1-21图表应用
1-22零碎需求分析方法
1-23案例应用-核心产品分析
1-24案例应用-零售业商业智能看板
1-25RFM基础模型及拓展
1-26案例应用-用户画像
1-27树状结构分析方法概述
1-28案例应用-汽车行业分析报告
2章数据库应用技能
2-1数据库简介
2-2表结构的特点
2-3数据库分类
2-4MySQL简介
2-5数据库基本结构
2-6SQL语言分类
2-7SQL书写要求
2-8创建、使用及删除数据库
2-9创建表
2-10数据类型
2-11约束条件
2-12修改及删除表
2-13插入数据
2-14批量导入数据
2-15更新数据
2-16删除数据
2-17查询指定列
2-18查询不重复记录
2-19条件查询
2-20常用运算符
2-21空值查询
2-22设置别名
2-23模糊查询
2-24查询结果排序
2-25限制查询
2-26聚合运算
2-27分组查询
2-28分组后筛选
2-29内连接
2-30左连接
2-31右连接
2-32合并查询
2-33标量子查询
2-34行子查询
2-35列子查询
2-36表子查询
2-37字符串函数
2-38数学函数
2-39日期和时间函数
2-40分组合并函数
2-41逻辑函数
2-42开窗函数
2-43进阶练习
2-44数据来源及业务背景
2-45表关系梳理
2-46数据导入及字段处理
2-47数据查询
3章商业智能分析技能
3-1数据仓库结构说明
3-2基于数据仓库的数据处理方法
3-3数据仓库数据处理进阶
3-4数据仓库应用案例
3-5创建多维数据模型
3-6理解多维模型表连接规则
3-7业务数据分析指标介绍
3-8业务数据汇总分析进阶
3-9时间维度分析方法说明
3-10业务背景介绍
3-11理解及加工处理数据
3-12可视化界面创建方法介绍
3-13制作零售业销售情况分析仪
3-14业务背景介绍
3-15客户价值模型说明
3-16数据加工处理
3-17制作电商客户行为分析仪
3-18业务背景介绍
3-19理解餐饮业关键运营指标
3-20数据加工处理
3-21制作餐饮业日销售情况监控仪
3-22电商业务背景介绍
3-23电商流量指标体系说明
3-24数据加工处理
3-25制作电商流量分析仪
3-26业务背景介绍
3-27进销存关键指标说明
3-28数据加工处理
3-29制作经销商经营情况分析仪
3-30业务背景介绍
3-31数据说明
3-32制作车企销售情况分析仪
3-33由讲师介绍业务背景
3-34由讲师提供数据
3-35由学员独立完成业务分析仪的制作过程
3-36由学员分组发表制作成果并由讲师点评
4章数据挖掘数学基础
4-1函数
4-2极限
4-3微分及应用
4-4定积分
4-5向量
4-6线性方程组
4-7线性变化与矩阵
4-8矩阵乘法
4-9行列式
4-10矩阵的秩
4-11逆矩阵
4-12点乘与内积
4-13外积
4-14特征值与特征向量
4-15集中趋势的度量
4-16离散程度的度量
4-17偏态与峰态的度量
4-18统计量概念与常用统计量
4-19抽样分布
4-20样本均值的分布与中心极限定理
4-21样本比例的抽样分布
4-22两个样本平均值之差的分布
4-23样本方差的分布
4-24假设检验的基本概念
4-25一个总体参数的检验
4-26两个总体参数的检验
4-27分类数据与X2统计量
4-28拟合优度检验
4-29列联分析:独立性检验
4-30线性关系的方向和强度
4-31协方差
4-32相关系数
4-33一元线性回归模型
4-34多元线性回归模型
4-35逻辑回归模型
5章Python编程基础
5-1Python简介
5-2Python安装环境介绍
5-3Python常用IDE及Jupyter介绍
5-4Python第三方库安装
5-5编码与标识符
5-6Python保留字
5-7注释和缩进
5-8输入和输出
5-9变量及赋值
5-10数值
5-11字符串
5-12布尔值
5-13列表
5-14元组
5-15集合
5-16字典
5-17条件语句: If
5-18循环语句For和While
5-19Break语句
5-20Continue语句
5-21Pass语句
5-22错误和异常捕捉语句
5-23异常和错误处理
5-24逻辑判断函数
5-25数值运算函数
5-26序列函数
5-27类型转换函数
5-28函数定义
5-29函数参数
5-30默认参数
5-31变量作用域
5-32全局变量和局部变量
5-33匿名函数
5-34列表生成式
5-35高级函数: map、Reduce、 filter等
5-36模块概念介绍
5-37import模块导入
5-38自定义模块
5-39文件读写
5-40利用Python操作文件和目录
5-41类的定义
5-42类对象
5-43类方法
5-44Python连接数据库方法
5-45利用Python操作数据库
6章Python数据清洗
6-1NumPy基本介绍
6-2NumPy基本数据结构: Ndarray
6-3数组的索引与切片
6-4数组其他常用函数与方法
6-5Pandas基本数据结构: Series与DataFrame
6-6索引、切片与过滤
6-7排序与汇总
6-8DataFrame简单处理缺失值方法
6-9数据集的合并与连接
6-10重复值的处理
6-11数据集映射转化方法
6-12异常值查找与替换
6-13排序和随机抽样
6-14DataFrame字符串常用操作
6-15DataFrame分组操作
6-16
6-17 DataFrame聚合操作
6-18DataFrame透视表的创建方法
6-19数据的获取与存储
6-20数据探索
6-21数据清洗实战案例一
6-22数据清洗实战案例二
7章Python数据可视化
7-1数据可视化入门
7-2常用可视化第三方库介绍: matplotlib、seaborn、PyEcharts
7-3常用可视化图形介绍,如饼图、柱图、条形图、线图散点图等
7-4图形选择
7-5Pandas绘图方法
7-6图例配置方法和常用参数
7-7颜色条配置方法和常用参数
7-8subplot多子图绘制方法
7-9文字与注释、自定义坐标轴方法
7-10Seaborn入门介绍
7-11Seaborn API介绍
7-12Seaborn绘图示例
7-13Echarts介绍
7-14PyEcharts API介绍
7-15PyEcharts绘图示例
8章Python统计分析
8-1数据描述
8-2数据分布与统计信息
8-3数据角色定义
8-4大数据存储
8-5最小二乘估计
8-6线性回归与相关
8-7线性回归与方差分析
8-8数据分析流程
8-9多元线性回归的假设
8-10正态分布问题
8-11异方差问题与处理
8-12异常值问题与处理
8-13共线性问题与处理
8-14内生性问题与处理
8-15logistic回归与卡方
8-16似然估计
8-17logistic回归解析
8-18评分与预测
8-19分类比例平衡问题
8-20工具变量的使用
8-21哑变量处理
8-22变量筛选
9章机器学习快速入门
9-1机器学习入门介绍:机器学习基本思想、常用算法分类、算法库等
9-2Python机器学习算法库Scikit-Learn入门介绍
9-3超参数与模型验证:学习曲线、网格搜索
9-4特征工程概念介绍
9-5分类特征、文本特征
9-6图像特征、特征衍生
9-7缺失值填充、特征管道
9-8KNN基本原理
9-9KNN函数详解
9-10KNN高级数据结构实现
9-11原理补充:归一化方法、学习曲线、交叉验证
9-12KNN-最近邻分类器
9-13KNN算法示例
9-14无监督学习与聚类算法
9-15聚类分析概述与簇的概念
9-16距离衡量方法
9-17聚类目标函数和质心计算方法
9-18Scikit-Learn实现K-Means及主要参数解
9-19决策树工作原理
9-20构建决策树(ID3算法构建决策树及局限性)
9-****.5与CART算法
9-22决策树的Scikit-Learn实现:八个参数、一个属性、四个接口解析
9-23分类模型的评估指标(混淆矩阵原理)
9-24实例:泰坦尼克号幸存者的预测
9-25过拟合与欠拟合
9-26决策树算法评价(优点与缺点)
9-27决策树在保险行业中的应用
10章机器学习进阶
10-1线性回归概述
10-2多元线性回归基本原理
10-3模型参数求解方法
10-4回归类模型评价标准:精准性、拟合度
10-5多重共线性与岭回归、Lasso
10-6非线性问题及其处理方法
10-7多项式回归
10-8MSE
10-9R^2
10-10最小二乘法
10-11梯度下降
10-12名为“回归\"的分类器
10-13二元逻辑回归的损失函数
10-14逻辑回归的重要参数
10-15梯度下降求解逻辑回归最小损失函数
10-16概率分类器概述
10-17朴素贝叶斯概述
10-18不同分布下的朴素贝叶斯
10-19高斯贝叶斯下的拟合效果与运算速度
10-20多项式朴素贝叶斯及其优化
10-21AUC
10-22ROC
10-23关联规则概述:频繁项集的产生与
10-24关联发现
10-25Apriori算法原理:先验原理
10-26使用Apriori算法来发现频繁项集(生成候选项集(函数的构建与封装)、项集迭代函数)
10-27协同概率概述
10-28协同过滤算法分类
10-29基于商品的协同过滤
10-30基于协同过滤的商品个性化推荐
10-31集成算法概述Bagging Vs Boosting、集成算法的认识
10-32随机森林分类器的实现:重要参数、重要属性和接口
10-33随机森林回归器的实现:重要参数、属性与接口
10-34机器学习中调参的基本思想(泛化误差)
10-35调参应用:随机森林在乳腺癌数据上的调参
10-36MSE
10-37R^2
10-38最小二乘法
10-39梯度下降
10-40数据处理概述
10-41数据量纲处理:归一化、标准化
10-42缺失值处理
10-43分类型数据处理:数据编码与哑变量
10-44连续性数据处理:二值化与分箱
10-45特征选择:过滤法、嵌入法、包装法
10-46SVM概述: SVM工作原理
10-47SVM模型构建
10-48线性SVM:线性SVM的损失函数、函数间隔有几何间隔、SVM决策边界
10-49非线性SVM: SVC模型概述、重要参数、核函数、SVC重要参数(C、class weight)
10-50感知机
10-51多层感知机
10-52初识神经网络
10-53梯度提升树概述
10-54XGBoost选择若分类器
10-55求解目标函数
10-56参数化决策树
10-57建立目标函数与树结构的直接关系
10-58贪婪算法与求解优树
10-59XGBoost的剪枝参数:减轻过拟合
10-60XGBoost分类中的样本不均衡问题处
10-61基于XGboost的航空预测
11章评分卡案例
11-1评分卡业务逻辑介绍
11-2案例业务背景介绍
11-3基本分析工具与环境准备
11-4数据准备
11-5数据预处理
11-6数据比例调节:过度抽样
11-7构造训练集和测试集
11-8变量相关性分析
11-9数据的缺失值与异常值
11-10变量数据类型重编码
11-11Logistic模型原理回顾
11-12Logistic建模
11-13利用Logistic模型进行变量筛选
11-14分类模型评估指标回顾
11-15过度抽样调整
11-16收益矩阵
11-17模型转化评分卡
11-18Python模型部署方法
11-19构建机器学习流
11-20模型效果监测与更新
12章电商零售
12-1项目商业问题简述
12-2项目策略与方法
12-3项目推荐计划
12-4项目时间规划
12-5购买倾向模型
12-6方法原理介绍
12-7目标以及数据介绍
12-8Python算法实现(Gradient Boosting)
12-9建模结果解读
12-10购买倾向模型
12-11目标以及数据介绍
12-12Python算法实现
12-13建模结果解读
12-14活动设计
12-15结果评价
13章Python网络爬虫(录播)
13-1网络爬虫定义
13-2网络爬虫用途
13-3通用搜索引擎工作的原理和局限性
13-4爬虫基本原理与流程
13-5常见网络爬虫分类
13-6基于IP地址搜索策略
13-7广度优先搜索策略
13-8深度优先搜索策略
13-9优先搜索策略
13-10http基本原理介绍
13-11http请求过程
13-12网页组成
13-13HTML:超文本标记语言
13-14CSS:层叠样式表
13-15网页样式
13-16JavaScript(JS)
13-17网页的结构
13-18爬虫基本流程
13-19抓取数据的数据类型解析
13-20JavaScript渲染页面
13-21cookies介绍
13-22爬虫代理
13-23Robots协议介绍
13-24爬虫攻防入门
14章Tableau数据分析 (录播)
14-1Tableau产品介绍
14-2Tableau操作界面介绍
14-3Tableau常用功能介绍
14-4Tableau连接数据源方法
14-5层级与下钻
14-6排序和分组
14-7创建和使用集
14-8筛选方法:筛选栏和筛选器
14-9数据处理常用参数
14-10参考线与趋势线
14-11常用预测方法
14-12可视化基本方法
14-13初级图表绘制方法:条形图、折线图、饼图、文字云、散点图、地图、树形图、气泡图等
14-14高级图表:子弹图、环形图、瀑布图、Bump Chart、Table Formatting
14-15使用Tableau制作仪表板
14-16逻辑运算
14-17数值运算
14-18字符串处理函数
14-19日期函数
14-20聚合函数
14-21数据背景和需求分析
14-22数据读取与预处理
14-23Top N客户汇总分析
14-24Top N客户销售额分析
15章分布式集群架构
15-1大数据概念介绍
15-2Hadoop入门与分布式集群基本概念
15-3Hadoop生态和及其技术栈
15-4Linux生态介绍
15-5常用虚拟化工具介绍
15-6常用Linux操作系统
15-7Vmware与VirtualBox
15-8Ubuntu操作系统与CentOS
15-9Ubuntu安装与常用命令
15-10JDK的安装与使用
15-11Hadoop安装与使用
15-12Hadoop单机运行方法
15-13Hadoop伪分布式运行方法
15-14利用多节点安装Hadoop集群
15-15Hadoop生态其他常用组件基本介绍
15-16数据仓库Hive安装方法
15-17分布式数据库Hbase安装方法
15-18ETL工具Sqoop安装方法
15-19Scala与Spark安装方法
16章Hadoop基础
16-1HDFS概念及设计原理
16-2HDFS体系结构和运行机制
16-3NameNode、DataNode、SecondaryNameNode配置文件及修改方法
16-4HDFS备份机制和文件管理机制
16-5NameNode、DataNode、SecondaryNameNode作用及运行机制
16-6HDFS的常用操作方法介绍
16-7HDFS Java API介绍
16-8HDFS Shell命令格式
16-9HDFS创建文件目录命令
16-10HDFS文件复制、重命名命令
16-11HDFS文件移动、删除命令
16-12HDFS其他常用命令
16-13YARN基本概念
16-14YARN相关进程介绍
16-15YARN核心组件及其功能
16-16YARN运行原理
16-17MapReduce概念及设计原理
16-18MapReduce运行过程类的调用过程
16-19Mapper类和Reducer类的继承机制
16-20Job生命周期
16-21MapReduce中block的调度及作业分配机制
16-22Mapreduce程序格式介绍
16-23MapReduce程序执行流程介绍
16-24MapReduce程序在浏览器中查看
16-25Mappre类和Reducer类的主要编写内容和模式
16-26Job的编写和实现
16-27MapReduce程序编写实操
16-28Jar包打包方法和集群运行
17章Sqoop安装与使用
17-1Sqoop组件介绍与发展历史
17-2Sqoop组件特性及核心功能
17-3ETL基本概念
17-4Hadoop生态中的数据转化方法
17-5Linux中安装Sqoop方法
17-6Sqoop集成MySQL方法
17-7Sqoop集成Hbase方法
17-8Sqoop集成Hive方法
17-9Sqoop功能测试
17-10Sqoop导入功能介绍
17-11Sqoop数据导入import命令基本格式
17-12Sqoop数据导入import命令常用参数
17-13利用Sqoop从MySQL中导入数据至HDFS
17-14Sqoop生成相应Java代码方法codegen
17-15利用Sqoop导入数据至Hive
17-16利用Sqoop导入数据至Hbase
17-17Sqoop导出功能介绍
17-18Sqoop数据导入export命令基本格式
17-19Sqoop数据导入export命令常用参数
17-20从HDFS中导出数据到MySQL
17-21从Hive导出数据到MySQL
17-22从Hbase导出数据到MySQL
18章分布式数据仓库Hbase
18-1分布式数据库和关系型数据库
18-2No-SQL数据库与面向列数据库特性讲解
18-3Hbase发展历史
18-4Hbase核心特性
18-5Hbase在Linux中的安装方法
18-6Hbase配置文件与修改方法
18-7Hbase与Zookeeper集成
18-8Hbase完全分布式安装与运行
18-9简单备份模式
18-10Hbase逻辑模型
18-11Hbase物理模型
18-12paxos算法与运行机制
18-13静态迁移与动态迁移
18-14Hbase基本操作方法
18-15Hbase Shell通用命令General
18-16表格创建命令Create
18-17常用查看命令list、describe
18-18使用put命令添加数据
18-19删除数据delete、delete all命令
18-20查看数据scan、get命令
18-21修改数据命令alter
18-22表格删除方法
18-23其他统计方法
18-24Hbase和Hive集成概述
18-25Hbase和Hive集成方法
18-26使用HQL操作Hbase中数据
18-27Hbase和Spark集成概述
18-28Hbase和Spark集成方法
18-29利用Spark编程读取Hbase中数据
19章数据仓库工具Hive
19-1数据仓库诞生背景与概念介绍
19-2常用数据仓库工具介绍
19-3分布式数据仓库工具介绍
19-4Hive核心特性
19-5Hive部署与访问
19-6Hive常用元数据服务与访问接口
19-7Hive数据模型
19-8数据存储结构
19-9Hive API distinct
19-10Hive API multi insert
19-11Hive API union all
19-12Hive API union all
19-13Hive API group by&order by
19-14Hive基本数据类型
19-15Hive复杂数据类型
19-16Hive数据定义方法
19-17创建、修改和删除表方法
19-18视图和索引的创建、修改和删除
19-19表中加载数据的方法
19-20表中导出数据方法
19-21查询操作
19-22连接操作
19-23子查询
19-24数据仓库企业开发平台
19-25数据仓库模型设计
19-26自助查询系统设计
19-27宽表设计与用户画像
19-28利用Hive进行网站流量分析
20章Spark基本原理与核心组件
20-1分布式计算框架介绍
20-2Spark诞生背景与发展历程
20-3Spark基本定位与核心特性
20-4Scala语言介绍:基础语法、编译环境、常用类型、声明;行、字符、二进制与文本文件的读取与写入
20-5Scala 函数:控制结构(赋值、条件、循环、输入输出)与函数(参数与过程);数组操作(定义、遍历、转换)及常用算法
20-6Scala对象操作:的类和对象构造与继承、重写、抽象、转换;类与对象中特质的属性与使用,包的使用与引入
20-7Spark运行架构
20-8Spark运行基本流程
20-9RDD设计背景与基本概念
20-10RDD特性
20-11RDD之间依赖关系
20-12RDD运行过程
20-13Spark三种部署方式
20-14Spark与Hadoop统一部署
20-15Spark结构化数据模块Spark SQL
20-16Spark机器学习算法库Spark MLlib
20-17Spark流式计算框架Spark Streaming
20-18新一代Spark流式计算框架Structured Streaming
20-19Spark图计算框架GraphX
21章PySpark编程
21-1RDD创建方法
21-2RDD转换操作
21-3RDD行动操作
21-4RDD惰性机制
21-5RDD持久化操作
21-6打印元素方法
21-7键值对RDD创建方法
21-8常用键值对转换操作:reduceByKey、groupByKey、keys、values、sortByKey、mapValues、join等操作
21-9键值对RDD编程案例
21-10广播变量
21-11累加器
21-*********.sql模块
21-***************ming模块
21-********k.ml模块
21-***********llib模块
21-***************Conf类
21-******************text类
21-****************iles类
21-*********.RDD类
21-*****************ator类
21-***************cast类
22章Spark SQL
22-1Spark SQL与shark
22-2Spark SQL基本设计结构
22-3Spark SQL高级数据结构
22-4高级数据结构DataFrame概念介绍
22-5DataFrame与RDD
22-6DataFrame创建方法
22-7DataFrame常用操作
22-8利用RDD转化生成DataFrame
22-9利用反射机制推断RDD模式方法
22-10使用编程方式定义RDD模式
22-11常用外部数据源
22-12Parquet基本介绍
22-13读写Parquet方法
22-14读取MySQL中数据方法
22-15连接Hive读写数据方法
23章Spark ML
23-1机器学习入门介绍:机器学习基本思想、常用算法分类、算法库等
23-2Spark机器学习包ML和MLlib介绍
23-3特征矩阵与标签数组
23-4评估器与解释器
23-5特征工程概念介绍
23-6机器学习流概念介绍
23-7MLlib入门介绍
23-8MLlib向量的创建与使用,包括密集向量、稀疏向量、标签向量等
23-9MLlib矩阵的创建与使用,包括行矩阵、坐标矩阵、本地矩阵等
23-10MLlib基本统计方法:概括统计、相关性、抽样方法、假设检验、核密度估计等
23-11降维操作:PCA主成分分析与SVD奇异值分解
23-12线性回归分析
23-13逻辑归回
23-14决策树和随机森林
23-15支持向量机SVM
23-16ML机器学习流创建方法
23-17特征抽取、转化和选择:TF-IDF、CountVectorizer、Word2Vec
23-18快速聚类算法
23-19协同过滤算法
23-20集成算法
23-21反向传播神经网络
23-22SVM支持向量机分类和支持向量机回归
24章Spark Streaming
24-1流式计算简介
24-2流式计算核心概念
24-3常用流式计算框架介绍
24-4Spark流式计算框架:Spark Streaming与Structured Streaming
24-5流式计算数据源介绍
24-6常用高级数据源
24-7分布式日志系统Flume介绍与安装
24-8Flume使用方法
24-9分布式消息系统Kafka介绍与安装
24-10Kafka使用方法
24-11Kafka和Flume集成
24-12Spark Streaming简介
24-13Spark Streaming计算框架基本架构
24-14Dstream队列流基本概念
24-15Spark Streaming与基本数据源集成:文件流、套接字流、RDD队列流
24-16Spark Streaming与高级数据源集成:Kafka、Flume
24-17Dstream转化操作与输出操作
24-18Structured Streaming简介
24-19Structured Streaming基本架构与计算流程
24-20DatazFrame创建与转换
24-21利用Structured Streaming进行流查询
24-22通过编写独立应用使用Structured Streaming
25章GraphX
25-1图计算基本概念
25-2图概念
25-3图处理技术,如图数据库、图数据查询、图数据分析、图数据可视化等
25-4图计算软件
25-5属性图概念
25-6属性图实例
25-7创建属性图方法
25-8graphx类介绍
25-9使用RDD构建图
25-10查看操作列表
25-11属性操作
25-12结构操作
25-13关联操作
25-14聚合操作
25-15缓存操作
25-16PageRank算法
25-17连通分支算法
25-18三角形计算算法
26章Flink流处理框架
26-1Flink的重要特点
26-2IDEA 集成开发环境
26-3Java基础及应用:基础语法、面向对象、异常处理、IO流、注解、反射等
26-4Flink部署
26-5Flink运行架构
26-6Flink 流处理API
26-7Flink中的Window
26-8时间语义与Wartermark
26-9ProcessFunction API
26-10状态编程和容错机制
26-11Table API 与SQL
26-12Flink CEP
27章大数据分析案例(三选二)
27-1数据采集平台、数仓、离线\\实时分析平台设计、框架选型、搭建流程及常见问题总结
27-2数据挖掘方法回顾
27-3CRISP-DM方法和SEMMA方法
27-4数据挖掘方法在大数据分析中的实践应用方法
27-5利用HDFS和Hbase进行简单数据处理
27-6利用Sqoop完成数据ETL过程
27-7利用数据仓库工具和Spark SQL进行数据清洗
27-8利用Spark MLlib构建机器学习流进行建模分析
27-9利用PyEcharts进行结果可视化展示
27-10流量:用户画像与精细化营销
27-11产品:产品生命周期管理
27-12活动:KPI检测体系构建
27-13品牌:品类管理与多位能力模型构建
27-14客户:客户细分与用户画像
27-15产品:产品生命周期与用户关系管理
27-16营销:精准营销、网络获客、客户维护与客户生命周期管理
27-17用户离网分析
27-18客户价值评估
27-19用户细分
27-20电信反欺诈模型的构建
数据分析师核心优势
CDA数据分析师系统培训立足于数据分析领域教育事业,覆盖了国内企业招聘数据分析师所要求的技能,进一步提升数据分析师的职业素养与能力水平,促进数据分析行业的高质量持续快速发展。
数据分析师机构简介
经管之家于2003年成立与中国人民大学经济学院,致力于推动经济的进步,传播优秀教育资源,目前已经发展成为国内大型的经济、管理、金融、统计类的在线教育和咨询网站,也是国内*活跃和具影响力的经管类网络社区。
经管之家运营团队:北京国富如荷网络科技有限公司,成立于2006年6月,公司以经管之家为运营平台,经营业务包括培训业务、数据处理和分析服务和教辅产品等。经管之家"数据分析培训中心" 自2007年成立以来,致力于开展统计软件、数据分析和数据挖掘的培训与咨询服务,目前已有专家、讲师团队100多位,拥有自主版权的视频课程60多门,每年开设现场培训班100余场,建立了完备的数据分析培训课程体系,每年培训学员3000多人。服务过的企业包括中国电子商务中心、招商银行、中国人民银行、中国邮政储蓄、中国联通、中国汽车技术研究中心、南京梅钢等机构。
发展至今,经管之家"数据分析培训中心"已经成为具有影响力和知名度的数据分析培训机构,我们一直努力做到:将数据分析变成一门常识,让统计软件成为学术研究的好伙伴,企业经营的好军师。
数据分析师学校优势
CDA优势如何?
2013年,经管之家创立"CDA数据分析师"品牌,致力于为社会各界数据分析爱好者提供*优质、*科学、*系统的数据分析教育。截止2015年已成功举办40期系统培训,培训学员达3千余名; 中国数据分析师俱乐部(CDA CLUB),已举办30期线下免费沙龙活动,累积会员2千余名;中国数据分析师行业峰会(CDA Summit),一年两次,参会人数达2千余名,在大数据领域影响力超前。"CDA数据分析师"队伍在业界不断壮大,对数据分析人才产业起到了巨大的推动作用。
优势一:师资与课程研发
CDA数据分析师系统培训,由经管之家根据CDA认证标准而设立的一套针对数据分析师技能的全面系统培训。培训师资目前来自学界、实务界相关领域的讲师、教授、专家、工程师以及企业资深分析师,名师荟萃,代表了国内数据分析培训的专业水平,可以更好地保证培训的学员既能学到扎实的数据分析理论知识,又能具备较强的利用软件解决实际问题的能力,保证学员能胜任各行业数据分析师工作的要求。CDA数据分析师培训注重结合实际,把具技术含量、具价值理念的课程传授给学员。课程还注重启发式教学,让学员在动手解决问题中去学习。
CDA数据分析师课程的大纲和内容,既由经管之家、CERTIFIED DATA ANALYST INSTITUTE(CDA协以及大数据、数据挖掘领域专家潜心开发和反复研究,又经过科学的调研确定,并且将不断地随着数据分析的市场需求和数据分析技术的发展而调整,课程内容始终关注市场、关注前沿。课程内容的设计更注重阶梯化、体系化的原则,每一个学员,不论学习和工作的背景如何,都能在该课程体系中很快找到适合自己的课程,并不断学习提高。
优势二:继续学习
所有CDA学员除了学习现场课程之外,还会得到全程视频录像及辅助学习视频课程(包括统计软件、数据挖掘、大数据等内容),此系列视频课程可以进行后期巩固学习和进修学习,可扎实现学技能、拓展课余知识、升华技术层级。CDA数据分析师培训体系除了CDA LEVEL认证培训以外,还推出了CDA就业脱产培训,使跨行、跨专业的学生、待业人员能够进行全面的脱产集训,并在培训后解决学员就业,拿到高薪工作。除此之外,CDA还为有基础的学员提供了更多元化更高级的行业专题培训,包括*前沿的PYTHON、SPARK等工具,电商、金融、游戏等各行业专题,以及量化投资、CRM营销、临床医学等细分领域。
优势三:在线学习
Pe******et(就学教育)为CDA数据分析师在线学习平台。视频可实现随时随地在线听课,10分钟一小节,可进行个性化、碎片化学习,更具针对性与便利性。CDA上课方式分为现场及远程两种方式,远程在线学习引进了*新设备与技术,与思科的合作解决了各地区学员的需求,实现了如同现场般的远程答疑及讨论氛围。
优势四:人才认证
参与CDA培训学员可以参加一年两次的"CDA数据分析师认证考试",并获得专业证书与持证人特权。CDA认证考试目前有"LEVEL 1业务数据分析师","LEVEL 2建模分析师","LEVEL 2大数据分析师",考试由经管之家主办,通过者获得经管之家CDA认证证书,并可到台湾申请由"中华资料采矿协会"颁发的"资料采矿分析师"证书,亦可获得由CDA协会认证的"CERTIFIED DATA ANALYST CERTIFICATION"。
优势五:CDA社群
经管之家有十二个社区,七百个版块,六百万会员。每日讨论的热点话题及资料以千计。学员在学后可以到"CDA数据分析师"版块进行交流、提问、下载资料等,形成数据分析专业聚集地,促进学员在圈子交流中高效发展。
除了在线平台,中国数据分析师俱乐部(CDA CLUB)汇聚了数据分析领域的各界兴趣爱好者,截止2015年已举办30期线下沙龙活动,会员累计2千余名,有高级会员与普通会员。在俱乐部中各会员可以通过共享资源方式获得相应积分,以积分兑换其他优质资源,形成了自发式的交流互动。
中国数据分析师行业峰会、大数据生态纵览峰会(CDA SUMMIT)。一年两次的行业峰会,汇聚了国内*的专家学者,发布前沿思想与技术,参会人员上千名,盛世浩大,影响超前,为数据人才和大数据行业的发展起到了极大的推动作用。
发展历程:
"2006年
开展数据统计、计量实战,学术研究等相关培训视频和现场班
2007年
开展数据统计、数据分析相关培训班
2011年
随着大数据热潮的来临,依托累计上万类共享资料,多年沉淀师资团队,论坛召集多位专家,研发CDA数据分析师体系
2013年
CDA数据分析师品牌成立,提供系统化的大数据、数据分析人才培养和认证
2014年
CDA INSTITUTE 成立 ,并推出第一届全国CDA数据分析师认证考试
2015年
第一届中国数据分析师行业峰会(CDAS)在9月11日成功举办,参会人数逾3000人
2016年
CDA汇聚海内外大数据、数据分析专家上千人,推出就业班、数据科学家训练营、企业内训、CDA俱乐部等多个项目
2017年
整合论坛与CDA数据分析师业内资源,形成数据分析领域生态圈,并进一步升级CDA企业内训体系,正式推出大数据实验室
2018年
北上广深等多个城市均有校区;拥有200多位专业师资;培养学员超过3万人,每年6月/12月全国28个城市举办CDA认证考试
2019年
已举办九届数据分析师认证考试,得到业界广泛认可,学员遍布各大知名企业。人工智能产品“好学AI”问世,引领DT时代新一波技术培训浪潮"
数据分析师师资力量