数据仓库与数据发掘教与学(思政PPT+纲领+教案+视频+功课平台,魏伟一)
1
课程性量和课程目标
(一)课程性量
本课程以数据仓库和数据发掘为次要内容,讲述数据仓库与数据发掘的根本概念和办法,包罗数据预处置、数据仓库与联机阐发处置、数据仓库的设想与开发、以及数据发掘的次要功用、数据发掘、机器进修算法和利用,并通过对现实数据的阐发愈加深进天文解常用的数据发掘与机器进修模子。培育提拔学生数据阐发和处置的才能。该课程的先修课程有概率论与数理统计、数据库原理和法式设想等。
(二)教学目标
本课程的次要目标是培育提拔学生的数据仓库与数据发掘的根本理论阐发与利用理论的综合才能。通过本课程的教学,使学生掌握数据仓库和数据发掘的一般原理和处置办法,能利用机器进修理论处理数据发掘相关的问题。
2
教学内容
本课程全面而又系统地介绍了仓库与数据发掘的办法和手艺,反映了当前数据仓库与数据发掘研究的最新功效。本课程次要进修的内容包罗Python数据阐发与可视化根底、熟悉数据、数据预处置、回回阐发、联系关系规则发掘、分类与揣测、聚类阐发、神经收集与机器进修根底、离群点检测以及Python数据发掘案例阐发等内容。
3
教学体例
多媒体机房教学、案例导向、项目驱动等教学办法、启发学生对学科常识的掌握理解和现实操做才能。课程教学办法的变革以调动学生的积极性为核心。除讲授、发问、学生阐发、讨论等常用的办法外,连系治理课程的特征,适应本科生培育提拔的要求,摸索并完美以 参与式、体验式、交互式和模仿教学等理论教学为根本形式的多种办法。并成立纸量、声音、电子、收集等多种媒体构成的立体化教学载体。
展开全文
本课程的教学体例次要摘用课堂讲授和尝试操做,包罗:课堂讲授、多媒体教学、尝试操做、算法阐发与设想、习题解析、课堂讨论、修改功课、课外辅导等多种形式相连系,包管学生掌握数据发掘与机器进修的根本常识,理解算法的实现,培育提拔学生的自学才能、阐发问题息争决问题的才能。
教学办法:摘用启发式教学和探究式教学,以学生为主体,鼓舞学生本身针对某种数据发掘与机器进修算法停止阐发和研究,培育提拔学生的自学才能。
教学手段:足够操纵电子教案、CAI课件和收集教学平台等多种教学手段和资本。
测验环节:两次课堂小检验;学期末学生分为若干小组,每个小组研究讨论并实现某一前沿的数据发掘算法或者实现现实的数据发掘案例,以陈述的形式停止讲解,最初提交一份课程学术陈述。
4
定见学时和教学内容
本课程的教学时数为72学时,理论教学54学时,尝试教学18学时。
向上滑动阅览
第一章绪论
教学要点:
1. 理解和掌握数据仓库与数据发掘的根本概念、数据仓库的定义、构成以及数据发掘的过程、数据发掘的次要使命以及数据发掘利用的次要手艺。
2. 领会数据仓库和数据发掘的利用和面对的问题。
3. 对数据发掘可以处理的问题息争决问题构想有清晰的熟悉。
4. 娴熟利用Jupyter notebook 的开发情况。
教学时数:
2 学时。
教学内容:
第一节数据仓库简介
1. 领会数据仓库的定义和特征。
第二节数据仓库与操做型数据库的关系
1. 娴熟掌握数据仓库与数据库的区别。
第三节数据仓库的构成
1. 掌握数据仓库系统的构成。
第四节数据仓库的利用
1. 领会数据仓库的利用场景。
第五节基于Hadoop/Hive 的数据仓库手艺
1.领会基于Hadoop/Hive的数据仓库手艺。
第六节数据发掘的次要使命和数据源
1.理解数据发掘中的次要问题,使命和数据源。
第七节数据发掘与机器进修常用的建模东西
1. 领会数据发掘的商用和开源东西。
第八节操纵Python停止数据发掘
1. 掌握Python 数据发掘的常用类库。
2. 熟悉Jupyter Notebook 的利用办法。
第九节数据仓库与数据发掘的区别与联络
1. 掌握数据仓库与数据发掘的区别及联络
查核要点:
掌握数据仓库与数据发掘的定义和功用,理解数据发掘在何种数据长进行, 数据发掘能够发掘什么类型的形式,掌握初级的数据仓库手艺。
第二章熟悉数据
教学要点:
1. 理解和掌握数据对象和属性类型,数据的根本统计描述,掌握度量数据类似性和相异性的办法。
2. 领会数据可视化的办法。
教学时数:
2 学时。
教学内容:
第一节数据对象与属性类型
1. 娴熟掌握数据的属性类型。
第二节数据的根本统计描述
1. 娴熟掌握中心趋向度量的办法、度量分离水平的办法、数据根本统计描述图形展现的办法。
第三节数据可视化
1. 领会数据可视化的办法。
第四节度量数据的类似性和相异性
1. 娴熟掌握度量数据类似性和相异性的办法。
查核要点:
领会数据的属性类型,理解数据的根本统计描述, 掌握度量数据类似性和相异性的办法。
第三章数据预处置
教学要点:
1. 领会数据预处置的目标和意义。
2. 掌握若何对数据停止清理。
3. 掌握若何对差别数据源的数据停止合并。
4. 掌握若何对数据停止变更,使之合适建模的需要。
5. 掌握若何对数据停止消减,使得在消减后的数据集上发掘更有效。
6. 掌握操纵Python 停止数据预处置的办法。
教学时数
4 学时。
教学内容:
第一节数据预处置概述
1.领会为什么要对数据预处置。
2.数据的量量要求
第二节数据清理
1.理解缺失值、噪音数据的处置办法。
2.操纵Python停止数据清理的办法。
第三节数据集成
1.理解数据集成的办法。
2.操纵Python停止数据合并。
第四节数据变更与数据离散化
1. 领会数值数据的离散化和概念分层产生。
2. 娴熟掌握数据变更和数据离散化的办法。
第五节数据回约
1. 领会维回约:能够检测并删除不相关、弱相关或冗余的属性或维。
2. 理解数据压缩:利用编码机造压缩数据集。
3. 理解数值压缩:用替代的、较小的数据表达替代或估量数据,如参数模子(只需要存放模子参数,而不是现实数据)或非参数办法,如聚类、选样和利用曲方图。
查核要点:
理解数据清理、数据集成、数据规约、数据变更于数据离散化的办法, 掌握数据预处置的根本办法。
第四章数据仓库与联机阐发处置
教学要点:
1. 掌握数据仓库的系统。
2. 掌握多维数据模子与OLAP 。
3. 掌握数据仓库的维度建模。
4. 领会数据仓库的开展。
教学时数:
4 学时。
教学内容:
第一节数据仓库的系统
1. 理解数据仓库的系统构造。
2. 理解数据仓库中的ETL 、数据集市和元数据。
第二节多维数据模子与OLAP
1. 掌握多维数据模子的概念。
2. 理解OLAP 的含义和根本操做。
3. 掌握多维数据建模的实现过程。
第三节数据仓库的维度建模
1. 理解数据仓库的维度建模。
2. 理解星型模子和雪花模子。
第四节数据仓库的开展
1.领会动态数据仓库。
2.领会数据中心和数据中台。
查核要点:
掌握数据仓库系统、OLAP 及维度建模。
第五章数据仓库设想与开发
教学要点:
1. 掌握数据仓库设想的过程。
2. 掌握基于Hive 的数据仓库实现
教学时数:
4 学时。
教学内容:
第一节数据仓库设想概述
1. 领会数据仓库设想的特征。
2. 掌握数据仓库的构建形式。
第二节数据仓库设想
1. 掌握数据仓库规划、需求阐发及概念设想。
2. 理解数据仓库逻辑模子设想。
3. 理解数据仓库物理设想。
4. 领会数据仓库的摆设与庇护。
第三节基于Hive 的数据仓库实现
1. 理解Hive 数据仓库和数据库比力。
2. 掌握数据仓库的常用操做。
3. 掌握操纵Hive 成立数据仓库。
查核要点:
掌握数据仓库的设想过程与办法,操纵Hive 停止数据仓库设想开发。
第六章回回阐发
教学要点:
1. 掌握回回阐发原理。
2. 掌握一元线性回回阐发。
3. 掌握多元线性回回阐发。
4. 掌握逻辑回回。
5. 领会其他回回阐发。
教学时数:
4 学时。
教学内容:
第一节回回阐发概述
1. 理解回回阐发的定义与分类。
2. 理解回回阐发的过程。
第二节一元线性回回阐发
1. 掌握一元线性回回办法。
2. 理解一元线性回回模子的参数估量。
3. 理解一元线性回回模子的误差方差估量。
4. 掌握操纵Python 停止一元线性回回。
第三节多元线性回回
1. 理解多元线性回回模子。
2. 理解多元线性模子的参数估量。
3. 领会多元线性回回的假设查验及其评判。
4. 掌握操纵Python 停止多元线性回回。
第四节逻辑回回
3.理解Logistic回回模子。
4.掌握操纵Python停止Logistic回回。
查核要点:
掌握回回的定义,各类回回的原理及Python 实现。
第七章联系关系规则发掘
教学要点:
1. 领会联系关系规则的根本思惟、概念和意义。
2. 领会联系关系规则发掘的利用布景;掌握常用的联系关系规则算法。
3. 掌握操纵Python 实现联系关系规则阐发。
4. 领会其它办法的内容、领会联系关系规则发掘的研究动态。
教学时数:4学时。
教学内容:
第一节联系关系规则阐发概述
1. 领会购物篮阐发。
2. 娴熟掌握频繁项集、闭项集和联系关系规则的概念。
3. 理解频繁形式发掘的道路图。
第二节频繁项集发掘办法
1. 掌握Apriori 算法:利用候选项集找频繁项集。
2. 掌握由频繁项集产生联系关系规则的办法。
3. 理解进步Apriori 算法有效性的办法。
4. 掌握发掘频繁项集的形式增长办法。
第三节联系关系规则评估办法
1. 领会强联系关系规则纷歧定是有趣的。
2. 利用提拔度停止相关阐发。
查核要点:
领会频繁项集、闭项集和联系关系规则的概念,理解形式评估办法, 掌握Apriori 算法和发掘频繁项集的形式增长办法。
第八章分类
教学要点:
1. 领会分类及揣测的根本思惟、概念和意义。
2. 掌握常用的分类及揣测算法(或模子)。
3. 领会分类及揣测发掘的研究动态。
4. 掌握操纵Python 实现各类分类算法的办法。
教学时数:12学时。
教学内容:
第一节根本概念
1. 领会分类和揣测的定义。
第二节决策树规约
1. 理处理策树回纳的概念。
2. 掌握属性抉择度量的办法。
3. 理解树剪枝。
4. 决策树的Python 实现。
第三节K 近邻算法
1. K 近邻算法原理。
2. Python 算法实现。
第四节撑持向量机
1. SVM 算法原理。
2. Python 算法实现。
第五节贝叶斯分类
1. 理解贝叶斯定理。
2. 掌握纯朴贝叶斯分类算法。
3. 纯朴贝叶斯算法的Python 实现。
第六节模子评估与抉择
1. 分类器性能的度量。
2. 模子抉择。
3. 操纵Python 实现模子的评估与抉择。
第七节组合分类
1.组合办法简介。
2.袋拆。
3.提拔和AdaBoost。
4.随机丛林。
查核要点:
领会分类的概念,理解评估分类器性能的度量办法, 掌握决策树分类算法、SVM、贝叶斯分类算法、模子评估与抉择、组合分类及操纵Python实现分类的办法。
第九章聚类
教学要点:
1. 领会若何计算由各类属性和差别的类型来表达的对象之间的相异度。
2. 掌握K-Means 聚类、条理聚类、基于密度的聚类和其他常用办法。
3. 掌握操纵sklearn 实现聚类的办法。
教学时数:10学时。
教学内容:
第一节聚类阐发的概念
1. 理解什么是聚类阐发。
2. 领会对聚类阐发的要求。
3. 掌握根本的聚类办法。
第二节K-Means 聚类
1.掌握典型的划分办法:K-Means 和K-Medoids。
2.掌握操纵sklearn实现K-means聚类。
第三节条理办法
1. 理解凝聚的和团结的条理聚类。
2. 掌握簇间的间隔度量。
3. 团结和凝聚的条理聚类算法。
4. 算法实现。
第四节基于密度的办法
1. 算法原理。
2. 掌握DBSCAN 算法。
3. 掌握算法的Python 实现。
第五节其他聚类算法
1. 领会STING 算法。
2. 领会COBWEB 算法。
3. 掌握模糊聚类算法。
第六节聚类评估
1. 估量聚类趋向。
2. 进修确定簇数的办法。
3. 测定聚类量量。
查核要点:
领会聚类的概念,掌握k-Means 和k-Medoids 算法、条理办法和基于密度的办法等典型算法及其Python 的实现办法。
第十章神经收集与深度进修
教学要点:
1. 领会理解神经收集与深度进修的原理。
2. 掌握感知机与BP 神经收集的原理。
3. 领会深度进修根底。
教学时数:2 学时。
教学内容:
第一节神经收集根底
1. 理解神经元模子。
2. 理解感知机与多层收集。
第二节BP 神经收集
1.理解多层前馈神经收集。
2.理解后向传布算法。
3.领会BP神经收集利用。
第三节深度进修
1. 理解深度进修根本原理。
2. 领会常用的深度进修算法。
查核要点:
领会神经收集的概念,掌握感知机模子和BP 神经收集、领会深度进修算法。
第十一章离群点检测
教学要点:
1. 领会离群点的概念与检测办法。
2. 掌握sklearn 中的反常值检测办法。
教学时数:2 学时。
教学内容:
第一节离群点概述
1. 理解离群点的概念和类型。
2. 理解离群点检测的挑战。
第二节离群点检测
1. 理解基于统计学的离群点检测办法。
2. 理解基于临近性的离群点检测办法。
3. 理解基于聚类的离群点检测办法。
4. 理解基于分类的离群点检测办法。
第三节sklearn 中的反常值检测办法
1. 领会操纵Python 停止反常值检测的办法。
查核要点:
领会离群点的概念、类型以及离群点检测的常用办法,掌握sklearn 中的反常值检测办法。
第十二章文本和时序数据发掘
教学要点:
1. 掌握文本数据发掘的过程和根本办法。
2. 掌握时序数据发掘次要办法。
教学时数:4 学时。
教学内容:
第一节文本数据发掘
1. 理解文本数据发掘的使命。
第二节文天职析与发掘的次要办法
1. 理解文本发掘预处置的办法。
2. 理解文本表征、文天职类、聚类与文本可视化办法。
第三节时序数据发掘
1. 掌握时间序列平稳性与随机性断定办法。
2. 掌握时序数据的典型阐发发掘模子,次要包罗自回回滑动均匀模子、差分整合挪动均匀自回回模子和季节性差分自回回挪动均匀模子。
查核要点:
掌握文本发掘的次要使命和根本办法,时序数据揣测的次要模子。
第十三章数据发掘案例
教学要点:
1. 掌握数据发掘的阐发与实现。
2. 掌握操纵sklearn 停止综合数据发掘。
教学时数:4 学时。
教学内容:
1. 良/ 恶性乳腺肿瘤揣测
2. 泰坦尼克号乘客生还揣测
3. 图像的聚类朋分
查核要点:
掌握操纵Python 停止数据发掘与机器进修的实现过程。
本课程利用教具和现代教导手艺的批示性定见
本课程教材力图内容别致,应摘用多样化的体例停止教学,让学生在理论与理论相连系的根底上,对课程所要求的现实操做才能有进一步的进步。
足够操纵多媒体等现代化教学手段,整体优化教学过程和教学内容,调动学生进修积极性;安插现实操做使命给学生上机操做并及时批示。
5
课程教材
扫码优惠购书
6
目次
向上滑动阅览
源码下载
第 1章绪论
1. 1数据仓库概述
1. 1. 1数据仓库的定义及特征
1. 1. 2数据仓库与操做型数据库的关系
1. 1. 3数据仓库的构成
1. 1. 4数据仓库的利用
1. 1. 5基于 Hadoop/Spark的数据仓库手艺
1. 2数据发掘概述
1. 2. 1数据发掘的概念
1. 2. 2数据发掘的次要使命
1. 2. 3数据发掘的数据源
1. 2. 4数据发掘利用的手艺
1. 2. 5数据发掘存在的次要问题
1. 2. 6数据发掘建模的常用东西
1. 2. 7Python数据发掘常用库
1. 3数据仓库与数据发掘的区别与联络
1. 3. 1数据仓库与数据发掘的区别
1. 3. 2数据仓库与数据发掘的联络
1. 4小结
习题 1
第 2章熟悉数据
2.1属性及其类型
2.1.1属性
2.1.2属性类型
2.2数据的根本统计描述
2.2.1中心趋向度量
2.2.2数据漫衍度量
2.3数据可视化
2.3.1基于像素的可视化手艺
2.3.2几何投影可视化手艺
2.3.3基于图符的可视化手艺
2.3.4条理可视化手艺
2.3.5可视化复杂对象和关系
2.3.6高维数据可视化
2.3.7Python数据可视化
2.4数据对象的类似性度量
2.4.1数据矩阵和相异性矩阵
2.4.2标称属性的类似性度量
2.4.3二元属性的类似性度量
2.4.4数值属性的类似性度量
2.4.5序数属性的类似性度量
2.4.6混合类型属性的类似性
2.4.7余弦类似性
2.4.8间隔度量的 Python实现
2.5小结
习题 2
第 3章数据预处置
3.1数据预处置的需要性
3.1.1原始数据中存在的问题
3.1.2数据量量要求
3.2数据清洗
3.2.1数据清洗办法
3.2.2操纵 Pandas停止数据清洗
3.3数据集成
3.3.1数据集成过程中的关键问题
3.3.2操纵 Pandas合并数据
3.4数据原则化
3.4.1离差原则化数据
3.4.2原则差原则化数据
3.5数据回约
3.5.1维回约
3.5.2数量回约
3.5.3数据压缩
3.6数据变更与数据离散化
3.6.1数据变更的战略
3.6.2Python数据变更与离散化
3.7操纵 sklearn停止数据预处置
3.8小结
习题 3
第 4章数据仓库与联机阐发处置
4. 1数据仓库的系统
4. 1. 1数据仓库系统构造
4. 1. 2数据 ETL
4. 1. 3数据集市
4. 1. 4元数据
4. 2多维数据模子与 OLAP
4. 2. 1多维数据模子的相关概念
4. 2. 2OLAP的根本阐发操做
4. 2. 3多维数据模子的实现
4. 3数据仓库的维度建模
4. 3. 1数据仓库维度建模概述
4. 3. 2星形模子
4. 3. 3雪花模子
4. 4数据仓库开展
4. 4. 1动态数据仓库
4. 4. 2数据中心
4. 4. 3数据中台
4. 5小结
习题 4
第 5章数据仓库设想与开发
5. 1数据仓库设想概述
5. 1. 1数据仓库设想的特征
5. 1. 2数据仓库设想与营业系统模子设想的区别
5. 1. 3数据仓库构建形式
5. 1. 4数据仓库成立框架
5. 2数据仓库设想
5. 2. 1数据仓库规划、需求阐发及概念设想
5. 2. 2数据仓库逻辑模子设想
5. 2. 3数据仓库物理模子设想
5. 2. 4数据仓库摆设与庇护
5. 3基于 Hive的数据仓库实现
5. 3. 1Hadoop/Hive简介
5. 3. 2Hive数据仓库和数据库比力
5. 3. 3Hive常用数据操做
5. 3. 4操纵 Hive成立数据仓库
5. 4小结
习题 5
第 6章回回阐发
6.1回回阐发概述
6.1.1回回阐发的定义与分类
6.1.2回回阐发的过程
6.2一元线性回回阐发
6.2.1一元线性回回办法
6.2.2一元线性回回模子的参数估量
6.2.3一元线性回回模子的误差方差估量
6.2.4一元线性回回模子的次要统计查验
6.2.5一元线性回回的 Python实现
6.3多元线性回回
6.3.1多元线性回回模子
6.3.2多元线性回回模子的参数估量
6.3.3多元线性回回的假设查验及其评判
6.3.4多元线性回回的 Python实现
6.4逻辑回回
6.4.1逻辑回回模子
6.4.2逻辑回回的 Python实现
6.5其他回回阐发
6.5.1多项式回回
6.5.2岭回回
6.5.3Lasso回回
6. 5. 4弹性回回
6.5.5逐渐回回
6.6小结
习题 6
第 7章联系关系规则发掘
7.1联系关系规则发掘概述
7.2频繁项集、闭项集和联系关系规则
7.3频繁项集发掘办法
7.3.1Apriori算法
7.3.2由频繁项集产生联系关系规则
7.3.3进步 Apriori算法的效率
7.3.4频繁形式增长算法
7.3.5利用垂曲数据格局发掘频繁项集
7.4联系关系形式评估办法
7.5Apriori算法利用
7.6小结
习题 7
第 8章分类
8.1分类概述
8.2决策树回纳
8.2.1决策树原理
8.2.2ID3算法
8.2.3C4.5算法
8.2.4CART算法
8.2.5树剪枝
8.2.6决策树利用
8.3K近邻算法
8.3.1算法原理
8.3.2Python算法实现
8.4撑持向量机
8.4.1算法原理
8.4.2Python算法实现
8.5纯朴贝叶斯分类
8.5.1算法原理
8.5.2高斯纯朴贝叶斯分类
8.5.3多项式纯朴贝叶斯分类
8.5.4纯朴贝叶斯分类利用
8.6模子评估与抉择
8.6.1分类器性能的度量
8.6.2模子抉择
8.7组合分类
8.7.1组合分类办法简介
8.7.2袋拆
8.7.3提拔和 AdaBoost
8.7.4随机丛林
8.8小结
习题 8
第 9章聚类
9.1聚类阐发概述
9.1.1聚类阐发的概念
9.1.2聚类算法分类
9.2KMeans聚类
9.2.1算法原理
9.2.2算法改进
9.2.3KMeans算法实现
9.3条理聚类
9.3.1算法原理
9.3.2簇间的间隔度量
9.3.3团结条理聚类
9.3.4凝聚条理聚类
9.3.5条理聚类利用
9.4基于密度的聚类
9.4.1算法原理
9.4.2算法改进
9.4.3DBSCAN算法实现
9.5其他聚类办法
9.5.1STING聚类
9.5.2概念聚类
9.5.3模糊聚类
9.6聚类评估
9.6.1聚类趋向的估量
9.6.2聚类簇数确实定
9.6.3聚类量量的测定
9.7小结
习题 9
第 10章神经收集与深度进修
10.1神经收集根底
10.1.1神经元模子
10.1.2感知机与多层收集
10.2BP神经收集
10.2.1多层前馈神经收集
10.2.2后向传布算法
10.2.3BP神经收集利用
10.3深度进修
10.3.1深度进修概述
10.3.2常用的深度进修算法
10.4小结
习题 10
第 11章离群点检测
11.1离群点概述
11.1.1离群点的概念
11.1.2离群点的类型
11.1.3离群点检测的挑战
11.2离群点的检测
11.2.1基于统计学的离群点检测
11.2.2基于临近性的离群点检测
11.2.3基于聚类的离群点检测
11.2.4基于分类的离群点检测
11.3sklearn中的反常检测办法
11.4小结
习题 11
第 12章文本和时序数据发掘
12. 1文本数据发掘
12. 1. 1文本发掘概述
12. 1. 2文本发掘的过程与使命
12. 2文天职析与发掘的次要办法
12. 2. 1词语分词
12. 2. 2词性标注与停用词过滤
12. 2. 3文本表征
12. 2. 4文天职类
12. 2. 5文本聚类
12. 2. 6文本可视化
12. 3时序数据发掘
12. 3. 1时间序列和时间序列阐发
12. 3. 2时间序列平稳性和随机性断定
12. 3. 3自回回滑动均匀模子
12. 3. 4差分整合挪动均匀自回回模子
12. 3. 5季节性差分自回回挪动均匀模子
12. 4小结
习题 12
第 13章数据发掘案例
13.1良性 /恶性乳腺肿瘤揣测
13.2泰坦尼克号乘客生还揣测
13.3图像的聚类朋分
13.4小结
7
视频样例
已存眷
存眷
重播分享赞
封闭
看看更多
更多
正在加载
正在加载
退出全屏
视频加载失败,请刷新页面再试
刷新
视频详情
8
PPT样例
9
教案样例
10
配套题库网站
在公家号书圈后台回复【9787302625735】,下载本书配套的教学资本
相 关 图 书