一、基本知识二、向量操作三、矩阵运算四、特殊函数
2.概率论基础
一、概率与分布二、期望和方差三、大数定律及中心极限定理五、常见概率分布六、先验分布与后验分布七、信息论八、其它
3.数值计算基础
一、数值稳定性二、梯度下降法三、二阶导数与海森矩阵四、牛顿法五、拟牛顿法六、约束优化
4.蒙特卡洛方法与MCMC采样
一、蒙特卡洛方法二、马尔可夫链三、MCMC采样
统计学习
0.机器学习简介一、基本概念二、监督学习三、机器学习三要素
机器学习的对象是:具有一定的统计规律的数据。
机器学习根据任务类型,可以划分为:
监督学习任务:从已标记的训练数据来训练模型。主要分为:分类任务、回归任务、序列标注任务。无监督学习任务:从未标记的训练数据来训练模型。主要分为:聚类任务、降维任务。半监督学习任务:用大量的未标记训练数据和少量的已标记数据来训练模型。强化学习任务:从系统与环境的大量交互知识中训练模型。
机器学习根据算法类型,可以划分为:
传统统计学习:基于数学模型的机器学习方法。包括SVM、逻辑回归、决策树等。这一类算法基于严格的数学推理,具有可解释性强、运行速度快、可应用于小规模数据集的特点。深度学习:基于神经网络的机器学习方法。包括前馈神经网络、卷积神经网络、递归神经网络等。这一类算法基于神经网络,可解释性较差,强烈依赖于数据集规模。但是这类算法在语音、视觉、自然语言等领域非常成功。
没有免费的午餐定理(NoFreeLunchTheorem:NFL):对于一个学习算法A,如果在某些问题上它比算法B好,那么必然存在另一些问题,在那些问题中B比A更好。因此不存在这样的算法:它在所有的问题上都取得最佳的性能。因此要谈论算法的优劣必须基于具体的学习问题。
一、线性回归二、广义线性模型三、对数几率回归四、线性判别分析五、感知机
2.支持向量机
一、线性可分支持向量机二、线性支持向量机三、非线性支持向量机四、支持向量回归五、SVDD六、序列最小最优化方法七、其它讨论
3.朴素贝叶斯
一、贝叶斯定理二、朴素贝叶斯法三、半朴素贝叶斯分类器四、其它讨论
4.决策树
一、原理二、特征选择三、生成算法四、剪枝算法五、CART树六、连续值、缺失值处理七、多变量决策树
5.knn
一、k近邻算法二、kd树
6.集成学习
一、集成学习误差二、Boosting三、Bagging四、集成策略五、多样性分析
7.梯度提升树
一、提升树二、xgboost三、LightGBM
8.特征工程
一、缺失值处理二、特征编码三、数据标准化、正则化四、特征选择五、稀疏表示和字典学习六、多类分类问题七、类别不平衡问题
9.模型评估
一、泛化能力二、过拟合、欠拟合三、偏差方差分解四、参数估计准则五、泛化能力评估六、训练集、验证集、测试集七、性能度量七、超参数调节八、传统机器学习的挑战
10.降维
一、维度灾难二、主成分分析PCA三、核化线性降维KPCA四、流形学习五、度量学习六、概率PCA七、独立成分分析八、t-SNE九、LargeVis
11.聚类
一、性能度量二、原型聚类三、密度聚类四、层次聚类五、谱聚类
12.半监督学习
半监督学习一、生成式半监督学习方法二、半监督SVM三、图半监督学习四、基于分歧的方法五、半监督聚类六、总结
13.EM算法
一、示例二、EM算法原理三、EM算法与高斯混合模型四、EM算法与kmeans模型五、EM算法的推广
14.最大熵算法
一、最大熵模型MEM二、分类任务最大熵模型三、最大熵的学习
15.隐马尔可夫模型
一、隐马尔可夫模型HMM二、HMM基本问题三、最大熵马尔科夫模型MEMM
16.概率图与条件随机场
一、概率图模型二、贝叶斯网络三、马尔可夫随机场四、条件随机场CRF
17.边际概率推断
一、精确推断二、近似推断
18.主题模型
一、UnigramModel二、pLSAModel三、LDAModel四、LDA优化五、sentence-LDA六、模型讨论
深度学习
0.深度学习简介一、介绍二、历史
如果绘制一张图来展示这些概念的关系,那么这张图是一个深度的层次结构,因此称这种方法为深度学习。
1.深度前馈神经网络
一、基础二、损失函数三、输出单元四、隐单元五、结构设计六、历史小记
2.反向传播算法
一、链式法则二、反向传播三、算法实现四、自动微分
3.正则化
4.最优化基础
一、代价函数二、神经网络最优化挑战三、mini-batch四、基本优化算法五、自适应学习率算法六、二阶近似方法七、共轭梯度法八、优化策略和元算法九、参数初始化策略十、Normalization十一、OnlineLearning
一、卷积运算二、卷积层、池化层三、基本卷积的变体四、应用五、历史和现状
5.1.CNN之图片分类
一、LeNet二、AlexNet三、VGG-Net四、Inception五、ResNet六、ResNet变种七、SENet八、DenseNet九、小型网络
6.循环神经网络
一、RNN计算图二、训练算法三、长期依赖四、常见RNN变种
7.Transformer
8.词向量
一、向量空间模型VSM二、LSA三、Word2Vec四、GloVe五、FastText六、ELMo七、变种
9.传统CTR预估模型
一、LR模型二、POLY2模型三、FM模型四、FFM模型五、GBDT-LR模型六、FTRL模型七、LS-PLM模型
10.工程实践指导原则
一、性能度量二、默认的基准模型三、决定是否收集更多数据四、选择超参数五、调试策略六、示例:数字识别系统七、数据预处理八、变量初始化九、结构设计
工具
CRF
CRF++一、安装二、使用三、Python接口四、常见错误
lightgbm
lightgbm使用指南一、安装二、调参三、进阶四、API五、Docker
xgboost
xgboost使用指南一、安装二、调参三、外存计算四、GPU计算五、单调约束六、DARTbooster七、PythonAPI
scikit-learn
1.预处理
一、特征处理二、特征选择三、字典学习四、PipeLine
2.降维
3.监督学习模型
一、线性模型二、支持向量机三、贝叶斯模型四、决策树五、KNN六、AdaBoost七、梯度提升树八、RandomForest
4.模型评估
一、数据集切分二、性能度量三、验证曲线&&学习曲线四、超参数优化
5.聚类模型
一、KMeans二、DBSCAN三、MeanShift四、AgglomerativeClustering五、BIRCH六、GaussianMixture七、SpectralClustering
6.半监督学习模型
一、标签传播算法
7.隐马尔可夫模型
一、Hmmlearn二、seqlearn
spark
1.基础概念
一、核心概念二、安装和使用三、pysparkshell四、独立应用
2.rdd使用
一、概述二、创建RDD三、转换操作四、行动操作五、其他方法和属性六、持久化七、分区八、混洗
3.dataframe使用
一、概述二、SparkSession三、DataFrame创建四、DataFrame保存五、DataFrame六、Row七、Column八、GroupedData九、functions
4.累加器和广播变量
一、累加器二、广播变量
numpy
numpy使用指南一、ndarray二、ufunc函数三、函数库四、数组的存储和加载
scipy
scipy使用指南一、常数和特殊函数二、拟合与优化三、线性代数四、统计五、数值积分六、稀疏矩阵
matplotlib
matplotlib使用指南一、matplotlib配置二、matplotlibArtist三、基本概念四、布局五、Path六、patheffect七、坐标变换八、3D绘图九、技巧
pandas
完整版看手册地址:
部分章节节选:
作者简介:
寒冬里,这个最酷AI创新平台招人啦!新智元邀你2020勇闯AI之巅
在新智元你可以获得:
与国内外一线大咖、行业翘楚面对面交流的机会掌握深耕人工智能领域,成为行业专家远高于同行业的底薪五险一金+月度奖金+项目奖励+年底双薪舒适的办公环境(北京融科资讯中心B座)一日三餐、水果零食