面试中常见核函数SMO算法与逻辑回归的关系和区别-老王博客

以下是我在面试中整理的机器学习问题。只有其中一些得到了答复。您可以自己检查它们。其他可以关注公众号获取。

拆分节点时使用数据预处理功能的次数。选择特征后的平均增益。分裂时特征覆盖的样本数（正相关是根节点和分裂节点之间的路径长度）

NLP场景下如何做数据增强（数据量小时提升泛化能力）

随机选择 k 进行同义词替换随机插入噪声或删除一些单词。随机交换其中一些词。Logistic回归LR是一个参数模型，它假设数据来自一个分布，而SVM是一个非参数模型。使用的损失函数分别是交叉熵和铰链损失。LR更新为

，根据预测值减少较远点对模型参数的影响，而SVM只使用支持向量。LR很难解决线性不可分的问题，而SVM可以使用各种核函数来解决。SVM 只需要计算几个支持向量。与回归的关系和差异可以通过最大似然函数来建模，SGD学习参数可以通过t检验和F检验来评估结果和参数。解决的问题是分类和回归。逻辑回归可以看作是广义线性回归，对于

做一个回归。如何解决多分类问题？

您可以输入属于每个类别的概率并计算损失函数，也可以使用多个二元分类器来确定样本是否属于每个类别。处理离散、连续特征的方法有哪些？优缺点支持向量机从模型的角度来看机器学习防止过拟合，模型具有拟合非线性函数的能力。根据 Cover Theomem，高维空间比低维空间更具有线性可分性。从优化的角度来看，对偶的表示可以带来内积，这很容易解决。常用核函数SMO算法与Logistic回归异同聚类

变量聚类的作用是降低相关性，消除冗余变量。

外部指标，内部指标。

k-means算法肯定会收敛，因为点到类中心的距离之和会单调递减，根据单调有界原理，最终会收敛，但可能收敛到局部最小值，比如A(-1,10), B(1,10), C(-1,-10), D(1,10), 那么将AC分成一组，BD分成另一组也收敛。

熵决策树

在模型训练时，基于非缺失样本进行特征评估，在预测时，缺失值被认为有可能获得所有值。

优点：可解释性强，预测速度快，无需特征工程，无需特征标准化，更好的缺失处理，离群值影响小

缺点：回归不够平滑，只能得到有限数量的值。对于高维稀疏数据，有些特征可能会因为过分强调而被忽略，导致过拟合和泛化能力差（相对于LR，可以添加正则化项），使用梯度提升可以缓解一些缺点。

修剪前、修剪后

强化学习综合学习

与单学习器相比，准确率显着提高，可以降低预测误差和方差。

解决局部最小值问题。

更强大的代表性。

GBDT 使用 CART 作为基础模型。

选择偏差损失或指数损失，每轮训练k个数（对应k个分类），对输出进行归一化，从标签值中减去概率值，得到剩余的待预测概率。

最小化指数损失

一阶和二阶。

训练前对数据进行排序，保存为块结构。

模型本身是一个串行结构，树不能并行构建，而是模型的内循环（计算每个特征在节点分裂的好处以选择特征）和外循环（处理每个子节点）节点）可以并行化。.

可以并行化，可以处理高维特征，默认值不影响特征筛选，减少方差，受异常值影响较小。

解决boosting算法的耗时问题（Xgboost等算法每次split都需要遍历整个数据集）

直方图算法

两个优化：

GOSS（Gradient-based One-side Sampling）计算样本的梯度并按绝对值倒序排序，保留一些梯度大的样本点，只对梯度小的样本进行抽样。效率提高，采样带来样本多样性。

EFB（Exclusive-feature Bundling）构造一个特征图，边上的权重就是特征之间的总冲突。特征根据它们在图中的程度按降序排序，并进行遍历，将每个特征分配给具有小冲突的现有捆绑或创建新捆绑以减少特征。

概率图模型的半监督学习评价指标忽略了预测值，将样本预测为(0.51, 0.49)，得到的auc为(1, 0)) 是一样的，它只能体现模型区分正负样本的能力机器学习防止过拟合，而不能体现精度、召回率等。它不关心正负样本的内部排序，即它不能反映哪些样本更容易出错，难以排查。两个模型的power不同，但auc可能相等（即两条曲线完全不同，但曲线下的总面积相同），而模型功率的这种差异无法通过 auc 反映出来。

文章版权声明 1、本站永久网址：https://www.9im.cn
2、本主题所有言论和图片纯属会员个人意见，与本网站立场无关。
3、本网站所有源码和软件均为作者提供和网友推荐收集整理而来，对提供的源码不拥有任何权利，其版权归原著者拥有。仅供学习和研究使用,下载后请24小时内删除。不得使用于非法商业用途，不得经营非法游戏或违反国家法律。一切关于该资源商业行为与老王博客无关。
4、如果您喜欢该程序，请支持正版源码、软件，购买注册，得到更好的正版服务。如有侵犯你版权的，请邮件与我们联系处理，本站将立即改正。
5、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END

喜欢就支持一下吧