数据处理的统计学习（scikit-learn教程）

发布时间：2020-12-25 23:39:26 所属栏目：大数据来源：网络整理

导读：副标题#e# 数据挖掘入门与实战 ?公众号： datadw Scikit-learn 是一个紧密结合Python科学计算库(Numpy、Scipy、matplotlib)，集成经典机器学习算法的Python模块。一、统计学习：scikit-learn中的设置与评估函数对象（1）数据集 scikit-learn 从二维数组描

为了提升问题的状况（考虑到高维灾难），只选择信息含量较大的（对结果y造成的影响较大的）的特征，不选择信息含量较小的特征会很有趣，如把特征2的系数调到0.岭回归将会减少信息含量较小的系数的值，而不是把它们设置为0.另一种抑制措施——Lasso（最小绝对收缩和选择算子）可以使得一些参数为0.这些方法被称作稀疏方法。系数操作可以看作是奥卡姆的剃刀：模型越简单越好。

regr = linear_model.Lasso()
scores = [regr.set_params(alpha=alpha
 ? ? ? ? ? ?).fit(diabetes_X_train,diabetes_y_train
 ? ? ? ? ? ?).score(diabetes_X_test,diabetes_y_test) ? ? ? 
for alpha in alphas]
best_alpha = alphas[scores.index(max(scores))]
regr.alpha = best_alpha
regr.fit(diabetes_X_train,diabetes_y_train)print(regr.coef_)

针对相同问题的不同算法：
不同的算法可以被用来解决相同的数学问题。例如scikit-learn中的Lasso对象使用coordinate decent方法解决lasso回归问题，在大数据集上是很有效的。然而，scikit-learn也使用LARS算法提供了LassoLars对象，对于处理权重向量非常稀疏的数据非常有效（数据的观测实例非常少）。

分类：
对于分类问题，比如iris标定任务，线性回归不是正确的方法。因为它会给数据得出大量远离决策边界的权重。一个线性方法是你和一个sigmoid函数或者logistic函数：

logistic = linear_model.LogisticRegression(C=1e5)
logistic.fit(iris_X_train,iris_y_train)

这就是有名的logistic回归。

多分类：
如果你有多个类别需要预测，一个可行的方法是 “一对多”分类，接着根据投票决定最终的决策。

通过Logistic回归进行收缩和稀疏：

在LogisticRegression对象中C参数控制着正则化的数量：C越大，正则化数目越少。penalty= "12" 提供收缩（非稀疏化系数），penalty="11"提供稀疏化。

（编辑：PHP编程网 - 金华站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/9

首页

尾页

云迁移之后企业凭什么	成功进行数据转移的策
怎样避免淹没在云原生	智能交通大数据科技在