数据处理的统计学习(scikit-learn教程)
|
为了提升问题的状况(考虑到高维灾难),只选择信息含量较大的(对结果y造成的影响较大的)的特征,不选择信息含量较小的特征会很有趣,如把特征2的系数调到0.岭回归将会减少信息含量较小的系数的值,而不是把它们设置为0.另一种抑制措施——Lasso(最小绝对收缩和选择算子)可以使得一些参数为0.这些方法被称作稀疏方法。系数操作可以看作是奥卡姆的剃刀:模型越简单越好。 regr = linear_model.Lasso() scores = [regr.set_params(alpha=alpha ? ? ? ? ? ?).fit(diabetes_X_train,diabetes_y_train ? ? ? ? ? ?).score(diabetes_X_test,diabetes_y_test) ? ? ? 针对相同问题的不同算法:
logistic = linear_model.LogisticRegression(C=1e5) logistic.fit(iris_X_train,iris_y_train) 这就是有名的logistic回归。
通过Logistic回归进行收缩和稀疏: 在LogisticRegression对象中C参数控制着正则化的数量:C越大,正则化数目越少。penalty= "12" 提供收缩(非稀疏化系数),penalty="11"提供稀疏化。 (编辑:PHP编程网 - 金华站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


