版本0.13#

版本0.13.1#

February 23, 2013

0.13.1版本仅修复了一些错误，没有添加任何新功能。

Changelog#

修复了由该功能引起的测试错误 cross_validation.train_test_split being interpreted as a test by Yaroslav Halchenko .
修复了重新分配小集群的错误 cluster.MiniBatchKMeans 通过 Gael Varoquaux .
Fixed default value of gamma in decomposition.KernelPCA by Lars Buitinck.
更新jobib至 0.7.0d 通过 Gael Varoquaux .
修复了异常行为的缩放 ensemble.GradientBoostingClassifier 通过 Peter Prettenhofer .
更好的磨合 multiclass.OneVsOneClassifier 通过 Andreas Müller .
对测试和文档的其他小改进。

人#

按提交次数列出的0.13.1版本的贡献者列表。

16 Lars Buitinck
12 Andreas Müller
8 Gael Varoquaux
5罗伯特·马克曼
3 Peter Prettenhofer
2赫里希凯什·维尔戈尔卡
1巴斯蒂安·范登伯格
1迭戈·莫拉
1 Gilles Louppe
1 Mathieu Blondel
1 Nelle Varoquaux
1拉斐尔·库尼亚·德阿尔梅达
1罗兰多·埃斯皮诺萨·拉富恩特
1 Vlad Niculae
1 Yaroslav Halchenko

版本0.13#

January 21, 2013

新的估计类别#

dummy.DummyClassifier 和 dummy.DummyRegressor ，两个数据独立的预测器， Mathieu Blondel .这对检查你的估计值很有用。看到伪估计器在用户指南中。添加的多输出支持 Arnaud Joly .
decomposition.FactorAnalysis ，一个实施经典因子分析的Transformer，通过 Christian Osendorfer 和 Alexandre Gramfort .看到因子分析在用户指南中。
feature_extraction.FeatureHasher ，一个实现“哈希技巧”的Transformer，通过以下方式从字符串字段中快速、低内存特征提取 Lars Buitinck 和 feature_extraction.text.HashingVectorizer 对于文本文档， Olivier Grisel 看到特征哈希和使用哈希技巧对大型文本库进行载体化用于文档和示例使用。
pipeline.FeatureUnion ，一个Transformer，通过以下方式将多个其他转换器的结果连接起来 Andreas Müller .看到 DeliverUnion：复合要素空间在用户指南中。
random_projection.GaussianRandomProjection , random_projection.SparseRandomProjection 和功能 random_projection.johnson_lindenstrauss_min_dim .前两个是通过以下方式实现高斯和稀疏随机投影矩阵的转换器 Olivier Grisel 和 Arnaud Joly .看到随机投影在用户指南中。
kernel_approximation.Nystroem ，一个用于通过以下方式逼近任意核的Transformer Andreas Müller .看到核逼近的Nystroem方法在用户指南中。
preprocessing.OneHotEncoder ，一个Transformer，通过以下方式计算分类特征的二进制编码： Andreas Müller .看到编码类别特征在用户指南中。
linear_model.PassiveAggressiveClassifier 和 linear_model.PassiveAggressiveRegressor ，预测器通过以下方式对线性模型实施有效的随机优化 Rob Zinkov 和 Mathieu Blondel .看到被动攻击算法在用户指南中。
ensemble.RandomTreesEmbedding ，一个Transformer，用于使用完全随机树的集合创建多维稀疏表示， Andreas Müller .看到完全随机树嵌入在用户指南中。
manifold.SpectralEmbedding 和功能 manifold.spectral_embedding ，李伟实现了“拉普拉斯特征映射”变换以实现非线性降维。看到光谱嵌入在用户指南中。
isotonic.IsotonicRegression 通过 Fabian Pedregosa , Alexandre Gramfort 和 Nelle Varoquaux ,

Changelog#

metrics.zero_one_loss （以前 metrics.zero_one ）现在有一个标准化输出选项，可以报告错误分类的比例，而不是错误分类的原始数量。作者：凯尔·博尚。
tree.DecisionTreeClassifier 所有衍生的集成模型现在都支持样本加权，通过 Noel Dawe 和 Gilles Louppe .
在随机树的森林中使用自举样本时加速改进，通过 Peter Prettenhofer 和 Gilles Louppe .
的部分依赖图表受影响的树木在 ensemble.partial_dependence.partial_dependence by Peter Prettenhofer .看到 sphx_glr_auto_examples_inspection_plot_partial_dependence.py 举个例子。
该网站上的目录现已通过以下方式进行扩展： Jaques Grobler .
feature_selection.SelectPercentile 现在确定性地打破联系，而不是返回所有同等排名的特征。
feature_selection.SelectKBest 和 feature_selection.SelectPercentile 数字上更稳定，因为它们使用分数而不是p值来对结果进行排名。这意味着他们有时可能会选择与以前不同的功能。
岭回归和岭分类与 sparse_cg 求解器不再具有二次存储复杂性，通过 Lars Buitinck 和 Fabian Pedregosa .
岭回归和岭分类现在支持一个新的快速求解器，名为 lsqr ，由 Mathieu Blondel .
提速 metrics.precision_recall_curve 作者：康拉德·李。
添加了对使用成对偏好属性（svmlight文件格式中的qid）读写svmlight文件的支持 datasets.dump_svmlight_file 和 datasets.load_svmlight_file 通过 Fabian Pedregosa .
更快、更强大 metrics.confusion_matrix 和集群绩效评估作者：魏李。
cross_validation.cross_val_score 现在可以使用预先计算的核和亲和力矩阵，由 Andreas Müller .
LARS算法通过启发式算法在数字上更加稳定，以丢弃过于相关的回归量，并在数字噪音变得主要时停止路径， Gael Varoquaux .
更快地执行 metrics.precision_recall_curve 作者：康拉德·李。
新内核 metrics.chi2_kernel by Andreas Müller ，经常用于计算机视觉应用。
修复长期存在的错误 naive_bayes.BernoulliNB 由肖恩·杰克曼修复。
实施 predict_proba 在 multiclass.OneVsRestClassifier ，作者：安德鲁·温特曼。
Improve consistency in gradient boosting: estimators ensemble.GradientBoostingRegressor and ensemble.GradientBoostingClassifier use the estimator tree.DecisionTreeRegressor instead of the tree._tree.Tree data structure by Arnaud Joly.
修复了 decision trees 模块，由Seberg。
修复 metrics.roc_curve 当y_true只有一个Wei Li的类时失败。
添加 metrics.mean_absolute_error 计算平均绝对误差的函数。的 metrics.mean_squared_error , metrics.mean_absolute_error 和 metrics.r2_score 指标支持多输出 Arnaud Joly .
固定 class_weight 支持 svm.LinearSVC 和 linear_model.LogisticRegression 通过 Andreas Müller .的意义 class_weight 被逆转，因为在早期版本中，较高的权重错误地意味着给定类别的阳性较少。
改进叙述文档和一致性 sklearn.metrics 对于回归和分类指标， Arnaud Joly .
修复了中的一个错误 sklearn.svm.SVC 当孟新凡使用具有未排序索引的csr矩阵时， Andreas Müller .
cluster.MiniBatchKMeans ：添加随机重新分配集群中心，几乎没有附加观察结果，通过 Gael Varoquaux .

API变更摘要#

Renamed all occurrences of n_atoms to n_components for consistency. This applies to decomposition.DictionaryLearning, decomposition.MiniBatchDictionaryLearning, decomposition.dict_learning, decomposition.dict_learning_online.
Renamed all occurrences of max_iters to max_iter for consistency. This applies to semi_supervised.LabelPropagation and semi_supervised.label_propagation.LabelSpreading.
Renamed all occurrences of learn_rate to learning_rate for consistency in ensemble.BaseGradientBoosting and ensemble.GradientBoostingRegressor.
模块 sklearn.linear_model.sparse 不见了稀疏矩阵支持已经集成到“常规”线性模型中。
sklearn.metrics.mean_square_error ，错误地返回了累积错误，已被删除。使用 metrics.mean_squared_error 而不是.
通过 class_weight 参数以 fit 方法不再受支持。将它们传递给估计器构造器。
甘迺迪不再有 decode 和 rvs 方法.使用 score , predict 或 sample 相反，方法。
的 solver Ridge回归和分类中的fit选项现已被弃用，并将在v0.14中删除。改用构造函数选项。
feature_extraction.text.DictVectorizer 现在返回CSR格式的稀疏矩阵，而不是COO。
更名 k 在 cross_validation.KFold 和 cross_validation.StratifiedKFold 到 n_folds ，已更名 n_bootstraps 到 n_iter 在 cross_validation.Bootstrap .
Renamed all occurrences of n_iterations to n_iter for consistency. This applies to cross_validation.ShuffleSplit, cross_validation.StratifiedShuffleSplit, utils.extmath.randomized_range_finder and utils.extmath.randomized_svd.
取代 rho 在 linear_model.ElasticNet 和 linear_model.SGDClassifier 通过 l1_ratio .的 rho 参数含义不同; l1_ratio 是为了避免混乱而引入的。它的含义和以前一样 rho 在 linear_model.ElasticNet 和 (1-rho) 在 linear_model.SGDClassifier .
linear_model.LassoLars 和 linear_model.Lars 现在，如果存在多个目标，则存储路径列表，而不是路径数组。
属性 gmm 的 hmm.GMMHMM 更名为 gmm_ 更严格地遵守API。
cluster.spectral_embedding 被转移到 manifold.spectral_embedding .
更名 eig_tol 在 manifold.spectral_embedding , cluster.SpectralClustering 到 eigen_tol ，已更名 mode 到 eigen_solver .
更名 mode 在 manifold.spectral_embedding 和 cluster.SpectralClustering 到 eigen_solver .
classes_ 和 n_classes_ 属性 tree.DecisionTreeClassifier 并且所有导出的系综模型现在在单输出问题的情况下是平坦的，并且在多输出问题的情况下是嵌套的。
的 estimators_ 属性 ensemble.GradientBoostingRegressor 和 ensemble.GradientBoostingClassifier 现在是一系列 tree.DecisionTreeRegressor .
更名 chunk_size 到 batch_size 在 decomposition.MiniBatchDictionaryLearning 和 decomposition.MiniBatchSparsePCA 为了一致性。
svm.SVC 和 svm.NuSVC 现在提供 classes_ 属性并支持标签的任意数据类型 y .此外，由返回的d类型 predict 现在反映了d类型 y 期间 fit (used是 np.float ).
更改了中的默认test_size cross_validation.train_test_split 无，增加了推断的可能性 test_size 从 train_size 在 cross_validation.ShuffleSplit 和 cross_validation.StratifiedShuffleSplit .
重命名功能 sklearn.metrics.zero_one 到 sklearn.metrics.zero_one_loss .请注意，中的默认行为 sklearn.metrics.zero_one_loss 不同于 sklearn.metrics.zero_one : normalize=False 被改变为 normalize=True .
重命名功能 metrics.zero_one_score 到 metrics.accuracy_score .
datasets.make_circles 现在具有相同数量的内点和外点。
在天真的Bayes分类器中， class_prior 参数已从 fit 到 __init__ .

人#

0.13版本的贡献者列表，按提交数量排列。

364 Andreas Müller
143 Arnaud Joly
137 Peter Prettenhofer
131 Gael Varoquaux
117 Mathieu Blondel
108 Lars Buitinck
106李伟
101 Olivier Grisel
65 Vlad Niculae
54 Gilles Louppe
40 Jaques Grobler
38 Alexandre Gramfort
30 Rob Zinkov
19艾默里克·马苏雷尔
18安德鲁·温特曼
17 Fabian Pedregosa
17内勒·瓦罗夸
16 Christian Osendorfer
14 Daniel Nouri
13 Virgile Fritsch
13 syhw
12 Satrajit Ghosh
10科里·林奇
10凯尔·比彻姆
9张布莱恩
9伊曼纽尔·拜耳
9舒先生
8康拉德·李
8 James Bergstra
7塔德吉·詹内菲
6布莱恩·卡耶斯
6 Jake Vanderplas
6迈克尔
6诺埃尔·达维
6蒂亚戈·努涅斯
6 cow
5安泽
5石桥渡
4克里斯蒂安·若文
4雅克·克瓦姆
4理查德·T家伙
4 Robert Layton
3亚历山大·亚伯拉罕
3道格·科尔曼
3斯科特·迪克森
2近似身份
2约翰·贝尼迪克松
2马克·维隆达
2马蒂·莱拉
2米哈伊尔·科罗博夫
2孟新繁
1 Alejandro Weinstein
1 Alexandre Passos
1克里斯托夫·迪尔
1尤金·尼日比茨基
1肯尼思·C阿诺德
1路易斯·佩德罗·科埃略
1米罗斯拉夫·巴奇卡罗夫
1帕维尔
1塞巴斯蒂安·伯格
1肖恩·杰克曼
1 Subhodeep Moitra
1 Bob
1登格曼
1埃玛努埃莱
1 x 006