Sto tentando di estrarre le probabilità di classe di un oggetto foresta casuale che ho formato utilizzando PySpark. Tuttavia, non vedo un esempio in alcun punto della documentazione, né è un metodo di RandomForestModel
.PySpark & MLLib: Probabilità di classe di previsioni di foresta casuale
Come posso estrarre le probabilità di classe da un classificatore RandomForestModel
in PySpark?
Ecco il codice di esempio fornito nella documentazione che fornisce solo la classe finale (non la probabilità):
from pyspark.mllib.tree import RandomForest
from pyspark.mllib.util import MLUtils
# Load and parse the data file into an RDD of LabeledPoint.
data = MLUtils.loadLibSVMFile(sc, 'data/mllib/sample_libsvm_data.txt')
# Split the data into training and test sets (30% held out for testing)
(trainingData, testData) = data.randomSplit([0.7, 0.3])
# Train a RandomForest model.
# Empty categoricalFeaturesInfo indicates all features are continuous.
# Note: Use larger numTrees in practice.
# Setting featureSubsetStrategy="auto" lets the algorithm choose.
model = RandomForest.trainClassifier(trainingData, numClasses=2, categoricalFeaturesInfo={},
numTrees=3, featureSubsetStrategy="auto",
impurity='gini', maxDepth=4, maxBins=32)
# Evaluate model on test instances and compute test error
predictions = model.predict(testData.map(lambda x: x.features))
non vedo alcun metodo model.predict_proba()
- cosa devo fare ??
tardi, ma c'è un bivio con una soluzione di scala: https: //github.com/apache/spark/compare/master...mqk:master –
Il problema è stato (per lo più) risolto nella nuova libreria Spark ML: https://stackoverflow.com/questions/43631031/pyspark- how-to-get-classification-probabilities-from-multilayerperceptronclassi/43643426 # 43643426 – desertnaut