Parametro "stratify" dal metodo "train_test_split" (scikit Learn)

Sto tentando di utilizzare train_test_split dal pacchetto scikit Learn, ma ho problemi con il parametro stratify. Qui di seguito è il codice:Parametro "stratify" dal metodo "train_test_split" (scikit Learn)

from sklearn import cross_validation, datasets 

X = iris.data[:,:2] 
y = iris.target 

cross_validation.train_test_split(X,y,stratify=y)

Tuttavia, continuo a ricevere il seguente problema:

raise TypeError("Invalid parameters passed: %s" % str(options)) 
TypeError: Invalid parameters passed: {'stratify': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])}

Qualcuno ha un'idea di ciò che sta succedendo? Di seguito è riportata la documentazione della funzione.

[...]

stratificare: array-like o Nessuno (di default è None)

Altrimenti No, i dati è diviso in maniera stratificata, usando questo come le etichette array.

Nuovo nella versione 0.17: stratificare splitting

[...]

fonte

2016-01-17 Daneel Olivaw

Scikit-Learn ti sta solo dicendo che non riconosce l'argomento "stratificare", non che lo stai usando in modo errato. Questo perché il parametro è stato aggiunto nella versione 0.17 come indicato nella documentazione che hai citato.

Quindi è sufficiente aggiornare Scikit-Learn.

fonte

2016-12-10 10:33:47 Borja

provare a eseguire questo codice, "funziona":

from sklearn import cross_validation, datasets 

iris = datasets.load_iris() 

X = iris.data[:,:2] 
y = iris.target 

x_train, x_test, y_train, y_test = cross_validation.train_test_split(X,y,train_size=.8, stratify=y) 

y_test 

array([0, 0, 0, 0, 2, 2, 1, 0, 1, 2, 2, 0, 0, 1, 0, 1, 1, 2, 1, 2, 0, 2, 2, 
     1, 2, 1, 1, 0, 2, 1])

fonte

2016-01-17 20:45:17

Ho provato questo e ancora non funziona. –

@ user5767535 Come si può vedere sta funzionando sulla mia macchina Ubuntu, con 'sklearn' della versione '0.17', distribuzione Anaconda per Python 3.5. Posso solo suggerire di controllare un'altra volta se inserisci il codice correttamente e aggiorni il tuo software. –

@ user5767535 BTW, "Novità nella versione 0.17: stratify splitting" mi rende quasi sicuro che devi aggiornare il tuo 'sklearn' ... –

Questo stratify marche parametro una divisione in modo che la proporzione dei valori nel campione prodotto sia uguale alla proporzione di valori fornita al parametro stratify.

Ad esempio, se la variabile y è una variabile categorica binaria con valori 0 e 1 e ci sono il 25% di zeri e il 75% di quelli, stratify=y farà in modo che la vostra divisa casuale ha il 25% di 0 's e 75 % di 1.

fonte

2016-08-11 07:00:21 Fazzolini

Questo non risponde alla domanda, ma è molto utile per capire come funziona. Grazie mille. –

Per il mio sé futuro che viene qui tramite Google:

train_test_split è ora in model_selection, quindi:

from sklearn.model_selection import train_test_split 

# given: 
# features: xs 
# ground truth: ys 

x_train, x_test, y_train, y_test = train_test_split(xs, ys, 
                test_size=0.33, 
                random_state=0, 
                stratify=ys)

è il modo di usarlo. L'impostazione di random_state è auspicabile per la riproducibilità.

fonte

2017-10-12 18:36:34

In questo contesto, stratificazione significa che il metodo train_test_split restituisce sottoinsiemi di addestramento e test che hanno le stesse proporzioni delle etichette di classe del set di dati di input.

fonte

2017-12-01 00:14:09

Parametro "stratify" dal metodo "train_test_split" (scikit Learn)

risposta

Problemi correlati