Sto cercando di fare qualcosa di molto simile a quello previous question ma ho riscontrato un errore. Ho un dataframe panda contenente caratteristiche e etichetta devo fare qualche conversione per inviare le caratteristiche e la variabile di etichetta in un oggetto di apprendimento automatico:Converti array di stringa (categoria) in array di int da un dataframe panda
import pandas
import milk
from scikits.statsmodels.tools import categorical
poi ho:
trainedData=bigdata[bigdata['meta']<15]
untrained=bigdata[bigdata['meta']>=15]
#print trainedData
#extract two columns from trainedData
#convert to numpy array
features=trainedData.ix[:,['ratio','area']].as_matrix(['ratio','area'])
un_features=untrained.ix[:,['ratio','area']].as_matrix(['ratio','area'])
print 'features'
print features[:5]
##label is a string:single, touching,nuclei,dust
print 'labels'
labels=trainedData.ix[:,['type']].as_matrix(['type'])
print labels[:5]
#convert single to 0, touching to 1, nuclei to 2, dusts to 3
#
tmp=categorical(labels,drop=True)
targets=categorical(labels,drop=True).argmax(1)
print targets
L'uscita console produce prima:
features
[[ 0.38846334 0.97681855]
[ 3.8318634 0.5724734 ]
[ 0.67710876 1.01816444]
[ 1.12024943 0.91508699]
[ 7.51749674 1.00156707]]
labels
[[single]
[touching]
[single]
[single]
[nuclei]]
incontro quindi il seguente errore:
Traceback (most recent call last):
File "/home/claire/Applications/ProjetPython/projet particule et objet/karyotyper/DAPI-Trainer02-MILK.py", line 83, in <module>
tmp=categorical(labels,drop=True)
File "/usr/local/lib/python2.6/dist-packages/scikits.statsmodels-0.3.0rc1-py2.6.egg/scikits/statsmodels/tools/tools.py", line 206, in categorical
tmp_dummy = (tmp_arr[:,None]==data).astype(float)
AttributeError: 'bool' object has no attribute 'astype'
È possibile convertire la variabile di categoria 'tipo' all'interno del dataframe in int? 'type' può assumere i valori 'single', 'touching', 'nuclei', 'dust' e ho bisogno di convertire con valori int tali 0, 1, 2, 3.
Penso che la classe Factor è stato cambiato da questo post è stato fatto. Quando tento di eseguire il codice che hai postato, viene visualizzato un errore che indica che Factor prevede 3 argomenti e 2 sono stati assegnati. Guardando la documentazione di Factor, questo è ciò che il costruttore si aspetta: {{{Factor (self, labels, levels, name = None)}}}. Dal tuo post, ho pensato che le etichette e i livelli fossero calcolati automaticamente dalla serie, ma sembra che Factor si aspetti che vengano passati a Factor. – CadentOrange
Il fattore è stato rinominato Categorical in pandas 0.8.0 (6/2012) – smci