2014-12-03 12 views

risposta

16

Mi raccomando davvero liac-arff. Esso non viene caricato direttamente a NumPy, ma la conversione è semplice: risposta

import arff, numpy as np 
dataset = arff.load(open('mydataset.arff', 'rb')) 
data = np.array(dataset['data']) 
+0

Grazie per il feedback. Qualche idea su come posso usare questa conversazione per classificare ?. – tumbleweed

+0

So già che per esempio con SVM l'idea di base per la classificazione è: 'da sklearn import svm s = svm.SVC() etichette = [label1, label2] s.fit (training_data, labels)' Come potrebbe presento un file 'arff' in un algoritmo di classificazione? – tumbleweed

+0

Sei riuscito a analizzare i punteggi TF-IDF dal file .arff e usarlo in sklearn? –

6

Ho trovato che scipy has a loader for arff files li carica come array di record numpy. Non sono sicuro al 100% che quegli array siano adatti al consumo diretto da parte di scikit-learn, ma questo dovrebbe iniziare.

+0

Pensi che avrò bisogno di analizzare quegli array insensati? ... Che tipo di pre-elaborazione dovrei fare per alimentare qualche algoritmo di classificazione in scikit-learn? – tumbleweed

2

Seguire di renatopp: assumere i dati è il set di dati dell'iride, non ci dovrebbero essere 5 dimensionale con ultimo è la colonna etichetta di classe.

s = svm.SVC() 
data_input = data[:,0:4] 
labels = data[:,4] # this is the class column 
s.fit(data_input, labels) 

Penso che questo sia qualcosa che si desidera.