Vorrei usare un Attribute-Relation File Format con scikit-imparare a fare qualche operazione di NLP, è possibile? In che modo è possibile utilizzare un file .arff
con scikit-learn
?. File con estensione scikit-learn?
risposta
Mi raccomando davvero liac-arff. Esso non viene caricato direttamente a NumPy, ma la conversione è semplice: risposta
import arff, numpy as np
dataset = arff.load(open('mydataset.arff', 'rb'))
data = np.array(dataset['data'])
Ho trovato che scipy has a loader for arff files li carica come array di record numpy. Non sono sicuro al 100% che quegli array siano adatti al consumo diretto da parte di scikit-learn, ma questo dovrebbe iniziare.
Pensi che avrò bisogno di analizzare quegli array insensati? ... Che tipo di pre-elaborazione dovrei fare per alimentare qualche algoritmo di classificazione in scikit-learn? – tumbleweed
Seguire di renatopp: assumere i dati è il set di dati dell'iride, non ci dovrebbero essere 5 dimensionale con ultimo è la colonna etichetta di classe.
s = svm.SVC()
data_input = data[:,0:4]
labels = data[:,4] # this is the class column
s.fit(data_input, labels)
Penso che questo sia qualcosa che si desidera.
Grazie per il feedback. Qualche idea su come posso usare questa conversazione per classificare ?. – tumbleweed
So già che per esempio con SVM l'idea di base per la classificazione è: 'da sklearn import svm s = svm.SVC() etichette = [label1, label2] s.fit (training_data, labels)' Come potrebbe presento un file 'arff' in un algoritmo di classificazione? – tumbleweed
Sei riuscito a analizzare i punteggi TF-IDF dal file .arff e usarlo in sklearn? –