2014-11-15 23 views
5

Sto provando Vowpal Wabbit e sto cercando di capire i formati di file richiesti per la formazione e il test. Ho seguito il tutorial da https://github.com/JohnLangford/vowpal_wabbit/wiki/Tutorial e vedo che il seguente è il formato di dati di allenamento:Formati di dati di addestramento e test di Vowpal Wabbit

0 | price:.23 sqft:.25 age:.05 2006 
1 2 'second_house | price:.18 sqft:.15 age:.35 1976 
0 1 0.5 'third_house | price:.53 sqft:.32 age:.87 1924 

Per i dati di test, non ho le etichette o eventuali uscite, ma solo le caratteristiche. Come potrei andare a scriverlo? Ho provato appena comprese le caratteristiche come così:

price:.23 sqft:.25 age:.05 2006 
price:.18 sqft:.15 age:.35 1976 
price:.53 sqft:.32 age:.87 1924 

Ma, che mi dà eccezioni come non è nel formato corretto. Ho anche provato il seguente e tutto Dammi solo 0 di come i risultati:

| price:.23 sqft:.25 age:.05 2006 
| price:.18 sqft:.15 age:.35 1976 
| price:.53 sqft:.32 age:.87 1924 

0 0 0 | price:.23 sqft:.25 age:.05 2006 
0 0 0 | price:.18 sqft:.15 age:.35 1976 
0 0 0 | price:.53 sqft:.32 age:.87 1924 

Chiunque formato dovrei essere puntando, conoscendo solo le caratteristiche? Grazie per l'aiuto.

risposta

6

Il simbolo bar (|) deve essere anche in formato per le previsioni:

| price:.23 sqft:.25 age:.05 2006 
| price:.18 sqft:.15 age:.35 1976 
| price:.53 sqft:.32 age:.87 1924 

Se non si include le etichette corrette, VW non può calcolare la perdita di prova, naturalmente. Per ottenere le previsioni utilizzare vw -d test_set.vw -t -p predictions.txt. La formazione impostata nel tutorial (con solo tre esempi) è troppo piccola per addestrare qualsiasi modello ragionevole.

+0

Grazie Martin. Regola facile da ricordare: pensa al simbolo '|' più a sinistra in ogni riga di esempio, come separatore tra 1) cosa vuoi prevedere (che può essere vuoto) a sinistra e 2) ciò che è noto (caratteristiche di input), sulla destra. – arielf

+0

Come caricare un modello esistente che ho emesso durante l'allenamento? Quello che voglio è usare il suddetto modello e alcuni dati di test per produrre le previsioni su un file. – intl

+1

@intl Come descritto in https://github.com/JohnLangford/vowpal_wabbit/wiki/Tutorial 'vw -i house.model -t -d test.data -p predictions' –