Il mio obiettivo è creare un classificatore multicals.Spark, ML, StringIndexer: gestione etichette non visualizzate
Ho costruito una pipeline per l'estrazione di funzionalità e include come primo passo un trasformatore StringIndexer per mappare ogni nome di classe in un'etichetta, questa etichetta verrà utilizzata nel passaggio di formazione del classificatore.
Il gasdotto è dotato del set di allenamento.
Il set di prova deve essere elaborato dalla tubazione installata per estrarre gli stessi vettori di caratteristiche.
Sapendo che i file del set di test hanno la stessa struttura del set di allenamento. Lo scenario possibile qui è di affrontare un nome di classe invisibile nel set di test, in tal caso StringIndexer non riuscirà a trovare l'etichetta e verrà sollevata un'eccezione.
Esiste una soluzione per questo caso? o come possiamo evitare che ciò accada?
Non esiste un modo per fornire dati di test senza alcuna etichetta in modo che l'algoritmo lo preveda da zero. Nel mio caso, non ho etichette per nessuno dei miei dati di prova. Vedi: https://stackoverflow.com/questions/44127634/providing-test-data-items-with-empty-labels-in-spark-random-forest-classifier Nel mio caso devo associare etichette casuali per gli oggetti? – suat
la risposta da @queise usando spark 2.2 è ora la migliore risposta – mrjrdnthms