2012-05-16 27 views
9

Sto lavorando sulla classificazione binaria dei dati e desidero conoscere i vantaggi e gli svantaggi dell'utilizzo della macchina vettoriale Support su alberi decisionali e algoritmi Adaptive Boost.Vantaggi degli alberi SVM over decion e dell'algoritmo AdaBoost

+1

Perché è etichettato come Java? –

+0

Quanti punti dati e caratteristiche hai? rumoroso, scarso? Suggerirei di iniziare con il veloce lineare SVM [scikit-learn SGDClassifier] (http://scikit-learn.org/stable/modules/sgd.html). – denis

risposta

14

Qualcosa che si potrebbe desiderare di fare è usare weka, che è un bel pacchetto che è possibile utilizzare per collegare i dati e quindi provare una serie di classificatori di apprendimento automatico diversi per vedere come ognuno di essi funziona sul proprio set particolare. È un percorso ben battuto per le persone che fanno apprendimento automatico.

Non sapendo nulla dei tuoi particolari dati, o del problema di classificazione che stai cercando di risolvere, non posso davvero andare oltre solo a dirti cose casuali che conosco su ciascun metodo. Detto questo, ecco una discarica del cervello e collegamenti ad alcune utili diapositive di apprendimento automatico.

Adaptive Boosting utilizza un comitato di classificatori di basi deboli per votare sull'assegnazione di classe di un punto campione. I classificatori di base possono essere tronconi decisionali, alberi decisionali, SVM, ecc. Richiede un approccio iterativo. Ad ogni iterazione - se la commissione è d'accordo e corretta sull'assegnazione della classe per un particolare campione, allora diventa ponderata in senso negativo (meno importante per avere ragione alla successiva iterazione), e se la commissione non è d'accordo, allora diventa up ponderato (più importante da classificare correttamente alla successiva iterazione). Adaboost è noto per avere una buona generalizzazione (non sovralimentazione).

SVMs sono un utile primo tentativo. Inoltre, puoi utilizzare kernel diversi con SVM e ottenere non solo limiti decisionali lineari ma anche quelli più a forma di funky. E se metti la L1-regolarizzazione su di essa (variabili allentate), non solo puoi evitare il sovradattamento, ma puoi anche classificare i dati che non sono separabili.

Decision trees sono utili a causa della loro interpretabilità da parte di chiunque. Sono facili da usare. Usare gli alberi significa anche che puoi anche avere un'idea di quanto sia importante una caratteristica particolare per creare quell'albero. Qualcosa che potresti voler controllare sono alberi additivi (come MART).

+1

"se il comitato è d'accordo sull'assegnazione di una classe per un particolare campione, allora diventa inattivo". Questo non è esattamente vero. Se il comitato vota correttamente (rispetto all'etichetta di verità di base), allora è sotto-ponderato. Viceversa per l'aumento della ponderazione. –

+0

Buon punto. Corretto nel post – kitchenette