È stato dimostrato che la CNN (rete neurale convoluzionale) è molto utile per la classificazione di testo/documenti. Mi chiedo come affrontare le differenze di lunghezza in quanto la lunghezza degli articoli è diversa nella maggior parte dei casi. Ci sono esempi in Keras? Grazie!!Come gestire le variazioni di lunghezza per la classificazione del testo tramite CNN (Keras)
5
A
risposta
2
Qui ci sono tre opzioni:
- Crop gli articoli più lunghi.
- Appoggia gli articoli più corti.
- Utilizzare una rete neurale ricorrente, che supporta naturalmente ingressi di lunghezza variabile.
2
Si può vedere un esempio concreto qui: https://github.com/fchollet/keras/blob/master/examples/imdb_cnn.py
Will opzione 1 e 2 influenzano il significato originale degli articoli dopo il taglio o imbottitura? – Fiong
Probabilmente il taglio avrà (non tanto imbottitura), ma hai davvero bisogno di leggere un intero articolo di notizie per averne il senso? In che modo il taglio svantaggioso dipende dal tuo compito. –
Riguardo a 3, penso sia vero se si ha un problema sequenza-sequenza, come il tagging pos. Nell'etichettatura sequenziale, come l'analisi del sentimento o il rilevamento delle emozioni, credo che si debba eseguire il troncamento/riempimento in Keras per poter utilizzare l'RNN per l'etichettatura in sequenza. – pedrobisp