Il tuo problema rientra nella categoria regression (link). In termini di apprendimento automatico, hai una raccolta di features (link) (che elencherai nella tua domanda) e hai un punteggio con il punteggio che vuoi prevedere dato quelle caratteristiche.
Ciò che Ted Hopp ha suggerito è fondamentalmente un linear predictor function (link). Potrebbe essere un modello troppo semplice per il tuo scenario.
Considerare l'utilizzo di logistic regression (link) per il problema. Ecco come andresti a usarlo.
1. creare il modello di apprendimento dataset
selezionato casualmente alcuni m
post del blog dal set di 4000. Dovrebbe essere un piccolo insieme abbastanza che si può comodamente guardare attraverso questi m
post del blog a mano.
Per ognuno dei post del blog m
, valutare quanto è "buono" con un numero da 0
a 1
. Se è d'aiuto, puoi pensare a questo come ad usare 0, 1, 2, 3, 4
"stelle" per i valori 0, 0.25, 0.5, 0.75, 1
.
Ora hai post del blog m
ognuno con un set di funzionalità e un punteggio.
È possibile espandere il set di funzionalità per includere funzionalità derivate. Ad esempio, è possibile includere il logaritmo di "Conteggio in eccesso", "Commenti ricevuti", "Numero di condivisioni" e "Conteggio follower". e potresti includere il logaritmo del numero di ore tra "ora" e "ora di creazione".
2. Imparare il vostro modello
Usa discesa del gradiente di trovare un modello di regressione logistica che misura il vostro set di dati del modello-learning. È necessario partizionare il set di dati in training, convalida e test set in modo da poter eseguire le rispettive fasi nel processo di apprendimento del modello.
Non mi dilungherò più su questa sezione perché Internet è pieno di dettagli ed è un processo in scatola.
link
Wikipedia:
3. Applica il tuo modello
aver imparato il tuo modello di regressione logistica, è ora possibile applicare per predire il punteggio per quanto è "buono" un nuovo post sul blog! Calcola semplicemente il set di funzionalità (e funzionalità derivate), quindi usa il tuo modello per mappare quelle caratteristiche a un punteggio.
Ancora una volta, Internet è pieno dei dettagli per questa sezione, che è un processo in scatola.
Se avete domande, assicuratevi di chiedere!
Se sei interessato a saperne di più sull'apprendimento automatico, dovresti prendere in considerazione l'assunzione di the free online Stanford Machine Learning course on Coursera.org. (Non sono affiliato con Stanford o Coursera.)
Voto per chiudere come troppo ampio. –