Eventuali duplicati:
Text Classification into CategoriesClassificazione del testo molto semplice con l'apprendimento automatico?
Attualmente sto lavorando su una soluzione per ottenere il tipo di cibo servito in un database con 10k ristoranti in base alla loro descrizione. Sto usando liste di parole chiave per decidere quale tipo di cibo viene servito.
Ho letto un po 'di apprendimento automatico ma non ho alcuna esperienza pratica con esso. Qualcuno può spiegarmi se/perché sarebbe una soluzione migliore per un semplice problema come questo? Trovo l'accuratezza più importante delle prestazioni!
esempio semplificato:
["China", "Chinese", "Rice", "Noodles", "Soybeans"]
["Belgium", "Belgian", "Fries", "Waffles", "Waterzooi"]
una possibile descrizione potrebbe essere:
"di Hong Garden Restaurant con prodotti salati, a prezzi ragionevoli cinese ai nostri clienti Se si scopre di avere una voglia improvvisa per. riso, noodles o soia alle 8 di sabato sera, non preoccuparti! aperto sette giorni su sette e offre il servizio di carryout. È possibile ottenere patatine qui pure!"
È difficile fare un suggerimento pratico qui ... È un problema piuttosto specifico ... È possibile utilizzare l'elaborazione del linguaggio naturale (come 'nltk') per ottenere" nomi ", e quindi usare' pybrain' per addestrare una rete neurale, ma alla fine, se questo fosse per scopi commerciali e non potrei fare affidamento sull'apprendimento automatico per essere completamente accurato, sarei incline a pensare di dividere il DB in blocchi di 500 e impiegare 20 persone per un giorno lavoro –
(+1 a Jon Clements) e invece di assumere 20 persone, potrei avere 1-2 persone possibilmente me stesso per etichettare 500 e poi usare turk meccanico (o un concorrente) per etichettare il resto, usando i casi etichettati come verità fondamentale e assegnazioni ridondanti per controllare il lavoro dei turkers. – MattBagg