Con le tecniche esistenti di categorizzazione del testo (supervisionate) perché non consideriamo le Entità nominate (NE) nel testo come una caratteristica nell'allenamento e nel test? Pensi che possiamo migliorare la precisione con l'utilizzo di NEs come funzione?Entità denominate come funzionalità nella categorizzazione del testo?
risposta
Dipende molto dal dominio in cui si sta lavorando. È necessario definire le funzionalità in base al dominio. Dite in un motore di ricerca che state lavorando per imparare a classificare il problema, generando un rango dinamico, il NE non vi darà alcun vantaggio qui. Dipende in larga misura dal dominio che si sta lavorando e anche le etichette di categorizzazione degli output (apprendimento supervisionato) definite.
Ora dì che stai lavorando alla classificazione dei documenti relativi a Calcio o Film o Polictics e così via. In questo caso, le entità nominate possono funzionare. Ti darò un esempio qui, dici che stai usando una Rete Neurale che categorizza i documenti in Calcio, Film, Politica ecc. Ora dì che arriva un documento "Lionel Messi è stato invitato a partecipare alla prima di" The Social Network ", presente anche sono stati il cast e la troupe tra cui Jesse Eisenberg, Andrew Garfield e Justin Timberlake "Qui la connessione tra entità nominate (caratteristiche di input) e film (output definito) sarà più forte e quindi sarà classificata come un documento su Movie.
Un altro esempio, dicono che il nostro documento è "Tom Cruise sta ritraendo il personaggio di Lionel Messi nel film" L'ultimo gioco di calcio ". Ecco il beneficio dire che la rete neurale ha imparato che quando un attore e un calciatore si riuniscono in un documento c'è un'alta probabilità che si tratti di un film, anche in questo caso dipende dai dati e dall'allenamento (anche questo è ciò che sta imparando tutto: vedere i dati passati)
Quindi la mia risposta sarebbe provalo, nessuno ti impedisce di chiamare le entità come funzioni. Potrebbe essere utile per il dominio in cui stai lavorando.
hey grazie mille per la risposta. Ha aumentato le mie energie :) Sì, mi sto concentrando su un dominio che è piuttosto ristretto come hai detto, come il baseball, il calcio. La mia preoccupazione è che anche nella tradizionale classificazione di testo (documento) basata su Term Frequency (TF), non stiamo usando NE in modo implicito? dal momento che stiamo usando termini e quindi i termini NE sono termini? – KillBill
Ecco un altro approccio tradizionale: http://www.miislita.com/information-retrieval-tutorial/lsi-keyword-research-fast-track-tutorial.pdf – Yavar
Questo è l'apprendimento non supervisionato (clustering) e utilizzare LSI per ridurre la dimensionalità del vettore di feature. Vedi qui un modo per incorporare il NER? – KillBill
Per favore, fai un esempio di ciò che stai cercando di dire: – Yavar
ciò che intendo è, per ogni documento che sto per addestrare e testare, migliorerebbe la precisione se utilizzo il numero di NE (PERS = x, LOC = y, ORG = z) come caratteristiche insieme al normale testo (documento) caratteristiche di classificazione? – KillBill
+1: Buona domanda – Yavar