5

Con le tecniche esistenti di categorizzazione del testo (supervisionate) perché non consideriamo le Entità nominate (NE) nel testo come una caratteristica nell'allenamento e nel test? Pensi che possiamo migliorare la precisione con l'utilizzo di NEs come funzione?Entità denominate come funzionalità nella categorizzazione del testo?

+0

Per favore, fai un esempio di ciò che stai cercando di dire: – Yavar

+0

ciò che intendo è, per ogni documento che sto per addestrare e testare, migliorerebbe la precisione se utilizzo il numero di NE (PERS = x, LOC = y, ORG = z) come caratteristiche insieme al normale testo (documento) caratteristiche di classificazione? – KillBill

+1

+1: Buona domanda – Yavar

risposta

1

Dipende molto dal dominio in cui si sta lavorando. È necessario definire le funzionalità in base al dominio. Dite in un motore di ricerca che state lavorando per imparare a classificare il problema, generando un rango dinamico, il NE non vi darà alcun vantaggio qui. Dipende in larga misura dal dominio che si sta lavorando e anche le etichette di categorizzazione degli output (apprendimento supervisionato) definite.

Ora dì che stai lavorando alla classificazione dei documenti relativi a Calcio o Film o Polictics e così via. In questo caso, le entità nominate possono funzionare. Ti darò un esempio qui, dici che stai usando una Rete Neurale che categorizza i documenti in Calcio, Film, Politica ecc. Ora dì che arriva un documento "Lionel Messi è stato invitato a partecipare alla prima di" The Social Network ", presente anche sono stati il ​​cast e la troupe tra cui Jesse Eisenberg, Andrew Garfield e Justin Timberlake "Qui la connessione tra entità nominate (caratteristiche di input) e film (output definito) sarà più forte e quindi sarà classificata come un documento su Movie.

Un altro esempio, dicono che il nostro documento è "Tom Cruise sta ritraendo il personaggio di Lionel Messi nel film" L'ultimo gioco di calcio ". Ecco il beneficio dire che la rete neurale ha imparato che quando un attore e un calciatore si riuniscono in un documento c'è un'alta probabilità che si tratti di un film, anche in questo caso dipende dai dati e dall'allenamento (anche questo è ciò che sta imparando tutto: vedere i dati passati)

Quindi la mia risposta sarebbe provalo, nessuno ti impedisce di chiamare le entità come funzioni. Potrebbe essere utile per il dominio in cui stai lavorando.

+0

hey grazie mille per la risposta. Ha aumentato le mie energie :) Sì, mi sto concentrando su un dominio che è piuttosto ristretto come hai detto, come il baseball, il calcio. La mia preoccupazione è che anche nella tradizionale classificazione di testo (documento) basata su Term Frequency (TF), non stiamo usando NE in modo implicito? dal momento che stiamo usando termini e quindi i termini NE sono termini? – KillBill

+0

Ecco un altro approccio tradizionale: http://www.miislita.com/information-retrieval-tutorial/lsi-keyword-research-fast-track-tutorial.pdf – Yavar

+0

Questo è l'apprendimento non supervisionato (clustering) e utilizzare LSI per ridurre la dimensionalità del vettore di feature. Vedi qui un modo per incorporare il NER? – KillBill