5

Sto cercando una libreria Java che possa eseguire il riconoscimento di entità con nome (NER) con un vocabolario controllato personalizzato, senza prima aver bisogno di dati di addestramento etichettati. Ho cercato un po 'su SE, ma la maggior parte delle domande sono piuttosto aspecifiche.Nome di riconoscimento non presidiato senza riconoscimento (NER) con vocabolario controllato personalizzato per suggerimenti crosslink in Java

Si consideri il seguente caso d'uso:

  • un editor sta inserendo articoli in un CMS (circa 500 parole).
  • il testo può contenere riferimenti (in testo normale) a entità di un dominio specifico. per esempio:
    • nomi di punti di interesse, come bar, ristoranti, così come i quartieri, ecc
  • un vocabolario controllato di queste entità esistono (circa 5.000 soggetti).
    • immagino un soggetto di essere un -tuple nel vocabolario
  • dopo aver terminato il testo, l'utente dovrebbe essere in grado di salvare il documento.
  • Questo attiva il flusso di lavoro per eseguire la scansione del pezzo di testo rispetto al vocabolario, confrontandolo con il nome dell'entità. Non è necessario avere una corrispondenza del 100%: il 97% su Jarao-winkler o qualsiasi altra cosa (non ho familiarità con ciò che usa NER di algo) potrebbe essere sufficiente, ho bisogno che questo sia configurabile.
  • Gli hit vengono restituiti al controller sul lato server. Questo in cambio restituisce JSON al client contenente delle entità, che sono rappresentate come collegamenti incrociati suggeriti per l'editor.

Idealmente, sto cercando un progetto che utilizza NRE per suggerire collegamenti incrociati all'interno di un ambiente CMS su cui fare affidamento. (Sono sicuro che i plug-in per wordpress esistano per esempio) non sono sicuro che qualcosa di simile esista in Java.

Tutti gli altri indicatori generali di librerie NRE che funzionano con vocabolari personalizzati controllati sono benvenuti.

risposta

1

Incerto se questi potrebbero essere utili: http://www-nlp.stanford.edu/software/CRF-NER.shtml http://cogcomp.cs.illinois.edu/page/software

+0

Per quanto posso dire, che solo farà i nomi di famosi persone/ben noti. "George Washington" si presenta come una persona, ma il mio nome no. – robr