2010-07-01 11 views
8

Sto cercando riferimenti (tutorial, libri, letteratura accademica) relativi alla strutturazione del testo non strutturato in un modo simile al pulsante di aggiunta rapida del calendario di Google.Testo non strutturato a dati strutturati

Capisco che questo può venire sotto la categoria PNL, ma sono interessati solo al processo di andare da qualcosa come "jeans Levi dimensioni 32 A0b293"

a: Marca: Levi, Dimensione: 32, Categoria: Jeans, codice: A0b293

Immagino che sarebbe una combinazione di tecniche di analisi lessicale e di apprendimento automatico.

sono piuttosto lingua agnostico, ma se spinto preferirebbe pitone, Matlab o riferimenti C++

Grazie

+0

Quanto è limitato il tuo dominio? Google Calendar Quick Add aggiorna solo date e ore (e non sempre così bene). La casella di ricerca di Google Maps tratta solo le posizioni. La difficoltà di farlo dipende da quanto è ristretto il tuo dominio.(Un catalogo prodotti?) – tcarobruce

+0

Costretto a occuparsi di clotthes come nell'esempio – zenna

risposta

7

È necessario fornire maggiori informazioni circa la fonte del testo (il web? Input dell'utente?), il dominio (si tratta solo di vestiti?), la potenziale formattazione e il vocabolario ...

Supponendo che nel peggiore dei casi sia necessario iniziare l'apprendimento della PNL. Un ottimo libro libero è la documentazione di NLTK: http://www.nltk.org/book. È anche un'ottima introduzione a Python e il SW è gratuito (per usi diversi). Attenzione: la PNL è difficile. Non sempre funziona. A volte non è divertente. Lo stato dell'arte non è dove vicino a dove immagini che sia.

Supponendo uno scenario migliore (il testo è semistrutturato) - un buon strumento gratuito è pyparsing. C'è un libro, un sacco di esempi e il codice risultante è estremamente attraente.

Spero che questo aiuta ...

1

Forse un'occhiata a "Intelligenza Collettiva" di Toby Segaran. Mi sembra di ricordare che affrontando le basi di questo in un capitolo.

+0

uno dei migliori libri per l'intelligenza collettiva là fuori. – jvc

1

Dopo qualche ricerca ho trovato che questo problema è comunemente indicato come Informazioni Estrazione e hanno accumulato un paio di carte e conservato loro in un Mendeley Collection

http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/

anche come Tai Weiss notato NLTK per python è un buon punto di partenza e il capitolo this del libro, guarda specificamente all'estrazione delle informazioni

+0

Questo link sembra essere morto –

0

Se lavori solo per casi come l'esempio che hai citato, stai meglio usando alcuni basato su regole anormali prevedibile al 100% e copre il 90% dei casi in cui potrebbe verificarsi la produzione ..

Si potrebbero elencare elenchi di tutte le marche e categorie possibili e rilevare quale è quale in una stringa di input perché di solito c'è molto poco intersezione in questi due elenchi.

Gli altri due potrebbero essere facilmente rilevati ed estratti utilizzando le espressioni regolari. (I numeri 1-3 cifre sono sempre dimensioni, ecc.)

Il dominio del problema non sembra abbastanza grande da giustificare un approccio più gravoso come l'apprendimento statistico.

+0

D'accordo, sospetto che il calendario di Google utilizzi un sistema basato su regole (si pensi alle espressioni regolari) per eseguire l'analisi. L'apprendimento automatico è più utile quando si estraggono le informazioni da un testo più incerto. Ma se il tuo dominio è abbastanza noto e la stringa di input è limitata, puoi farla franca con le regole. – Thien