2010-05-10 7 views
6

Im eseguendo Solr 1.4 su Ubuntu 10.04 (installato tramite apt-get solr-tomcat) e sembra funzionare correttamente. Sto avendo qualche difficoltà a trovare comunque delle informazioni coerenti su come indicizzare i documenti. Sono nuovo di SOLR quindi portami con me! Ho una cartella (/ mnt/cartella) che è una condivisione Windows montata, che contiene file Word e PDF che vorrei indicizzati, qual è il modo più semplice per far sì che SOLR indicizzi l'intera cartella?Come si indicizzano i documenti in SOLR?

La documentazione di SOLR è piuttosto scadente, è impossibile trovare tutorial decenti su come fare le cose, quindi qualsiasi aiuto è molto apprezzato!

S

risposta

7

Date un'occhiata al Solr wiki, si tratta di una documentazione abbastanza completa.

In particolare vedere ExtractingRequestHandler, che consente di indicizzare file binari come documenti Word e PDF. Here's an introduction all'argomento.

Se il wiki non è abbastanza per voi, c'è anche un great book about Solr.

+1

Il collegamento lucido non funziona. Il video si trova su youtube comunque. http://www.youtube.com/watch?v=ifgFjAeTOws&list=PLsj1Ri57ZE94lISrJuy7W8COc2RNFC1Fl&index=14 – Avec

+0

Solo il link al libro funziona – orezvani

1

ho trovato le stesse sfide con la documentazione di base, ma mi sono imbattuto in questa guida di riferimento molto utile da LucidImagination, che ha contribuito a chiarire un sacco di cose su SOLR:

http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide

+0

Purtroppo il link non funziona più. –

+0

Penso che questo sostituisca quanto sopra: http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide – paranza

0

l'elaborazione di documenti ricchi con Solr: http://wiki.apache.org/solr/UpdateRichDocuments

+2

Oh, appena riconosciuto, che questo metodo è stato sostituito da ExtractingRequestHandler, come suggerito da Mauricio. (citazione dal wiki di solr: _Questa pagina copre RichDocumentHandler come creato da Eric Pugh e Chris Harris.L'integrazione di Tika di Solr, che sostituirà RichDocumentHandler è descritta in ExtractingRequestHandler.Questa pagina viene qui conservata per gli utenti che attualmente utilizzano RichDocumentHandler_) – High6