2012-11-27 13 views
6

Sto cercando di cercare PDF arabi in Apache Solr. Il problema sembra essere che Tika indicizza il PDF in ordine inverso (da sinistra a destra) anziché da (da destra a sinistra).Solr per arabo PDF

ho trovato riferimenti su questo problema qui:

Tuttavia, non so come includere la versione più recente di PDFBox o ICU4J nel mio apache solr. La mia cartella Apache Solr Contrib/extraction/lib contiene pdfbox-1.6.0.jar e icu4j-4.8.1.1.jar. La rimozione dei file menzionati e la loro sostituzione con le ultime librerie dalle loro pagine di progetto sarà soddisfacente per costringere TIKA a usarli?

Si prega di spiegare come non ho una precedente esperienza con servlet Java. Grazie!

risposta

0

Dai tag sulla tua domanda Suppongo che tu stia utilizzando Drupal per interfacciare Apache Solr. Tika può essere eseguito da Solr quando si inviano documenti binari o è possibile utilizzarlo prima di inviare i documenti a Solr. Il modulo Drupal Solr Attachments ha un'impostazione per "Tika (local java application)". Nel secondo link che hai fornito hanno patchato il modulo Solr Attachments per usare PDFBox invece di Tika per analizzare i file binari prima di inviarlo a Solr. Se non stai usando Drupal dovresti provare un approccio simile.