Sto cercando di cercare PDF arabi in Apache Solr. Il problema sembra essere che Tika indicizza il PDF in ordine inverso (da sinistra a destra) anziché da (da destra a sinistra).Solr per arabo PDF
ho trovato riferimenti su questo problema qui:
- Solr for Arabic
- How to parse arabic pdf with Tika
- http://www.linnovate.net/blog/apache-solr-search-hebrew-and-probably-arabic-documents-drupal-pdf-problem-solution
Tuttavia, non so come includere la versione più recente di PDFBox o ICU4J nel mio apache solr. La mia cartella Apache Solr Contrib/extraction/lib
contiene pdfbox-1.6.0.jar
e icu4j-4.8.1.1.jar
. La rimozione dei file menzionati e la loro sostituzione con le ultime librerie dalle loro pagine di progetto sarà soddisfacente per costringere TIKA a usarli?
Si prega di spiegare come non ho una precedente esperienza con servlet Java. Grazie!