Ho un sito Web in cui gli utenti caricano documenti in formato .doc e .pdf. Sto usando Sphinx per condurre ricerche full text sul mio database SQL (MySQL). Qual è il modo migliore per indicizzare questi formati di file con Sphinx?Documenti di Word di indicizzazione e PDF con Sfinge
risposta
Sfortunatamente, Sfinge non è in grado di indicizzare questi tipi di file direttamente. Avrai bisogno di importare il contenuto testuale in un database, o in an XML format that Sphinx can understand.
Il metodo che utilizzo per questo è pdf2text e antiword. Io uso entrambi di questi per scaricare il contenuto dei pdf e dei documenti di parole nel database. Da lì è facile gattonare con Sfinge.
Sto usando lo stesso metodo come te e il suo lavoro per me. – Johny
Qualcuno ha utilizzato Tika per indicizzare altri tipi di documenti, proprio come il plugin SOLR? Apache Tika
Alcuni link:
Consiglieresti un metodo rispetto ad un altro? –
Dipende dal linguaggio sul lato server che si sta utilizzando. Se si tratta di Ruby/Rails, so che tutte le librerie non supportano XML out of the box, a meno che non si stia costruendo un sistema da zero (invece di usare ActiveRecord). Quindi userei il database. Altrimenti, dipende completamente da te. Se non stai usando Ruby, dai un'occhiata a quali librerie sono disponibili per la tua lingua preferita, guarda cosa possono/non possono fare. – pat