Voglio solo sapere come posso estrarre il testo principale e il testo semplice da html usando Tika? forse una possibile soluzione è usare BoilerPipeContentHandler ma hai qualche codice di esempio/demo
Sto usando boilerpipe e sembra fantastico, ma voglio produrre JSON. Sto usando la versione Java e la sperimentazione in NetBeans come segue: final URL url = new URL("http://mashable.com/2012/09/26/wor