Sto usando itextsharp su vb.net per ottenere il contenuto del testo da un file pdf. La soluzione funziona bene per alcuni file ma non per altri, anche piuttosto semplici. Il problema è che lo stringvalue token viene impostato su null (una serie di caselle quadrati vuoti)Estrazione del testo Itextsharp
token = New iTextSharp.text.pdf.PRTokeniser(pageBytes)
While token.NextToken()
tknType = token.TokenType()
tknValue = token.StringValue
posso meassure la lunghezza del contenuto ma non può ottenere il contenuto stringa effettiva.
Ho capito che questo succede a seconda del font del pdf. Se creo un pdf utilizzando Acrobat o PdfCreator con Courier (che a proposito è il carattere predefinito nel mio editor di Visual Studio) posso ottenere tutto il contenuto del testo. Se lo stesso pdf è stato creato utilizzando un font diverso, ho ottenuto le caselle quadrate vuote.
Ora la domanda è: come posso estrarre il testo indipendentemente dall'impostazione del carattere?
Grazie
+1 per dare un esempio completo di codice, piuttosto che una singola linea –
è possibile estrarre file sul 'server ftp' utilizzando iTextSharp? – Munavvar
@Munavvar, sfortunatamente non ho avuto un'esperienza del genere. ma di solito puoi leggere da FTP in frs di File stream o binari e alimentare l'ItextSharp –