È possibile leggere un file MSWord 2010 in R? Ho Windows 7 e un PC Dell.legge un file MSWord in R
Sto usando la linea:
my.data <- readLines('c:/users/mark w miller/simple R programs/test_for_r.docx')
per cercare di leggere un file MSWord contenente il testo seguente:
A 20 1000 AA
B 30 1001 BB
C 10 1500 CC
ottengo un messaggio di avviso che dice: messaggio
Attenzione : In readLines ("c:/users/mark w miller/simple R programmi/test_for_r.docx"): riga finale incompleta trovata su 'c:/users/mark wm Iller/semplici programmi di R/test_for_r.docx'
e my.data
sembra essere senza senso:
# [1] "PK\003\004\024" "¤l" "ÈFÃË‹Átí"
so che con questo semplice esempio ho potuto facilmente convertire il file MSWord in un formato diverso. Tuttavia, i miei file di dati effettivi consistono in tabelle complesse che sono state digitate decenni fa e successivamente scansionate in documenti pdf. L'età del documento cartaceo originale e le eventuali imperfezioni della carta originale, la digitazione e/o il processo di scansione hanno portato alcune lettere e numeri a non essere chiari. Finora la conversione dei file PDF in MSWord sembra essere la più efficace per la corretta traduzione delle tabelle. La conversione dei file MSWord in Excel o rich text, ecc. Non ha avuto molto successo. Anche dopo la conversione in MSWord i file risultanti sono molto complessi e contengono numerosi errori. Ho pensato di poter leggere i file MSWord in R che potrebbe essere il modo più efficiente di modificarli e correggerli.
Sono a conoscenza di "pacchetto tm" che credo possa leggere i file MSWord in R, ma sono un po 'preoccupato di utilizzarlo perché sembra richiedere l'installazione di software di terze parti.
Grazie per eventuali suggerimenti.
Per quanto ne so, leggere i file MS Word richiederà l'installazione di alcuni pacchetti da CRAN. Perché sei preoccupato dell'installazione di software di terze parti? –
Il pacchetto tm fornisce la funzione readDOC(). Ciò richiede l'installazione di uno strumento esterno (non R) denominato antiword. Tuttavia, credo che il pacchetto/strumento legga solo i file Word fino alla versione 2003 e non gestirà i file .docx. readLines() non è la soluzione corretta neanche; richiede un semplice testo ASCII come input. – neilfws
E se si dovesse salvare il documento word come 'html' e quindi utilizzare un pacchetto di scraping web (ad esempio' XML' o 'RCurl') per estrarre il testo? – mnel