2013-03-09 3 views
11

Ho una grande quantità di dati da un account di posta elettronica di Outlook che viene interamente nei file .msg. Una rapida chiamata al metodo di file di Ubuntu ha rivelato che erano documenti Composite Document File V2 (qualunque cosa ciò significhi). Mi piacerebbe davvero essere in grado di leggere questi file come testo normale. È possibile?Lettura di file di documento composito File di documento V2 (.msg) in ubuntu

Aggiornamento: Risulta che non era del tutto possibile fare ciò che volevo per il data mining su larga scala su questi tipi di file che era un peccato. Nel caso in cui dovessi affrontare lo stesso problema, ho creato una libreria per risolvere questo problema. https://github.com/Slater-Victoroff/msgReader

La documentazione non è eccezionale, ma è una libreria piuttosto piccola, quindi dovrebbe essere auto esplicativa.

+0

btw non è il "file" di "ubuntu", è il comando POSIX (o almeno UNIX). – JSmyth

+1

Fondamentalmente la risposta alla stessa domanda è nella comunità di utenti Super [più appropriata] - http://superuser.com/questions/99250/opening-a-msg-file-in-ubuntu – Juan

risposta

12

Ho affrontato lo stesso problema stamattina. Non ho trovato alcuna informazione sul formato del file, ma è stato possibile estrarre le informazioni richieste dal file utilizzando corde e grep:

strings -e l *.msg | grep pattern 

Il -e l (che è un piccolo L) converte da UTF-16.

Questo funziona solo se è possibile grep i dati necessari dal file (cioè tutte le righe richieste contengono una stringa o un modello standard).

+0

Ah, ho dimenticato di aggiornare. Sono andato avanti e ho creato una libreria che analizza una versione di testo dell'email dal file .msg non elaborato. Si collegherà ad esso per tutte le povere anime che affrontano questo problema. https://github.com/Slater-Victoroff/msgReader –

+0

Documentazione trovata nel formato file qui: http://www.openoffice.org/sc/compdocfileformat.pdf; Non l'ho letto o provato a usarlo, ma potrebbe essere utile. – retracile

+0

@retracile Grande scoperta! Sarò totalmente alla ricerca di questo. –