2011-12-15 7 views
7

Ho ottenuto un oggetto decapitato (una lista con alcuni array numpy in esso) che è stato creato su Windows e apparentemente salvato in un file caricato come testo, non in modalità binaria (es. con open(filename, 'w') anziché open(filename, 'wb')). Il risultato è che ora non posso annullarlo (nemmeno su Windows) perché è infetto da \r caratteri (e forse più)? La lamentela principale èPickle Python: correzione r caratteri prima del caricamento

ImportError: No module named multiarray 

presumibilmente perché è in cerca di numpy.core.multiarray\r, che ovviamente non esiste. La semplice eliminazione dei personaggi \r non fare il trucco (provato entrambi sed -e 's/\r//g' e, in pitone s = file.read().replace('\r', ''), ma entrambi rompere il file e produrre un cPickle.UnpicklingError in seguito)

Il problema è che ho davvero bisogno di ottenere i dati fuori dal oggetti. Qualche idea su come sistemare i file?

Edit: Su richiesta, le prime centinaia di byte di mio file, ottale:

\x80\x02]q\x01(}q\x02(U\r\ntotal_timeq\x03G?\x90\x15r\xc9(s\x00U\rreaction_timeq\x04NU\x0ejump_directionq\x05cnumpy.core.multiarray\r\nscalar\r\nq\x06cnumpy\r\ndtype\r\nq\x07U\x02f8K\x00K\x01\x87Rq\x08(K\x03U\x01<NNNJ\xff\xff\xff\xffJ\xff\xff\xff\xffK\x00tbU\x08\x025\x9d\x13\xfc#\xc8?\x86Rq\tU\x14normalised_directionq\r\nh\x06h\x08U\x08\xf0\xf9,\x0eA\x18\xf8?\x86Rq\x0bU\rjump_distanceq\x0ch\x06h\x08U\x08\x13\x14\xea&\xb0\x9b\[email protected]\x86Rq\rU\x04jumpq\x0ecnumpy.core.multiarray\r\n_reconstruct\r\nq\x0fcnumpy\r\nndarray\r\nq\x10K\x00\x85U\x01b\x87Rq\x11(K\x01K\x02\x85h\x08\x89U\x10\x87\x16\xdaEG\xf4\xf3?\x06`OC\xe7"\[email protected]\x0emovement_speedq\x12h\x06h\x08U\x08\\p\xf5[2\xc2\xef?\x86Rq\x13U\x0ctrial_lengthq\[email protected]\t\x98\x87\xf8\x1a\xb4\xbaU\tconditionq\x15U\x0bhigh_mentalq\x16U\x07subjectq\x17K\x02U\x12movement_directionq\x18h\x06h\x08U\x08\xde\x06\xcf\x1c50\xfd?\x86Rq\x19U\x08positionq\x1ah\x0fh\x10K\x00\x85U\x01b\x87Rq\x1b(K\x01K\x02\x85h\x08\x89U\x10K\xb7\xb4\x07q=\x1e\xc0\xf2\xc2YI\xb7U&\xc0tbU\x04typeq\x1ch\x0eU\x08movementq\x1dh\x0fh\x10K\x00\x85U\x01b\x87Rq\x1e(K\x01K\x02\x85h\x08\x89U\x10\xad8\x9c9\x10\xb5\xee\xbf\xffa\xa2hWR\xcf?tbu}q\x1f(h\[email protected]\t\xba\xbc\xb8\xad\xc8\x14h\x04G?\xd9\x99%]\xadV\x00h\x05h\x06h\x08U\x08\xe3X\xa9=\xc1\xb1\xeb?\x86Rq h\r\nh\x06h\x08U\x08\x88\xf7\xb9\xc1\t\xd6\xff?\x86Rq!h\x0ch\x06h\x08U\x08v\x7f\xeb\x11\xea5\[email protected]\x86Rq"h\x0eh\x0fh\x10K\x00\x85U\x01b\x87Rq#(K\x01K\x02\x85h\x08\x89U\x10\xcd\xd9\x92\x9a\x94=\[email protected]]C\xaf\xef\xeb\xef\[email protected]\x12h\x06h\x08U\x08-\x9c&\x185\xfd\xef?\x86Rq$h\[email protected]\r\xb8W\xb2`V\xach\x15h\x16h\x17K\x02h\x18h\x06h\x08U\x08\x8e\x87\xd1\xc2 

È inoltre possibile scaricare il whole file (22k).

risposta

11

Presumendo che il file è stato creato con il protocollo predefinito = metodo compatibile con ASCII 0, si dovrebbe essere in grado di caricare ovunque utilizzando open('pickled_file', 'rU') cioè newlines universali.

Se questo non funziona, mostraci le prime centinaia di byte: print repr(open('pickled_file', 'rb').read(200)) e incolla i risultati in una modifica della tua domanda.

Aggiornamento dopo il contenuto dei file sono stati pubblicati:

Il file inizia con '\x80\x02'; è stato scaricato con il protocollo 2, l'ultimo/il migliore. I protocolli 1 e 2 sono i protocolli binari. Il tuo file è stato scritto nella modalità text su Windows. Ciò ha comportato la conversione di '\n' in '\r\n' dal runtime C. I file devono essere aperti in modalità binaria in questo modo:

with open('result.pickle', 'wb') as f: # b for binary 
    pickle.dump(obj, f, pickle.HIGHEST_PROTOCOL) 

with open('result.pickle', 'rb') as f: # b for binary 
    obj = pickle.load(f) 

Docs sono here. Questo codice funzionerà in modo portabile su entrambi i sistemi Windows e non Windows.

È possibile ripristinare l'immagine di pickle originale leggendo il file in modalità binaria e quindi invertendo il danno sostituendo tutte le occorrenze di '\r\n' entro il '\n'. Nota: questa procedura di ripristino è necessaria se si sta tentando di leggerlo su Windows o meno.

+0

+1 per informazioni sulla versione del protocollo di picking. @Nkosinathi, dovresti contrassegnarlo come risposta. –

0

Non è possibile - su Windows - aprire il file in modalità testo, nello stesso modo in cui è stato scritto, leggerlo e poi scriverlo su un altro file aperto correttamente in modalità binaria?

0

Hai provato deselezionando in modalità testo? Cioè,

x = pickle.load(open(filename, 'r')) 

(In Windows, ovviamente.)

+0

No, apparentemente a Windows non piacciono le terminazioni di linea proprie ...? –

5

Newlines in Windows non sono solo '\r', è CRLF o '\r\n'.

Dare prova a file.read().replace('\r\n', '\n'). In precedenza stavi cancellando ritorni a capo che potrebbero non essere stati effettivamente parte di una nuova riga.

+0

+1: ce l'hai fatta! Funziona su Mac OS X. Ci sono infatti dei caratteri '\ r' isolati nel file pickle. – EOL

+0

Brillante, questo lo ha risolto! Grazie mille, hai risparmiato 4 ore di lavoro molto, molto costoso (e no, sicuramente non per il mio stipendio ... ;-) –