Ho riscontrato il problema di unire più serie temporali a un DataFrame comune. Il codice di esempio che sto usando:Diverse serie temporali a DataFrame
import pandas
import datetime
import numpy as np
start = datetime.datetime(2001, 1, 1)
end = datetime.datetime(2001, 1, 10)
dates = pandas.date_range(start, end)
serie_1 = pandas.Series(np.random.randn(10), index = dates)
start = datetime.datetime(2001, 1, 2)
end = datetime.datetime(2001, 1, 11)
dates = pandas.date_range(start, end)
serie_2 = pandas.Series(np.random.randn(10), index = dates)
start = datetime.datetime(2001, 1, 3)
end = datetime.datetime(2001, 1, 12)
dates = pandas.date_range(start, end)
serie_3 = pandas.Series(np.random.randn(10), index = dates)
print 'serie_1'
print serie_1
print 'serie_2'
print serie_2
print 'serie_3'
print serie_3
serie_4 = pandas.concat([serie_1,serie_2], join='outer', axis = 1)
print 'serie_4'
print serie_4
serie_5 = pandas.concat([serie_4, serie_3], join='outer', axis = 1)
print 'serie_5'
print serie_5
Questo mi dà l'errore per serie_5 (il secondo concat):
Traceback (most recent call last):
File "C:\Users\User\Workspaces\Python\Source\TestingPandas.py", line 29, in <module>
serie_5 = pandas.concat([serie_4, serie_3], join='outer', axis = 1)
File "C:\Python27\lib\site-packages\pandas\tools\merge.py", line 878, in concat
verify_integrity=verify_integrity)
File "C:\Python27\lib\site-packages\pandas\tools\merge.py", line 948, in __init__
self.new_axes = self._get_new_axes()
File "C:\Python27\lib\site-packages\pandas\tools\merge.py", line 1101, in _get_new_axes
new_axes[i] = self._get_comb_axis(i)
File "C:\Python27\lib\site-packages\pandas\tools\merge.py", line 1125, in _get_comb_axis
all_indexes = [x._data.axes[i] for x in self.objs]
AttributeError: 'TimeSeries' object has no attribute '_data'
vorrei il risultato di guardare qualcosa di simile (con valori casuali in colonna 2):
0 1 2
2001-01-01 -1.224602 NaN NaN
2001-01-02 -1.747710 -2.618369 NaN
2001-01-03 -0.608578 -0.030674 -1.335857
2001-01-04 1.503808 -0.050492 1.086147
2001-01-05 0.593152 0.834805 -1.310452
2001-01-06 -0.156984 0.208565 -0.972561
2001-01-07 0.650264 -0.340086 1.562101
2001-01-08 -0.063765 -0.250005 -0.508458
2001-01-09 -1.092656 -1.589261 -0.481741
2001-01-10 0.640306 0.333527 -0.111668
2001-01-11 NaN -1.159637 0.110722
2001-01-12 NaN NaN -0.409387
Cosa c'è di sbagliato? Come ho detto, probabilmente basico ma non riesco a capirlo e sono un principiante ...
Va bene, allora mi comprende perché ottengo questo errore. Ho anche provato a concatenare un DataFrame con un altro DataFrame cambiando il codice a questo: serie_5 = pandas.concat ([serie_4, pandas.DataFrame (serie_3)], join = 'outer', axis = 1). Ciò significa che posso concatenare due Serie in un Dataframe e quindi questo DataFrame con un altro DataFrame. Devo trovare una soluzione generica in cui posso aggiungere un numero di serie in un ciclo e non ho il numero in anticipo. – Jonas
basta creare un elenco Python e aggiungere la serie in esso e quindi fornirlo a pandas.concat come @unutbu stava scrivendo sopra. –
L'uso di join sembra abbastanza generico! L'ho modificato in "serie_5 = serie_4.join (serie_3, how = 'outer')" per includere 2012-01-12 nell'esempio sopra. Il motivo per cui voglio ottenere una soluzione generica è che voglio combinare diverse serie temporali diverse in cui mancheranno i dati e utilizzeremo la funzionalità di Pandas per gestire i dati mancanti. Grazie! – Jonas