Ho dati di input in un file appiattito. Voglio normalizzare questi dati, dividendoli in tabelle. Posso farlo esattamente con pandas
- ovvero, leggendo i dati appiattiti in un'istanza DataFrame
e quindi applicando alcune funzioni per ottenere le istanze risultanti DataFrame
?panda: normalizzare un DataFrame
Esempio:
dati è dato a me su disco sotto forma di un file CSV come questo:
ItemId ClientId PriceQuoted ItemDescription
1 1 10 scroll of Sneak
1 2 12 scroll of Sneak
1 3 13 scroll of Sneak
2 2 2500 scroll of Invisible
2 4 2200 scroll of Invisible
voglio creare due DataFrames:
ItemId ItemDescription
1 scroll of Sneak
2 scroll of Invisibile
e
ItemId ClientId PriceQuoted
1 1 10
1 2 12
1 3 13
2 2 2500
2 4 2200
Se pandas
ha solo una buona soluzione per il caso più semplice (la normalizzazione risulta in 2 tabelle con relazione molti-a-uno - proprio come nell'esempio sopra), potrebbe essere sufficiente per le mie esigenze attuali. Potrei aver bisogno di una soluzione più generale in futuro, comunque.