Quando si esegue il seguente codice, il risultato di dask.dataframe.head() dipende nPartitions:le npartizioni influenzano il risultato di dask.dataframe.head()?
import dask.dataframe as dd
import pandas as pd
df = pd.DataFrame({'A': [1,2,3], 'B': [2,3,4]})
ddf = dd.from_pandas(df, npartitions = 3)
print(ddf.head())
Questo produce il seguente risultato:
A B
0 1 2
Tuttavia, quando ho impostato a 1 nPartitions o 2, ottengo il risultato atteso:
A B
0 1 2
1 2 3
2 3 4
sembra essere importante, che nPartition è inferiore alla lunghezza del dataframe. È questo? Devo sempre controllare la dimensione dei miei dati prima di convertirli in una cornice dask?
Tutti i dati (righe) sono ancora lì, anche se non saranno mostrati completamente da '.head()', '.tail()', ecc. Ma se lo salvate usando 'to_hdf()', 'to_csv()', ecc. allora verranno scritte __all__ righe. – MaxU