Sto osservando questo tutorial: https://www.dataquest.io/mission/74/getting-started-with-kaggleCosa fa esattamente KFold in python?
Sono arrivato alla parte 9, facendo previsioni. Lì dentro ci sono alcuni dati in un dataframe chiamato titanica, che viene poi diviso in pieghe utilizzando:
# Generate cross validation folds for the titanic dataset. It return the row indices corresponding to train and test.
# We set random_state to ensure we get the same splits every time we run this.
kf = KFold(titanic.shape[0], n_folds=3, random_state=1)
io non sono sicuro di cosa si tratta esattamente di fare e che tipo di oggetto è kf. Ho provato a leggere la documentazione ma non è stato di grande aiuto. Inoltre, ci sono tre pieghe (n_folds = 3), perché in seguito accederà solo al treno e al test (e come faccio a sapere che sono chiamati treno e test) in questa linea?
for train, test in kf:
Ho capito. Qualunque cosa sia n_folds, si finisce sempre con un test e un set di allenamento. Se n_folds è 2, devi solo utilizzare metà dei dati per l'allenamento e l'altra metà per i test, e quindi scambiarli. Sto comprendendo questo correttamente? – user
Sì. Otterrai l'i'th (1 <= i <= n_fold) fold come test e le restanti fold come allenamento. – qmaruf