Come posso distribuire l'elaborazione di kmino minibatch (scikit-learn)?

In Scikit-learn, K-Means ha n_jobs ma MiniBatch K-Means lo manca. MBK è più veloce dei KMean, ma con ampi set di campioni ci piacerebbe che distribuisse l'elaborazione attraverso il multiprocessing (o altre librerie di elaborazione parallele).Come posso distribuire l'elaborazione di kmino minibatch (scikit-learn)?

La risposta di MKB è parziale?

fonte

2013-06-11 Phyo Arkar Lwin

Non credo sia possibile. Potresti implementare qualcosa con OpenMP all'interno dell'elaborazione del minibatch. Non sono a conoscenza di procedure parallele k-means minibatch. Le procedure parallele di discesa del gradiente stocastico sono piuttosto pelose.

Btw, il parametro n_jobs in KMeans distribuisce solo le diverse inizializzazioni casuali afaik.

fonte

2013-06-12 15:55:15

Potrebbe essere possibile riscaldare un modello per raggiungere un bacino minimo locale e quindi perfezionare le partizioni del set di dati con i cloni del modello originale con una media di volta in volta. Non l'ho mai provato però. – ogrisel

C'è un motivo particolare per cui ti piacerebbe riscaldarti e non iniziare con le partizioni? Inoltre, come fai la media? Cerca di trovare le corrispondenze tra i cluster e poi fai una media dei centri? O ti scaldi iniziare ad avere una buona inizializzazione e ti aspetti che la corrispondenza sia stabile? –

È improbabile che il centroide n. 2 del modello n. 0 sia vicino al centroide n. 2 del modello n. 1 ... Il riscaldamento è per consentire di avere una corrispondenza stabile dei centroidi. – ogrisel

Come posso distribuire l'elaborazione di kmino minibatch (scikit-learn)?

risposta

Problemi correlati