C'è un modo per ottenere un campione veramente casuale da un indice elasticsearch? vale a dire una query che recupera qualsiasi documento dall'indice con probabilità 1/N
(dove N
è il numero di documenti attualmente indicizzati)?Documento casuale in ElasticSearch
E come follow-up domanda: se tutti i documenti hanno un qualche campo numerico s
, c'è un modo per ottenere un documento tramite campionamento casuale ponderata, vale a dire in cui la probabilità di ottenere documento i
con valore s_i
è uguale a s_i/sum(s_j for j in index)
?
Impossibile utilizzare seed con questo. n i documenti saranno raggruppati e avranno lo stesso punteggio dove n è la dimensione del frammento. – sudeepdino008