Sto lavorando a un progetto con l'esigenza di creare un dashboard generico in cui gli utenti possono eseguire diversi tipi di raggruppamento, filtraggio e drill down su campi diversi. Per questo stiamo cercando un negozio di ricerca che permetta di tagliare e tagliare i dati.Quanto è affidabile ElasticSearch come datastore principale contro fattori quali perdita di scrittura, disponibilità dei dati
Ci sarebbero più fonti di dati e lo staremmo archiviando nel Search Store. Potrebbe esserci qualche precalcolo richiesto sui dati di origine che può essere eseguito da componenti intermedi.
Ho esaminato diversi blog per capire se ES può essere utilizzato in modo affidabile come archivio principale anche. Dipende principalmente dal caso d'uso che stiamo cercando. Alcune delle informazioni sul caso d'uso che abbiamo:
- Circa 300 milioni di record all'anno con 1-2 KB.
- Supponendo di archiviare dati di 1 anno, siamo oggi con 300 GB, ma il caso di utilizzo può arrivare a 400-500 GB, data la crescita dei dati.
- A partire da ora non è sicuro, come verranno inviati i dati, ma, grosso modo, può arrivare a ~ 2-3 milioni di record ogni 5 minuti.
- La richiesta di ricerca è bassa, ma richiede query complesse che possono cercare dati per le ultime 6 settimane a 6 mesi.
- il documento verrà indicizzato in quasi tutti i campi del documento.
Alcuni blog dicono che è abbastanza affidabile da utilizzare come archivio dati primario -
- http://chrisberkhout.com/blog/elasticsearch-as-a-primary-data-store/
- http://highscalability.com/blog/2014/1/6/how-hipchat-stores-and-indexes-billions-of-messages-using-el.html
- https://karussell.wordpress.com/2011/07/13/jetslide-uses-elasticsearch-as-database/
E alcuni blog dire che ES hanno alcune limitazioni -
- https://www.found.no/foundation/elasticsearch-as-nosql/
- https://www.found.no/foundation/crash-elasticsearch/
- http://www.quora.com/Why-should-I-NOT-use-ElasticSearch-as-my-primary-datastore
Qualcuno ha usato elastica ricerca come unica verità di dati senza avere una storage primario come PostgreSQL, DynamoDB o RDS? Ho osservato che ES ha determinati problemi come il cervello diviso e la corruzione dell'indice in cui può esserci un problema con la perdita di dati. Quindi, sto cercando di sapere se qualcuno ha usato ES e ha avuto problemi con i dati
Grazie.
Siamo ai limiti di una decisione progettuale simile con requisiti di dati leggermente più grandi. Prevediamo di supportare ES con Riak oltre alle normali istantanee con il registro Kafka riproducibile. Le cifre decisive nel nostro caso sono due: 1) segmentazione crescente a causa dell'elevato tasso di aggiornamento e 2) impatto delle prestazioni degli aggiornamenti sulle letture. Vi consiglio caldamente di simulare il vostro carico e di eseguire un paio di benchmark. Detto questo, noi (bol.com, il più grande rivenditore online in Olanda e Belgio) ha utilizzato ES 5.x in produzione per 2 anni senza un singhiozzo. Buona fortuna e ci tenga aggiornati sugli aggiornamenti. –