2010-08-05 13 views
18

Le persone spesso si aggirano intorno ai termini IR, ML e data mining, ma ho notato una notevole sovrapposizione tra loro.IR vs Data mining vs ML

Da persone con esperienza in questi campi, che cosa traccia esattamente la linea tra questi?

risposta

21

Questa è solo la vista di una persona (formalmente addestrata in ML); altri potrebbero vedere le cose in modo diverso.

Machine Learning è probabilmente il più omogenea di questi tre termini, e il più coerentemente applicato - è limitata alla modello di estrazione (o pattern-matching) algoritmi stessi.

Dei termini che hai citato, "Machine Learning" è quello più utilizzato dai Dipartimenti accademici per descrivere i loro Curricula, i loro dipartimenti accademici e i loro programmi di ricerca, nonché il termine più usato nelle pubblicazioni accademiche e nelle conferenze. ML è chiaramente il meno dipendente dal contesto dei termini che hai menzionato.

Information Retrieval e Data Mining sono molto più vicini a descrivere processi commerciali complete --i.e., Da query dell'utente a recupero/consegna dei risultati rilevanti. Gli algoritmi ML potrebbero essere da qualche parte nel flusso del processo e, nelle applicazioni più sofisticate, spesso lo sono, ma non è un requisito formale. Inoltre, il termine Data Mining sembra di solito per indicare l'applicazione di un certo flusso di processo su big data (cioè,> 2BG) e, pertanto, di solito comprende un'elaborazione distribuita (mappa-ridurre) componente vicino alla parte anteriore che il flusso di lavoro.

Così Information Retrieval (IR) e Data Mining (DM) sono legati alla Machine Learning (ML) in un Infrastructure-Algoritmo tipo di strada. In altre parole, Machine Learning è una fonte di strumenti utilizzati per risolvere problemi nel recupero delle informazioni. Ma è solo una fonte di strumenti. Ma IR non dipende da ML - per esempio, un particolare progetto IR potrebbe essere la memorizzazione e il recupero rapido dei dati completamente indicizzati che rispondono alla query di ricerca di un utente IR, il cui punto cruciale sta ottimizzando le prestazioni del flusso di dati, cioè , il round-trip dalla query alla consegna dei risultati della ricerca all'utente. La predizione o la corrispondenza del modello potrebbero non essere utili qui. Allo stesso modo, un progetto DM potrebbe utilizzare un algoritmo ML per il motore predittivo, tuttavia è probabile che un progetto DM riguardi anche l'intero flusso di elaborazione, ad esempio tecniche di calcolo parallelo per l'immissione efficiente di un enorme volume di dati (TB forse) che fornisce un proto-risultato a un motore di elaborazione per il calcolo delle statistiche descrittive (media, deviazione standard, distribuzione ecc. sulle variabili (colonne)

Infine, si consideri il premio Netflix. Apprendimento: l'attenzione era focalizzata sull'algoritmo di predizione, come evidenziato dal fatto che esisteva un unico criterio di successo: accuratezza delle previsioni restituite dall'algoritmo.Immagina se il "Netflix Prize" sia stato rinominato come una competizione di Data Mining. I criteri di successo verrebbero quasi certamente ampliati per accedere in modo più accurato alle prestazioni dell'algoritmo nell'effettiva impostazione commerciale - quindi ad esempio la velocità complessiva di esecuzione (la rapidità con cui le raccomandazioni vengono fornite all'utente) verrebbe probabilmente considerata insieme all'accuratezza.

I termini "Recupero delle informazioni" e "Data mining" sono ora in uso tradizionale, sebbene per un po 'ho visto questi termini solo nella descrizione del mio lavoro o nella documentazione del venditore (di solito accanto alla parola "soluzione"). il mio datore di lavoro, abbiamo recentemente assunto un analista di "Data Mining". Non so cosa faccia esattamente, ma lui indossa una cravatta per lavorare tutti i giorni.

+0

(+1) Mi piace anche la distinzione fatta da Radford Neale: "Molti problemi di apprendimento automatico hanno un gran numero di variabili - forse 10.000, o 100.000 o più (ad esempio, geni, pixel). coinvolgere un numero molto grande di casi, a volte milioni ". ([sta414] (http://www.utstat.utoronto.ca/~radford/sta414/), [week1] (http://www.utstat.utoronto.ca/~radford/sta414/week1a.pdf)) . – chl

+0

Anche il data mining risente di una parola d'ordine totale. Oggigiorno, il calcolo del valore medio di un set di dati "big data" è già considerato da alcuni come "data mining", sfortunatamente. –

+2

Indossa una cravatta per lavorare eh. Questo mi dà una buona idea di cosa potrebbe fare :-) – smartnut007

4

È inoltre possibile aggiungere statistiche di riconoscimento del modello e (computazionali?) Come un altro paio di aree che si sovrappongono alle tre che hai citato.

Direi che non esiste una linea ben definita tra di loro. Ciò che li separa è la loro storia e il loro accento. Le statistiche enfatizzano il rigore matematico, il data mining enfatizza il ridimensionamento su dataset di grandi dimensioni, ML è una via di mezzo.

0

Il data mining riguarda la scoperta di schemi nascosti o conoscenze sconosciute, che possono essere utilizzati per il processo decisionale da parte delle persone.

L'apprendimento automatico riguarda l'apprendimento di un modello per classificare nuovi oggetti.

14

mi piacerebbe provare a disegnare la linea come segue:

recupero informazioni è di trovare qualcosa che già fa parte dei dati, il più velocemente possibile.

Apprendimento automatico sono le tecniche per generalizzare le conoscenze esistenti per nuovi dati, quanto più precisa possibile.

Il data mining è primarly di scoprire qualcosa di nascosto nei dati, che avete fatto non sapere prima, come "nuovo" possibile.

Si intersecano e spesso usano tecniche l'una dell'altra. DM e IR utilizzano entrambe le strutture dell'indice per accelerare i processi. DM utilizza molte tecniche ML, ad esempio un modello nel set di dati che è utile per la generalizzazione potrebbe essere una nuova conoscenza.

Spesso sono difficili da separare. Fatti un favore e non andare solo per le parole d'ordine. A mio parere, il modo migliore per distinguerli è la loro intenzione, come indicato sopra: trova i dati, generalizza a nuovi dati, trova nuove proprietà di dati esistenti.

+0

Non sono d'accordo con la tua opinione sull'apprendimento automatico. La tua opinione è più focalizzata sull'apprendimento supervisionato (come la tua affermazione sarebbe corretta). L'apprendimento senza supervisione tuttavia riguarda la ricerca di schemi che non si conoscono, quindi con ** nessuna conoscenza preesistente **. –

+0

L'apprendimento senza sorveglianza è un ossimoro. I metodi senza supervisione sono DM, non ML. Non imparano, come potrebbero, quindi non li spremono affatto nel punto di vista dell'apprendimento. –

+0

Credo che tu ti stia riferendo allo storage, che i metodi non supervisionati non ** ricordano ** dopo che sono stati eseguiti. Sono d'accordo, la terminologia è difettosa nell'intelligenza artificiale, ma al momento attuale, senza supervisione è in fase di apprendimento automatico, quindi non sono ancora d'accordo con il tuo post.Anche DM non usa necessariamente metodi di apprendimento non supervisionati (anche se lo fa per lo più), quindi dire che l'apprendimento senza supervisione è uguale a DM è davvero molto sbagliato. –