2009-05-07 2 views
26

Devo occuparmi di un progetto che riguarda il data mining. Prima di saltare, volevo sondare diversi strumenti di data mining (preferibilmente open source) che consentissero il reporting basato sul web. Nel mio scenario i dati sarebbero forniti a me, quindi non dovrei strisciare per questo.Strumenti open source per data mining

In breve, sto cercando uno strumento che - Analisi dei dati, Reporting basato sul Web, offra una sorta di dashboard e funzionalità di mining.

Ho lavorato su Microsoft Analysis Services e BOXI e in ritardo ho guardato Pentaho, che sembra essere una buona opzione.

Si prega di condividere le tue esperienze su qualsiasi strumento del genere che tu sappia.

applausi

+0

ulteriori Un punto - vorrei uno strumento che può interfacciarsi bene sia con il codice .NET o addirittura Python. – Arnkrishn

risposta

12

credo WEKA è il miglior software DM open source là fuori.

Controllarlo: http://www.cs.waikato.ac.nz/ml/weka/

+0

Ma solo per la classificazione, un sottotipo di data mining. –

-1

Io sono un pitone-er me stesso e devo dire:

Sì! Tutto ciò può essere fatto in Python.

Ho suonato per l'ultima volta con Beautiful Soup [0]. È un modulo molto semplice da usare che ti permette di catturare/estrarre dati da html e xml (eccellente per 'screen scraping').

Se non conosci Python, .... beh, è ​​davvero facile da imparare.

[0] http://www.crummy.com/software/BeautifulSoup/

+1

Il data mining si basa sulla scoperta della conoscenza "nascosta" nei dati, non ha nulla da fare (almeno direttamente) con lo screen scraping, ma grazie per avermi indicato su Beautiful Soup, ci gioco. =) –

+1

** Tutto ciò può essere fatto anche in ASSEMBLER! ** –

8

Weka è grande, ma si potrebbe desiderare di provare il kit di strumenti di data mining arancione invece.

http://www.ailab.si/orange/

Edit: E come di novembre 2010, devo dire che mi piace molto KNIME.

+2

+1 per KNIME. L'ho scoperto poche settimane fa e sono rimasto molto colpito da ciò che può fare. Supporta script Java, Python e R e il componente aggiuntivo BIRT semplifica la scrittura dei report. –

1

Pentaho è una soluzione molto professionale. Sicuramente un'ottima scelta.

5

si dovrebbe anche controllare out Apache Mahout. Può essere abbastanza utile per alcune attività di machine learning su larga scala come il clustering degli utenti.

+0

La licenza Apache è il più grande vantaggio, perché altre librerie citate utilizzano GPL che vieta i casi di utilizzo commerciale – TomR

1

Credo che lo KNIME meriti di aderire anche a questo elenco.

2

credo che RapidMiner sia uno strumento eccellente che dovrebbe essere aggiunto a questo elenco.

3

Proverei con i nuovi strumenti di Google.

-prima è necessario ottenere l'ID API per google-storage, che è dove si intende memorizzare e manipolare i dati che si desidera analizzare.

-Questo è necessario ottenere l'ID API per google-prediction-api (http://code.google.com/apis/predict/docs/getting-started.html), che per quello che ho visto è un fantastico processore di data mining in outsourcing. L'API Prediction ti consente di ottenere di più dai tuoi dati e rende i suoi modelli più accessibili. Oltre all'utilizzo di dati numerici e nominali tradizionali è possibile utilizzare anche dati di testo che grazie a questa API possono essere utilizzati per esempio per classificare le e-mail in base alla lingua.

-Infine è possibile utilizzare BigQuery che vi permetterà di eseguire analisi ad-hoc, reporting standardizzato, dati di esplorazione App prototipazione (http://code.google.com/apis/bigquery/)

0

Insieme con gli strumenti, vorrei suggerire fortemente l'apprendimento di Python e R. Questi linguaggi aiutano molto durante l'analisi. Inoltre, i set di dati di grandi dimensioni possono essere "analizzati su misura". Si potrebbe anche creare il proprio cruscotto personalizzato utilizzando Javascript (check out la numerous charting and visualization libraries)

5

RapidMiner è il mio strumento di data mining preferito.

1

Weka è forte per la classificazione e/apprendimento automatico /. Per molti, questo è considerato più una parte dell'intelligenza artificiale che dell'effettiva estrazione di dati. RapidMiner è in gran parte sulla stessa linea, ma con un'interfaccia utente molto più bella. Pentaho è il supporto professionale per Weka AFAICT.

Si potrebbe voler dare un'occhiata a ELKI, http://elki.dbs.ifi.lmu.de/ che è un progetto analogo che si concentra su algoritmi di clustering e rilevazioni di valori anomali, altre due attività chiave di data mining.

3

KEEL (http://keel.es) è scritto in Java ed è adatto per l'utilizzo del calcolo evolutivo per il data mining.

2

WEKA (già citato), Orange (http://orange.biolab.si/), Tanagra (http://data-mining-tutorials.blogspot.com) è possibile trovare buoni tutorial lì.

Sono ottimi strumenti per il data mining.

2

È possibile controllare il mio software, lo SPMF data mining framework.

È un software Java open-source che offre più di 70 algoritmi per:

  • frequente mineraria itemset,
  • associazione regola mineraria,
  • modello sequenziale mineraria
  • regola sequenziale mineraria.
  • e più ..