Q

Strumenti open source per data mining

2009-05-07 2 views 26 likes

26

Devo occuparmi di un progetto che riguarda il data mining. Prima di saltare, volevo sondare diversi strumenti di data mining (preferibilmente open source) che consentissero il reporting basato sul web. Nel mio scenario i dati sarebbero forniti a me, quindi non dovrei strisciare per questo.Strumenti open source per data mining

In breve, sto cercando uno strumento che - Analisi dei dati, Reporting basato sul Web, offra una sorta di dashboard e funzionalità di mining.

Ho lavorato su Microsoft Analysis Services e BOXI e in ritardo ho guardato Pentaho, che sembra essere una buona opzione.

Si prega di condividere le tue esperienze su qualsiasi strumento del genere che tu sappia.

applausi

2009-05-07 Arnkrishn

+0

ulteriori Un punto - vorrei uno strumento che può interfacciarsi bene sia con il codice .NET o addirittura Python. – Arnkrishn

A

risposta

12

credo WEKA è il miglior software DM open source là fuori.

Controllarlo: http://www.cs.waikato.ac.nz/ml/weka/

2009-05-07 16:55:58

+0

Ma solo per la classificazione, un sottotipo di data mining. –

-1

Io sono un pitone-er me stesso e devo dire:

Sì! Tutto ciò può essere fatto in Python.

Ho suonato per l'ultima volta con Beautiful Soup [0]. È un modulo molto semplice da usare che ti permette di catturare/estrarre dati da html e xml (eccellente per 'screen scraping').

Se non conosci Python, .... beh, è davvero facile da imparare.

[0] http://www.crummy.com/software/BeautifulSoup/

2009-05-07 18:36:13 machinaut

+1

Il data mining si basa sulla scoperta della conoscenza "nascosta" nei dati, non ha nulla da fare (almeno direttamente) con lo screen scraping, ma grazie per avermi indicato su Beautiful Soup, ci gioco. =) –

+1

** Tutto ciò può essere fatto anche in ASSEMBLER! ** –

8

Weka è grande, ma si potrebbe desiderare di provare il kit di strumenti di data mining arancione invece.

http://www.ailab.si/orange/

Edit: E come di novembre 2010, devo dire che mi piace molto KNIME.

2009-09-10 04:15:18 ybakos

+2

+1 per KNIME. L'ho scoperto poche settimane fa e sono rimasto molto colpito da ciò che può fare. Supporta script Java, Python e R e il componente aggiuntivo BIRT semplifica la scrittura dei report. –

5

R ha un sacco di ottimi pacchetti relativi al data mining. In particolare, guarda:

Si lega anche in Weka (see the RWeka package). E può essere integrato con .Net (tramite COM) o Python (tramite RPy o RPy2).

Sono d'accordo per quanto riguarda Pentaho per una piattaforma di reporting, anche se è un progetto molto grande a seconda di cosa lo stai usando.

2009-09-18 20:32:38 Shane

1

Pentaho è una soluzione molto professionale. Sicuramente un'ottima scelta.

2009-09-18 20:40:50

1

È possibile guardare Data Mining SDK e il suo blog.

2010-01-04 13:29:47 sashaeve

1

Un elenco di alcuni strumenti di data mining open source sono elencati qui: http://dataminingtools.net/browse.php

2010-03-02 14:04:44 Datakid

0

si può dare un'occhiata a strumento di data mining, weka

Ecco un link ad una raccolta di tutorial e video su WEKA Tutorial: http://www.dataminingtools.net/browsetutorials.php?tag=weka

Video: http://www.dataminingtools.net/videos.php?id=6

2010-03-09 15:41:33

5

si dovrebbe anche controllare out Apache Mahout. Può essere abbastanza utile per alcune attività di machine learning su larga scala come il clustering degli utenti.

2010-03-09 15:45:00

+0

La licenza Apache è il più grande vantaggio, perché altre librerie citate utilizzano GPL che vieta i casi di utilizzo commerciale – TomR

1

Eclipse BIRT http://www.eclipse.org/birt/phoenix/project/description.php

2010-03-09 16:00:57 crowne

2

Dai un'occhiata alla lista di software Open Source di per l'apprendimento automatico gestito da JMLR. si può trovare qui:

http://mloss.org/software/

http://jmlr.csail.mit.edu/mloss/

Rappresentano Statale d'Arte!

Il mio problema con Weka è che un numero di algoritmi in esso non sono aggiornati.

2010-05-07 09:53:47 WeShallOvercome

1

Credo che lo KNIME meriti di aderire anche a questo elenco.

2010-06-07 03:36:51 radek

2

credo che RapidMiner sia uno strumento eccellente che dovrebbe essere aggiunto a questo elenco.

2010-10-06 11:00:25

3

Proverei con i nuovi strumenti di Google.

-prima è necessario ottenere l'ID API per google-storage, che è dove si intende memorizzare e manipolare i dati che si desidera analizzare.

-Questo è necessario ottenere l'ID API per google-prediction-api (http://code.google.com/apis/predict/docs/getting-started.html), che per quello che ho visto è un fantastico processore di data mining in outsourcing. L'API Prediction ti consente di ottenere di più dai tuoi dati e rende i suoi modelli più accessibili. Oltre all'utilizzo di dati numerici e nominali tradizionali è possibile utilizzare anche dati di testo che grazie a questa API possono essere utilizzati per esempio per classificare le e-mail in base alla lingua.

-Infine è possibile utilizzare BigQuery che vi permetterà di eseguire analisi ad-hoc, reporting standardizzato, dati di esplorazione App prototipazione (http://code.google.com/apis/bigquery/)

2010-11-03 04:11:29

0

Insieme con gli strumenti, vorrei suggerire fortemente l'apprendimento di Python e R. Questi linguaggi aiutano molto durante l'analisi. Inoltre, i set di dati di grandi dimensioni possono essere "analizzati su misura". Si potrebbe anche creare il proprio cruscotto personalizzato utilizzando Javascript (check out la numerous charting and visualization libraries)

2010-12-29 13:11:17 sprezzatura

5

RapidMiner è il mio strumento di data mining preferito.

2011-05-31 08:48:19

1

Weka è forte per la classificazione e/apprendimento automatico /. Per molti, questo è considerato più una parte dell'intelligenza artificiale che dell'effettiva estrazione di dati. RapidMiner è in gran parte sulla stessa linea, ma con un'interfaccia utente molto più bella. Pentaho è il supporto professionale per Weka AFAICT.

Si potrebbe voler dare un'occhiata a ELKI, http://elki.dbs.ifi.lmu.de/ che è un progetto analogo che si concentra su algoritmi di clustering e rilevazioni di valori anomali, altre due attività chiave di data mining.

2011-11-25 17:57:19

3

KEEL (http://keel.es) è scritto in Java ed è adatto per l'utilizzo del calcolo evolutivo per il data mining.

2012-02-12 08:31:41 aliassaila

2

WEKA (già citato), Orange (http://orange.biolab.si/), Tanagra (http://data-mining-tutorials.blogspot.com) è possibile trovare buoni tutorial lì.

Sono ottimi strumenti per il data mining.

2012-02-24 08:07:36 codious

2

È possibile controllare il mio software, lo SPMF data mining framework.

È un software Java open-source che offre più di 70 algoritmi per:

frequente mineraria itemset,
associazione regola mineraria,
modello sequenziale mineraria
regola sequenziale mineraria.
e più ..

2012-03-05 04:24:53 Phil