Il mio vero problema ha a che fare con la registrazione di un numero molto elevato di prodotti antivirus che concorda che un determinato campione appartiene a una determinata famiglia di anti-virus. Il database contiene milioni di campioni, con decine di prodotti anti-virus che votano su ciascun campione. Voglio fare una domanda del tipo "Per il malware che contiene il nome 'XYZ' quale campione aveva il maggior numero di voti e quali venditori hanno votato per questo?" e ottenere risultati come:Campo incrociato con un numero grande o indefinito di categorie
"BadBadVirus"
V1 V2 V3 V4 V5 V6 V7
Sample 1 - 4 votes 1 0 1 0 0 1 1
Sample 2 - 5 votes 1 0 1 0 1 1 1
Sample 3 - 5 votes 1 0 1 0 1 1 1
total 14 3 3 2 3 3
che potrebbero essere utilizzate per dirmi che Venditore 2 e 4 Venditore o non sanno come per rilevare questo malware, o che il nome è qualcosa di diverso.
Ho intenzione di provare a generalizzare la mia domanda leggermente, mentre spero di non rompere la vostra capacità di aiutarmi. Supponiamo che io abbia cinque votanti (Alex, Bob, Carol, Dave, Ed) a cui è stato chiesto di guardare cinque fotografie (P1, P2, P3, P4, P5) e decidere quale sia il "soggetto principale" della fotografia. Per il nostro esempio, supponiamo che siano limitati a "Cat", "Dog" o "Horse". Non tutti gli elettori votano su ogni cosa.
i dati sono nel database in questa forma:
Photo, Voter, Decision
(1, 'Alex', 'Cat')
(1, 'Bob', 'Dog')
(1, 'Carol', 'Cat')
(1, 'Dave', 'Cat')
(1, 'Ed', 'Cat')
(2, 'Alex', 'Cat')
(2, 'Bob', 'Dog')
(2, 'Carol', 'Cat')
(2, 'Dave', 'Cat')
(2, 'Ed', 'Dog')
(3, 'Alex', 'Horse')
(3, 'Bob', 'Horse')
(3, 'Carol', 'Dog')
(3, 'Dave', 'Horse')
(3, 'Ed', 'Horse')
(4, 'Alex', 'Horse')
(4, 'Bob', 'Horse')
(4, 'Carol', 'Cat')
(4, 'Dave', 'Horse')
(4, 'Ed', 'Horse')
(5, 'Alex', 'Dog')
(5, 'Bob', 'Cat')
(5, 'Carol', 'Cat')
(5, 'Dave', 'Cat')
(5, 'Ed', 'Cat')
L'obiettivo è che, data una foto argomento che stiamo cercando, ci piacerebbe sapere come molti elettori pensavano che era il principale punto di quella foto, ma elenca anche QUALI VOTATORI pensavano che.
Query for: "Cat"
Total Alex Bob Carol Dave Ed
1 - 4 1 0 1 1 1
2 - 3 1 0 1 1 0
3 - 0 0 0 0 0 0
4 - 1 0 0 1 0 0
5 - 4 0 1 1 1 1
------------------------------------
total 12 2 1 4 3 2
Query for: "Dog"
Total Alex Bob Carol Dave Ed
1 - 1 0 1 0 0 0
2 - 2 0 1 0 0 1
3 - 1 0 0 1 0 0
4 - 0 0 0 0 0 0
5 - 1 1 0 0 0 0
------------------------------------
total 5 1 2 1 0 1
È qualcosa che posso fare con i dati nel formato in cui sono memorizzati?
Ho difficoltà a ottenere una query che lo faccia - anche se è abbastanza semplice scaricare i dati e quindi scrivere un programma per farlo, mi piacerebbe davvero essere in grado di farlo nel DATABASE se io può.
Grazie per eventuali suggerimenti.
@ user1761471 risposta Aggiornato con blocco di codice anonimo –
La ringrazio molto, Clodoaldo! Il numero di votanti non è ingestibile (44), ma il numero di cose su cui votano è enorme (3 milioni). Torno con un feedback su ciò che accadrà presto. Grazie! – user1761471