Ho bisogno di elaborare grandi quantità di dati tabulari di tipo misto - stringhe e doppi. Un problema standard, penserei. Qual è la migliore struttura dati in Matlab per lavorare con questo?Struttura dati Matlab per tipo misto - che cosa è tempo + spazio efficiente?
Cellarray non è sicuramente la risposta. È estremamente inefficiente nella memoria. (test mostrati sotto). Il set di dati (dalla casella degli strumenti delle statistiche) è orribile in termini di tempo e spazio inefficiente. Questo mi lascia con structarray o struct of matrici. Ho fatto un test su tutte e quattro le diverse opzioni per il tempo e la memoria di seguito e mi sembra che la struttura degli array sia l'opzione migliore per le cose per cui ho provato.
Sono relativamente nuovo a Matlab e questo è un po 'deludente, francamente. Ad ogni modo - cerco consigli se mi manca qualcosa o se i miei test sono accurati/ragionevoli. Mi mancano altre considerazioni oltre all'accesso/conversione/utilizzo della memoria che sono suscettibili di venire fuori mentre codice più usando questa roba. (fyi am using R2010b)
* * Test # 1: Velocità di accesso Accesso a un elemento di dati.
cellarray:0.002s
dataset:36.665s %<<< This is horrible
structarray:0.001s
struct of array:0.000s
* * Test # 2: velocità di conversione e l'utilizzo della memoria ho lasciato cadere set di dati da questa prova.
Cellarray(doubles)->matrix:d->m: 0.865s
Cellarray(mixed)->structarray:c->sc: 0.268s
Cellarray(doubles)->structarray:d->sd: 0.430s
Cellarray(mixed)->struct of arrays:c->sac: 0.361s
Cellarray(doubles)->struct of arrays:d->sad: 0.887s
Name Size Bytes Class Attributes
c 100000x10 68000000 cell
d 100000x10 68000000 cell
m 100000x10 8000000 double
sac 1x1 38001240 struct
sad 1x1 8001240 struct
sc 100000x1 68000640 struct
sd 100000x1 68000640 struct
CODICE ==================: TEST # 1
%% cellarray
c = cell(100000,10);
c(:,[1,3,5,7,9]) = num2cell(zeros(100000,5));
c(:,[2,4,6,8,10]) = repmat({'asdf'}, 100000, 5);
cols = strcat('Var', strtrim(cellstr(num2str((1:10)'))))';
te = tic;
for iii=1:1000
x = c(1234,5);
end
te = toc(te);
fprintf('cellarray:%0.3fs\n', te);
%% dataset
ds = dataset({ c, cols{:} });
te = tic;
for iii=1:1000
x = ds(1234,5);
end
te = toc(te);
fprintf('dataset:%0.3fs\n', te);
%% structarray
s = cell2struct(c, cols, 2);
te = tic;
for iii=1:1000
x = s(1234).Var5;
end
te = toc(te);
fprintf('structarray:%0.3fs\n', te);
%% struct of arrays
for iii=1:numel(cols)
if iii/2==floor(iii/2) % even => string
sac.(cols{iii}) = c(:,iii);
else
sac.(cols{iii}) = cell2mat(c(:,iii));
end
end
te = tic;
for iii=1:1000
x = sac.Var5(1234);
end
te = toc(te);
fprintf('struct of array:%0.3fs\n', te);
============= ===== CODICE: TEST # 2
%% cellarray
% c - cellarray containing mixed type
c = cell(100000,10);
c(:,[1,3,5,7,9]) = num2cell(zeros(100000,5));
c(:,[2,4,6,8,10]) = repmat({'asdf'}, 100000, 5);
cols = strcat('Var', strtrim(cellstr(num2str((1:10)'))))';
% c - cellarray containing doubles only
d = num2cell(zeros(100000, 10));
%% matrix
% doubles only
te = tic;
m = cell2mat(d);
te = toc(te);
fprintf('Cellarray(doubles)->matrix:d->m: %0.3fs\n', te);
%% structarray
% mixed
te = tic;
sc = cell2struct(c, cols, 2);
te = toc(te);
fprintf('Cellarray(mixed)->structarray:c->sc: %0.3fs\n', te);
% doubles
te = tic;
sd = cell2struct(d, cols, 2);
te = toc(te);
fprintf('Cellarray(doubles)->structarray:d->sd: %0.3fs\n', te);
%% struct of arrays
% mixed
te = tic;
for iii=1:numel(cols)
if iii/2==floor(iii/2) % even => string
sac.(cols{iii}) = c(:,iii);
else
sac.(cols{iii}) = cell2mat(c(:,iii));
end
end
te = toc(te);
fprintf('Cellarray(mixed)->struct of arrays:c->sac: %0.3fs\n', te);
% doubles
te = tic;
for iii=1:numel(cols)
sad.(cols{iii}) = cell2mat(d(:,iii));
end
te = toc(te);
fprintf('Cellarray(doubles)->struct of arrays:d->sad: %0.3fs\n', te);
%%
clear iii cols te;
whos
mentre "set di dati" è effettivamente lento, i tempi sono orribilmente lenti. Sto ottenendo 'dataset: 0.7s' sull'accesso mentre gli altri sono nello stesso ordine del tuo. Sto eseguendo R2013a su WinXP a 32 bit – Amro