Sto eseguendo un'attività in modalità pseudo-distribuita sul mio computer portatile a 4 core. Come posso garantire che tutti i core siano effettivamente utilizzati. Attualmente il mio job tracker mostra che un solo lavoro è in esecuzione alla volta. Ciò significa che viene utilizzato solo un core?Utilizzo completo di tutti i core in modalità pseudo-distribuita Hadoop
I seguenti sono i miei file di configurazione.
conf/core-site.xml:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
conf/HDFS-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
conf/mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
EDIT : Come per la risposta, ho bisogno di aggiungere le seguenti proprietà in mapred-site.xml
<property>
<name>mapred.map.tasks</name>
<value>4</value>
</property>
<property>
<name>mapred.reduce.tasks</name>
<value>4</value>
</property>
mapred.map.tasks e mapred.reduce.tasks non controllano il # di mappa/riducono le attività per nodo. Si prega di provare e assicurarsi prima di selezionare una risposta. –
@Praveen che è corretto ma dal momento che ha 1 nodo dovrà almeno suggerire ad esso di utilizzare anche più mappatori non solo aumentare il limite per tracker. –
@Nemo Oltre ad aggiungere i valori mapred (map | reduce) .tasks di 4 in mapred-site.xml, hai modificato i valori di mapreduce.tasktracker. (Map | reduce) .tasks.maximum per utilizzare tutti i core? – AST