regexp per i tag html con Matlab

Sto cercando un modo per utilizzare regexp per rimuovere tutti i tag html da una stringa.
Quindi se ho <HTML><b><FONT color="red" size="3">Hello</FONT></b></HTML> mi piacerebbe ottenere il hello da esso.regexp per i tag html con Matlab

So che probabilmente assomiglierà ai tag nidificati, ma non lo è, perché tutto ciò che voglio fare qui è rimuovere qualcosa tra due <>.

Sto usando Matlab per farlo, ma la regexp è la stessa identica, quindi sentiti libero di contribuire con qualsiasi aiuto.
Grazie.

fonte

2011-05-03 shahar_m

La mia soluzione è:

>> str='<HTML><b><FONT color="red" size="3">Hello</FONT></b></HTML>'; 
>> regexprep(str, '<.*?>','') 

ans = 

Hello

fonte

2011-05-03 09:16:56 ilalex

fantastico, grazie! –

per abbinare un tag

<[^>]*>

Vedi on line here at Rubular

fonte

2011-05-03 08:52:53 stema

E 'ampiamente accettato che l'uso di espressioni regolari per analizzare HTML generale è di cattivo gusto. Se il tuo html è molto più complicato rispetto all'esempio fornito, dovresti invece utilizzare un parser XML.

Ulteriori discussioni in questa famosa domanda SO. RegEx match open tags except XHTML self-contained tags.

Se si vuole analizzare il contenuto correttamente, quindi scaricare xml_io_tools e utilizzare

doc = xml_read('test.html') 
doc.b.FONT.CONTENT

Se si vuole attaccare con regex, quindi utilizzare la risposta di Ilya, ma con una delle regex dalla risposta legati, ad esempio, ,

str = '<HTML><b><FONT color="red" size="3">Hello</FONT></b></HTML>'; 
rx = '<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>'; 
regexprep(str, rx, '')

fonte

2011-05-03 10:17:12

dal momento che lei ha detto che si desidera estrarre "ciao" da quanto sopra html file (ad esempio filename.html), è possibile utilizzare il seguente in MATLAB:

doc = xmlread ('filename.html'); content = doc.item (0) .getTextContent

Spero che questo aiuti!

fonte

2014-10-30 19:57:50 saras

risposta

Problemi correlati