replaceALL方法的对HTML的处理

 

 

经常需要从网络上抓取一些HTML信息,然后就需要处理HTML为纯文本格式

more="<html> <body>asdf<br> sadfasdf</body></html>";

 more = more.replaceAll("<(.*?)>", " ");//清除所有HTML标签
 more = more.replaceAll(" +", "");//替换所有连续的空格为一个空格
 more = more.replaceAll("\r", "");
 more = more.replaceAll("\n", "");//将ASCII所有换行回车符去掉

现在的more就是一个纯文本格式的字符串了

你可能感兴趣的:(replaceAll)