Merhabalar,
Html dosyalarını parse etmek birçoğumuz için güncel bir sorundur. Bu sorunu HtmlParser kütüphanesi ile aşabiliriz.
Öncelikle http://sourceforge.net/projects/htmlparser/files/htmlparser/1.6/htmlparser1_6_20060610.zip/download adresinden gerekli dosyaları indiriyoruz. Bu dosyaların içinde HtmlParser için 2 adet jar dosyaları bulunmakta, bunları projemize ekliyoruz.
Aşağıdaki kod ile, belirttiğimiz tagler arasındaki(örneğimizde "a") verileri string arrayine atabiliyoruz.
...
...
Parser parser = new Parser("C:\\Users\\Emre\\WorkspaceDeneme\\TopicModelingTool\\output_html\\all_topics.html");
NodeList nl = parser.parse(null);
NodeList div = nl.extractAllNodesThatMatch(new TagNameFilter("a"),true);
String[][] str = new String[div.size()][];
Set<String> s=new TreeSet<String>();
for(int i=0;i<div.size();i++) {
NodeList nodes = div.elementAt(i).getChildren();
str[i] = nodes.asString().split(" ");
}
...
...
İyi günler.