8 Ocak 2012 Pazar

HTMLParser Kullanımı

Merhabalar,

Html dosyalarını parse etmek birçoğumuz için güncel bir sorundur. Bu sorunu HtmlParser kütüphanesi ile aşabiliriz.

Öncelikle http://sourceforge.net/projects/htmlparser/files/htmlparser/1.6/htmlparser1_6_20060610.zip/download adresinden gerekli dosyaları indiriyoruz. Bu dosyaların içinde HtmlParser için 2 adet jar dosyaları bulunmakta, bunları projemize ekliyoruz.

Aşağıdaki kod ile, belirttiğimiz tagler arasındaki(örneğimizde "a") verileri string arrayine atabiliyoruz.

...
...

Parser parser = new Parser("C:\\Users\\Emre\\WorkspaceDeneme\\TopicModelingTool\\output_html\\all_topics.html");
NodeList nl = parser.parse(null);
NodeList div = nl.extractAllNodesThatMatch(new TagNameFilter("a"),true);
String[][] str = new String[div.size()][];
Set<String> s=new TreeSet<String>();




for(int i=0;i<div.size();i++) {
    NodeList nodes = div.elementAt(i).getChildren();
    str[i] = nodes.asString().split(" "); 
}
...
...

İyi günler.