Προς το περιεχόμενο

htmlparser java


marilenaki

Προτεινόμενες αναρτήσεις

Δημοσ.

Γεια σας. Χρειαζομαι βοηθεια γιατι εδω και μερες εχω κολλησει και δε μπορω να βγαλω ακρη :(

Θελω να επεξεργαστω στοιχεια απο html χρησιμοποιωντας java.

Εχω βρει τον htmlparser ( http://htmlparser.sourceforge.net/ )

Εχω βρει και αυτα παραδειγματα

http://www.developers-blog.org/blog/default/2009/07/31/HTMLParser

http://www.java2s.com/Tutorial/Java/0120__Development/ParseHTML.htm

 

Αυτο που θελω να να κανω εγω ειναι να εντοπισω στοιχεια μεσα στον κωδικα html.

πχ αν εχω

>
<a name="προγραμμα"></a>
<div class="timetable"><span class="time"> 9.00</span><span class="descr"> μαθημα1 </span></div>
<div class="timetable"><span class="time"> 11.00</span><span class="descr"> μαθημα2 </span></div>

 

πως θα ανακτησω τις ωρες και τα μαθηματα;

Δημοσ.
Γεια σας. Χρειαζομαι βοηθεια γιατι εδω και μερες εχω κολλησει και δε μπορω να βγαλω ακρη :(

Θελω να επεξεργαστω στοιχεια απο html χρησιμοποιωντας java.

Εχω βρει τον htmlparser ( http://htmlparser.sourceforge.net/ )

Εχω βρει και αυτα παραδειγματα

http://www.developers-blog.org/blog/default/2009/07/31/HTMLParser

http://www.java2s.com/Tutorial/Java/0120__Development/ParseHTML.htm

 

Αυτο που θελω να να κανω εγω ειναι να εντοπισω στοιχεια μεσα στον κωδικα html.

πχ αν εχω

>
<a name="προγραμμα"></a>
<div class="timetable"><span class="time"> 9.00</span><span class="descr"> μαθημα1 </span></div>
<div class="timetable"><span class="time"> 11.00</span><span class="descr"> μαθημα2 </span></div>

 

πως θα ανακτησω τις ωρες και τα μαθηματα;

 

RTFM mate !!!!!

Δημοσ.
Μπορείς να χρησιμοποιήσεις τον XML parser που έχει ήδη η java (στο package org.w3c.dom).

 

Αχά,

οπότε αναγκαστικά θα πρέπει να κάνω μετατροπή από html σε xml πρώτα..

Δημοσ.
Αχά,

οπότε αναγκαστικά θα πρέπει να κάνω μετατροπή από html σε xml πρώτα..

 

To html είναι xml (πρακτικά), καθώς το xml είναι υπερσύνολο του html. Δεν θα χρειαστεί να κάνεις απολύτως καμία μετατροπή. Όσο για τους parser η java έχει 2, DOM και SAX, εγώ προτιμώ τον πρώτο.

Δημοσ.

>
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.Reader;
import java.net.URL;

import javax.swing.text.MutableAttributeSet;
import javax.swing.text.html.HTML;
import javax.swing.text.html.HTMLEditorKit;
import javax.swing.text.html.parser.ParserDelegator;

public class Parser {
 public static void main(String args[]) throws Exception {
   URL url = new URL("http://www.csc.liv.ac.uk/teaching/modules/bscmodulesyr1.html");
   Reader reader = new InputStreamReader((InputStream) url.getContent());
   System.out.println("Links for " + "http://www.csc.liv.ac.uk/teaching/modules/bscmodulesyr1.html");
   new ParserDelegator().parse(reader, new LinkPage(), false);
 }
}

class LinkPage extends HTMLEditorKit.ParserCallback {

 public void handleStartTag(HTML.Tag t, MutableAttributeSet a, int pos) {
 	if (t==HTML.Tag.DIV && a.getAttribute(HTML.Attribute.CLASS)!=null){
 		System.out.println("--->div:" + a.getAttribute(HTML.Attribute.CLASS) );//+ a.getAttribute(HTML.Attribute.DIV) + "</div>");	
 	}
 }

}

 

δοκίμασε κάτι τέτοιο

Αρχειοθετημένο

Αυτό το θέμα έχει αρχειοθετηθεί και είναι κλειστό για περαιτέρω απαντήσεις.

  • Δημιουργία νέου...