Parsing a website

Problems with WiFi, SQLite ,Bluetooth, WiMax, Proxies, etc...

Parsing a website

Postby kameltreiber84 » Wed Feb 03, 2010 4:32 pm

Hi there.
I just downloaded a website:
Syntax: [ Download ] [ Hide ]
Using java Syntax Highlighting
  1.  
  2. URL url;
  3.  
  4.                         InputStream urlInputStream = null;
  5.  
  6.                         try {
  7.  
  8.                                 url = new URL("http://www.my-tmobile.de");
  9.  
  10.                         SAXParserFactory spf = null;
  11.  
  12.                         SAXParser sp = null;
  13.  
  14.                         urlInputStream = url.openConnection().getInputStream();
  15.  
  16.                         spf = SAXParserFactory.newInstance();
  17.  
  18.                         spf.setValidating(false);
  19.  
  20.                         if (sp == null) {
  21.  
  22.                                 sp = spf.newSAXParser();
  23.  
  24.                         }
  25.  
  26.                         sp.parse(urlInputStream, new SaxHandler());
  27.  
  28.                         } catch (MalformedURLException e1) {
  29.  
  30.                                 e1.printStackTrace();
  31.  
  32.                         } catch (IOException e) {
  33.  
  34.                                 e.printStackTrace();
  35.  
  36.                         } catch (SAXException e) {
  37.  
  38.                                 e.printStackTrace();
  39.  
  40.                         } catch (ParserConfigurationException e) {
  41.  
  42.                                 e.printStackTrace();
  43.  
  44.                         } finally {
  45.  
  46.                                 if (urlInputStream != null)
  47.  
  48.                                         try {
  49.  
  50.                                                 urlInputStream.close();
  51.  
  52.                                         } catch (IOException e) {
  53.  
  54.                                                 e.printStackTrace();
  55.  
  56.                                         }
  57.  
  58.                         }
  59.  
  60.  
Parsed in 0.034 seconds, using GeSHi 1.0.8.4


The SaxHandler extends DefaultHandler and handles any kind of tag reading - the dom parsing.

My questions:

  • How can I save the xml document form a website in a org.w3c.dom.Document?
  • I often get Parserexceptions, because the read XML is not well formed. How can I encounter this?


Thanks, regards
kameltreiber84
Junior Developer
Junior Developer
 
Posts: 18
Joined: Tue Jan 26, 2010 10:24 pm

Top

Return to Networking & Database Problems

Who is online

Users browsing this forum: No registered users and 7 guests