begin process at 2008 07 24 19:07:32
1 215 861 membres
416 nouveaux aujourd'hui
14 179 membres club

Vous ne trouvez pas de réponse à votre problème ? Alors posez la question dans le forum.
Souvenez-vous qu'il n'y a jamais de question bête, mais rester dans l'ignorance parce que l'on n'ose pas poser une question, ça c'est une erreur !

SUPPRIMER LES BALISES D'UN FICHIER HTML


Information sur la source

Catégorie :Reseaux et Internet Classé sous : html, tag, balise, texte, parser Niveau : Débutant Date de création : 06/06/2007 Date de mise à jour : 11/06/2007 21:07:23 Vu : 5 679

Note :
Aucune note

Commentaire sur cette source (2)
Ajouter un commentaire et/ou une note


Description

Ce programme lit le contenu d'une url et le transforme en texte. Du moins, il supprime toutes les balises html.
Il utilise la librairie htmlparser.

Source

  • import org.htmlparser.Parser;
  • import org.htmlparser.util.NodeIterator;
  • import org.htmlparser.util.ParserException;
  • public class TagStripper{
  • public static void main(String[] args){
  • final StringBuilder text = new StringBuilder();
  • try {
  • final Parser parser = new Parser ("http://www.javafr.com");
  • NodeIterator i = parser.elements();
  • while (i.hasMoreNodes())
  • text.append(i.nextNode().toPlainTextString());
  • System.out.println(text);
  • } catch(ParserException e){
  • e.printStackTrace();
  • }
  • }
  • }
import org.htmlparser.Parser;
import org.htmlparser.util.NodeIterator;
import org.htmlparser.util.ParserException;

public class TagStripper{

	public static void main(String[] args){

		final StringBuilder text = new StringBuilder();

		try {
			final Parser parser = new Parser ("http://www.javafr.com");
			NodeIterator i = parser.elements();
			while (i.hasMoreNodes()) 
				text.append(i.nextNode().toPlainTextString());
			System.out.println(text);
		} catch(ParserException e){
			e.printStackTrace();
		}

	}
}
11 juin 2007 21:07:23 :
Correction suite au commentaire de tarzent Merci pour ta précision :o)
  • signaler à un administrateur
    Commentaire de tarzent le 11/06/2007 13:40:42

    Salut,

    Avec un StringBuilder c'est beaucoup mieux...
    L'inconvénient de ta méthode c'est qu'à chaque itération il instancie un nouvel Objet String.

    ex:
    public static String HtmlToText(final String urlStr)
    throws ParserException {
    final StringBuilder text = new StringBuilder();
    final Parser parser = new Parser(urlStr);
    for (final NodeIterator i = parser.elements(); i.hasMoreNodes();)
    text.append(i.nextNode().toPlainTextString());
    return text.toString();
    }

    ;-)

  • signaler à un administrateur
    Commentaire de rikichi le 13/04/2008 01:25:53

    ca serai rapide avec ca :


    String URL = "http://www.javafr.com";
    StringExtractor se = new StringExtractor (URL);
    String contents = se.extractStrings(true);
    System.out.println(contents);


    good luck :)

Ajouter un commentaire

Pub



Appels d'offres

Creation portail video
Budget : 3 000€
Site de e-commerce
Budget : 5 000€
Demande de devis pour ...
Budget : 7 000€

CalendriCode

Juillet 2008
LMMJVSD
 123456
78910111213
14151617181920
21222324252627
28293031   

VS Express FR Gratuit !

VS Express en français et 100% gratuit !

Téléchargements

Logiciels à télécharger sur le même thème :

Boutique

Boutique de goodies CodeS-SourceS