begin process at 2010 03 15 05:21:03
  Trouver un code source :
 
dans
 
Accueil > Forum > 

JAVA / J2EE / J2ME

 > 

Réseau & internet

 > 

Internet

 > 

Parser Java Google


Derniers messages déposésPoser une question dans le forum ou lancer une discussion

Parser Java Google

mercredi 25 février 2009 à 18:37:51 | Parser Java Google

Snacksou

Bonjour à tous,

dans le cadre d'un projet de détection de plagiat à la fac, développé en Java, nous sommes amenés à faire des requêtes vers divers moteurs de recherche, Google en tête. Je suis chargé de cette partie, et je suis donc amené à récupérer les résultats. J'arrive à récupérer les résultats sous forme de texte brut, mais il me faut ensuite parser les résultats obtenus afin de ne garder que les parties pertinentes. Arpès avoir glané pas mal le net, je suis tombé sur htmlparser, mais j'ai encore quelques soucis. J'arrive à récupérer séparement une String d'adresse URL et une String de texte mais je n'arrive pas à faire le lien entre.
Je m'explique. J'aimerais récupérer le lien (<a href..>) avec le texte,celui en dessous du lien (apparement dans une balise <div class="s"...) , pour l'intégrer dans une hasmap. Le lien en vert en dessous ne n'interesse que peu (a moins que ce ne soit plus facile).

Voilà, j'espère avoir été assez clair. Le code dont je dispose déjà ne me permet pas apparement de faire cela, mais si ça vous interesse, je vous le donne.

Cordialement.

mercredi 25 février 2009 à 22:00:35 | Re : Parser Java Google

AlexN

Salut,

Même si la structure des réponses google a changé depuis, voici un exemple d'extraction des résultats google avec htmlparser (tout est dans print) :

package parsers;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.commons.httpclient.NameValuePair;
import org.htmlparser.Attribute;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.Tag;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.tags.Div;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

import commons.HttpConstants;
import commons.HttpConstants.MethodType;
import commons.HttpRequest;
import commons.SearchResults;

public class GoogleResultsParser extends HttpRequest {

    private static final String PROTOCOL     = HttpConstants.DEFAULT_PROTOCOL;
    private static final String USER         = HttpConstants.DEFAULT_USER;
    private static final String PASS         = HttpConstants.DEFAULT_PASS;
    private static final String HOST         = "www.google.com";
    private static final int    PORT         = HttpConstants.DEFAULT_PORT;
    private static final String PATH         = HttpConstants.DEFAULT_PATH;
    private static final String FILE         = "search";
    private static final String QUERY         = "q=httpclient&start=";
    private static final String REFERENCE     = HttpConstants.DEFAULT_REFERENCE;
    private static final NameValuePair[] PARAMETERS = HttpConstants.DEFAULT_PARAMETERS;

    private static final Pattern googleTitle = Pattern.compile("<a href=\"([^\"]*)\" class=l>([^<]*)</a>");
    private static final Pattern googleText = Pattern.compile("<td class=j><font size=-1>([^<]*)<br>");

    private NodeFilter filter;
    private NodeList list;
    private SearchResults results;
   
    public GoogleResultsParser(String protocol, String user, String pass, String host, int port, String path, String file, String query, String reference, NameValuePair[] parameters) {
        super(MethodType.GET, protocol, user, pass, host, port, path, file, query, reference, parameters);
        filter = new NodeClassFilter (Div.class);   
        list = new NodeList();
        results = new SearchResults();
    }
   
    public void parse(String source) {
        try {
            list.add(new Parser (source).extractAllNodesThatMatch (filter));
        } catch (ParserException e) {
            e.printStackTrace ();
        }       
    }

    public int print() {
        int nbLinks = 0;
        Attribute attribute;
        for (int i = 0; i < list.size(); i++){
            if ((attribute = ((Tag) list.elementAt(i)).getAttributeEx("class")) != null
                    && attribute.getValue().equals("g")) {
                Matcher mGoogleTitle = googleTitle.matcher(list.elementAt(i).getFirstChild().toHtml().
                        replaceAll("<b>", "").replaceAll("</b>", ""));
                Matcher mGoogleText  = googleText.matcher(list.elementAt(i).getLastChild().getFirstChild().
                        getFirstChild().toHtml().replaceAll("<b>", "").replaceAll("</b>", ""));
                if (mGoogleTitle.find()) {
                    results.add(mGoogleTitle.group(1), results.new Result(mGoogleTitle.group(2),
                            mGoogleText.find() ? mGoogleText.group(1) : ""));               
                    nbLinks++;
                }
            }
        }
        results.print();
        return nbLinks;
    }
   
    public static void main(String[] args) {
        // read content of url using a GoogleResultsParser       
        GoogleResultsParser client = new GoogleResultsParser(PROTOCOL, USER, PASS, HOST, PORT, PATH, FILE, QUERY, REFERENCE, PARAMETERS);
        for ( int i = 0; i < 5; i++ ) {
            client.buildURL(PROTOCOL, USER, PASS, HOST, PORT, PATH, FILE, QUERY+(i*10), REFERENCE);
            String response = client.read();
            if ( response.length() != 0 )
                client.parse(response);           
        }
        System.out.println("\nnbResponses = " + client.print());
    }
}



Cette discussion est classée dans : résultats, java, récupérer, google, parser


Répondre à ce message

Sujets en rapport avec ce message

Recuperer les résultats d'un script unix sur une interface graphique Java [ par Limatou ] Salut a tousJ'espère que qqu'un aura une réponse à ma question :je voudrai récuperer le résultat d'un script unix sur une interface graphique développ Récupérer la sortie du ping à partir d'un code java [ par loubnita ] SalutJ'ai un pb avec ping kd je le lance à partir de mon pgramme java.En fait je ne sais pas si le ping aboutit ou pas.Autrement dit, quand je ping un GPS + WIFI +JAVA [ par elshogun ] Bonjour tout le monde !J ai un GPS dont je veux récupérer les positions chaque minute.Ce GPS est connecté par WIFI à un pad qui lui a une carte WIFI.C Visucoube 3D intranet [ par Thierryd ] Bonjour,Je ne connais pas java, si ce n'est de nom.Nous developpons un logiciel avec WebDev permettant de lancer des simulations de laminage 3D et de Récupérer l'espace libre d'un disque ??? [ par Javapabien ] Bonjour amateurs et pros de java,moi je souhaiterais trouver le moyen de connaitre l'espace libre d'un disque dur dans une appli java. (et ensuite res parser java exportant du XML dans mySQL [ par sandji ] Bonjour, Je travaille sur un projet de gestion administrative d'une association. J'ai effectué des recheches dans le but de trouver un parser en java Parser du XML avec JDOM en java [ par red210 ] Voila je pose une ptit questin concernant le XML... Je viens tout juste de lire un super tuto pour lire et générer du XML ca me pousse à m'y mettre ca compilateur pour abstract state machine [ par skwal31048 ] Bonjour, voila j'ai un petit probleme:Je suis sense écrire un compilateur pour ASM pour mon projet en java. J'ai deja écrit un parser en c qui me réal Récupérer des informations sur les fichiers [ par Stepharcher ] Bonjour à toutes les personnes qui lisent ma question Ma question est toute simple : je recherche un moyen pour récupérer la taille d'un fichier, les connexion java [ par amel2006 ] bonjour; dans mon projet j'ai fait une connexion avec les sockets en java avec le moteur de recherche google comme suit: import java.io. *; import ja


Nos sponsors


Appels d'offres

Sondage...

Comparez les prix

CalendriCode

Mars 2010
LMMJVSD
1234567
891011121314
15161718192021
22232425262728
293031    

Consulter la suite du CalendriCode

Photothèque

 
Développement réalisé par Nicolas SOREL (Nix) avec l'aide de : Cyril DURAND et Emmanuel (EBArtSoft), Merci à Vincent pour ses précieux conseils.
CodeS-SourceS.com© Toute reproduction même partielle est interdite sauf accord écrit du Webmaster
CodeS-SourceS.com© est une marque déposée tous droits réservés

Google Coop CodeS-SourceS Google Coop CodeS-SourceS
Temps d'éxécution de la page : 0,343 sec (3)

Nous contacter | Annoncer sur CodeS-SourceS | Mentions légales