Accueil > Forum > > > > Parser Java Google
Parser Java Google
mercredi 25 février 2009 à 18:37:51 |
Parser Java Google

Snacksou
|
Bonjour à tous, dans le cadre d'un projet de détection de plagiat à la fac, développé en Java, nous sommes amenés à faire des requêtes vers divers moteurs de recherche, Google en tête. Je suis chargé de cette partie, et je suis donc amené à récupérer les résultats. J'arrive à récupérer les résultats sous forme de texte brut, mais il me faut ensuite parser les résultats obtenus afin de ne garder que les parties pertinentes. Arpès avoir glané pas mal le net, je suis tombé sur htmlparser, mais j'ai encore quelques soucis. J'arrive à récupérer séparement une String d'adresse URL et une String de texte mais je n'arrive pas à faire le lien entre. Je m'explique. J'aimerais récupérer le lien (<a href..>) avec le texte,celui en dessous du lien (apparement dans une balise <div class="s"...) , pour l'intégrer dans une hasmap. Le lien en vert en dessous ne n'interesse que peu (a moins que ce ne soit plus facile). Voilà, j'espère avoir été assez clair. Le code dont je dispose déjà ne me permet pas apparement de faire cela, mais si ça vous interesse, je vous le donne. Cordialement.
|
|
mercredi 25 février 2009 à 22:00:35 |
Re : Parser Java Google

AlexN
|
Salut,
Même si la structure des réponses google a changé depuis, voici un exemple d'extraction des résultats google avec htmlparser (tout est dans print) :
package parsers;
import java.util.regex.Matcher; import java.util.regex.Pattern;
import org.apache.commons.httpclient.NameValuePair; import org.htmlparser.Attribute; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.Tag; import org.htmlparser.filters.NodeClassFilter; import org.htmlparser.tags.Div; import org.htmlparser.util.NodeList; import org.htmlparser.util.ParserException;
import commons.HttpConstants; import commons.HttpConstants.MethodType; import commons.HttpRequest; import commons.SearchResults;
public class GoogleResultsParser extends HttpRequest {
private static final String PROTOCOL = HttpConstants.DEFAULT_PROTOCOL; private static final String USER = HttpConstants.DEFAULT_USER; private static final String PASS = HttpConstants.DEFAULT_PASS; private static final String HOST = "www.google.com"; private static final int PORT = HttpConstants.DEFAULT_PORT; private static final String PATH = HttpConstants.DEFAULT_PATH; private static final String FILE = "search"; private static final String QUERY = "q=httpclient&start="; private static final String REFERENCE = HttpConstants.DEFAULT_REFERENCE; private static final NameValuePair[] PARAMETERS = HttpConstants.DEFAULT_PARAMETERS;
private static final Pattern googleTitle = Pattern.compile("<a href=\"([^\"]*)\" class=l>([^<]*)</a>"); private static final Pattern googleText = Pattern.compile("<td class=j><font size=-1>([^<]*)<br>");
private NodeFilter filter; private NodeList list; private SearchResults results; public GoogleResultsParser(String protocol, String user, String pass, String host, int port, String path, String file, String query, String reference, NameValuePair[] parameters) { super(MethodType.GET, protocol, user, pass, host, port, path, file, query, reference, parameters); filter = new NodeClassFilter (Div.class); list = new NodeList(); results = new SearchResults(); } public void parse(String source) { try { list.add(new Parser (source).extractAllNodesThatMatch (filter)); } catch (ParserException e) { e.printStackTrace (); } }
public int print() { int nbLinks = 0; Attribute attribute; for (int i = 0; i < list.size(); i++){ if ((attribute = ((Tag) list.elementAt(i)).getAttributeEx("class")) != null && attribute.getValue().equals("g")) { Matcher mGoogleTitle = googleTitle.matcher(list.elementAt(i).getFirstChild().toHtml(). replaceAll("<b>", "").replaceAll("</b>", "")); Matcher mGoogleText = googleText.matcher(list.elementAt(i).getLastChild().getFirstChild(). getFirstChild().toHtml().replaceAll("<b>", "").replaceAll("</b>", "")); if (mGoogleTitle.find()) { results.add(mGoogleTitle.group(1), results.new Result(mGoogleTitle.group(2), mGoogleText.find() ? mGoogleText.group(1) : "")); nbLinks++; } } } results.print(); return nbLinks; } public static void main(String[] args) { // read content of url using a GoogleResultsParser GoogleResultsParser client = new GoogleResultsParser(PROTOCOL, USER, PASS, HOST, PORT, PATH, FILE, QUERY, REFERENCE, PARAMETERS); for ( int i = 0; i < 5; i++ ) { client.buildURL(PROTOCOL, USER, PASS, HOST, PORT, PATH, FILE, QUERY+(i*10), REFERENCE); String response = client.read(); if ( response.length() != 0 ) client.parse(response); } System.out.println("\nnbResponses = " + client.print()); } }
|
|
Cette discussion est classée dans : résultats, java, récupérer, google, parser
Répondre à ce message
Sujets en rapport avec ce message
Recuperer les résultats d'un script unix sur une interface graphique Java [ par Limatou ]
Salut a tousJ'espère que qqu'un aura une réponse à ma question :je voudrai récuperer le résultat d'un script unix sur une interface graphique développ
Récupérer la sortie du ping à partir d'un code java [ par loubnita ]
SalutJ'ai un pb avec ping kd je le lance à partir de mon pgramme java.En fait je ne sais pas si le ping aboutit ou pas.Autrement dit, quand je ping un
GPS + WIFI +JAVA [ par elshogun ]
Bonjour tout le monde !J ai un GPS dont je veux récupérer les positions chaque minute.Ce GPS est connecté par WIFI à un pad qui lui a une carte WIFI.C
Visucoube 3D intranet [ par Thierryd ]
Bonjour,Je ne connais pas java, si ce n'est de nom.Nous developpons un logiciel avec WebDev permettant de lancer des simulations de laminage 3D et de
Récupérer l'espace libre d'un disque ??? [ par Javapabien ]
Bonjour amateurs et pros de java,moi je souhaiterais trouver le moyen de connaitre l'espace libre d'un disque dur dans une appli java. (et ensuite res
parser java exportant du XML dans mySQL [ par sandji ]
Bonjour, Je travaille sur un projet de gestion administrative d'une association. J'ai effectué des recheches dans le but de trouver un parser en java
Parser du XML avec JDOM en java [ par red210 ]
Voila je pose une ptit questin concernant le XML... Je viens tout juste de lire un super tuto pour lire et générer du XML ca me pousse à m'y mettre ca
compilateur pour abstract state machine [ par skwal31048 ]
Bonjour, voila j'ai un petit probleme:Je suis sense écrire un compilateur pour ASM pour mon projet en java. J'ai deja écrit un parser en c qui me réal
Récupérer des informations sur les fichiers [ par Stepharcher ]
Bonjour à toutes les personnes qui lisent ma question Ma question est toute simple : je recherche un moyen pour récupérer la taille d'un fichier, les
connexion java [ par amel2006 ]
bonjour; dans mon projet j'ai fait une connexion avec les sockets en java avec le moteur de recherche google comme suit: import java.io. *; import ja
Livres en rapport
|
Derniers Blogs
[RIA SERVICES] MAITRE - DéTAIL ET DOMAINDATASOURCE[RIA SERVICES] MAITRE - DéTAIL ET DOMAINDATASOURCE par Audrey
A l'occasion d'un projet client, j'ai utilisé RIA Services avec Silverlight 3 (mais cela fonctionne aussi avec la version 4), et je l'ai utilisé pour une interface façon Maitre / Détail. Voici comment j'ai procédé pour arriver à mes fins. Nous allons pren...
Cliquez pour lire la suite de l'article par Audrey CSDL FUNCTIONCSDL FUNCTION par Matthieu MEZIL
Dans mon post précédent , j'ai utilisé une CSDL Function afin de générer une requête SQL avec un DateDiff utilisant la date courante sur la BD à partir d'une requête LINQ. Dans le cadre de ce post , vous avez probablement remarqué que dans le cadre de plu...
Cliquez pour lire la suite de l'article par Matthieu MEZIL LINQ TO ENTITIESLINQ TO ENTITIES par Matthieu MEZIL
Cette semaine je suis à Montréal en tant que speaker sur Entity Framework pour l'évènement confoo . J'en profite pour remercier les organisateurs de cet évènement de m'avoir fait confiance et Access-IT de m'avoir permis d'y participer. En parallèle, j'ai ...
Cliquez pour lire la suite de l'article par Matthieu MEZIL FAIRE APPARAITRE L'ONGLET 'DéVELOPPEUR' DANS OFFICE 2010FAIRE APPARAITRE L'ONGLET 'DéVELOPPEUR' DANS OFFICE 2010 par neodante
La nouvelle interface d'Office 2010 à amener quelques modifications par rapport à celle de 2007. Certes mineures, ces modifications ont fait disparaître la case à cocher de l'onglet 'Développeur' en première page du panneau du 'bouton Office' (dans Office...
Cliquez pour lire la suite de l'article par neodante [ASTUCE] PATCH POUR MICROSOFT FORUMS NNTP BRIDGE V1[ASTUCE] PATCH POUR MICROSOFT FORUMS NNTP BRIDGE V1 par pierre
Si vous avez téléchargé comme moi Microsoft Forums NNTP Bridge V1 avant le 11 mars 2010 (voir [Astuce] Disponibilité de Microsoft Forum NNTP Bridge Version 1.0), un problème de date localisée pour les non anglais était présent. Un patch est disponibl...
Cliquez pour lire la suite de l'article par pierre
Forum
RE : AGENT JADE !RE : AGENT JADE ! par ghezella
Cliquez pour lire la suite par ghezella APPLET + JPANNELAPPLET + JPANNEL par olfa8687
Cliquez pour lire la suite par olfa8687
Logiciels
Xilisoft Convertisseur Vidéo Ultimate (5.1.39.0305)XILISOFT CONVERTISSEUR VIDéO ULTIMATE (5.1.39.0305)Xilisoft Convertisseur Vidéo Ultimate est un outil puissant de conversion vidéo, facile à utilise... Cliquez pour télécharger Xilisoft Convertisseur Vidéo Ultimate Xilisoft DVD Ripper Ultimate (5.0.64.0304)XILISOFT DVD RIPPER ULTIMATE (5.0.64.0304)Xilisoft DVD Ripper Ultimate est un logiciel excellent pour copier et convertir DVD vers presque ... Cliquez pour télécharger Xilisoft DVD Ripper Ultimate Rigs of Rods (63.3)RIGS OF RODS (63.3)c'est un jeu de multi-simulation camions,autobus voitures, avions, bateaux, hélicoptère avec défo... Cliquez pour télécharger Rigs of Rods Konvertor (4.00)KONVERTOR (4.00)Le logiciel est un gestionnaire multimedia affichant, jouant et convertissant plus de 2000 format... Cliquez pour télécharger Konvertor
|