Accueil > Forum > > > > Parser Java Google
Parser Java Google
mercredi 25 février 2009 à 18:37:51 |
Parser Java Google

Snacksou
|
Bonjour à tous, dans le cadre d'un projet de détection de plagiat à la fac, développé en Java, nous sommes amenés à faire des requêtes vers divers moteurs de recherche, Google en tête. Je suis chargé de cette partie, et je suis donc amené à récupérer les résultats. J'arrive à récupérer les résultats sous forme de texte brut, mais il me faut ensuite parser les résultats obtenus afin de ne garder que les parties pertinentes. Arpès avoir glané pas mal le net, je suis tombé sur htmlparser, mais j'ai encore quelques soucis. J'arrive à récupérer séparement une String d'adresse URL et une String de texte mais je n'arrive pas à faire le lien entre. Je m'explique. J'aimerais récupérer le lien (<a href..>) avec le texte,celui en dessous du lien (apparement dans une balise <div class="s"...) , pour l'intégrer dans une hasmap. Le lien en vert en dessous ne n'interesse que peu (a moins que ce ne soit plus facile). Voilà, j'espère avoir été assez clair. Le code dont je dispose déjà ne me permet pas apparement de faire cela, mais si ça vous interesse, je vous le donne. Cordialement.
|
|
mercredi 25 février 2009 à 22:00:35 |
Re : Parser Java Google

AlexN
|
Salut,
Même si la structure des réponses google a changé depuis, voici un exemple d'extraction des résultats google avec htmlparser (tout est dans print) :
package parsers;
import java.util.regex.Matcher; import java.util.regex.Pattern;
import org.apache.commons.httpclient.NameValuePair; import org.htmlparser.Attribute; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.Tag; import org.htmlparser.filters.NodeClassFilter; import org.htmlparser.tags.Div; import org.htmlparser.util.NodeList; import org.htmlparser.util.ParserException;
import commons.HttpConstants; import commons.HttpConstants.MethodType; import commons.HttpRequest; import commons.SearchResults;
public class GoogleResultsParser extends HttpRequest {
private static final String PROTOCOL = HttpConstants.DEFAULT_PROTOCOL; private static final String USER = HttpConstants.DEFAULT_USER; private static final String PASS = HttpConstants.DEFAULT_PASS; private static final String HOST = "www.google.com"; private static final int PORT = HttpConstants.DEFAULT_PORT; private static final String PATH = HttpConstants.DEFAULT_PATH; private static final String FILE = "search"; private static final String QUERY = "q=httpclient&start="; private static final String REFERENCE = HttpConstants.DEFAULT_REFERENCE; private static final NameValuePair[] PARAMETERS = HttpConstants.DEFAULT_PARAMETERS;
private static final Pattern googleTitle = Pattern.compile("<a href=\"([^\"]*)\" class=l>([^<]*)</a>"); private static final Pattern googleText = Pattern.compile("<td class=j><font size=-1>([^<]*)<br>");
private NodeFilter filter; private NodeList list; private SearchResults results; public GoogleResultsParser(String protocol, String user, String pass, String host, int port, String path, String file, String query, String reference, NameValuePair[] parameters) { super(MethodType.GET, protocol, user, pass, host, port, path, file, query, reference, parameters); filter = new NodeClassFilter (Div.class); list = new NodeList(); results = new SearchResults(); } public void parse(String source) { try { list.add(new Parser (source).extractAllNodesThatMatch (filter)); } catch (ParserException e) { e.printStackTrace (); } }
public int print() { int nbLinks = 0; Attribute attribute; for (int i = 0; i < list.size(); i++){ if ((attribute = ((Tag) list.elementAt(i)).getAttributeEx("class")) != null && attribute.getValue().equals("g")) { Matcher mGoogleTitle = googleTitle.matcher(list.elementAt(i).getFirstChild().toHtml(). replaceAll("<b>", "").replaceAll("</b>", "")); Matcher mGoogleText = googleText.matcher(list.elementAt(i).getLastChild().getFirstChild(). getFirstChild().toHtml().replaceAll("<b>", "").replaceAll("</b>", "")); if (mGoogleTitle.find()) { results.add(mGoogleTitle.group(1), results.new Result(mGoogleTitle.group(2), mGoogleText.find() ? mGoogleText.group(1) : "")); nbLinks++; } } } results.print(); return nbLinks; } public static void main(String[] args) { // read content of url using a GoogleResultsParser GoogleResultsParser client = new GoogleResultsParser(PROTOCOL, USER, PASS, HOST, PORT, PATH, FILE, QUERY, REFERENCE, PARAMETERS); for ( int i = 0; i < 5; i++ ) { client.buildURL(PROTOCOL, USER, PASS, HOST, PORT, PATH, FILE, QUERY+(i*10), REFERENCE); String response = client.read(); if ( response.length() != 0 ) client.parse(response); } System.out.println("\nnbResponses = " + client.print()); } }
|
|
Cette discussion est classée dans : résultats, java, récupérer, google, parser
Répondre à ce message
Sujets en rapport avec ce message
Recuperer les résultats d'un script unix sur une interface graphique Java [ par Limatou ]
Salut a tousJ'espère que qqu'un aura une réponse à ma question :je voudrai récuperer le résultat d'un script unix sur une interface graphique développ
Récupérer la sortie du ping à partir d'un code java [ par loubnita ]
SalutJ'ai un pb avec ping kd je le lance à partir de mon pgramme java.En fait je ne sais pas si le ping aboutit ou pas.Autrement dit, quand je ping un
GPS + WIFI +JAVA [ par elshogun ]
Bonjour tout le monde !J ai un GPS dont je veux récupérer les positions chaque minute.Ce GPS est connecté par WIFI à un pad qui lui a une carte WIFI.C
Visucoube 3D intranet [ par Thierryd ]
Bonjour,Je ne connais pas java, si ce n'est de nom.Nous developpons un logiciel avec WebDev permettant de lancer des simulations de laminage 3D et de
Récupérer l'espace libre d'un disque ??? [ par Javapabien ]
Bonjour amateurs et pros de java,moi je souhaiterais trouver le moyen de connaitre l'espace libre d'un disque dur dans une appli java. (et ensuite res
parser java exportant du XML dans mySQL [ par sandji ]
Bonjour, Je travaille sur un projet de gestion administrative d'une association. J'ai effectué des recheches dans le but de trouver un parser en java
Parser du XML avec JDOM en java [ par red210 ]
Voila je pose une ptit questin concernant le XML... Je viens tout juste de lire un super tuto pour lire et générer du XML ca me pousse à m'y mettre ca
compilateur pour abstract state machine [ par skwal31048 ]
Bonjour, voila j'ai un petit probleme:Je suis sense écrire un compilateur pour ASM pour mon projet en java. J'ai deja écrit un parser en c qui me réal
Récupérer des informations sur les fichiers [ par Stepharcher ]
Bonjour à toutes les personnes qui lisent ma question Ma question est toute simple : je recherche un moyen pour récupérer la taille d'un fichier, les
connexion java [ par amel2006 ]
bonjour; dans mon projet j'ai fait une connexion avec les sockets en java avec le moteur de recherche google comme suit: import java.io. *; import ja
Livres en rapport
|
Derniers Blogs
UNE JOLIE-HORLOGE ET PAS QU'UN PEU !UNE JOLIE-HORLOGE ET PAS QU'UN PEU ! par neodante
Pour les possesseurs d'iPhone, ça y est Bijin Tokei - qui se traduit littéralement en Français par " Jolie Horloge " - est arrivé et GRATUITEMENT s'il vous plaît ! Après la version Tokyo, Hokkaido, night club, racing, Gal, "pour les mademoiselles'", . voi...
Cliquez pour lire la suite de l'article par neodante TECHDAYS PARIS 2010 : CONNECTEZ VOS DONNéES à SHAREPOINT 2010 AVEC LES BUSINESS CONNECTIVITY SERVICESTECHDAYS PARIS 2010 : CONNECTEZ VOS DONNéES à SHAREPOINT 2010 AVEC LES BUSINESS CONNECTIVITY SERVICES par ROMELARD Fabrice
Animé par: Gaetan Bouveret et Julien Chomarat Business Connectivity Services (BCS) est dans SharePoint 2010 la version 2 de Business Data Catalog (BDC dans SharePoint 2007). Il s'agit de la solution permettant de visualiser des données provenan...
Cliquez pour lire la suite de l'article par ROMELARD Fabrice [DIVERS] SUIVRE VOS SéRIES PRéFéRéS SUR LA TOILE[DIVERS] SUIVRE VOS SéRIES PRéFéRéS SUR LA TOILE par orion
Comme de nombreux geek, je suis un grand amateur de série TV et je rate régulièrement des épisodes de mes séries préférés. Une solution s'offre à vous avec ce merveilleux site : Tv Gorge - www.tvgorge.com Moteur de recherche à l'appui, vous pouvez ...
Cliquez pour lire la suite de l'article par orion TECHDAYS PARIS 2010 : LA BI DANS SHAREPOINT 2010TECHDAYS PARIS 2010 : LA BI DANS SHAREPOINT 2010 par ROMELARD Fabrice
Animé par: Vincent Bellet et Baptiste Giraudier La BI dans SharePoint 2010, Les nouveaux services d'application dans SP2010 et SQL Server Reporting services 2008 R2. La BI dans SharePoint est généralisée pour tous afin de permettre à tous les coll...
Cliquez pour lire la suite de l'article par ROMELARD Fabrice
Logiciels
DB-MAIN (9.1.0)DB-MAIN (9.1.0)DB-MAIN is a data-modeling and data-architecture tool. It is designed to help developers and anal... Cliquez pour télécharger DB-MAIN Xilisoft DPG Convertisseur (5.1.37.0120)XILISOFT DPG CONVERTISSEUR (5.1.37.0120)Xilisoft DPG Convertisseur offre aux fans de Nintendo DS une bonne solution leur permettant de dé... Cliquez pour télécharger Xilisoft DPG Convertisseur GraphicsGale (2.01.01)GRAPHICSGALE (2.01.01)GraphicsGale est un logiciel de PixelArt avec de nombreuse fonctionnalités permettant de réalisé ... Cliquez pour télécharger GraphicsGale Architecte 3D (Platinum 2010)ARCHITECTE 3D (PLATINUM 2010)Architecte 3D Platinium vous permet de concevoir facilement les plans votre future maison, de l'é... Cliquez pour télécharger Architecte 3D TeamViewer 5 (TeamViewer 5)TEAMVIEWER 5 (TEAMVIEWER 5)Dépanner un ami,expliquer une manipulation devient un jeu d'enfant.
Prise en main d'un autre ord... Cliquez pour télécharger TeamViewer 5
|