| Previous topic :: Next topic |
| Author |
Message |
Simon
Administrateur

 Offline
Joined: 08 May 2005 Posts: 686
Localisation: France
|
Posted: Fri 5 Aug 2005 - 17:40 Post subject: [Aide] Programmation d'un robot |
|
|
Bonjour bonjour, je me pose une question, sur beaucoup de site on entend parler de "robot" qui vérifie si vous avez bien mis le lien sur votre site.
Comment un robot se programme? Je pense que le langage utilisé est le PHP.
Mais que doit il faire? J'ai un peu reflechis et voila ce que j'ai trouvé:
- On lui donne une adresse ex: www.monsite.com - Il va sur ce site et recherche une string qui contient "<a href... etc..." - Si il ne trouve pas, il continue sur les prochaines pages.
Bon, heu... d'accord, mais concretement: - Comment "lire" un code source d'une url donné - Comment suivre les liens du site?
Y a t'il quelqu'un qui en a déja programmé un? _________________ Simon (SimMaster), Programmation et informatique Colorisation syntaxique de codes sources Outils et services autour de l'adresse IP |
|
| Back to top |
|
 |
manhim
Offline
Joined: 11 Jul 2005 Posts: 49
|
Posted: Fri 5 Aug 2005 - 20:00 Post subject: [Aide] Programmation d'un robot |
|
|
Tu met une page en tent que variable la page et pour le lire, tu fait la même chose qu'avec des variables normales... Désoler de pas donner plus d'explications  |
|
| Back to top |
|
 |
tos
Offline
Joined: 09 Nov 2005 Posts: 11
|
Posted: Wed 9 Nov 2005 - 14:40 Post subject: [Aide] Programmation d'un robot |
|
|
Je pense qu'un scrip UNIX serait plus approprié ;
1 - wget http://le_site.com 2 - cat index.html (le fichier créer par wget) | grep href=\"http://monsite.com
si il renvoit une ligne alors le site est referencé sinon il ne l'est pas sachant que bien souvent les liens vers les autres sites sont sur la page d'index sinon il n'y a pas d'interet à faire de la pub si c'est pour les mettre dans un coin caché du site :p
Et bien evidement ceci ne fonctionne que si la page est codé "normalement". Si le gars c'est amuser à faire des choses du genre :
| Code: | | <a href = "www.le_site.com" >lien </a> |
Evidement là ca ne marche plus :/
Dans ce cas je pense qu'il faut créer un automate en C :
1 - Ouvrir le fichier en lecture : http://www.le_site.com 2 - Lire un caractère. Si le caractère est un 'h' alors passer au 3 sinon repeter 2 3 - Lire les trois caractère suivants. Si ils valent "ref" passer au 4 sinon retourner au 2. 4- Lire un caractère. Si il vaut ' '(espace) : repetez 4, si il vaut '=' aller au 5. pour le reste retourner au 2. 5- Lire un caractère. Si il vaut ' '(espace) : repetez 5, si il vaut " aller au 6. pour le reste retourner au 2. 6- Lire caractère par caractère jusqu'à retomber sur un " et enregistrer chaque char dans une chaine. 7- Verfier que la chaine contient au moins : mon_site.com. Si oui arreter là sinon retourner au 2.
Voilà j'espère avoir été clair . Je ne l'ai pas directement programmer mais si tu insistes je peut voir  |
|
| Back to top |
|
 |
Simon
Administrateur

 Offline
Joined: 08 May 2005 Posts: 686
Localisation: France
|
|
| Back to top |
|
 |
tos
Offline
Joined: 09 Nov 2005 Posts: 11
|
Posted: Wed 9 Nov 2005 - 23:35 Post subject: [Aide] Programmation d'un robot |
|
|
exact :
| Code: | <? $nom_fichier = "http://le_site.com"; $fp = fopen($nom_fichier, "r"); //On place le contenu de la page dans une variable //On peut egalement limiter le nombre de de caractère à lire (4096 pour ligne une seule ligne il me semble) $contenu =fread($fp, filesize($nom_fichier)); fclose($fp); ?>
|
Ou alors
| Code: | <? $nom_fichier = "http://le_site.com"; //Met le contenu du fichier dans un tableau $tab=file($nom_fichier); ?>
|
|
|
| Back to top |
|
 |
Simon
Administrateur

 Offline
Joined: 08 May 2005 Posts: 686
Localisation: France
|
|
| Back to top |
|
 |
dark.link
Offline
Joined: 23 Jul 2006 Posts: 11
|
Posted: Sat 3 Jan 2009 - 01:26 Post subject: [Aide] Programmation d'un robot |
|
|
| En fait, un robot peut se faire dans toute sorte de langage, mais étant un python addict, je favoriserai ce dernier ^^ |
|
| Back to top |
|
 |
|