Extraire les adresses mails d’un site web

extraire mail site web
extraire mail site web

Dernière mise à jour : 1 janvier 2023

Pour une raison ou pour une autre vous désirez extraire tous les emails d’un site web ? Le script The Harvester va automatiser la tâche et rechercher des e-mails en utilisant une dizaine de ressources et moteurs de recherche.

The Harvester permet de récupérer rapidement et précisément les adresses mails et également les sous-domaines liés à un site web.

C’est est une sorte de web crawler ou web spider, un programme qui explore automatiquement Internet à la recherche de contenu ciblé.

Domaines d’application de l’outil The Harvester

The Harvester est souvent utilisé par les spammeurs pour collecter des adresses email à qui envoyer du spam, mais peut aussi être utilisé pour des tâches plus nobles:

  • Vous pouvez par exemple récupérer les adresses d’une société pour l’envoi de CV
  • Trouver l’email d’une ancienne connaissance.
  • Couplé avec Maltego, il est possible d’auditer et tester un système d’information d’une entreprise
  • Tester votre propre Site Web pour vous prémunir du spam ou du mail bombing.

Comment fonctionne The Harvester ?

Le script The Harvester va chercher sur la toile les adresses internet en cherchant le caractère @ puis en analysant les caractères avant et après. Si l’e-mail est validé par le programme, il sera ajouté à la base. C’est pour cela qu’il est déconseillé d’écrire son e-mail « en clair » sur les forums, les blogs, etc. Vous avez pu voir que sur certains sites les e-mails de contacts sont écrits sur des Jpeg ou omettent le caractère@ en écrivant pat exemple contact_gmail.com.

Comment utiliser The Harvester ?

The Harvester est intégré à Kali Linux. La façon la plus facile d’y accéder consiste à ouvrir une fenêtre de terminal et à exécuter la commande suivante: theharvester.

Si vous utilisez un système d’exploitation autre que Kali Linux, vous pouvez télécharger l’outil directement sur le site : http://www.edge-security.com.

Pour l’installer, ouvrez un terminal linux et clonez le repo Git :

git clone https://github.com/laramies/theHarvester

Puis rendez-vous dans le dossier créé :

cd theHarvester

Il va falloir ensuite ajouter les librairies nécessaires pour la version de Python que nous devons utiliser

pip install requests

Pour rendre le script exécutable, faites un…

chmod +x theHarvester.py

Terminez en lançant cette commande par exemple:

./theHarvester.py -d www.funinformatique.com -b all
sur Kali Linux: theharvester -d www.funinformatique.com -b all

Cette dernière aura pour effet d’extraire les emails du site web www.funinformatique.com sur tous les moteurs de recherche et le réseaux sociaux connus par TheHarvester.

Examinons de plus près cette ligne de commande:

  • L’option -d permet de préciser le site web cible.
  • L’option -b précise le moteur de recherche employé pour trouver les adresse emails.

Nous avons plusieurs choix, notamment Google, Bing, Baidu, LinkedIn, Twitter et d’autres; dans mon cas, j’ai choisi l’option all qui permet d’effectuer la recherche dans tous les serveurs cités précédemment.

Après le lancement de cette commande, voici ce que j’obtiens:

J’ai pu récupéré 4 adresses emails affiché en clair sur le Web et 5 sous domaine.

The Harvester se relève très utile pour extraire les adresses mails d’un site web. A mettre dans sa trousse à outils des pentesters.