Produits

Prix Invitez et Gagnez

Prix Se Connecter Inscription

English

简体中文

日本語

العربيّة

Recherche d'emails

Recherche d'Email d'Entreprise

Recherchez des emails pour n'importe quelle entreprise en utilisant un nom de domaine

Trouver des emails

Trouvez des emails professionnels en utilisant des noms complets

Chercheur de Leads

Trouvez des entreprises à partir de mots-clés et d'emplacement

Chercheur d'emails YouTube

Trouvez les emails d'entreprise à partir des chaînes YouTube

Recherche d'email Twitter

Trouver des emails d'entreprise à partir de profils Twitter

Chercheur d'Emails Google Maps

Trouvez des entreprises et extrayez leurs adresses e-mail

Vérification d'e-mail

Vérifier des emails

Vérifiez la qualité et la délivrabilité des emails

Détecteur d'Email jetable

Détectez les emails temporaires et jetables

Pour Les Développeurs

API du trouveur d'e-mails

Trouvez des e-mails provenant de tout domaine via API

API de vérification d'e-mail

Vérifiez la délivrabilité des e-mails via API

API d'enrichissement de leads

Enrichissez les leads avec le titre de poste, la localisation et plus

API d'intention d'achat

Détectez les signaux d'achat B2B en temps réel

API de recherche d'e-mails sociaux

Trouvez des e-mails à partir de profils YouTube & Twitter

API d'E-mail Jetable

Détecter les fausses inscriptions via l'API

Documentation API

Intégrez Minelead dans vos applications

Extensions et intégrations

Extension de navigateur

Accédez à toutes les fonctionnalités de Minelead dans votre navigateur

Intégrations

Connectez-vous avec les plateformes et outils CRM

Invitez et Gagnez

Gagnez des crédits en parrainant des amis

Se Connecter Créer un Compte Gratuit

Comment extraire des adresses e-mail à partir de sites web en utilisant Python.

La récupération d'adresses e-mail publiques à partir de sites web en utilisant Python peut grandement améliorer les ventes en fournissant un moyen de collecter facilement des informations sur les clients potentiels.

Cette technique permet aux entreprises d'atteindre un public plus large et de personnaliser leurs efforts de marketing, ce qui se traduit par une communication plus efficace et une augmentation des conversions. Cependant, il est important de toujours respecter les conditions d'utilisation des sites web et les lois sur la protection des données lors de la collecte d'adresses e-mail.

Dans ce blog, nous verrons comment utiliser Python pour extraire des adresses e-mail à partir du contenu d'un site web.

Exigences :

Vous devez avoir Python installé.
Installez les packages requests et beautifulsoup en utilisant la commande: pip install requests bs4.

Les points clés :

Comment envoyer des requêtes http en utilisant Python
Comment obtenir le contenu HTML d'une page en utilisant Beautifulsoup
Comment obtenir une liste d'adresses e-mail en utilisant les expressions régulières (Regex)

Comment envoyer des requêtes http en utilisant Python

Le package Requests est le package le plus utilisé en Python pour effectuer des requêtes http. Après l'avoir installé, nous pouvons utiliser la méthode get pour récupérer le contenu de la page demandée, comme illustré dans le code ci-dessous.

import requests

def main(url):

response = requests.get(url)

if response.status_code == 200:

text = response.text

print(text)

main('https://minelead.io')

Explication du code :

Pour utiliser le package requests, nous devons l'importer, et c'est ce que nous avons fait dans la première ligne.

Le package requests a plusieurs méthodes, nous sommes intéressés par la méthode get. Nous l'avons donc appelée et avons transmis l'URL du site web que nous voulons scraper.

Notre réponse contient de nombreuses attributs, nous avons vérifié si le code d'état est 200, alors nous avons imprimé le texte.

Comment obtenir le contenu HTML d'une page en utilisant Beautifulsoup

Beautiful Soup est une bibliothèque Python utilisée pour le web scraping. Elle permet d'analyser les documents HTML et XML, de naviguer dans l'arbre d'analyse, de rechercher et de modifier l'arbre d'analyse.

Avec Beautiful Soup, vous pouvez facilement extraire des données des sites web, telles que du texte, des liens et des images, puis utiliser ces données à des fins diverses telles que l'analyse de données, l'apprentissage automatique ou la création d'un scraper web. De plus, Beautiful Soup peut également gérer des documents HTML et XML mal formés, ce qui en fait un outil robuste et pratique pour le web scraping.

Nous l'utiliserons maintenant pour obtenir uniquement le corps de la page web que nous avons récupérée précédemment :

import requests

from bs4 import BeautifulSoup as bs

def main(url):

response = requests.get(url)

if response.status_code == 200:

text = response.text

soup = bs(text,'html.parser').body

print(soup)

main('https://minelead.io')

Explication du code :

Nous avons repris là où nous nous sommes arrêtés à l'étape précédente et avons simplement filtré le contenu du corps de la page à partir du contenu total de la page, y compris l'en-tête et les métadonnées qui ne nous intéressent pas.

Comme mentionné précédemment, Beautiful Soup a plusieurs parseurs, mais nous avons utilisé celui par défaut qui est html.parser.

Comment obtenir une liste d'adresses e-mail en utilisant les expressions régulières (Regex)

Jusqu'à présent, tout ce que nous avons fait était de préparer les données qui pourraient contenir des adresses e-mail. Pour récupérer ces adresses, nous utiliserons des expressions régulières (regex). Mais qu'est-ce que les regex exactement ?

Regex, abréviation de "expressions régulières", est un outil puissant utilisé pour rechercher, correspondre et manipuler du texte. Il s'agit d'une séquence de caractères qui définit un motif de recherche.

Ces motifs de recherche sont utilisés pour correspondre et extraire du texte à partir d'autres chaînes ou ensembles de chaînes.

Les regex sont utilisées dans divers contextes tels que :

Rechercher et remplacer du texte dans des éditeurs de texte et des IDE.

Valider la saisie utilisateur dans les formulaires.

Correspondre et extraire des données à partir de fichiers journaux.

Analyser et extraire des données à partir de sites web.

Et de nombreuses autres utilisations où la manipulation de texte et la correspondance de motifs sont nécessaires.

Pour que les regex fonctionnent efficacement, nous devons passer une expression régulière précise. Si nous avons besoin de faire correspondre tous les e-mails, par exemple, nous ferons comme suit :

import requests

from bs4 import BeautifulSoup as bs

import re

def main(url):

response = requests.get(url)

if response.status_code == 200:

text = response.text

soup = str(bs(text,'html.parser').body)

emails = re.findall(r'[\w.+-]+@[\w-]+\.[\w.-]+',soup)

emails_set= set(emails)

print(emails_set)

main('https://minelead.io')

Explication du code

Après avoir appliqué la méthode Beautiful Soup sur le contenu, le type de ce dernier a été modifié, nous devons donc le reconvertir en chaîne de caractères pour pouvoir y appliquer l'expression regex.

Ensuite, nous avons appelé la méthode findall de regex sur le contenu converti.

Certaines adresses e-mail peuvent être répétées plusieurs fois, nous avons donc fait en sorte que chaque élément ne soit présent qu'une seule fois dans la variable emails_set en convertissant la liste renvoyée par findall en un ensemble.

Bonus

Pour tester cette méthode de manière plus réaliste, vous pouvez obtenir une liste d'entreprises à partir de mots-clés en utilisant l'API Minelead Generator et boucler sur chaque nom de domaine pour obtenir toutes les adresses e-mail qui y sont associées.

Vous pouvez vérifier ce qu'est une API et comment l'utiliser et suivre l'exemple fourni.

Conclusion

En conclusion, le web scraping pour les emails en utilisant Python est un outil puissant qui peut grandement améliorer les stratégies de vente et les efforts marketing. Le tutoriel fourni dans ce blog a montré à quel point il est facile d'extraire les adresses email à partir de sites web en utilisant la bibliothèque Beautiful Soup et les expressions régulières.

Cependant, il est important de noter que le scraping doit être fait de manière éthique et en conformité avec les lois et règlements. Vérifiez toujours les conditions d'utilisation et les politiques de confidentialité des sites web avant de gratter toute information.

De plus, soyez toujours respectueux de la vie privée des personnes et n'utilisez jamais les adresses email obtenues pour des spams ou des communications non sollicitées. Avec la bonne approche, le scraping peut être un outil précieux pour toute entreprise cherchant à étendre sa portée et personnaliser ses efforts de marketing.

Related Blogs

Vérification et recherche d'emails : minelead.io pour les développeurs.

Apprenez à vérifier et trouver des adresses e-mail avec minelead.io, la solution en temps réel pour améliorer vos efforts de communication par e-mail dès aujourd'hui !

Qu'est-ce que Docker: Comment dockeriser un script Python.

Qu'est-ce que Docker, comment construire une image Docker et la publier sur DockerHub. Exécuter un script Python 24 heures sur 24, 7 jours sur 7 à l'aide de Docker.

API d'intelligence sur les leads et les e-mails B2B

Ressources

Statut
Blog
Prix
Références
Contactez nous
Index des entreprises

Produits

Chercheur d'emails d'entreprise
Trouver des emails
Chercheur de Leads
Chercheur d'emails YouTube
Recherche d'email Twitter
Chercheur d'Emails Google Maps
Vérifier des emails
Détecteur d'Email jetable

Développeurs

API du trouveur d'e-mails
API de vérification d'e-mail
API d'enrichissement de leads
API d'intention d'achat
API de recherche d'e-mails sociaux
API d'E-mail Jetable
Documentation API

Addons & Intégrations

Extension Chrome
Extension Firefox
Extension Gmail
Google Sheets
Zapier
Zoho
Hubspot

De l'outil de recherche et de vérification des e-mails à l'enrichissement des prospects et à l'intention d'achat, Minelead est l'API d'intelligence email et lead B2B du web.

English

français

español

简体中文

Deutsch

Português

italiano

polski

svenska

dansk

suomi

Nederlands