L’objectif principal de ce projet était de créer une application backend robuste capable de :
Scraper les données : Récupérer les données d’un site web de télécommunications, de Facebook et de Twitter.
Formatter les données : Organiser les données récupérées en fichiers CSV et Parquet.
Alimenter les modèles IA : Mettre les données formatées à disposition des modèles IA pour analyser les tendances et les sentiments des clients.
Plateform
Pour ce projet, nous avons utilisé une plateforme sur site (on-premises) afin de garantir la sécurité et le contrôle des données. Cette configuration nous a permis de gérer l’ensemble du pipeline de traitement des données au sein de notre propre infrastructure, en assurant la conformité avec les réglementations sur la confidentialité des données et en minimisant les dépendances externes.
Technologies Utilisées
Le choix des technologies a été crucial pour le succès du projet. Nous avons opté pour Python comme langage de programmation principal en raison de sa polyvalence et de son large support pour les bibliothèques de manipulation des données. Les bibliothèques clés utilisées dans ce projet comprenaient :
Selenium : Pour le scraping web, en particulier pour interagir avec du contenu web dynamique et automatiser les tâches de navigation.
Tweepy : Une bibliothèque Python pour accéder à l’API de Twitter, nous permettant de récupérer efficacement les tweets et les données associées.
Conclusion
Ce projet a démontré notre capacité à développer une solution backend complète pour le scraping, le formatage et la mise à disposition des données. En utilisant Python et ses puissantes bibliothèques comme Selenium et Tweepy, nous avons créé un pipeline qui a efficacement collecté et traité des données de diverses sources. Les données formatées sont désormais disponibles pour les modèles d’IA afin d’analyser les tendances et les sentiments des clients, fournissant ainsi des informations précieuses aux entreprises pour prendre des décisions éclairées.
Notre engagement à utiliser des technologies de pointe et à garantir l’intégrité des données nous a permis de livrer une solution qui répond aux besoins dynamiques de l’ère numérique.