Utilisation de Screaming Frog SEO Spider et d’OpenAI Embeddings pour cartographier les pages associées à grande échelle

Utilisation de Screaming Frog SEO Spider et d'OpenAI Embeddings pour

Depuis la sortie de la version 20.0 de Screaming Frog SEO Spider, les référenceurs peuvent connecter Screaming Frog et OpenAI pour plusieurs cas d’utilisation, notamment l’extraction d’intégrations à partir d’URL.

L’utilisation d’intégrations est un moyen puissant de mapper des URL à grande échelle, à grande vitesse et à faible coût. Dans cet article de blog, nous expliquerons étape par étape ce qu’elles sont et comment les mapper à l’aide de Screaming Frog, ChatGPT (API OpenAI) et Google Colab. Cet article est une version plus complète de mon article original rassemblant davantage de cas d’utilisation et de commentaires de référenceurs qui l’ont essayé.

Après avoir parcouru votre site, il vous suffit de télécharger une feuille et vous en recevrez une autre en retour, avec votre URL source et celles associées dans une autre feuille de calcul. C’est aussi simple que ça !

Cet article est une contribution invitée de Gus Pelogia, Senior SEO Product Manager chez Indeed.


Cas d’utilisation

Avant de plonger dans le commentexpliquons le pourquoiLa cartographie des pages à grande échelle présente plusieurs cas d’utilisation, tels que :

  • Pages connexessi vous avez une section sur votre site Web où vous répertoriez des articles connexes ou des lectures suggérées sur le même sujet
  • Liens internes au-delà de la correspondance du texte d’ancrage, vos liens auront un meilleur contexte car le sujet de la page est lié
  • Balisage des pages ou le clustering pour les cas où vous souhaitez créer des clusters de liens ou simplement comprendre les performances par sujet, et non par page unique
  • Pertinence des mots cléscomme écrit sur le blog iPullRank, où ils expliquent une méthode pour trouver la page idéale à classer pour un mot-clé en fonction du mot-clé et du contenu de la page

Que sont les intégrations ?

Commençons par le début. D’après Google, dans son cours intensif sur le Machine Learning (ML) :

Les intégrations facilitent l’apprentissage automatique sur des entrées volumineuses telles que des vecteurs épars représentant des mots. Idéalement, une intégration capture une partie de la sémantique de l’entrée en plaçant des entrées sémantiquement similaires à proximité les unes des autres dans l’espace d’intégration. Une intégration peut être apprise et réutilisée dans plusieurs modèles.

Selon mes propres termes SEO : les intégrations sont des numéros uniques attribués aux mots d’une page.

Si ce n’est toujours pas clair, ne vous attardez pas sur le concept. Vous pouvez toujours trouver des pages similaires sans connaître la théorie.


Qu’est-ce que la similitude cosinus ?

Jusqu’à présent, vous avez mappé des milliers d’intégrations. Chaque URL contient des centaines de ces grands nombres séparés par une virgule. L’étape suivante consiste à comprendre la similarité cosinus. Comme indiqué dans cet article d’iPullRank, la similarité cosinus est « La mesure de la pertinence est la fonction de la distance entre les intégrations ».

Selon mes propres termes SEO : avec les intégrations, vous transformez les pages en nombres. Avec la similarité cosinus, vous découvrez à quel point ces nombres/mots/pages sont proches sur le plan thématique. À l’aide du script Google Colab (nous y reviendrons plus tard), vous pouvez choisir le nombre de pages similaires que vous souhaitez placer les unes à côté des autres.

Vous faites correspondre l’ensemble du contenu de la page, pas seulement le titre ou une petite section, donc la proximité est beaucoup plus précise.


Utilisation de Screaming Frog + OpenAI pour extraire les intégrations

C’est ici que les choses commencent à devenir plus concrètes. Tout d’abord, vous devez obtenir une API OpenAI et y ajouter du crédit. J’ai extrait des intégrations de 50 000 URL avec moins de 5 USD, donc ce n’est pas cher du tout.

Ouvrez Screaming Frog et activez le rendu JavaScript. Dans le menu, accédez à Configuration > Configuration d’exploration > Rendu > JavaScript.

, Utilisation de Screaming Frog SEO Spider et d’OpenAI Embeddings pour cartographier les pages associées à grande échelle, Utilisation de Screaming Frog SEO Spider et d’OpenAI Embeddings pour cartographier les pages associées à grande échelle

Ensuite, accédez à Configuration > Personnalisé > JavaScript personnalisé :

, Utilisation de Screaming Frog SEO Spider et d’OpenAI Embeddings pour cartographier les pages associées à grande échelle, Utilisation de Screaming Frog SEO Spider et d’OpenAI Embeddings pour cartographier les pages associées à grande échelle

Enfin, sélectionnez Ajouter à partir de la bibliothèque > (ChatGPT) Extraire les intégrations […] > Cliquez sur « JS » pour ouvrir le code et ajouter votre clé OpenAI.

, Utilisation de Screaming Frog SEO Spider et d’OpenAI Embeddings pour cartographier les pages associées à grande échelle, Utilisation de Screaming Frog SEO Spider et d’OpenAI Embeddings pour cartographier les pages associées à grande échelle

Vous pouvez maintenant exécuter l’exploration comme d’habitude et les intégrations seront collectées. Si vous souhaitez gagner un peu de temps, décochez tout dans Configuration > Exploration et extraction, car vous ne regarderez pas les liens internes, les titres de page ou tout autre contenu ou aspect technique d’un site Web.


Utiliser les LLM pour créer un script Python

Une fois votre exploration terminée, il est temps d’utiliser à nouveau ChatGPT pour créer le code de votre outil. Demandez-moi quelque chose du genre : « Donnez-moi un code Python qui me permet de mapper [5] pages liées utilisant la similarité cosinus. Je vais télécharger une feuille de calcul avec les URL + les intégrations sur cet outil. Le code sera placé sur Google Colab”.

Vous pouvez l’essayer vous-même ou utiliser mon script de pages associées existant pour télécharger directement votre feuille, effectuer une rétro-ingénierie de l’invite ou apporter des améliorations. L’outil vous demandera de télécharger votre fichier csv (l’exportation à partir de JavaScript personnalisé créé par Screaming Frog). La feuille doit avoir deux en-têtes :

Une fois les données traitées, il téléchargera automatiquement un autre fichier CSV avec les colonnes Source de la page et Pages associées.

, Utilisation de Screaming Frog SEO Spider et d’OpenAI Embeddings pour cartographier les pages associées à grande échelle

Comme pour tout ce qui concerne l’IA, vous devrez toujours tout vérifier manuellement avant d’apporter des modifications drastiques.


Problèmes courants

Bien qu’il s’agisse d’un outil simple à utiliser, certains problèmes peuvent survenir. Voici ceux que j’ai rencontrés jusqu’à présent :

  • Renommez les en-têtes de votre exportation Screaming Frog en « URL » et « Incorporations »
  • Le fichier CSV contient des URL sans intégrations, telles que des images explorées ou des pages 404, qui ne génèrent pas d’intégrations. Assurez-vous que chaque colonne contient une URL valide et que l’intégration est visible
  • L’exploration est très rapide et vous avez commencé à recevoir des erreurs d’OpenAI. Réduisez la vitesse d’exploration, allez prendre un café et laissez-le faire son travail
  • OpenAI possède de nombreux modèles et certaines pages peuvent échouer en raison du nombre de jetons de sortie demandés. Générez votre API en utilisant gpt-4o mini (jusqu’à 16 384 jetons), soit deux fois plus que gpt-4 (8 192 jetons). Si certaines pages échouent encore, supprimez-les de l’exploration

Publications:

Programmation Octave/Sommaire .,Redirection vers l’ouvrage. »

Mathc initiation/Fichiers h : c21 .,Lien sur la fiche de présentation. »

Photographie/Personnalités/T .,Référence litéraire de cet ouvrage. Disponible à l’achat sur les plateformes Amazon, Fnac, Cultura …. »

États généraux du multilinguisme dans les outre-mer/Textes de référence .,Référence litéraire de cet ouvrage. »

, Utilisation de Screaming Frog SEO Spider et d’OpenAI Embeddings pour cartographier les pages associées à grande échelleLa fonction journalistique de cri-sorbonne.fr est de traiter le sujet de Université Paris 1 Panthéon-Sorbonne: CRI – Centre de Recherche en Informatique dans la transparence en vous donnant la visibilité de tout ce qui est en lien avec ce thème sur le net L’écrit de départ se veut réédité du mieux possible. Pour émettre des remarques sur ce dossier autour du sujet « Université Paris 1 Panthéon-Sorbonne: CRI – Centre de Recherche en Informatique » veuillez utiliser les contacts indiqués sur notre site web. Notre plateforme cri-sorbonne.fr vous conseille de lire ce papier autour du thème « Université Paris 1 Panthéon-Sorbonne: CRI – Centre de Recherche en Informatique ». Il y a de prévu de multiples développements autour du sujet « Université Paris 1 Panthéon-Sorbonne: CRI – Centre de Recherche en Informatique » dans les prochains jours, nous vous incitons à consulter notre site dès que possible.