Technologie du moteur de recherche

YaCy est un moteur de recherche complet composé d'une interface utilisateur pour la recherche et d'une interface d'administration pour la configuration et le monitoring. La figure suivante montre les composants d'indexation de YaCy:

Le "crawler" de YaCy récupère les données à partir du Web, les analyse et les stocke sous forme de texte dans un index local. Lorsqu'une requête de recherche Web est lancée sur YaCy, la recherche se fait non-seulement sur l'index local, mais aussi sur les index des autres pairs du réseau YaCy.

Réseau pair-à-pair (peer-to-peer)

Les pairs YaCy s'échangent en permanence des fragments d'index via une table de hachage distribuée. Un fragment d'index mis à jour est ainsi envoyé à chaque pair même si une recherche n'a pas été lancée, ce qui n'empêche pas chaque pair de pouvoir aller chercher des index chez d'autres pairs si l'information qu'il recherche s'y trouve.

Search Result Processing and Fraud Protection

twitter this video Download from Vimeo: Search Result Processing and Fraud Protection

Composants

YaCy comprend un certain nombre de composants qui servent à la mise en réseau, à l'administration, à la maintenance de l'indice avec une gestion des listes noires (black-lists), à la modération de la communauté... La figure suivante montre les différents composants de YaCy:

Performance

YaCy offre un grand nombre de fonctionnalités et des performances qui autrement sont uniquement disponibles sur des produits commerciaux:

  • Simplicité: quelques clics seulement permettent de lancer l'exploration (ou "crawl"). L'interface de recherche très rapide propose également des navigateurs ainsi qu'une fonction "Voulez-vous dire".
  • La particularité de YaCy est que, de par sa technologie pair-à-pair (peer-to-peer) il permet le partage d'index pour créer un puissant moteur de recherche décentralisé.
  • Les utilisateurs ayant de nombreux fichiers sur un intranet pourront très facilement les indexer avec YaCy.
  • Le robot parcourt 2 000 pages Web par minute y compris avec le Domain Balancing.
  • L'indexation traite 30 000 documents par minute. Elle est scalable avec le nombre de cœurs dans le serveur.
  • Requêtes: plus de 30 requêtes par seconde pour chaque pair. Equilibreur de charge: illimité.
  • Capacité: 20 millions de documents dans un ordinateur avec 2 Go de RAM. Dans le réseau pair-à-pair: nombre illimité de documents.