Suchmaschinentechnik

YaCy ist eine vollständige Such-Appliance mit User-Interfaces, Index-Administration und Monitoring. Das folgende Schaubild zeigt die indexing-Komponenten:

YaCy kann mit einem Web-Crawler Dateien aus dem Internet erfassen, diese parsen und speichert die Texte zunächst lokal in einem Suchindex. Bei der Websuche kann auf den lokalen Suchindex aber auch auf den Suchindex von YaCy-Peers im Netzwerk des Peers gesucht werden.

Peer-to-Peer Vernetzung

YaCy peers tauschen fortlaufend Index-Fragmente miteinander aus. Dies geschieht in einer Distributed Hash Table. Index-Daten gelangen so im Vorfeld einer Websuche an den Zielpeer, der von einem suchenden Peer bei der remote Suche selektiert wird.

Suchergebnisberechnung und Schutz vor Betrug (engl)

twitter this video Download from Vimeo: Suchergebnisberechnung und Schutz vor Betrug (engl)

Komponenten

YaCy besteht aus einer Vielzahl von Komponenten, die der Vernetzung, der Administration, Pflege des Indexes mit Blacklisten und Moderierungsfunktionen und Community-Kommunikation dienen. Das folgende Schaubild zeigt Komponenten in YaCy:

Leistungsdaten

YaCy hat eine große Anzahl von Funktionen und liefert Leistungsdaten die sonst nur mit kommerziellen Such-Appliances verfügbar sind:

  • Mit ein paar Klicks sind Web-Crawls gestartet und die Gestaltung der Suchseite angepasst. Die Suchfunktion bietet Navigatoren, ,did-you-mean‘ und ist sehr schnell.
  • Die Besonderheit an YaCy ist, dass die Software sich in einem Such-Cluster ähnlich wie beim Peer-to-Peer Filesharing zusammenschliessen kann, um ein großes, automatisch skalierbares Suchmaschinennetz zu erstellen.
  • Wer viele Dateien in einem Intranet hat, kann diese sehr einfach mit YaCy indexieren.
  • Der Crawler erfasst 2000 Web-Seiten pro Minute incl. Domain Balancing.
  • Der Indexierer erfasst >30.000 Dokumente pro Minute. Skaliert mit der Anzahl der Cores im Server.
  • Queries: >30 Suchanfragen pro Sekunde pro Peer. Mit Load Balancer: unbegrenzt.
  • Kapazität: 20 Millionen Dokumente bei 2GB RAM. Im Peer-to-Peer - Verbund: unbegrenzte Anzahl von Dokumente.