Card image cap

Crawling & Indexierung


Crawling & Indexierung

Wie oft deine Webseite bzw. einzelne Resourcen gecrawlt werden, kannst Du nur bedingt beeinflussen. Letztendlich entscheidet dies ein Algorithmus. Dokumente und Ressourcen mit veralteten oder nicht aktualisierten Inhalten werden seltener gecrawlt als jene, die häufige Update erfahren. So z.B. Blogs & Co.

Mit dem zur Verfügung stehenden Crawling-Budget für deine Webseite solltest Du sorgsam umgehen. Denn dieser Wert ist nicht bekannt. Es wird je nach Aktualität des Contents, Seitengröße und anderer Parameter zugeteilt.

Mithilfe der gecrawlten Daten erstellt die Suchmaschine einen Index der mit weiteren Informationen angereichert wird. Welche Keywords kommen wie oft vor, wie ist die interne Verlinkung usw. Daraus wird nun die Relevanz für einzelne URLs zu bestimmten Suchanfragen abgeleitet.

Für Suchergebnisse und z.B. dynamische Paginierungsseiten solltest Du die Indexierung und das Crawling unterbinden.

Crawling

Wichtig ist, dass alle wichtigen Ressourcen gecrawlt und indexiert werden können. Das crawling kann stattfinden, wenn die Ressource in einem für Suchmaschinen lesbaren Format vorliegt. Bei Technologien wie Flash kann es zu Problemen kommen.

Indexierung

Solange Du das Indexieren nicht explizit mit dem Meta-Tag "noindex" verbietest, wird die Suchmaschinen den Inhalt in seinen Index aufnehmen.

Beeinflussung von Crawling & Indexierung

Unter Umständen sollen Inhalte nicht indexiert werden. Dies betrifft z.B. Seiten mit wenig Inhalten, Doppelte Inhalte wie Druckversionen oder auch Suchergebnisse und Paginierungsseiten (sehr häufig bei Blogs) usw.

Crawling

Die Textdatei robots.txt

Diese Textdatei ist zuständig für die Steuerung des Crawling. Einfach im Root-Verzeichnis deiner Domain ablegen und sie gibt den Crawlern der Suchmaschinen einfache Anweisungen. Wenn Du sie nicht erstellst, werden Suchmaschinen ausnahmslos alles was lesbar ist crawlen.

Beispiele für Anweisungen und deren Bedeutung
Anweisung Bedeutung
User-Agent:* Folgende Angabe gilt für alle Bots
Disallow: /verzeichnisname/ Verhinder das Crawling des Verzeichnisses
Disallow: *?parameter Verhindert das Crawling von Seiten mit dem angegebenen Parameter
Disallow: /bestimmte-datei.html nur diese eine Datei wir nicht gecrawlt
Disallow: /bilder/bild.jpg nur dieses Bild wird nicht gecrawlt
Disallow: /*.jpg$ Alle .jpg-Bilder werden vom Crawling ausgeschlossen
Disallow: /bilder*/ alle Unterverzeichnisse, die mit "bilder" beginnen, werden nicht gecrawlt
Disallow: /bilder/ alle Unterverzeichnisse, die "bilder" enthalten, werden nicht gecrawlt
Allow: /bilder/opensource/ das Verzeichnis "opensource" darf gecrawlt werden (auch wenn der Ordner "bilder" ausgeschlossen wurde)
Bots (Auszug)
User Agent Suche
Adsbot-Google Google-Adwords
Googlebot-Image Google-Bildersuche
MediaPartners-Google Google-Adsense
Googlebot Google
Msnbot / Bingbot MSN / bing
ia_archiver Internet Archive / Alexa Crawler
Slurp Yahoo
Googlebot-Video Googlebot für Videos
Google Mobile Google für Mobile
DuckDuckBot DuckDuckGo
YandexBot Yandex
Baiduspider Chinesische Suchmaschine Baidu

Ein Beispiel könnte so aussehen:

User-agent: googlebot
Disallow: /verzeichnisname/

Indexierung

Umgang mit Duplicate Content

Prinzipiell solltest Du duplicate-Content vermeiden. Lässt es sich beispielweise bei Kampagnen nicht vermeiden, verwende das Meta-Tag "canonical".

https://www.domain.com/verzeichnis
https://www.domain.com/verzeichnis?kampagne=4

Der Inhalt beider URLs ist identisch. Deshalb ist es sinnvoll, die zweite URL mit dem canonical-Tag auszuzeichnen.

<link rel="canonical" href="https://www.domain.com/verzeichnis"
Veraltete Inhalte und Seiten ohne Nutzen für den User

Sollen Seiten erst gar nicht im Suchmaschinenindex landen oder ausgeschlossen werden, so lässt sich dies mit dem Meta-Tag "robots" einrichten.

<meta name="robots" content="noindex, follow">

Bei veralteten Seiten hilft es, einen 301-Redirect zur (wenn vorhanden) aktuellen Seite oder Verzeichnis zu setzen. Somit wird die Seite ebenfalls aus dem Index entfernt. Ist dies nicht möglich, so bieten sich der ein 404er oder 410er an - siehe Statuscodes.

Um einen aktuellen Status deiner indexierten Seiten zu bekommen, solltest Du die entsprechenden Tools der Suchmaschinen nutzen. Beispielsweise die Google Search Console oder auch die Bing Webmaster Tools.

XML-Sitemap

Mithilfe einer XML-Sitemap kannst Du Seiten die gecrawlt und indexiert werden sollen, in einer Datei sammeln. Gerade bei großen und umfangreichen Seiten ist dies zu empfehlen. Hierbei solltest Du aber darauf achten, die XML-Sitemap immer zu aktualisieren, sobald Du relevante Seiten zu deiner Webseite hinzufügst. Die XML kannst Du nun bequem in den jeweiligen Tools der Suchmaschinen registrieren.

Schreibe mir, wenn Du Feedback für mich hast.