Wo suchen im Internet?
(nach Dirk Pracht, Stefan Karzaunikat und Bernd Zimmermann)

Eine hervorragende Übersicht über die Technik der "Informationsrecherche im Internet" sowie zu Konzepten und
Anwendungsbereichen von Suchmaschinen und Katalogen finden Sie in der "Suchfibel" von Stefan Karzauninkat.


1. Suchmaschinen

Der robotergenerierte Index

Eine echte Suchmaschine besteht aus einem  Informationssammler, dem "Robot", oder "Crawler", der im Internet surft. Er sammelt Daten, die dann ihn Indizes geschrieben werden,. Drittens nun werden Suchanfrage ausgewertet. Danbei zählt, wo ein Suchbegriff im gefundenen Dokument vorkommt. Suchbegriffe, die z.B im Titel  vorkommen, werden  stärker gewichtet.

<>Man muss beim Suchen die Arbeitsweise des Roboters verstehen und die Suchbegrife geschickt anpassen und kombinieren Dabei nicht die Standardsuche, sondern die ´Erweiterte Suche´ oder ´Expertensuche´ der Suchmaschinen verwenden. Hier gibt es mehr Verknüpfungsmöglichkeiten für Suchbegriffe, die Möglichkeit innerhalb bestimmter Zeiträume oder Dateitypen zu suchen , usw. Ohne solche Kombinationen von Suchbegriffen sind die Trefferquoten viel zu hoch. Zum Beispiel ist es vollkommen unsinnig, nach einem häufigen Begriff, wie z. B. "Auto" zu suchen - das wird millionefach gefunden 

Präzise Wortwahl

Weiter sollten Sie überlegen, welche Begriffe noch in Zusammenhang mit dem Suchwort stehen oder welche Sie explizit ausschließen wollen. Bei obigem Beispiel "Landwirtschaft" lassen sich Begriffe wie "Energie", "Schifffahrt" (nach neuer Rechtschreibung mit drei "f"), und "Medizin" ausschließen. Das Suchgebiet ist immer noch ziemlich groß. Wenn Sie z.B. wissen wollen, welche Rolle die künstliche Wasserversorgung in der Landwirtschaft spielt, könnten Begriffe wie "Bewässerung", "Versorgung", "Pumpen", "Rohre", "Trockenheit" oder der Terminus "künstliche Wasserversorgung" die Zahl der Dokumente besser spezifizieren. Zu viele UND Begriffe können jedoch auch zu 0 Treffern führen, deswegen ist ein schrittweises Eingrenzen bei zu vielen Treffern ratsam. Wenn keine oder zu viele Treffer gefunden werden, sollte man z.B. nur deutsch- oder eben auchg englischsprachige Treffer suchen und entsprechende Suchbegriffe auch in der anderen Sprache probieren. Ebenso sollten die Suchbegriffe ggf. leicht variiert werden, denn für den Computer, der die Anfrage verarbeitet, sind ´Aschenputtel´ und ´Aschenbrödel´ zwei grundverschiedene Begriffe. Kommt entsprechend der Wortwahl des Autors einer Webseite dort nur ´Aschenputtel´ vor, werden Seiten, die ´Aschenbrödel´ enthalten, nicht gefunden. Ein Ausweg wäre hier die Eingabe von ´Aschen*´ als Suchbegriff. Aber hierzu mehr unter dem nächsten Punkt.

Die wichtigsten Befehle

Einige häufig zu findende Eingabemöglichkeiten: Ein Pluszeichen ( + ) oder AND verknüpft das nachfolgende Wort mit dem vorherigen. Beide Begriffe müssen im Ergebnisdokument vorkommen. Mehrere Begriffe lassen sich so zusammenfassen.
Ein Minuszeichen ( - ) oder NOT schließt das nachfolgende Wort aus. Das Ergebnis darf das Wort nicht enthalten.
Mehrere Worte lassen sich mit Anführungszeichen zu einer Phrase verbinden. Diese werden dann als ein einzelner Begriff behandelt: z.B.: "Albert Einstein" oder "französische Küche".
Das Aschenputtelproblem lässt sich evtl. mit Wildcards bzw. der Ersetzung von beliebigen Zeichen durch den Platzhalter ( * ) lösen. So werden mit ´Aschen*´ als Suchbegriff Seiten gefunden, die ´Aschenbrödel´, ´Aschenputtel,´ aber auch ´Aschenregen´ und ´Aschenkasten´ oder den Namen ´Aschenbacher´ enthalten.
Die Syntax der Suchserver bei der Eingabe, die Möglichkeiten und der Komfort unterscheiden sich zum Teil erheblich voneinander. Genauere Informationen hierzu können Sie in der jeweiligen Beschreibung bzw. Hilfedateien der deutschen und internationalen Suchmaschinen nachlesen.

Suchmaschinen (englisch)

AltaVista
(http://www.altavista.com)
  Alltheweb
(http://www.alltheweb.com)
Google
(http://www.google.com)
  Excite
(http://www.excite.com)
Hotbot
(http://www.hotbot.com)
  Webcrawler
(http://webcrawler.com)

 
  

Deutsche Suchmaschinen

Google Deutschland
(http://www.google.de)
  Altavista Deutschland
(http://www.altavista.de)
Fireball
(http://www.fireball.de)
  Speedfind
(http://www.speedfind.de)
Lycos Deutschland
(http://www.lycos.de)
 
 

2. Thematische Verzeichnisse

Der manuell erstellte Katalog

Kataloge werden von Menschen gemacht. Eine Redaktion, nicht eine Software, besucht die angemeldeten Seiten und sortiert sie in einen Schlagwortkatalog ein. Der wird den Suchenden dann hierarchisch präsentiert. Die Basis für den erstellten Index stellen Seiten, die von den jeweiligen Verwaltern angemeldet wurden und zum Teil auch solche, die Web-Bots aufspüren. Die neu gefundenen Seiten werden zunächst redaktionell bewertet, bevor sie in den Katalog wandern. Vorteil und Problem ist der menschliche Faktor: Es wird einerseits klar gewichtet und die Suche fördert keine Treffer, bei denen das Suchwort eher zufällig denn bestimmend vorkommt; andererseits muss sich der Redakteur für eine Kategorie entscheiden. Nicht immer ist eine eindeutige Zuordnung möglich. Erleichtert wird die Arbeit der Redakteure, wenn sich die Seitenbetreiber selber möglichst präzise anmelden.

Der Katalog eignet sich gut...

... zur Suche nach einem bestimmten Thema oder Sachgebiet. Weniger eignet er sich zur Klärung einer bestimmten Frage oder zur Beantwortung eines einzigen, spezifischen Sachverhalts. Wie alle von einer "menschlichen" Redaktion zusammengestellten Kataloge präsentiert z.B. Yahoo zusammen mit dem Eingabefeld für das Suchwort eine übersichtliche Tabelle mit verschiedenen Bereichen des Lebens und Suchens. Sie können hier schon die Datenbasis für die Suche spezifizieren. Je genauer sie den Bereich einengen, indem Sie in der Hierarchie herabsteigen und das Thema eingrenzen, desto genauer wird die Auswahl der Dokumente sein, die Ihnen als Suchergebnis präsentiert werden, wenn Sie dann das gesuchte Wort im Suchfeld eingeben. Oft genügt dann im Suchfeld ein Wort oder eine simple Verknüpfung mit "und". Manche Kataloge lassen keine Verknüpfungen zu; lesen Sie hierzu die Beschreibung des jeweiligen Suchdienstes. Yahoo durchsucht den redaktionellen Index, beginnend auf der Hierarchiestufe, auf der Sie sich befinden. Sie können innerhalb dieser gewählten Hierarchiestufe, oder im gesamten Datenbestand der vom Redaktionsteam erstellten Seitenbeschreibungen suchen. Es werden tatsächlich nur diese Seitenbeschreibungen durchsucht und nicht der gesamte Inhalt aller Dokumente. Dadurch ist gewährleistet, dass der nur der zentrale Inhalt erfasst ist und nicht jedes einzelne Wort.

Nachteile und Grenzen von Katalogen

An dieser Stelle wird deutlich, dass eine Detailinformation wie z.B. der Name einer Persönlichkeit im Zusammenhang mit einem Sachverhalt nicht gelistet ist, wenn diese nicht von entscheidender Bedeutung für diesen Sachverhalt ist. Umgekehrt wird die Beschreibung einer Seite über Forschungsergebnisse sicher die hier relevanten Namen der Forscher enthalten. Die Redaktion des Suchdienstes hat damit einen nicht unerheblichen Teil der Gewichtung der Seiteninformation und damit der Präzisierung der Suche schon durchgeführt. Der inhaltliche Schwerpunkt ist die Grundlage für die Katalogisierung und damit auch für die Suche. Ganz anders die vollautomatisierten Suchroboter. Vom Inhalt eines Dokumentes wollen die nichts wissen.

Wichtige Kataloge

Yahoo!
(http://www.yahoo.com)
  zur Zeit größtes Verzeichnis mit internationalen Ressourcen, jedoch stark angloamerikanisch geprägt
WWW Virtual Library
(http://www.w3.org/vl)
  vor allem wissentschaftlich orientiertes Verzeichnis, nicht kommerzieller Dienst
Tradewave Galaxy
(http://galaxy.einet.net)
  Alle Themengebiete; öffentlicher Dienst von America's Health Network
     
Yahoo Deutschland
(http://www.yahoo.de)
  deutsches Verzeichnis mit Querverbindung zu Yahoo!
Web.de
(http://web.de)
  Verzeichnis deutscher Angebote aller Themenbereiche
DINO
(http://www.dino-online.de)
  Verzeichnis deutscher Angebote aller Themenbereiche
Deutsche Datenquellen
(http://www.rz.uni-karlsruhe.de
/Outerspace/VirtualLibrary)
  deutscher Ast der WWW Virtuel Library auf dem Server der Universität Karlsruhe (RZ)
  

Meta-Suchhilfen

Sammelsucher

 

Metasucher

The big hub
(http://www.thebighub.com)
  Search.com
(http://www.search.com)
All in one
(http://www.allonesearch.com)
  Metacrawler
(http://www.metacrawler.com)
     
CUSI (deutschsprachig)
(http://www.unix-ag.uni-siegen.de/search)
  MetaGer (deuschsprachig)
(http://meta.rrzn.uni-hannover.de)
Klug-Suchen (Liste von Suchmaschinen)
(http://www.klug-suchen.de)
   
  

... und für ganz spezielle Recherchen

Literaturrecherche  
Literaturrecherche via UB-Karlsruhe
(http://www.ubka.uni-karlsruhe.de)
  Homepage der Universitätsbibliothek Karlsruhe mit diversen Möglichkeiten zur Literaturrecherche
Telebuch
(http://www.amazon.de)
  Riesige Online - Bücherdatenbank. Bücher suchen und online bestellen.
     
Nachrichtenrecherche    
Paperball
(http://www.paperball.de)
  personalisierbare Suchmaschine, die alle Homepages von deutschsprachigen Tageszeitungen absucht und aktuelle Nachrichten zusammenträgt
Paperboy
(http://www.paperboy.de)
  personalisierbare Suchmaschine, die Homepages von deutschsprachigen und internationalen Tageszeitungen absucht und aktuelle Nachrichten zusammenträgt; mit E-Mail-Zustellung
     
Mailinglisten    
Liszt
(http://www.liszt.com)
  Internationales Mailinglisten Verzeichnis mit Suchfunktion
Public Accessible Mailing Lists
(http://www.NeoSoft.com/internet/paml/)
  Internationales Mailinglisten Verzeichnis mit Suchfunktion
     
E-Jornals und E-Zines    
NewJour
(http://gort.ucsd.edu/newjour)
  Archiv aller erschienenen E-Journals mit Stichwortsuche und Anweisungen, wie Sie das Journal abrufen können
ARL Directory of E-Journals
(http://arl.cni.org/scomm/edir)
  Diese Verzeichnis enthält sowohl wissenschaftliche Jounals als auch Fun- und Entertainment-Zines
     
Anbieterrecherche    
InterNIC
(http://www.internic.net/)
  Internationales Verzeichnis aller Teinehmer mit eigenen Domainnamen oder Adressen mit eigenen Firmen-/ Institutionsnamen
DeNIC
(http://www.nic.de/)
  Internationales Verzeichnis aller Teinehmer mit eigenen Domainnamen oder Adressen mit eigenen Firmen-/Institutionsnamen
     
e-Mail Adressen und Telefonnumern    
Telefonauskunft der Telekom
(http://www.teleauskunft.de)
  Zugriff auf alle aktuellen Telefonauskunftsdaten und allle "Gelben Seiten" der Deutschen Telekom AG
WhoWhere
(http://www.whowhere.com )
  weltweite Suche nach e-Mail Adressen
Suchen.de
(http://www.suchen.de)
  deutschsprachiger E-Mail Adressensucher
MESA Meta Email Search Agent
(http://mesa.rrzn.uni-hannover.de)
  Meta-Suchmaschine für E-Mail Adressen. Gleichzeitige Suche in ESP, IAF, Infospace, suchen.de, DejaNews, SwissInfo, Four11 und Bigfoot.
     
Softwarerecherche    
Leo Software-Archiv
(http://www.leo.org/archiv/)
  Umfangreiches FTP-Archiv mit Software, Treibern und Dokumentationen
Shareware.com
(http://www.shareware.com)
  Softwaresuche nach Einsatzzweck und Betriebssytem ohne Kenntnis des Dateinamens
Softline-Katalog
(http://www.softline.de)
  kommerzieller Softwarekatalog mit diversen Suchmöglichkeiten in deutscher Sprache
Download.com
(http://www.download.com)
  gut gepflegtes Archiv von Shareware, Freeware, Test- und Demoversionen verschiedenster Programme für den PC
     
Kommerzielle Datenbanken    
GBI
(http://www.gbi.de)
  Fachgebiete: Wirtschaft, Presse
Genios
(http://www.genios.de)
  Fachgebiete: Wirtschaft, Finanzen
JURIS
(http://www.juris-sb.de)
  Fachgebiet: Recht
DIMDI
(http://www.dimdi.de)
  Fachgebiet: Medizin, Psychologie
Fachinformationszentrum Karlsruhe
(http://www.fiz-karlsruhe.de)
  Fachgebiete: Physik, Chemie, Technik, Patente
FIZ Technik
(http://www.fiz-technik.de)
  Fachgebiet: Technik, Normen
Dialog.Com
(http://www.dialog.com)
  internationale Datenbank aller Fachgebiete
ist-information society technologies
(http://www.cordis.lu/ist)
  Host der EU mit Europadatenbanken: Ausschreibungen der EU, Forschungs- und Förderprogramme; einige kostenlose Datenbanken
     
Sonstiges    
Die Maschine
(http://www.arte-media.de/maschine/)
  Der Kultursucher ist eine Suchmaschine für Kulturlinks im Netz
Bundesverfassungsgericht
(https://www.bundesverfassungsgericht.de)
  Datenbank mit Urteilen und Beschluessen des Bundesverfassungsgerichts
CIA World Factbook
(http://www.odci.gov/cia/publications/factbook/)
  Weltalmanach: Zu jedem Land gibt es eine Reihe politischer und wirtschaftlicher Eckdaten
Lexika-Sammlung
(http://www.yourdictionary.com)
  diverse online Lexika, insbesondere Wörterbücher

Literaturquellen

Ulrich Babiak: Effektive Suche im Internet; O'Reilly Verlag, 1997
Michael Otto: Suchstrategien im Internet; Thomson-Verlag, 1997
Rainer Kolbeck, Hans Hajer: Erfolgreiche Internetsuche; Markt & Technik-Verlag, 1997
Jochen Wegner: Recherche Online - Ein Handbuch für Journalisten; Verlagsgruppe FAZ, 1998

 


Beispiel zur Reduzierung der Treffermenge 
 

Überlegungen zur Suchabfrage Eingabe in Suchformular  und Treffermenge
Die Suchabfrage, mit nur einem Begriff, ergibt oft eine immense Anzahl von gefundenen Seiten. Nur mit gezielten Suchabfragen lässt sich die Treffermenge reduzieren . "logo": 
"About 20,529,716 matches were found", 
also 20.529.716 Treffer. 
Als nächstes werden durch die Vorwahl der Sprache "German" nur noch deutschsprachige Seiten berücksichtigt. Aber immer noch ist die Treffermenge zu groß. "logo" und Sprache "German": 
876.303 Treffer. 
 
Jetzt werden zwei Begriffe mit "und" verknüpft, d.h. beide Begriffe müssen auf den gefundenen Seiten vorkommen. Aber immer noch ist die Treffermenge zu groß. "logo and siemens
und Sprache "German": 
9987 Treffer.
Hier wird zur vorhergehenden Abfrage mit Groß- und Kleinschreibung gearbeitet. 
Bei AltaVista gilt: Kleinschreibung bei der Abfrage liefert auch großgeschriebene Treffer. Sobald mit Großbuchstaben gearbeitet wird, müssen die Treffer genau der Vorgabe entsprechen. Man sollte sich also über die Schreibweise des gesichten Begriffes sicher sein.
"LOGO and Siemens
und Sprache "German": 
358 Treffer. 
 
Genauere Treffer erhält man, wenn man den Suchbegriff nur auf den Titel der Seite beschränkt. Voraussetzung ist natürlich, dass der Autor bei der Erstellung der Seite auch Schlüsselbegriffe (hier der Produktname) in den Titel übernommen hat. "title:logo
und Sprache "German": 
1466 Treffer. 
Hier wird davon ausgegangen, dass in der Adresse (URL) der Anbietername vorkommt. Die Treffermenge ist nun überschaubar. "title:logo and url:siemens
und Sprache "German":  
5 Treffer.
Ähnlich wie zuvor, soll der Rechnername, als Bestandteil der Adresse, den Anbieternamen enthalten. Man lässt hier also nur Informationen aus "erster Hand" zu.  "title:logo and host:siemens
und Sprache "German":  
5 Treffer.
Auch Bilder, als Bestandteil einer Seite lassen sich finden. Ein Bild kann über den Namen der Bilddatei (im Beispiel logo_kl.gif) gefunden werden. Bei kryptischen Dateinamen (z. B. pr_001s.gif) besteht natürlich keine Chance, das Gewünschte zu finden. "image:logo and host:siemens and title:logo" >
und Sprache "German": 
1 Treffer.

Bsp. aus Bernd Zimmermanns empfehlenswertem WWW-Kurs.

Zurück




© the2001