das vektorraummodell (ich nehme mal an du meinst vektor und nicht vetor) hat aber doch ganz und gar nichts mit dc zu tun. es bezeichnet lediglich den google algo, der auf einem immer gleichbleibenden gesemtwert des netzes basiert, in dem sich zwar vektoren verschieben aber die summe trotzdem gleich bleibt.
ist übrigens die selbe algorythmische logig die für die sogenannte gaussche gleichverteilung angewendet wird.
dass DC beim spidern nicht erkannt werden kann ist ja unbestritten, jedoch werden die inhalte, nachdem sie gespidert wurden, ja nochmal durch tausend siebe geschickt und dort sind sie erkennbar, weil der zeitfaktor www. dann weg ist.
DC wird also nicht sofort erkannt, später jedoch durchaus.
hier stellt sich allerdings die frage WAS DC überhaupt ist.
beispiel: wenn reuthers ne nachricht an die ganze welt rausgibt, wird die in aller regel überall 1zu1 übernommen.
also der inhalt von artikeln alleine bestimmt da nicht drüber.
viel spass im netz
thommy
Sorry, aber was du da gerade in den Raum stellst ist komplett falsch. Beides – Vektorraummodelle und die Gaussche Gleichverteilung sind erst mal Statistische Modelle und keine Algorithmen
Das ist aber auch schon alles, was sie gemeinsam haben. Das GG stellt praktisch dar, wie sich etwas Verteilt (Gauß-Verteilung bzw. Normalverteilung). Das Vektorraummodell bzw. das in Bezug auf IRS gemeinte Vektorraum-Retrieval ist ein Element der Informationsbeschaffung und Informationsaufbereitung – bzw. schematischen Darstellung von Informationen (Stirngs) in Bezug einer undefinierbaren Raum / Umgebung ( Dokument ).
Auf dem ersten Blick haben die DC-Erkennung und VRM evtl. nichts gemeinsam – obwohl, eigentlich schon. Ich fasse mich mal kurz, weil man es eh überall nachlesen kann. Über das VRM wird unter anderem die max. Länge bzw. Wortanzahl des Suchvektors bestimmt. Bei google liegt der bei 32 Worten. Da der SV max. 32 Worte erfassen kann, kannst Du auch bei der Suche nach DC keine Strings finden die mehr als 32 Worte haben.... Um realen DC zu finden, ist ein 32-Wort-Frame viel zu kurz.
DC wird also nie wirklich erkannt und wird behandelt wie jeder andere Inhalt auch. Der mit der stärksten Linkpower ist oben.....
Bevor einer sich die Frage stellt: oh 32 Worte woher will der das wissen:
Einfach mal einen String suchen, der in Anführungszeichen gepackt ist und mehr als 32 Worte hat.....
Wenn google irgendwann mal Rechner mit größeren Datenbus hat, wird sich der Wert hat entsprechend erhöhen....
Man bekommt den Hinweis:
Alle Wörter ab "XXXX" wurden ignoriert, da Suchanfragen auf 32 Begriffe beschränkt sind.
Ein Vektor der mehr als 32 Begriffe enthält passt halt nicht auf den Datenbus und die „Software“ google ist auf die verwendete Hardware optimiert... So einfach ist das