Natürlich ist google und jede andere Suma darauf aus DC zu erkennen. Ganz gleich ob im eigenen Projekt oder geklauter Inhalt. Man überlege sich nur mal, was passieren würde, wenn die das nicht machen würden
DC sollte man grundsätzlich vermeiden. Ein paar Keys wegstreichen oder ein paar Worte hinzuzufügen bringt da nicht wirklich was. Es ist auch nicht relevant, ob man mehr Links als das Original hat. Zum einen zählt sowieso die Qualität und nicht die Quantität der Links und zum anderen spielt der Zeitstempel im Storeserver hier eine nicht unerhebliche Rolle.
Google und Co. muss DC nicht unbedingt wegen der Qualität ihrer Serps erkennen - viel wichtiger ist es DC zu erkennen, da dieser nicht unerhebliche Ressourcen (Speicher, Rechenzeit) verbrauchen würde, die man besser einsetzen kann. Anders gesagt, man braucht viel mehr Ressourcen um DC zu verwalten als diesen einfach raus zu filtern.
Es ist nicht sonderlich schwer, DC zu erkennen. Aus einem Dokument filtert man den Reintext raus, teilt diesen in Blocks und errechnet einen Hash – das muss man sowieso machen, um eine Hotlist auf Vektorbasis erstellen zu können. Über so einen Hash kann man recht einfach DC oder ähnlichen Inhalt erkennen.
Ab wann nun google etwas als DC wertet kann man nur orakeln. Hierfür müsste man nämlich wissen, ob google die Blocks statisch oder relativ zur Datenmenge einteilt. Das weiß man nicht und somit...
Wurde DC erkannt, wird dieses im Storeserver vermerkt und schon hat man ein Problem, da solche Dokument nicht mehr im Index erscheinen. Das Problem hierbei ist, das alle DC – Dokumente den gleichen Zeitstempel haben bzw. auf den gleichen Hash weisen. Daher kann google nicht mehr erkennen, welches das Wichtige ist und welches die Kopie. In den meisten Fällen wählt google das für den WM schlechtere Dokument als Original (das ist das Problem bei DC). Um das zu vermeiden sollte man daher den Meta noindex bei Kopien verwenden...
Das google DC erkennt sieht man wenn die Trefferzahl für ein Key sehr gering ist, Dann werden die DC Seiten als:
Um Ihnen nur die treffendsten Ergebnisse anzuzeigen, wurden einige Einträge ausgelassen, die den XXX bereits angezeigten Treffern sehr ähnlich sind.
Sie können bei Bedarf die Suche unter Einbeziehung der übersprungenen Ergebnisse wiederholen.
in den Serps angegeben.