Duplicate Content

mesh · 25 Juli 2009

Gibt es mittlerweile gefestigte Erfahrungen, ab wann Inhalt als doppelt gewertet wird?
Beispiel:
-Ich habe Seite #1 mit 10 Artikeln, jeder 3 Zeilen lang
-auf Seite #2 setze ich teilweise die Artikel ein, die schon auf Seite #1 zu finden sind.
Wo ist das Limit, ab wann der Inhalt doppelt gewertet wird: 25%, 50% oder, gemixt mit irgendwelchen Random-Tags, gar nicht?

Finde darüber nur höchst widersprüchliche Darstellungen.

Sven · 25 Juli 2009

Hallo,

ich denke mal, "sichere" Erkenntnisse gibts dazu nicht, 3 Leute, die ihre Seiten optimieren mit 5 verschiedenen Meinungen, wie immer

Ich persönlich habe die Erfahrung gemacht, daß man durchaus mal 2,3 Sätze identischen content haben kann, solange auch noch was "unique" drumrum ist, schadet es nicht. 50% würde ich persönlich definitiv für zu viel halten, auch mit einzelnen ausgetauschten "random" Wörtern.

swiat · 25 Juli 2009

DC, so ein Thema für sich...

Auch mit DC kann man gut ranken, die ganzen Preisvergleiche haben sehr oft den gleichen Content.

Die mit den besseren und meisten Backlinks gewinnen da halt, die anderen verliehren.

HappyHippo · 26 Juli 2009

Mesh redet ja von internem doppelten Content das ist so wie ich das sehe kein Problem mehr.

Raptor · 26 Juli 2009

Vergleichen die das eigentlich wirklich noch? Ich frage mich manchmal wie das genau alles überhaupt noch bei deiser Datenmenge funktionieren soll. Wenn jetzt hunderte Webseiten auftauchen die absolut alle das selbe da stehen haben ok...könnte ich nachvollziehen aber wenn 5-10 Seitenbetreiber den selben Content aber gemischt mit anderen Dingen auf ihrer Page haben......mir ists ein Rätsel wie das, auch wenn wir von Google sprechen, noch technisch ausgewertet werden kann.

Nehmen wir mal an, ich klaue bzw. ziehe Blogcontent von 10 verschiedenen Blogs und füge die bei mir ein und mische das Zeugs ein bisschen mit Bildern und streiche diverse Keywords per Script dort raus........ob die tatsächlich sonen Filterapparat haben der das bei hunderten Millionen Sites merkt?

PornoDussel · 26 Juli 2009

Natürlich ist google und jede andere Suma darauf aus DC zu erkennen. Ganz gleich ob im eigenen Projekt oder geklauter Inhalt. Man überlege sich nur mal, was passieren würde, wenn die das nicht machen würden

DC sollte man grundsätzlich vermeiden. Ein paar Keys wegstreichen oder ein paar Worte hinzuzufügen bringt da nicht wirklich was. Es ist auch nicht relevant, ob man mehr Links als das Original hat. Zum einen zählt sowieso die Qualität und nicht die Quantität der Links und zum anderen spielt der Zeitstempel im Storeserver hier eine nicht unerhebliche Rolle.

Google und Co. muss DC nicht unbedingt wegen der Qualität ihrer Serps erkennen - viel wichtiger ist es DC zu erkennen, da dieser nicht unerhebliche Ressourcen (Speicher, Rechenzeit) verbrauchen würde, die man besser einsetzen kann. Anders gesagt, man braucht viel mehr Ressourcen um DC zu verwalten als diesen einfach raus zu filtern.

Es ist nicht sonderlich schwer, DC zu erkennen. Aus einem Dokument filtert man den Reintext raus, teilt diesen in Blocks und errechnet einen Hash – das muss man sowieso machen, um eine Hotlist auf Vektorbasis erstellen zu können. Über so einen Hash kann man recht einfach DC oder ähnlichen Inhalt erkennen.

Ab wann nun google etwas als DC wertet kann man nur orakeln. Hierfür müsste man nämlich wissen, ob google die Blocks statisch oder relativ zur Datenmenge einteilt. Das weiß man nicht und somit...

Wurde DC erkannt, wird dieses im Storeserver vermerkt und schon hat man ein Problem, da solche Dokument nicht mehr im Index erscheinen. Das Problem hierbei ist, das alle DC – Dokumente den gleichen Zeitstempel haben bzw. auf den gleichen Hash weisen. Daher kann google nicht mehr erkennen, welches das Wichtige ist und welches die Kopie. In den meisten Fällen wählt google das für den WM schlechtere Dokument als Original (das ist das Problem bei DC). Um das zu vermeiden sollte man daher den Meta noindex bei Kopien verwenden...

Das google DC erkennt sieht man wenn die Trefferzahl für ein Key sehr gering ist, Dann werden die DC Seiten als:

Um Ihnen nur die treffendsten Ergebnisse anzuzeigen, wurden einige Einträge ausgelassen, die den XXX bereits angezeigten Treffern sehr ähnlich sind.
Sie können bei Bedarf die Suche unter Einbeziehung der übersprungenen Ergebnisse wiederholen.

in den Serps angegeben.

PornoDussel · 26 Juli 2009

Zitat von mesh:
Gibt es mittlerweile gefestigte Erfahrungen, ab wann Inhalt als doppelt gewertet wird?
Beispiel:
-Ich habe Seite #1 mit 10 Artikeln, jeder 3 Zeilen lang
-auf Seite #2 setze ich teilweise die Artikel ein, die schon auf Seite #1 zu finden sind.
Wo ist das Limit, ab wann der Inhalt doppelt gewertet wird: 25%, 50% oder, gemixt mit irgendwelchen Random-Tags, gar nicht?

Finde darüber nur höchst widersprüchliche Darstellungen.

Du machst hier einen kleinen gedanklichen Fehler. Google geht nicht Seite für Seite vor sondern analysiert Blockweise. Anders gesagt, man verwendet ein String-Array, welches X Bytes lang ist. Dieses Array wandert dann über das Dokument und wird mit den Zeichen (Bytes) gefüllt. Aus diesen Block berechnet man einen Art Zahlenwert (Hash) und speichert diesen in einen Suffixbaum. Also jeder Block bekommt einen Zahlenwert der als Suchanker gespeichert wird. Wenn nun dieser Block einen bereits bestehenden Wert ermittelt (also deine drei Zeilen der Seite 1 auf Seite 2 bearbeitet), wird einfach der bestehende Hash überschrieben / oder das neue Hash verworfen.

Das man so vorgeht, ergibt sich schon aus der Tatsache, das eine Webseite in der Regel ein Grundmuster hat, welches immer gleich ist (Also die Inhalte in einem Template liegen, das aus Kopf, Navigation usw. besteht). Würde man bei jeder Seite erneut anfangen, würde man riesen Massen an Ressourcen verschwenden, weil man ständig alles doppelt und dreifach berechnen müsste. Daher ist naheliegend, dass bei jeder Seite nur geprüft, ob es was neues zu entdecken gibt.

Gehst Du nun so vor, wie du das beschrieben hast, kann es Dir passieren, dass Du Keyworddichte verwässerst, da der Inhalt der Seite eins dem Inhalt der Seite 2 zugeschrieben wird und diese Seite (welche du wahrscheinlich auf das Key optimiert hast) die Bedeutung verliert. Wie gesagt – kann, muss aber nicht.

mesh · 26 Juli 2009

Zitat von PornoDussel:
Du machst hier einen kleinen gedanklichen Fehler. Google geht nicht Seite für Seite vor sondern analysiert Blockweise. Anders gesagt, man verwendet ein String-Array, welches X Bytes lang ist. Dieses Array wandert dann über das Dokument und wird mit den Zeichen (Bytes) gefüllt. Aus diesen Block berechnet man einen Art Zahlenwert (Hash) und speichert diesen in einen Suffixbaum. Also jeder Block bekommt einen Zahlenwert der als Suchanker gespeichert wird. Wenn nun dieser Block einen bereits bestehenden Wert ermittelt (also deine drei Zeilen der Seite 1 auf Seite 2 bearbeitet), wird einfach der bestehende Hash überschrieben / oder das neue Hash verworfen.

Da liegt der casus knacktus.
Wenn es so ist, wie Du sagst (was ich nicht nachprüfen kann), dann müsste die geprüfte Blockgrösse natürlich dynamisch sein, nach Entfernung aller Tags etc. bleiben also bei Seite A 300 Bytes, bei Seite B 14000 Bytes die entsprechend zerlegt/analysiert werden müssen.
Nehmen wir an, daß es so wäre, dann bliebe auch dann immer noch eine mörderische Speicherleistung wie auch ein Maß an Rechenleistung, das ich ab einem gewissen Punkt für sinnfrei halten würde.
Tatsächlich finde ich seit Jahren Ergebnisse, die
a) dem Prinzip DC über alle Seiten hinweg widersprechen und
b) die Grundlagen der Sprache, die dem entgegenstehen. Insbesondere Sprachen mit geringerem Wortschatz würden ab einem gewissen Punkt nur noch DC produzieren, da vom gesamten Wortschatz wiederum nur ein Bruchteil tatsächlich verwendet wird (in der deutschen Sprache war das beim täglich verwendeten Grundwortschatz meine ich zwischen 300 und 500 Begriffen)
Ich gehe deswegen momentan davon aus, daß nur bei den Top-Ergebnissen wie auch umkämpften KWs ein solcher Algorithmus überhaupt zum Einsatz kommen kann.
Ich habe ausserdem in der Tat bemerkt, daß DC innerhalb einer Domain nicht auftaucht/auftauchen kann.
Vielleicht hat ja einer Praxisergebnisse aus eigener Erfahrung, die eine Einschätzung ab wann DC wie bewertet wird, zulassen.

PornoDussel · 26 Juli 2009

Na ja, nicht so ganz.

Damit man mit dem Datenwirrwahr überhaupt was anfangen kann, muss man ihn vereinheitlichen. Am Besten geht das, indem man sich die Daten bröckchenweise vornimmt und ihn dann neu codiert..

Mit Reintext meint ich übrigens nicht, das die HTML-Tags rausgefiltert werden, sondern das alle Sonderzeichen wie z.B. Zeilenumbrüche entfernt wurden. Die Tags selber werden nicht entfernt sondern in Bitcodes umgewandelt.

Man kann das übrigens nachprüfen. Die Funktionsweise von Informations-Retrieval-Systeme ist kein Geheimnis

mesh · 26 Juli 2009

Zitat von PornoDussel:
Mit Reintext meint ich übrigens nicht, das die HTML-Tags rausgefiltert werden, sondern das alle Sonderzeichen wie z.B. Zeilenumbrüche entfernt wurden. Die Tags selber werden nicht entfernt sondern in Bitcodes umgewandelt.

Bist Du sicher?
Dann würde eine Neuformatierung ja zu völlig neuen Resultaten hinsichtlich der DC-Bewertung führen.

PornoDussel · 27 Juli 2009

DC wird nicht bewertet – DC wird rausgefiltert.

Die Tags kannst Du nicht einfach untern Tisch fallen lassen, da sie wichtige Faktoren für die Bewertung der Vektoren (Keys) darstellen können (z.B. Hervorhebungen, Links usw.). Und ja, sie können unterm Strich zu neuen Resultaten führen – vor allem bei den späteren Analyseschritten.

Um es noch mal zu sagen – Fast jedes Internet-Projekt besteht aus einer Maske, in die der eigentliche Content eingebaut wird. DC ist also der Normalfall und einer der ersten Schritte muss es daher immer sein, diesen Datenmüll vom eigentlichen Inhalt des Dokumentes zu trennen. Sonst müsstest du diesen Datenmüll bei jeden weiteren Schritt mit abarbeiten

Ob nun eine Neuformatierung zu neuen Resultaten bezüglich des DC führt kann man eigentlich nur raten. Schon allein deshalb, weil deine Seite #1 intern als DC geführt sein kann, aber aufgrund der hohen Wertung des Title-Tags und eingehender Links trotzdem in den Serps besser gelistet sein kann, als das von google vermutete Original (Seite #2). Auf der anderen Seite sollte ein gutes IRS, als Ergebnis auch Brückenseiten zum gesuchten Inhalt liefern (also Seiten mit vielen Verweisen, was dann wohl die Seite #2 wäre). Schon allein diese Gegensätze machen eine objektive Aussage bezüglich der DC-Wertung praktisch unmöglich.

Was Fakt ist: Man kann die Hashs so aufbauen, dass man Vergleiche unabhängig des HTMLs durchführen kann. Man kann sie sogar so aufbauen, dass man Ähnlichkeiten erkennt. Fakt ist auch, das google DC sowie auch ähnliche Inhalte erkennt und rausfiltert (wie schon erwähnt, es wird in den Serps teilweise direkt darauf hingewiesen und somit hat google Ähnlichkeiten erkannt).

mesh · 27 Juli 2009

Dann dürfte ich für Google ein schwerer Fall sein, weil meine Seiten schon seit wer weiß wie lange nicht mehr statisch sind um Besucher möglichst optimal zu kanalisieren.
Und da man irgendwann seine Spider kennt, weiß man die natürlich auch zu bedienen.
Insofern muß ich jetzt mal analysieren, inwieweit ich die Spider noch optimaler füttere als bislang.
Sehr interessante Ausführungen, auf jeden Fall.

PornoDussel · 27 Juli 2009

Zitat von mesh:
Dann dürfte ich für Google ein schwerer Fall sein, weil meine Seiten schon seit wer weiß wie lange nicht mehr statisch sind um Besucher möglichst optimal zu kanalisieren.
Und da man irgendwann seine Spider kennt, weiß man die natürlich auch zu bedienen.
Insofern muß ich jetzt mal analysieren, inwieweit ich die Spider noch optimaler füttere als bislang.
Sehr interessante Ausführungen, auf jeden Fall.

Du weißt, dass es besser ist, google statische Seiten zu liefern?

Wenn Du dem Crawler falsche Inhalte lieferst, solltest Du daran denken, das es z.B. in der Toolbar Vers. 3 solche feine Sachen wie AutoLink gibt. Ich persönlich glaube kaum, das google die Auswertung hier 100% auf dem Client macht, oder andes: Wenn google die Auswertung auf dem Server macht, wird wahrscheinlich die URL und ein Hash (Abbild der Seiten als eine Art MD5-Schlüssel) gesendet. Um es auf dem Punkt zu bringen – sendet Google einen Hash oder spidert auch mal unter Angabe falscher Daten, ist es nur eine Frage der Zeit, das du aus dem Index fliegst – Soll jetzt kein Argument gegen Spammen oder so sein, nur ein kleiner Hinweis.

mesh · 27 Juli 2009

Zitat von PornoDussel:
Soll jetzt kein Argument gegen Spammen oder so sein, nur ein kleiner Hinweis.

Wer spammt, bitte?
Ich baue meine Seiten in erster Linie für User.
Wenn ich also einen User habe, der nach Strumpfhosen sucht, dann gebe ich ihm Strumpfhosen.
Und wenn der User aus USA kommt, dann gebe ich ihm die Seite in englisch statt in deutsch und ich gebe ihm andere Inhalte.
Baue ich statische Seiten z.B. mit Wordpress, kann ich unfelxiblerweise die meisten Anfragen in die Tonne kloppen, weil ich dem User meist was gebe, was er eigentlich nicht will.
Und was Google will, gebe ich Google, je nachdem ob ich eine Seite für die englischsprachige oder deutschsprachige Welt im Index haben will.
Wenn Google das nicht mag, wäre das Googles Problem, tatsächlich aber hat Google damit keines, denn meine Domains gehen grundsätzlich in den Index und zwar idR mit mindestens fünfstelligen Seitenzahlen.
Ich habe über alle Domains z.Zt. mal gerade 3, die (momentan) aus dem Index geflogen sind und dabei gehe ich davon aus, daß irgendwelche Qualityrater einfach zu blöd waren, fremdsprachige Inhalte zu erkennen, denn andere Domains mit gleichem System wurden ebenso mehrfach besucht und sind anstandslos dringeblieben.

PornoDussel · 27 Juli 2009

Zitat von mesh:
Wer spammt, bitte?

Du, ich will hier nicht den Saubermann spielen noch sollte das kein Angriff sein. Ich würde mal frech behaupten, so ziemlich jeder Webmaster der mit seinen Seiten Geld verdienen will versucht google zu seinen Gunsten zu beeinflussen – wie man das nennen mag, sei jedem selber überlassen....

Wenn ich dich richtig verstanden habe, liest Du den Crawler aus und lieferst ihm dann andere Inhalte als dem User. So was nennt man Cloaking und ist wohl mit die älteste Spam-Methode überhaupt. Früher hat man das halt nur Doorpages genannt und den User via. HTML-Redirect auf den für ihn bestimmten Inhalt gebracht...

Wird Cloaking erkannt, fliegt die Domain aus dem Index. Wegen schlechter Qualität fliegt keine Seite aus dem Index – im Gegenteil. Solche Seiten werden als Linkgeber in äußeren Ringen eines Netzwerk verwendet oder als Linkhuren für ahnungslose Linktauschpartner missbraucht. Ich selber hab über 300 solcher Seiten und noch nicht eine einzige ist geflogen

Andere SEOs können sicherlich ähnliches berichten. (Wobei ich kein SEO bin)

mesh · 27 Juli 2009

Zitat von PornoDussel:
Wenn ich dich richtig verstanden habe, liest Du den Crawler aus und lieferst ihm dann andere Inhalte als dem User. So was nennt man Cloaking und ist wohl mit die älteste Spam-Methode überhaupt.

Per definitionem Google vielleicht, nur ist diese Definition asbach uralt und wird in meiner täglichen Arbeit widerlegt.
Wenn ich dem Besucher angepaßte Inhalte anbieten will, dann muß ich genau das machen, was man zwangsläufig als cloaking bezeichnet: ich muß mich z.B. entscheiden, ob ich dem Bot die deutsche oder englische Version vorsetze. Und so kriegt der Bot die komprimierte Quintessenz, die er haben will & braucht und alles sind's glücklich.
Nämlich: entweder ich entscheide mich für Steinzeit-Web (alle kriegen gleiche Inhalte) oder für meine User.
Ich habe auch keinen Bock darauf, Amateur Anita jahrelang zu verewigen, nur weil irgendein spätstalinistischer Volksverblöder namens Cutt vermeintliche Spezialregeln aufgestellt von Google durch die Welt krakeelt anstatt dynamisch ständig aktuelle Inhalte zu präsentieren.
Irgendwann muß man sich für User oder für Bots entscheiden.
Meine Entscheidung ist vor Jahren pro User gefallen, ich bin mit -zigtausend Kombis oben und kann durchaus auch ohne Google finanziell auskommen.
Aber manchmal macht es halt auch Spaß, schlecht programmierte Software zu naseweisen.

Irena Boettcher · 2 August 2009

Als Texterin und Nicht-SEO kann ich nur meine Erfahrungen von den Auftraggebern her wiedergeben. Danach wird DC sehr scharf verfolgt und bestraft.

Man kann ihn aber ganz einfach vermeiden, vor allem bei kurzen Artikeln. Die ein bisschen umschreiben, und schon ist es ein neuer Texte. Entweder stellt man die Sätze um, fügt ein paar Wörter oder Halbsätze dazu oder man findet ein paar Synonyme für die verwendeten Wörter.

Es gibt sogar Tools, die das übernehmen, aber da stimmt oft die Grammatik nicht; manuell lässt sich das besser erledigen und ist auch nicht allzu viel Aufwand.

Am besten von allem etwas, und dann ist in kürzester Zeit derselbe Artikel ein ganz neuer.

herero · 16 August 2009

Zitat von PornoDussel:
Das google DC erkennt sieht man wenn die Trefferzahl für ein Key sehr gering ist, Dann werden die DC Seiten als:

Um Ihnen nur die treffendsten Ergebnisse anzuzeigen, wurden einige Einträge ausgelassen, die den XXX bereits angezeigten Treffern sehr ähnlich sind.
Sie können bei Bedarf die Suche unter Einbeziehung der übersprungenen Ergebnisse wiederholen.

in den Serps angegeben.

was ja aber zeigt, dass die Seiten trotzdem in den Index aufgenommen wurde.
Ich bin sicherlich kein Profi, aber nachdem was ich gesehen habe ist DC nicht immer gleich DC

Hier mal ein Profiltext eines PA Amateurs

Dazu werden mir 159 Ergebnisse angezeigt. Sicherlich nur ein Bruchteil aller Ergebnisse, aber bei sehr strenger Filterung müssten es noch viel weniger sein.

Vielleicht sehe ich es aber auch falsch, ihr wisst da sicherlich besser Bescheid.

herero · 16 August 2009

Zitat von swiat:
DC, so ein Thema für sich...

Auch mit DC kann man gut ranken, die ganzen Preisvergleiche haben sehr oft den gleichen Content.

Die mit den besseren und meisten Backlinks gewinnen da halt, die anderen verliehren.

Das deckt sich in etwas mit dem was ich beobachtet habe

pornoawm · 17 August 2009

Zitat von herero:
was ja aber zeigt, dass die Seiten trotzdem in den Index aufgenommen wurde.
Ich bin sicherlich kein Profi, aber nachdem was ich gesehen habe ist DC nicht immer gleich DC

Hier mal ein Profiltext eines PA Amateurs

Dazu werden mir 159 Ergebnisse angezeigt. Sicherlich nur ein Bruchteil aller Ergebnisse, aber bei sehr strenger Filterung müssten es noch viel weniger sein.

Vielleicht sehe ich es aber auch falsch, ihr wisst da sicherlich besser Bescheid.

Naja da mußt Du mal hier gucken und die verdienen alle irgendwie ihre Kohle:

"Manfrotto MA 055XPROB Pro Kamerastativ Universelles Kamerastativ mit Aluminium-Montageplatte (3/8" und Sicherungsschrauben) für Manfrotto Neigeköpfe, Nivellier-Libelle" - Google-Suche

Deswegen kann man sich sicher fragen ob Google DC wirklich interessiert.

Duplicate Content

- Premium Member -

- Premium Member -

- Royal Clan Member -

- Premium Member -

- Royal Clan Member -

- Premium Member -

- Premium Member -

- Premium Member -

- Premium Member -

- Premium Member -

- Premium Member -

- Premium Member -

- Premium Member -

- Premium Member -

- Premium Member -

- Premium Member -

- Premium Member -

- Premium Member -

- Premium Member -

- Premium Member -