Diskussion:Shared cM Project (DNA-Genealogie)

aus GenWiki, dem genealogischen Lexikon zum Mitmachen.
Zur Navigation springen Zur Suche springen

Das Shared-cM-Projekt ist ja keine wissenschaftliche Untersuchung darüber, wieviel DNA tatsächlich weitervererbt wird. Sondern: es ist eine statistische Auswertung der DNA-Übereinstimmung in cM, so wie sie von den unterschiedlichen Anbietern angezeigt wird, mit identifizierten DNA-Matches. Die Datenbasis sind individuelle Beiträge von Forschern (inzwischen etwa 60.000 Beziehungswerte), die aber natürlich fehlerhaft sein können.

Schon auf der ersten Seite seiner ausführlichen Projektauswertung weist Blaine Bettinger (dem ich übrigens nicht unterstellen würde, da habe "man wohl in Amerika grundsätzliches nicht verstanden") auf die grundsätzlichen Probleme mit diesen Daten hin: - Eingabefehler (beispielsweise Vertipper) - soweit eindeutig (etwa wenn das größte Segment größer als die Gesamtübereinstimmung war), hat er versucht diese zu eliminieren - falsche Verwandtschaftsangaben (sei es, weil die Verwandtschaftsbeziehungen falsch verstanden werden, sei es, dass die Papierforschung falsch ist) - Endogamie und Mehrfachahnen - die den jeweiligen Forschern ja nicht immer bekannt sind - zuletzt, aber auch sehr wichtig: Die unterschiedlichen Schwellenwerte der Anbieter, welche Übereinstimmungen als Matches gezählt werden, und welche nicht - die natürlich auch zu Abweichungen führen

In der Version 4.0 sind jetzt mehr als zweieinhalb mal so viele Datenpunkte enthalten als vorher in der Version 3.0. Insofern ist es nicht überraschend, dass sich einige erweitere Minima und Maxima ergeben haben.

So weit übermittelte Werte völlig außerhalb der "normalen" Kurven lagen/liegen hat Blaine Bettinger sich bemüht, solche Ausreißer zu entfernen - vielleicht ist er dabei immer noch nicht radikal genug vorgegangen.

Ich habe mir das Histogramm für die Eltern-Kind-Beziehung mal angeschaut - das sieht allerdings sehr speziell aus, ich schreibe hier die Werte mal auf: 2300 - 2400 cM: 1x 2400 - 2500 cM: 2x 2500 - 2600 cM: 0x 2600 - 2700 cM: 3x 2700 - 2800 cM: 3x 2800 - 2900 cM: 2x 2900 - 3000 cM: 0x 3000 - 3100 cM: 2x 3100 - 3200 cM: 1x 3200 - 3300 cM: 7x (endlich geht die Gausssche Glockenkurve los) 3300 - 3400 cM: 742x 3400 - 3500 cM: 746x 3500 - 3600 cM: 733x 3700 - 3800 cM: 28x 3800 - 3900 cM: 142x 3900 - 4000 cM: 0x

Minimum: 2376 (gefühlsmäßig viel zu weit vom Erwartungswert entfernt) Maximum: 3720 (viel näher am Erwartungswert - müsste ja bei einer symmetrischen Glockenkurve in etwa gleich weit weg sein, und symmetrisch sollte die Kurve bei Eltern-Kind-Beziehung sein, da ja nur zwei Vorfahren da sind) Mittelwert: 3487 (erwartet wären ja eher 3730 bei 50% gemeinsamer DNA)

Die Werte entsprechen für mich nicht einer erwarteten Zufallsverteilung (Gausssche Glocke). Es scheint systematische Abweichungen zu geben, aber nur in Richtung nach unten. Können das komplizierte Familienverhältnisse sein? Für adoptierte Neffen/Nichten sind die Werte wiederum zu hoch. Können das Ergebnisse alter Tests mit weniger Messpunkten sein, im Zusammenspiel mit hohen Schwellenwerten der Anbieter zum Ausschließen von falschen Matches? Kann ich nicht beurteilen, vielleicht hast Du da Ideen?

Dass das alles Falscheingaben sind scheint mir unwahrscheinlich - wenn Falscheingaben, müssten sich diese nicht auch zufällig nach oben und unten verteilen? Das wäre jedenfalls mein Gefühl von der Statistik her.

Und dann wäre da noch die "Delle", nenne ich das mal, bei dem Topf für 3700-3800 cM. Einen Topf weiter geht es wieder hoch. Macht bei einer Glockenkurve genau gar keinen Sinn. Für mich müsste auch diese Delle in der einen oder anderen Form auf die Art der Messung, also insbesondere auch auf die Schwellenwerte zurückzuführen sein. Oder darauf, dass es irgendwo systematische Lücken zwischen den gemessenen SNPs je Anbieter gibt, die zum Ausschluss mancher eigentlich zusammenhängender Segmente führen. Das könnte vielleicht auch erklären, warum der Mittelwert so deutlich unter 50% liegt.

Langer Rede kurzer Sinn: Ich denke, Du weist völlig zu recht auf Probleme mit den Daten hin - diese Probleme sind aber vielleicht eher bei den Matching-Rechnern der Anbieter als beim Shared-cM-Projekt. Wenn man das Projekt als das nimmt, was es ist, scheint es mir völlig in Ordnung zu sein: Eine Sammlung und statistische Auswertung der beim Matching angezeigten cM-Übereinstimmung zu den bekannten (oder ermittelten/erforschten) Verwandtschaftsgraden. Und genau die brauche ich doch als Forscher, um eine Idee zu haben, was die zurückgegebenen Werte bedeuten können.

Insofern könnte man aus meiner Sicht ruhig die letzte Übersicht hochladen. --Carbon14 17:01, 28. Apr. 2020 (CEST)


Die neue Tabelle (4.0) ist ziemlich großer Murks. Verwunderlich ist, dass dies nicht aufgefallen ist und sogar beim DNA-Painter so übernommen wurde.


Eindeutig falsch ist die Spannungsbreite bei Eltern und Kinder.

Die gemeinsame DNA zwischen einem Elternteil und einem Kind ist grundsätzlich 100% bei HIR (Halb-Identische-Region), da bei der autosomalen DNA (Chromosom 1-22) je 50% von jedem Elternteil stammt.

Eine Spannungsbreite gibt es also nicht, bzw. nur ganz minimal, bedingt durch unterschiedliche Tests sowie Disharmonie.

Die Spannungsbreite dürfte sich also höchstens in einem Bereich von ca. 100 cM bewegen. Eine Spannungsbreite von 1.344 cM ist ziemlich großer Unsinn. Hier hat man wohl in Amerika grundsätzliches nicht verstanden.


Auch bei den Geschwistern (Siblings) hat sich eine erhebliche Veränderung ergeben. Die Spannungsbreite war vorher 2.209-3.384 cM und nun 1.613-3.488 cM.

An dem Wert von 1.613 cM habe ich erhebliche Zweifel. Vermutlich handelt es sich bei dem Match um Halbgeschwister, was der Einsender wohl noch gar nicht verstanden hat.

Halb- und Vollgeschwister unterscheidet man mit dem Wert FIR (Full-Identische-Region). Halbgeschwister haben hier einen Wert von null, während Vollgeschwister einen Wert von 800-1.000 cM haben. Da der Ersteller diesen Wert nicht abfragt, können somit auch Werte von (unerkannten) Halbgeschwistern bei Siblings aufgenommen werden.


Es sollte einfach mal abgewartet werden, ob es in nächster Zeit eine Korrektur der Murks-Tabelle gibt.

28.04.2020, N. Bohrmann



Die Grafik ist leider lückenhaft und veraltet. Vgl. https://thegeneticgenealogist.com/wp-content/uploads/2020/03/Shared-cM-Project-Version-4.pdf