doppelte datensätze suchen und dann löschen
folgendes problem habe ich:
in einer datenbank mit mehreren tausend datensätzen gibt es massenhaft doppelte einträge (eMail-adressen) jetzt suche ich nach einer suchroutine und will dann die doppelten datensätze löschen bzw. ausfiltern. ich habe schon überlegt mir z.b. den 1. datensatz vorzunehmen und dann mit den anderen datensätzen zu vergleichen, dann den 2. datensatz, den 3. datensatz usw...... jetzt stelle ich aber fast das dieses schema ja ne halbe ewigkeit dauert. hat jemand einen besseren und vor allem schnelleren ansatzpunkt wie ich die doppelten datensätze herausfiltere? danke Z |
Mir fällt auf die schnelle nur eine Lösung ein.
Leg dir eine neue Tabelle an mit den Felder die du brauchst. Dann machst du folgendes: INSERT INTO table_new (field1,field2...) SELECT DISTINCT field_a,... FROM table_old; Ein SELECT DISTINCT liefert nur die einträge, die eindeutig sind, das heißt wenn 100 mal "hallo" vorkommt listet er das nur einmal auf. Bedenke aber das beim Select keine ID mit selectieren kannst, da du dann immer unterschiedliche zeilen hast. Beispiel: 1,"hallo" 2,"hallo" wird nicht zusammengefasst. Du kannst ja erstmal einen SELECT DISTINCT auf deine Tabelle anwenden um zu schauen was rauskommt beim selektieren. Eleganter ginge es mit subselect, aber mysql unterstützt sowas imho nicht. MfG Ares |
Hi,
mal aus dem Kopf raus, sprich unbedingt mit Testdaten testen, bevor Du es produktiv anwendest: mit: Code:
SELECT t1.primary-key AS pk1 Die IDs liesst Du Dir am besten aus und machst anschliessend einen DELETE FROM tabelle1 WHERE primary-key IN (...). WICHTIG: Die JOIN- Bedingung muss natürlich über alle Felder gehen, die identisch sein müssen, damit ein Eintrag als doppelt gilt! Ansonsten schmeisst Du Dir z.B. den Eintrag "meier, info@a.c" raus, obwohl unter der gleichen Email- Adresse noch der Eintrag "müller, info@a.c" steht!!
HTH, Andy P.S.: Doppelte Einträge kannst Du natürlich auch mit UNION bekommen, geht aber nicht in allen Versionen von MySQL. P.S.S.: Achte darauf, daß Du für obige Abfrage auf die JOIN- Felder einen Index setzt, wenn es sehr viele Datensätze zum kontrollieren gibt, sonst kann es dauern. |
danke schön das hat mir schon mal geholfen.
gruß Z p.s. das mit den testdaten habe ich nätürlich gemacht. danke |
Alle Zeitangaben in WEZ +2. Es ist jetzt 10:23:21 Uhr. |
Powered by vBulletin® Version 3.8.3 (Deutsch)
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.