Altair® Monarch®

 

Doppelte Zeilen anzeigen/entfernen

„Duplikate anzeigen“ bzw. „Duplikate entfernen“ ermöglicht das Anzeigen bzw. Entfernen von Duplikaten aus einer Tabelle. Wählen Sie Duplikate anzeigen, um die Duplikate zu finden. Wählen Sie Duplikate entfernen, um unnötige Reihenduplikate zu entfernen.

Angenommen, Sie haben folgende Tabelle, in der die Datensätze 1 und 2, sowie 7 und 8 Duplikate sind:

 

„Duplikate anzeigen“ erstellt folgende Tabelle:

 

„Duplikate entfernen“ erstellt folgende Tabelle:

Zeilen mit doppelten Werten können für alle Spalten oder nur bestimmte Spalten angezeigt bzw. entfernt werden. Sie könnten beispielsweise Zeilen mit doppelten Werten nur aus der Spalte Kunde entfernen, oder sowohl aus der Spalte Kontonummer als auch aus der Spalte Kunde.

Duplikate anzeigen

Duplikate können nur vom Fenster Vorbereiten aus angezeigt werden. Gehen Sie dabei wie folgt vor:

  1. Wählen Sie im Fenster Vorbereiten die zu verändernde Tabelle aus.

  2. Wählen Sie Transformieren in der Monarch Data Prep Studio-Symbolleiste.

Das daraufhin angezeigte Dialogfeld ermöglicht die Auswahl einer Umwandlung.

  1. Wählen Sie Duplikate aus.

Das Dialogfeld Duplikate wird angezeigt:

 

  1. Geben Sie den Namen der neuen Tabelle ein.

  2. Wählen Sie in der Dropdown-Liste den Vorgang „Deduplizieren“ aus.

Folgendes Beispiel dient zur Erläuterung der verschiedenen Vorgänge:

 

Es gibt zwei Gruppen von Duplikaten: Musikgeschäft Schütz kommt zwei mal vor und Die Melodie drei mal.

  • Duplikate entfernen – erste Zeile behalten

Bei diesem Vorgang entfernt Monarch Data Prep Studio alle Datensatzduplikate außer einer Zeile jeder Gruppe.

Die Verwendung der Datensätze oben führt zu folgendem Ergebnis:

 

  • Duplikate anzeigen – alle außer erste Zeile anzeigen

Bei diesem Vorgang zeigt Monarch Data Prep Studio alle Datensatzduplikate an, außer jeweils der ersten Zeile der Gruppe.

Die Verwendung der Datensätze oben führt zu folgendem Ergebnis:

 

  • Duplikate kennzeichnen – mit neuer Spalte markieren

Bei diesem Vorgang markiert Monarch Data Prep Studio alle Datensätze, die Duplikate haben.

Die Verwendung der Datensätze oben führt zu folgendem Ergebnis:

 

  1. Sie können wählen, welche Spalten bei der Suche nach Duplikaten berücksichtigt werden und welche nicht.

 

Eine Spalte, die abgewählt wurde, wird ignoriert, auch wenn sie Duplikate enthält.

  1. Klicken Sie auf das Kästchen Groß-/Kleinschreibung, wenn die Werte je nach ihrer Schreibweise differenziert werden sollen.

Wenn die Groß-/Kleinschreibung aktiviert ist, gelten die Einträge „Musica Classica“ und „musica classica“ als zwei verschiedene Werte und werden nicht wie Duplikate behandelt.

  1. Wählen Sie die Spalten aus, die in die Ergebnistabelle mit einbezogen werden sollen.

    • Wählen Sie Alle Spalten verwenden, wenn alle Spalten angezeigt werden sollen.

    • Wählen Sie Ausgewählte Spalten verwenden, und markieren Sie anschließend das Kästchen neben der mit einzubeziehenden Spalte:

 

  1. Klicken Sie auf OK.

Monarch Data Prep Studio wendet die Deduplizierung an und erstellt eine neue Tabelle.