Übersicht: Datenextraktionsmuster erstellen

Was ist ein Datenextraktionsmuster? Stellen Sie sich vor, man nimmt ein Stück Pappe und schneidet darin an bestimmten Stellen Löcher. Wenn Sie diese imaginäre Pappschablone dann auf einen gedruckten Bericht legen würden, wären die Informationen nur an den Stellen, an denen sich die Löcher befinden, sichtbar (siehe nachstehend gezeigte Grafik). Monarch Data Prep Studio verwendet elektronische Muster, um Daten aus Ihren Berichten zu extrahieren. Anstatt Löcher in die Schablone (d. h. das Muster) zu schneiden, brauchen Sie die zu extrahierenden Felder nur entsprechend zu markieren.

Viele Berichte sind auf mehreren Ebenen sortiert. Die im nachstehenden Bericht gezeigten Versandartikel sind z. B. nach Kunden und Lieferdatum sortiert. In diesem Fall ist der Kunde die höchste und das Lieferdatum die zweithöchste Sortierebene. Die Felder mit den einzelnen Transaktionen befinden sich auf der Detailebene. Falls der Bericht aus mehreren Sortierebenen besteht, müssen Sie für jede Ebene, aus der Daten extrahiert werden sollen, ein separates Muster definieren.

Bericht mit mehreren Sortierebenen

Detail- und Anhängemuster

Um Felder aus einem Bericht extrahieren zu können, müssen Sie zuerst ein Detailmuster definieren. Durch ein Detailmuster werden Felder der untersten Sortierebene (die Detailebene genannt wird) aus dem Bericht extrahiert. Diese Ebene wird mitunter auch Transaktions- oder Spezifizierebene genannt. Die Detailebene enthält meistens die Berichtsdaten, die sich am häufigsten ändern. Monarch Data Prep Studio erzeugt für jede aus dem Bericht extrahierte Detailzeile einen Datensatz.

Auch für die höheren Sortierebenen können Muster definiert werden, die dann Anhängemuster genannt werden. Mit Hilfe eines Anhängemusters können den aus der Detailebene extrahierten Datensätzen Informationen aus den höheren Sortierebenen hinzugefügt oder angehängt werden. Falls Anhängemuster erforderlich sind, können diese in beliebiger Reihenfolge erstellt werden. Es können bis zu zwanzig Anhänge-/Fußzeilenmuster definiert werden, um Daten aus höheren Sortierebenen zu extrahieren, sowie ein Kopfzeilenmuster, um Daten aus der Kopfzeile zu extrahieren, und ein Fußzeilenmuster, um Fußzeileninformationen, wie z. B. Gesamtsummen, zu extrahieren.

Zusammensetzung eines Datensatzes aus einem Detailmuster und mehreren Anhängemustern.

 

Die mit Hilfe eines Anhängemusters extrahierten Felder sind mit dem Detaildatensatz verknüpft, sofern die Anhängeebene irgendwo in oder vor der ersten Detailzeile beginnt. Die extrahierten Feldwerte werden dann im Bericht bis zur nächsten Okkurrenz des Anhängefelds an alle nachfolgenden Detaildatensätze angehängt. In der vorstehenden Abbildung wird z. B. für jede Transaktion ein separater Datensatz erstellt. Die Felder für Kundennamen, Kontaktperson und Lieferdatum, die mittels Anhängemuster extrahiert werden, sind mit allen vier Datensätzen verknüpft.

Kopfzeilenmuster

Viele Berichte enthalten Titel, Seitennummern, Datumsangaben und andere Felder, die meistens im oberen Bereich der Seiten erscheinen. Diese Informationen werden zusammenfassend als Kopfzeile bezeichnet. Monarch Data Prep Studio verwendet ein spezielles Muster, um alle nützlichen Kopfzeileninformationen zu erfassen.

In der vorstehenden Abbildung enthält der Bericht eine dreizeilige Kopfzeile mit mehreren Feldern, die evtl. extrahiert werden sollten, wie z. B. das Ausführungsdatum und die Seitennummer. Über das Kopfzeilenmuster können Sie diese Felder extrahieren und an die nachfolgenden Detaildatensätze anhängen, bis eine neue Kopfzeile festgestellt wird.

Vorsicht: Kopfzeilenmuster sollten nur zum Extrahieren von Feldern benutzt werden, die sich im Kopf der Seite befinden. Felder, die an anderer Stelle auf der Seite erscheinen, sollten mittels Anhängemuster extrahiert werden.

Gruppenfußzeilenmuster

Gruppenfußzeilenmuster werden zur Erfassung von Feldern verwendet, die unterhalb der Detailzeilen erscheinen. Fußzeilenmuster funktionieren wie Anhängemuster, außer dass die Feldwerte an die vorangehenden Detailzeilen angehängt werden.

Hinweis: Monarch Data Prep Studio ermöglicht die Verwendung mehrerer Gruppenfußzeilenmuster.

Feld „Gesamt“ kann mittels Fußzeilenmuster extrahiert werden.

AUSSCHLUSSMUSTER

Ausschlussmuster werden zum Festlegen von Zeilen oder Teilzeilen verwendet, die nicht von Detail-, Anhänge-, Kopfzeilen- oder Fußzeilenmuster erfasst werden sollen.

 

In der Abbildung oben wird das Ausschlussmuster beispielsweise durch eine rote Zeile markiert. Mit diesem Muster wird die Auftragsnummer und das Lieferdatum jedes zu erfassenden Datensatzes erfasst, auch wenn ein Doppelpunkt zum Auswählen dieser Einzelheiten verwendet wird.

Weitere Informationen finden Sie unter Ein Ausschlussmuster erstellen.

Start- und Endregionmuster

Start- und Endregionmuster definieren die Teile des Berichts, an denen alle anderen Erfassungstypen beginnen bzw. enden sollen.

 

Weitere Informationen zu diesen Mustern finden Sie unter Start-/Endregionmuster erstellen.

 

Extrahierte Daten in Monarch Data Prep Studio

Wenn in Monarch Data Prep Studio Daten aus einem Bericht extrahiert werden, werden diese Daten in einer Datenbanktabelle platziert, die im Fenster Vorbereiten von Monarch Data Prep Studio angezeigt und manipuliert werden kann. Die Datenbanktabelle besteht aus Datenreihen und -spalten. Jede Reihe stellt einen Datensatz und jede Spalte ein Feld dar.

Monarch Data Prep Studio setzt die Datensätze automatisch zusammen, während Sie in „Berichtsentwurf“ die Detail- und Anhängemuster definieren. Die Felder des Detailmusters dienen als Zellkern für die einzelnen Datensätze. Die mittels Anhänge-, Kopfzeilen- und Gruppenfußzeilenmuster extrahierten Felder werden dann an die einzelnen Datensätze angehängt.

Jede Detailzeile aus dem Bericht erzeugt in der Tabelle einen Datensatz.

 

Während Sie Ihr Muster erstellen, können Sie eine Vorschau der extrahierten Daten erhalten, indem Sie einen Teil der Datensätze in der Datenvorschau von Berichtsentwurf anzeigen.

Der Fensterbereich „Datenvorschau“ bietet eine Vorschau auf die extrahierten Daten.

 

Weitere Informationen zum Erstellen von Mustern finden Sie unter Ein Muster erstellen.

Weitere Informationen zu den Tools zum Erstellen von Mustern finden Sie unter Muster-Editor und auf der Aktionsleiste von Muster-Editor.