EinMuster erstellen

Ein Monarch Data Prep Studio-Datenextraktionsmuster wird zum Extrahieren von Daten aus einer PDF-Datei oder einem Berichtsdokument verwendet. Monarch Data Prep Studio bietet sieben Mustertypen:

Folgende Anweisungen beziehen sich auf das Erstellen eines Detailmusters, aber der gleiche Vorgang kann zum Erstellen eines Anhänge-, Fußzeilen-, Kopfzeilen- oder Ausschlussmusters verwendet werden.

Schritt 1: Ein Beispielmuster identifizieren und auswählen

  1. Importieren Sie eine PDF-Datei oder einen PRN-Bericht in Data Prep Studio. Das Fenster „Berichtsentwurf“ wird angezeigt.

     

  2. Überprüfen Sie die ersten paar Seiten des Berichts, um die Informationen der Detailebene zu identifizieren. Sehen Sie nach, ob alle Detailfelder in eine Zeile passen oder ob sie über mehrere Zeilen verteilt werden müssen. Hinweis: In den meisten Berichten passen alle Felder der Detailebene in eine einzige Zeile. Es kann aber auch vorkommen, dass die Detailfelder in Blöcken von zwei oder mehr Zeilen mit dazwischenliegenden Feldtiteln angeordnet sind. In der folgenden Abbildung befinden sich alle Detailfelder in einer einzigen Zeile.

  3. Wählen Sie eine Zeile oder Zeilengruppe aus, die eine einzige Instanz der Detailfelder enthält. Hinweis: Zur Auswahl einer Beispielzeile müssen Sie links von der Zeile in den Zeilenauswahlbereich klicken. Zur Auswahl mehrerer Zeilen müssen Sie links der ersten Zeile in den Zeilenauswahlbereich klicken und dann bei gedrückt gehaltener Maustaste bis zur letzten Zeile hin ziehen.

 

Schritt 2: Eine Musterrolle zuweisen

Wenn Sie das erste Mal ein Muster für einen Bericht erstellen, müssen Sie eine Rolle zuweisen. Sie können die Musterrolle während der Erstellung oder Bearbeitung der Musterdefinition jederzeit ändern.

Wählen Sie im Fensterbereich „Muster- und Feldeigenschaften“ die Option Neues Muster hinzufügen und anschließend eine Musterrolle aus:

 

Schritt 3: Einen Selektor definieren

Für jedes Muster ist ein Selektor erforderlich, durch den die eindeutigen Eigenschaften des Musters identifiziert werden. Der Selektor wird dazu benutzt, alle Instanzen eines Musters im Bericht zu erfassen. Ein Detailselektor identifiziert z. B. die Eigenschaften, die alle Detailzeilen gemein haben, aber bei anderen Zeilen nicht vorhanden sind. Ein richtig eingestellter Detailselektor erfasst dementsprechend nur Detailzeilen und ignoriert Kopfzeilen sowie Zeilen anderer Sortierebenen.

In der vorstehenden Abbildung befindet sich z. B. auf Position 9 aller Detailzeilen eine Zahl, gefolgt von zwei Leerzeichen:

 

Um diese Zeilen zu erfassen, können Sie den Selektor so einstellen, dass er auf Position 9 nach einem numerischen Zeichen sucht, dem zwei Leerzeichen folgen.

Ein Selektor wird, wie unten beschrieben, durch die Eingabe von Selektorzeichen in die Selektorzeile erstellt:

Die „Beispiel“-Textzeile und die „Selektorzeile“. Die Selektorzeile enthält einen definierten numerischen Selektor.

 

Beim Erstellen des Selektors werden Teile des Berichts durch Guillemets im Zeilenauswahlbereich markiert, um zu bestätigen, dass die Daten in diesem Bereich erfasst werden. Anhand dieser Markierungen können Sie überprüfen, ob der Selektor richtig definiert wurde.

 

Sie können in der Selektorzeile ein oder auch mehrere Selektorzeichen spezifizieren. Oftmals funktionieren verschiedene Kombinationen gleichermaßen gut. Es empfiehlt sich in der Regel, mehrere Selektorzeichen zu spezifizieren, um zu gewährleisten, dass nicht versehentlich Zeilen aus anderen Sortierebenen erfasst werden. Seien Sie dabei jedoch vorsichtig. Wenn Sie zu viele Selektorzeichen spezifizieren, besteht die Gefahr, dass einige der von Ihnen gewünschten Zeilen möglicherweise von der Selektion ausgeschlossen werden. Sie sollten mit dem Selektor ein wenig experimentieren, bis Sie eine Kombination gefunden haben, die gut funktioniert.

In einigen Berichten befinden sich die Detailfelder auf mehreren Zeilen, d. h. in einem Textblock. Es kann jedoch auch sein, dass die erste Zeile eines Textblocks nicht durch eindeutige Eigenschaften markiert ist.. Wenn Zeile 1 nicht verwendet werden kann, können Sie eine andere Zeile mit eindeutigen Eigenschaften angeben. In diesem Fall muss im Feld Selektorzeile die Beispielzeile angegeben werden, auf deren Basis die Selektion ausgeführt werden soll.

 

Sobald Sie sicher sind, dass der Selektor alle Detailzeilen, aber keine Zeilen anderer Ebenen erfasst, können die zu extrahierenden Felder hervorgehoben werden.

Data Prep Studio akzeptiert verschiedene Selektortypen, d. h. Standard-, Gleitende und Regex-Selektoren. Sie können den gewünschten, auf die Tabelle anzuwendenden Selektortyp aus der Dropdown-Liste Selektortyp auswählen.

 

Schritt 4: Felder markieren und benennen

So markieren Sie die Felder:

Markieren Sie jedes zu extrahierende Feld in Anlehnung an die Beispielzeile. Die Länge jeder Feldmarkierung sollte ausreichen, um alle Feldwerte aufzunehmen, jedoch nicht so lang sein, dass die Markierung in die Daten eines angrenzenden Feldes hineinreicht. Bei numerischen Feldern, die rechtsbündig ausgerichtet sind, sollte sich die Markierung weit genug nach links erstrecken, um die größtmögliche Zahl im Feld aufnehmen zu können.

So benennen Sie Felder:

Sie können jedes Feld im Bereich Feldeigenschaften des Fensterbereichs Muster- und Feldeigenschaften benennen. Sie sollten den Feldern geeignete, d. h. berichtsbezogene Namen geben.

Im Bereich Feldeigenschaften des Fensterbereichs Muster- und Feldeigenschaften werden die Beispielfeldwerte und der aktuelle Name des ausgewählten Feldes angezeigt. Wenn Sie das Feld noch nicht benannt haben, wird ihm automatisch ein vorläufiger Name zugeordnet.

 

Feldnamen können bis zu 62 Zeilen lang sein und sowohl Großbuchstaben als auch Kleinbuchstaben sowie Leer- und Interpunktionszeichen enthalten, aber keine Punkte (.), Ausrufezeichen (!), Gravis-Zeichen (`) und auch keine eckigen Klammern ([]). Namen können mit jedem beliebigen Zeichen (außer Unterstreichungs- oder Leerzeichen) beginnen. Wird ein Name mit führenden Leerzeichen eingegeben, wird er zwar akzeptiert, aber die Leerzeichen dann einfach ignoriert.

Hinweis: Wenn Sie sich entscheiden, die DBF-Feldnamensgebung zu erzwingen, müssen alle Feldnamen mit den dBASE III-Feldnamenskonventionen konform gehen. Feldnamen können bis zu 10 Zeichen lang sein und jeden beliebigen Buchstaben, jede beliebige Zahl sowie auch den Unterstrich (_) enthalten. Das erste Zeichen muss ein Buchstabe sein. Leerzeichen und Interpunktionszeichen sind nicht zulässig.

  1. Klicken Sie in der Textzeile „Beispiel“ auf ein neu zu benennendes Feld.

  2. Geben Sie dem Feld einen geeigneten Namen indem Sie auf das Kästchen Name klicken und den aktuellen Namen durch einen neuen ersetzen. Klicken Sie auf das Häkchen neben dem Feld, um den neuen Namen zu bestätigen.

     

  3. Wiederholen Sie die Schritte 1 und 2 für jedes zu benennende Feld. Wenn mehrere Felder in einem Muster definiert werden, kann das nächste Feld durch Auswahl der Schaltfläche Nächstes Feld unten im Fensterbereich „Feldeigenschaften bearbeiten“ angezeigt und neu benannt werden.

Schritt 5: Feldeigenschaften bearbeiten

Jedes Feld wird anhand einer Reihe von Eigenschaften beschrieben, die es von anderen Feldern eindeutig unterscheidet. Diese Eigenschaften werden im Bereich Feldeigenschaften bearbeiten im Fensterbereich Muster- und Feldeigenschaften festgelegt, wenn ein Feld in der Textzeile „Beispiel“ ausgewählt wird. Verwenden Sie zum Ändern der Feldeigenschaften die Anweisungen unter Eingabefeld-Eigenschaften.

Schritt 6: Das Muster benennen und bestätigen

Sobald Sie mit den Selektor- und Felddefinitionen zufrieden sind, kann das Muster benannt und auf den Bericht angewandt werden.

  1. Klicken Sie auf das Symbol Bearbeiten rechts neben dem Musternamen, um das Texteingabefeld zu aktivieren. Beachten Sie bitte, dass Monarch Data Prep Studio standardmäßig die aktuelle Musterrolle als Musternamen verwendet.

     

  2. Geben Sie einen neuen Namen in das Feld Mustername ein.

  1. Klicken Sie im Fenster Berichtsentwurf auf Akzeptieren, um die Musterdefinition zu speichern. Wählen Sie Abbrechen, um Ihre Änderungen zu verwerfen.

Schritt 7: Das Muster überprüfen

Nachdem das Muster erstellt wurde, können Sie es überprüfen, um sicherzustellen, dass keine Fehler oder Probleme auftreten.

  1. Klicken Sie auf der Berichtsentwurf-Symbolleiste auf Berichtsüberprüfung.

  2. Die Berichtsüberprüfung scannt dann den gesamten Bericht und überprüft dabei alle Feldgrenzen. Falls festgestellt wird, dass irgendwelche Zeichen über die Feldgrenze hinausreichen, markiert Monarch Data Prep Studio das betreffende Feld, um Sie darauf aufmerksam zu machen, dass die Länge des Feldes unter Umständen nicht ausreicht, um den Feldwert aufzunehmen, oder dass das Feld evtl. an der falschen Stelle definiert ist.