Die Aufgabe: Log-Dateien verschiedener Webservers (z.B. Apache HTTP Server) müssen zusammen geführt und für die weitere Verarbeitung aufbereitet werden.
Die Lösung: Talend Open Studio stellt eine Komponente zur Verfügung, mit der ein Regulärer Ausdruck zeilenweise auf eine Datei angewendet werden kann. In unserem Beispiel verwenden wir tFileList_1, um die gewünschte Dateiliste abzuarbeiten.
Das jeweils aktuelle File wird von tFileInputRegex_1 geöffnet und zeilenweise durch folgenden regulären Ausdruck in seine einzelnen Bestandteile zerlegt.
"^(\\S+) (\\S+) (\\S+) \\[([^ ]+) ([^ ]+)\\] \"([^ ]+) ([^ ]+) " +
"[^\"]+\" ([\\d|-]+) ([\\d|-]+) \"(.*)\" \"(.*)\""
Die gefundenen Teilstücke werden dann auf das hinterlegt Schema übertragen.
Das Datumsformat „dd/MMM/yyyy:hh:mm:ss“ ermöglicht Talend Open Studio die Zeichenkette korrekt zu interpretieren.
Die weitere Verarbeitung hängt nun vom speziellen Anwendungsfall ab. Interessant ist beispielsweise die Übergabe an einen Jasper-Report, der dann per E-Mail versendet wird.