Textdaten können in den unterschiedlichsten Ausprägungen vorkommen, wie am Beispiel einer Spielerliste leicht zu sehen ist: Eine Zeile in dieser Liste wird den Namen enthalten, entweder mit Hintereinanderstellung von Vor- und Nachnamen oder mit Trennung von Vor- und Nachnamen durch ein Trennzeichen wie zum Beispiel einem Komma. Ergänzend ist vielleicht das Geburtsdatum oder die Spielposition angegeben. Im Idealfall stehen die Datenfelder eines Datensatzes in einer Zeile und sind fein säuberlich durch ein einheitliches Trennzeichen voneinander abgegrenzt (wie etwa bei einer CSV-Datei aus Excel). Womöglich gibt es jedoch mehrere verschiedene Trennzeichen, die Daten sind auf mehrere Zeilen verteilt oder die Liste ist gar nach Spielpositionen gruppiert, d.h. unter einer Überschrift-Zeile mit der Spielposition folgt für jeden Spieler mit dieser Position eine entsprechende Namenszeile. Eine ähnliche Gruppierung ist denkbar, wenn die Spieler mehrerer Vereine in einer Liste aufgeführt sind.
Auch aus solchen nicht idealen Eingabedaten muss das Programm im Rahmen einer Datenanalyse - unterstützt durch gewisse Angaben des Benutzers - eine regelmäßige tabellarische Form erzeugen können, die dann als Basis für die Übernahme der Daten dient. Diese Übernahme ist dann lediglich noch eine Frage der Zuordnung von Tabellenspalten zu Datenfeldern.
Zur Unterstützung der Datenanalyse muss sich der Benutzer um die folgenden Dinge kümmern:
Mustermann, Max 18.4.1978 Sturm, bei Trennzeichen __ (dies entspricht zwei Leerzeichen!) wird die Textzeile in drei Datenfelder mit den Werten Mustermann, Max18.4.1978Sturm aufgespalten. Falls als Trennzeichen zusätzlich das Komma angegeben wird, entstehen hingegen vier Datenfelder: MustermannMax18.4.1978Sturm.
VfR Musterstadt Mittelfeld Mustermann, Max; 18.4.1978 Testperson, Timo; 27.9.1975 Sturm Chancentod, Christoph; 6.2.1977 Eintracht Testbach Torwart Traumtaenzer, Toni; 12.11.1980
wird zu
0=VfR Musterstadt 1=Mittelfeld Mustermann, Max; 18.4.1978 Testperson, Timo; 27.9.1975 1=Sturm Chancentod, Christoph; 6.2.1977 0=Eintracht Testbach 1=Torwart Traumtaenzer, Toni; 12.11.1980
Jede Ziffer steht für eine eigene Spalte in der tabellarischen Form. Deshalb ist es wichtig für jeden Gruppierungstyp konsistent die gleiche Ziffer zu verwenden. Aus obigem Beispiel würde (bei Trennzeichen ;) folgende tabellarische Darstellung resultieren:
VfR Musterstadt | Mittelfeld | Mustermann, Max | 18.4.1978 | |
VfR Musterstadt | Mittelfeld | Testperson, Timo | 27.9.1975 | |
VfR Musterstadt | Sturm | Chancentod, Christoph | 6.2.1977 | |
Eintracht Testbach | Torwart | Traumtaenzer, Toni | 12.11.1980 |
Je nach Datenqualität kann es darüber hinaus notwendig werden, weitere Änderungen an den Textdaten vorzunehmen, etwa das Vereinheitlichen von Datenzeilen oder das Entfernen von Datenmüll. Hier bietet sich unter Umständen die Vorabbearbeitung in einem Texteditor mit leistungsfähiger Suchen&Ersetzen Funktion an. Alle nicht als Gruppierungszeilen gekennzeichneten nicht leeren Zeilen werde als Datenzeilen in die tabellarische Form übertragen. Leerzeilen zwischen Datensätzen werden ignoriert.
Beim Import von Spielerdaten steht zusätzlich unterhalb des Textfelds eine aufklappbare Auswahlliste mit den Vereinen des Turniers zur Verfügung. Ein Spieler muss immer einem Verein zugeordnet werden! Mit der Auswahlliste kann der Verein bestimmt werden, dem Spieler standardmäßig zugeordnet werden, wenn es kein eigenes Datenfeld für die Vereinszuordnung in der Spielerzeile gibt, oder bis durch eine Gruppierungszeile anderes festgelegt wird. Die Auswahl eines Vereins ist gleichbedeutend mit dem Einfügen der Zeile 0=Vereinsname am Anfang des Textfelds. Daher sollte für Vereinszuordnungen immer die Ziffer 0 in Gruppierungszeilen verwendet werden.