CodeGym /Kurse /SQL SELF /Einführung in das Massendaten-Importieren

Einführung in das Massendaten-Importieren

SQL SELF
Level 23 , Lektion 0
Verfügbar

Stell dir vor, du bekommst eine CSV-Datei mit Infos über Studierende, zum Beispiel aus einer anderen Datenbank oder einer externen App. Jede Zeile per Hand kopieren? Nee, danke. Genau hier kommt das Massendaten-Importieren ins Spiel.

Hier sind ein paar Szenarien, in denen Massendaten-Importieren dein Retter ist:

  • Datenmigration: Du musst Daten von einem System ins andere bringen. Zum Beispiel von Excel oder einer anderen Datenbank nach PostgreSQL.
  • Initialisierung der Datenbank: Deine Datenbank mit Startdaten befüllen, zum Beispiel eine Liste von Städten, Kursen oder Produktkategorien.
  • Integration mit externen Systemen: Regelmäßiges Hinzufügen neuer Daten, z.B. Updates von Dritten per Datei.
  • Aktualisierung großer Datenmengen: Alte Daten müssen durch neue ersetzt werden.

Alles klar soweit? Wenn ja, dann weiter im Text!

Grundlegende Ansätze für Massendaten-Import

Bevor wir ins Detail gehen, lass uns kurz anschauen, wie man überhaupt mehr als nur ein oder zwei Zeilen in die Datenbank bekommt. Wir schauen uns an, wie das mit SQL-Queries geht und dann, wie es noch einfacher mit Datei-Import klappt.

SQL-Queries zum Einfügen von Daten

Du weißt schon, dass man zum Hinzufügen von Daten das INSERT INTO-Kommando nutzt. Das klappt super, wenn es nur ein paar Einträge sind. Zum Beispiel:

INSERT INTO students (id, name, age, course)
VALUES (1, 'Otto Lin', 20, 'Programmierung');

Aber wenn es um Dutzende, Hunderte oder Tausende Zeilen geht, wird das schnell unpraktisch. Klar, man kann das im Code automatisieren, aber per Hand ist das echt mühsam und fehleranfällig.

Datei-Import

Deshalb nutzt man oft den Import aus Dateien wie CSV (Comma-Separated Values). Das ist ein simples Textformat, bei dem jede Zeile einen Datensatz darstellt und die Werte durch Kommas oder Semikolons getrennt sind.

Beispiel für den Inhalt einer CSV-Datei:

id,name,age,course
1,Otto Lin,20,Programmierung
2,Maria Chi,21,Design
3,Alex Ming,19,Mathematik

So ein Format ist sowohl für Menschen als auch für Programme gut lesbar. CSV kann man in Excel öffnen, mit Python oder einer anderen Sprache bearbeiten und easy in die Datenbank importieren. Massendaten-Import aus einer Datei geht viel schneller als alles per Hand einzufügen und reduziert Tippfehler.

Vorbereitung auf den Massendaten-Import

Das Geheimnis für einen erfolgreichen Import ist die Vorbereitung. Wir machen die Datenbank fit für die Daten, checken die Struktur und prüfen die Daten auf Korrektheit.

Tabellenstruktur prüfen

Erstmal solltest du sicherstellen, dass es in deiner Datenbank eine Tabelle gibt, die zur Struktur der Datei passt. Wenn du zum Beispiel Studierende importierst, brauchst du eine Tabelle mit passenden Spalten.

Beispiel für eine Tabelle zum Importieren von Studierenden:

CREATE TABLE students (
    id SERIAL PRIMARY KEY,
    name TEXT NOT NULL,
    age INTEGER NOT NULL,
    course TEXT
);

Wichtige Punkte:

  • Stell sicher, dass die Datentypen der Spalten zu den Daten in deiner Datei passen. Wenn age eine Zahl ist, sollten im CSV in dieser Spalte auch nur Zahlen stehen.
  • Spalten mit Einschränkungen (NOT NULL, UNIQUE) brauchen besonders saubere Daten.

Daten prüfen

Kurz zu den Daten selbst. Das solltest du vor dem Import checken:

  1. Keine leeren Zeilen oder ungültigen Werte. Zum Beispiel: 12,,20,Programmierung führt zu einem Fehler, weil name ein Pflichtfeld ist.
  1. Trennzeichen stimmen. Wenn dein CSV Kommas (,) nutzt, stell sicher, dass das auch so eingestellt ist. Wenn stattdessen Semikolons (;) verwendet werden, musst du das beim Import angeben.

  2. Zeichencodierung. PostgreSQL erwartet Dateien in UTF-8. Wenn deine Datei in einer anderen Codierung ist (z.B. Windows-1251), musst du sie umwandeln.

Kleiner Programmiererwitz zum Auflockern

Warum mögen Programmierer CSV so sehr? Weil sie nach stundenlangem Arbeiten mit JSON endlich mal "einfache" Daten sehen... bis sie ein Komma im Text finden.

Praktische Anwendung von Massendaten-Import

In echten Projekten wird Massendaten-Import ständig genutzt. Zum Beispiel:

  • Beim Aktualisieren eines Produktkatalogs für einen Online-Shop. Eine CSV-Datei mit tausenden Produkten ist in Sekunden importiert.
  • Bei der Migration von Kunden aus einem CRM-System ins andere. Alle Kundendaten, Adressen und Bestellungen werden aus CSV nach PostgreSQL geladen.
  • In der Analyse, wenn Verkaufsdaten für einen Monat zum Auswerten importiert werden müssen.

Jetzt, wo du weißt, warum das wichtig ist und wie du dich vorbereitest, können wir uns als Nächstes die konkreten Tools zum Datenimport anschauen, wie das COPY-Kommando. Aber das kommt in der nächsten Vorlesung.

Kommentare
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION