# awk — Feldbasierte Textverarbeitung und Auswertung > Spaltenbasierten Text mit awk verarbeiten — Felder extrahieren, nach Mustern filtern, mit Arrays aggregieren und Ausgaben formatieren. Source: https://www.jpkc.com/db/cheatsheets/files-text/awk/ awk ist eine kleine, aber vollständige Programmiersprache für spaltenbasierten Text. Es liest die Eingabe Zeile für Zeile, zerlegt jede Zeile in Felder (`$1`, `$2`, … `$NF`) und führt dein Programm für jeden Datensatz aus – damit ist es die naheliegende Wahl für Logdateien, CSV-/TSV-Daten und tabellarische Befehlsausgaben. Während grep Zeilen findet und sed sie umschreibt, kannst du mit awk nach Feldern selektieren, Summen und Mittelwerte berechnen, mit assoziativen Arrays Häufigkeitstabellen aufbauen und sauber formatierte Auswertungen ausgeben. Dieser Guide behandelt das Wesentliche: Felder und Trenner, Mustererkennung, Bedingungen, `BEGIN`-/`END`-Blöcke, Arithmetik, String-Funktionen und die Rezepte, zu denen du immer wieder greifst. ## Grundlagen `awk '{print}' ` — Gibt jede Zeile der Datei aus (wie cat). ```bash awk '{print}' data.txt ``` `awk '{print $0}' ` — Gibt jede ganze Zeile aus. $0 steht für die gesamte Zeile. ```bash awk '{print $0}' data.txt ``` `awk '{print $1}' ` — Gibt das erste Feld (die erste Spalte) jeder Zeile aus. Felder werden per Whitespace getrennt. ```bash awk '{print $1}' access.log ``` `awk '{print $1, $3}' ` — Gibt bestimmte Felder durch ein Leerzeichen getrennt aus (Output Field Separator). ```bash awk '{print $1, $3}' data.txt ``` `awk '{print $NF}' ` — Gibt das letzte Feld jeder Zeile aus. NF ist die Anzahl der Felder. ```bash awk '{print $NF}' access.log ``` `awk '{print $(NF-1)}' ` — Gibt das vorletzte Feld jeder Zeile aus. ```bash awk '{print $(NF-1)}' data.txt ``` `awk 'NR==' ` — Gibt nur eine bestimmte Zeilennummer aus. NR ist die Nummer des aktuellen Datensatzes (der aktuellen Zeile). ```bash awk 'NR==5' data.txt ``` `awk 'NR>= && NR<=' ` — Gibt einen Zeilenbereich aus. ```bash awk 'NR>=10 && NR<=20' data.txt ``` ## Feldtrenner `awk -F'' '{print $1}' ` — Legt einen eigenen Eingabe-Feldtrenner fest. ```bash awk -F',' '{print $1}' data.csv ``` `awk -F':' '{print $1, $3}' ` — Verwendet den Doppelpunkt als Feldtrenner (nützlich für /etc/passwd). ```bash awk -F':' '{print $1, $3}' /etc/passwd ``` `awk -F'\t' '{print $2}' ` — Verwendet den Tabulator als Feldtrenner für TSV-Dateien. ```bash awk -F'\t' '{print $2}' data.tsv ``` `awk -F'[,;:]' '{print $1}' ` — Verwendet eine Regex als Feldtrenner (trifft auf jedes der Zeichen). ```bash awk -F'[,;:]' '{print $1}' mixed.txt ``` `awk 'BEGIN{FS=","; OFS="\t"} {print $1, $2}' ` — Legt Eingabe-Feldtrenner (FS) und Ausgabe-Feldtrenner (OFS) fest. ```bash awk 'BEGIN{FS=","; OFS="\t"} {print $1, $2}' data.csv ``` `awk -v OFS=',' '{$1=$1; print}' ` — Ändert den Ausgabetrenner. Der Trick $1=$1 zwingt awk, die Zeile neu aufzubauen. ```bash awk -v OFS=',' '{$1=$1; print}' whitespace.txt ``` ## Mustererkennung `awk '//' ` — Gibt Zeilen aus, die auf ein Regex-Muster passen (wie grep). ```bash awk '/ERROR/' log.txt ``` `awk '!//' ` — Gibt Zeilen aus, die NICHT auf ein Muster passen (wie grep -v). ```bash awk '!/^#/' config.ini ``` `awk '$ ~ //' ` — Gleicht ein Muster gegen ein bestimmtes Feld ab. ```bash awk '$3 ~ /error/' log.txt ``` `awk '$ !~ //' ` — Gibt Zeilen aus, bei denen ein bestimmtes Feld NICHT auf ein Muster passt. ```bash awk '$1 !~ /^192\.168/' access.log ``` `awk '//,//' ` — Gibt Zeilen zwischen zwei Mustern aus (einschließender Bereich). ```bash awk '/BEGIN/,/END/' config.txt ``` `awk '/pattern/ {print $2}' ` — Gibt nur ein bestimmtes Feld aus Zeilen aus, die auf ein Muster passen. ```bash awk '/GET/ {print $7}' access.log ``` ## Bedingungen & Vergleiche `awk '$ == ""' ` — Gibt Zeilen aus, bei denen ein Feld einer bestimmten Zeichenkette entspricht. ```bash awk '$3 == "ERROR"' log.txt ``` `awk '$ != ""' ` — Gibt Zeilen aus, bei denen ein Feld einem Wert nicht entspricht. ```bash awk '$1 != "localhost"' hosts.txt ``` `awk '$ > ' ` — Gibt Zeilen aus, bei denen ein numerisches Feld einen Schwellwert überschreitet. ```bash awk '$5 > 1000' data.txt ``` `awk '$ > && $ < ' ` — Kombiniert mehrere Bedingungen mit && (UND). ```bash awk '$3 > 100 && $4 < 500' sales.txt ``` `awk '$ > || $ == ""' ` — Kombiniert Bedingungen mit || (ODER). ```bash awk '$5 > 1000 || $3 == "CRITICAL"' log.txt ``` `awk 'NF > 0' ` — Gibt nur nicht-leere Zeilen aus (Zeilen mit mindestens einem Feld). ```bash awk 'NF > 0' messy.txt ``` `awk 'NF == ' ` — Gibt Zeilen mit genau N Feldern aus. ```bash awk 'NF == 4' data.txt ``` `awk 'length > ' ` — Gibt Zeilen aus, die länger als N Zeichen sind. ```bash awk 'length > 80' source.py ``` ## BEGIN- & END-Blöcke `awk 'BEGIN {print "Header"} {print} END {print "Footer"}' ` — Führt Code vor der Verarbeitung (BEGIN) und nach allen Zeilen (END) aus. ```bash awk 'BEGIN {print "Name\tScore"} {print $1"\t"$2} END {print "---"}' results.txt ``` `awk 'BEGIN {} {} END {

}' ` — Klassische awk-Struktur: initialisieren, jede Zeile verarbeiten, dann zusammenfassen. ```bash awk 'BEGIN {sum=0} {sum+=$1} END {print "Total:", sum}' numbers.txt ``` `awk 'END {print NR}' ` — Gibt die Gesamtzahl der Zeilen einer Datei aus. ```bash awk 'END {print NR}' data.txt ``` `awk 'END {print NR, "lines,", NF, "fields in last line"}' ` — Gibt nach der Verarbeitung aller Zeilen eine Zusammenfassung aus. ```bash awk 'END {print NR, "lines processed"}' access.log ``` ## Arithmetik & Aggregation `awk '{sum += $} END {print sum}' ` — Summiert alle Werte einer bestimmten Spalte. ```bash awk '{sum += $3} END {print sum}' sales.txt ``` `awk '{sum += $} END {print sum/NR}' ` — Berechnet den Durchschnitt einer Spalte. ```bash awk '{sum += $2} END {print "Average:", sum/NR}' scores.txt ``` `awk 'BEGIN {max=0} {if ($ > max) max=$} END {print max}' ` — Findet den größten Wert in einer Spalte. ```bash awk 'BEGIN {max=0} {if ($3 > max) max=$3} END {print "Max:", max}' data.txt ``` `awk 'NR==1 || $ < min {min=$} END {print min}' ` — Findet den kleinsten Wert in einer Spalte. ```bash awk 'NR==1 || $2 < min {min=$2} END {print "Min:", min}' data.txt ``` `awk '{count[$]++} END {for (k in count) print k, count[k]}' ` — Zählt das Vorkommen jedes eindeutigen Werts in einer Spalte (Häufigkeitstabelle). ```bash awk '{count[$1]++} END {for (ip in count) print ip, count[ip]}' access.log ``` `awk '{sum[$1] += $2} END {for (k in sum) print k, sum[k]}' ` — Summiert Werte gruppiert nach einer Schlüsselspalte (wie SQL GROUP BY). ```bash awk '{sum[$1] += $3} END {for (dept in sum) print dept, sum[dept]}' expenses.txt ``` ## String-Funktionen `awk '{print length($0)}' ` — Gibt die Länge jeder Zeile aus. ```bash awk '{print length($0), $0}' data.txt ``` `awk '{print toupper($0)}' ` — Wandelt jede Zeile in Großbuchstaben um. ```bash awk '{print toupper($0)}' input.txt ``` `awk '{print tolower($0)}' ` — Wandelt jede Zeile in Kleinbuchstaben um. ```bash awk '{print tolower($0)}' input.txt ``` `awk '{gsub(//, ""); print}' ` — Globale Ersetzung in jeder Zeile (wie sed s///g). ```bash awk '{gsub(/foo/, "bar"); print}' input.txt ``` `awk '{sub(//, ""); print}' ` — Ersetzt nur das erste Vorkommen in jeder Zeile. ```bash awk '{sub(/^[ \t]+/, ""); print}' messy.txt ``` `awk '{print substr($0, , )}' ` — Extrahiert eine Teilzeichenkette aus jeder Zeile (1-basierte Startposition). ```bash awk '{print substr($0, 1, 10)}' data.txt ``` `awk '{n=split($0, arr, ""); print arr[1]}' ` — Zerlegt eine Zeichenkette anhand eines Trenners in ein Array. Gibt die Anzahl der Elemente zurück. ```bash awk '{n=split($0, parts, ","); print parts[2]}' data.csv ``` `awk 'match($0, //) {print substr($0, RSTART, RLENGTH)}' ` — Extrahiert den von einer Regex gefundenen Teil. Setzt RSTART und RLENGTH. ```bash awk 'match($0, /[0-9]+\.[0-9]+/) {print substr($0, RSTART, RLENGTH)}' data.txt ``` ## Formatierte Ausgabe `awk '{printf "%-20s %s\n", $1, $2}' ` — Gibt mit printf formatierte, ausgerichtete Spalten aus. ```bash awk '{printf "%-20s %10s\n", $1, $2}' data.txt ``` `awk '{printf "%05d %s\n", NR, $0}' ` — Gibt Zeilennummern auf 5 Stellen mit Nullen aufgefüllt aus. ```bash awk '{printf "%05d %s\n", NR, $0}' script.sh ``` `awk '{printf "%.2f\n", $1}' ` — Formatiert Zahlen mit 2 Nachkommastellen. ```bash awk '{printf "$%.2f\n", $3}' prices.txt ``` `awk '{printf "%s,%s,%s\n", $1, $2, $3}' ` — Wandelt durch Whitespace getrennte Daten in CSV um. ```bash awk '{printf "%s,%s,%s\n", $1, $2, $3}' data.txt ``` `awk -v OFS='\t' '{$1=$1; print}' ` — Wandelt beliebige Whitespace-Trennung in tabulatorgetrennte Ausgabe um. ```bash awk -v OFS='\t' '{$1=$1; print}' data.txt ``` ## Variablen & Zuweisung `awk -v = '{print , $1}' ` — Übergibt eine externe Variable an das awk-Programm. ```bash awk -v threshold=100 '$3 > threshold {print}' data.txt ``` `awk -v var="$SHELL_VAR" '{print var, $0}' ` — Übergibt eine Shell-Variable an awk. ```bash awk -v user="$USER" '{print user, $0}' log.txt ``` `awk '{$ = ""; print}' ` — Ersetzt den Wert eines bestimmten Felds und gibt die geänderte Zeile aus. ```bash awk '{$2 = "REDACTED"; print}' users.txt ``` `awk '{$(NF+1) = ""; print}' ` — Hängt ein neues Feld an das Ende jeder Zeile an. ```bash awk -v OFS=',' '{$(NF+1) = "new_col"; print}' data.csv ``` ## Arrays & Deduplizierung `awk '!seen[$0]++' ` — Entfernt doppelte Zeilen unter Beibehaltung der Reihenfolge (wie sort -u, aber ohne zu sortieren). ```bash awk '!seen[$0]++' list.txt ``` `awk '!seen[$]++' ` — Entfernt Duplikate anhand eines bestimmten Felds. ```bash awk '!seen[$1]++' data.txt ``` `awk '{a[$1]+=$2} END {for (k in a) print k, a[k]}' ` — Aggregiert Werte nach Schlüssel mithilfe eines assoziativen Arrays. ```bash awk -F',' '{a[$1]+=$2} END {for (k in a) print k, a[k]}' sales.csv ``` `awk '{a[$1]++} END {for (k in a) if (a[k]>1) print k, a[k]}' ` — Findet und gibt nur doppelte Einträge aus. ```bash awk '{a[$1]++} END {for (k in a) if (a[k]>1) print k, a[k]}' access.log ``` `awk '{a[NR]=$0} END {for (i=NR; i>=1; i--) print a[i]}' ` — Kehrt die Reihenfolge der Zeilen um (wie tac). ```bash awk '{a[NR]=$0} END {for (i=NR; i>=1; i--) print a[i]}' data.txt ``` ## Mehrere Dateien & Pipelines ` | awk '{print $}'` — Extrahiert eine bestimmte Spalte aus einer Befehlsausgabe. ```bash ps aux | awk '{print $1, $11}' ``` ` | awk 'NR>1 {print $}'` — Extrahiert eine Spalte aus einer Befehlsausgabe und überspringt die Kopfzeile. ```bash df -h | awk 'NR>1 {print $1, $5}' ``` `awk 'FNR==1 {print "--- " FILENAME " ---"} {print}' ` — Verarbeitet mehrere Dateien mit einem Trenner. FNR wird pro Datei zurückgesetzt, FILENAME enthält den Namen. ```bash awk 'FNR==1 {print "--- " FILENAME " ---"} {print}' *.log ``` `awk '{print > "output_" $ ".txt"}' ` — Teilt eine Datei anhand eines Feldwerts in mehrere Dateien auf. ```bash awk -F',' '{print > "dept_" $1 ".csv"}' employees.csv ``` `awk '{print | "sort"}' ` — Leitet die awk-Ausgabe an einen externen Befehl weiter. ```bash awk '{print $1}' access.log | sort | uniq -c | sort -rn ``` ## Häufige Rezepte `awk -F',' 'NR==1 {for (i=1;i<=NF;i++) header[i]=$i} NR>1 {for (i=1;i<=NF;i++) print header[i]": "$i; print ""}' ` — Stellt CSV-Daten vertikal dar, mit den Spaltenüberschriften als Beschriftung. ```bash awk -F',' 'NR==1 {for (i=1;i<=NF;i++) h[i]=$i} NR>1 {for (i=1;i<=NF;i++) print h[i]": "$i; print ""}' users.csv ``` `awk '{for (i=NF; i>0; i--) printf "%s ", $i; printf "\n"}' ` — Kehrt die Feldreihenfolge in jeder Zeile um. ```bash awk '{for (i=NF; i>0; i--) printf "%s ", $i; printf "\n"}' data.txt ``` `awk 'NR==FNR {a[$1]; next} $1 in a' ` — Gibt Zeilen aus file2 aus, deren erstes Feld in file1 vorkommt (wie ein Join/Lookup). ```bash awk 'NR==FNR {a[$1]; next} $1 in a' ids.txt data.txt ``` `awk '{sum=0; for(i=1;i<=NF;i++) sum+=$i; print sum}' ` — Summiert alle Felder einer Zeile (Zeilensummen). ```bash awk '{sum=0; for(i=1;i<=NF;i++) sum+=$i; print $0, sum}' matrix.txt ``` `awk 'NR%==0' ` — Gibt jede N-te Zeile aus. ```bash awk 'NR%5==0' data.txt ``` `awk '{$1=""; print substr($0,2)}' ` — Entfernt das erste Feld und gibt den Rest der Zeile aus. ```bash awk '{$1=""; print substr($0,2)}' data.txt ``` ## Fazit awk spielt seine Stärken in dem Moment aus, in dem deine Daten Spalten haben: `awk '{print $2}'`, ein schnelles `sum += $3` in einem `END`-Block oder eine einzeilige Häufigkeitstabelle mit `count[$1]++` ersetzt oft ein ganzes Skript. Beginne mit `-F`, um den Feldtrenner zu setzen, stütze dich auf `NR`/`NF` für Zeilen- und Feldzahlen, und denke daran: awk liest die Eingabe, ohne deine Dateien zu verändern – die Ausgabe geht nach stdout, leite sie also bewusst um, wenn du Ergebnisse zurückschreibst. Eine häufige Stolperfalle: awk-Regex-Literale kennen kein `/i`-Flag, für eine Suche ohne Beachtung der Groß-/Kleinschreibung nutzt du daher gawks `IGNORECASE=1` oder `tolower()`. Für alles jenseits weniger Zeilen ist GNU-awk (gawk) die leistungsfähigste und am weitesten verbreitete Implementierung. ## Weiterführende Links - [GNU-awk-(gawk)-Handbuch](https://www.gnu.org/software/gawk/manual/gawk.html) – umfassende Referenz zur Sprache (englisch) - [ubuntuusers-Wiki: awk](https://wiki.ubuntuusers.de/awk/) – deutschsprachige Einführung mit praktischen Beispielen ## Verwandte Kommandos - [sed](https://www.jpkc.com/db/cheatsheets/files-text/sed/) – Stream-Editor zum Ersetzen und für zeilenweise Änderungen - [grep](https://www.jpkc.com/db/cheatsheets/files-text/grep/) – schnelle Mustersuche, um Zeilen für awk vorzufiltern - [cut](https://www.jpkc.com/db/cheatsheets/files-text/cut/) – leichtgewichtige Feldextraktion für einfache Spaltenaufgaben