COLD GROUND STUDIO

digitale Audiotechnik

home / technisches / digital

Analog ist schön analog und digital schlimm verhackstückelt

An dieser Stelle möchte ich einige Mythen und Missverständnisse beseitigen die insbesondere bei der digitalen Audiotechnik herrschen. Vieles ist darauf zurückzuführen, dass die Digitaltechnik nicht wirklich verstanden wird. Wer nicht gerade ein Ingenieursstudium oder ähnliches absolviert hat, ist wohl nicht mit Signaltheorie, Fouriertransformation und Nyquisttheorem in Berührung gekommen. Es erscheint auf dem ersten Blick daher nachvollziehbarer Weise unverständlich, dass ein paar Zahlen eine komplexe Schwingung perfekt wiedergeben können. Wohingegen analoge Audiotechnik leicht nachvollziehbar erscheint. Schalldruck wird in Spannung gewandelt, die Rille auf der Schallplatte ist ein Abbildung der Schallwelle. Also muss das ja perfekt sein. Übersehen werden hierbei eine ganze Menge Probleme, die es eben machen, dass die Schallplattenrille tatsächlich viel weniger mit den Original zu tun hat als eine Zahlenfolge. Entgegen der ersten Intuition.

1. digitales Audio ist beliebig gut

Es ist einleuchtend und auch Anlass für die Befürchtungen gegenüber der Digitaltechnik, dass man um die komplexe kontinuierliche Realität in eine endliche Zahlenfolge abzubilden Einschränkungen machen muss. Da wir es mit endlich vielen Zahlen mit beschränkter Genauigkeit zu tun haben, können prinzipiell nicht alle Feinheiten und Zwischenwerte abgebildet werden. Aber das muss man auch nicht!

1.1. Fouriertranformation

Jede reale Audiokurvenform und sei sie noch so komplex kann man als eine Summe von Sinusschwingungen beschreiben. Da diese auch phasenverschoben sein können, also eher eine Summe von Sinussen und Cosinussen. Das können auch unendlich viele sein. In der Praxis interessiert man sich dabei aber oft nur für die Frequenz, nicht für die Phasenlage. Deshalb kann man allgemein von Sinus ausgehen.
Die mathematische Transformation mit der man ein Audiosignal was im Zeitbereich (also als Spannung als Funktion der Zeit) vorliegt in den Frequenzbereich überführt nennt man Fouriertransformation. Für die Frequenzanalyse gibt es Implementierungen wie die FFT, was ein bestimmter computergestützer Rechenalgorithmus ist (fast fourier transformation).
Für die richtige Systemanalyse gibt es noch die Verwandte Laplace-Transformation. Darauf basieren dann sog. Faltungseffekte die aus Impulsantworten gewonnen werden. Es macht wenig Sinn an dieser Stelle tiefer in die Mathematik einzusteigen. Für das weitere Verständnis ist es aber sinnvoll, ein paar Gesetzmäßigkeiten zu kennen.
Ein Impuls, z.B. ein unendlich kurzer Knacker (Fachwort heißt Dirac-Stoß), hat unendlich viele Frequenzen, die alle gleichmäßig enthalten sind. Nebenbei ist das auch ein Grund warum eine Impulsantwort eines Systems ausreicht: es sind damit alle Frequenzen beschrieben. Dass hier auch negative Frequenzen enthalten sind, ergibt sich aus der Mathematik. Am besten einfach so hinnehmen, es ist praktisch. Ein gaussglockenförmiger Impuls hat auch ein gaussglockenartiges Spektrum. Je schmaler der Impuls desto breiter das Spektrum. Macht man den Glockenimpuls unendlich schmal, hat man wieder obigen Dirac-Impuls mit unendlichen Spektrum. Man sieht hier schön was passiert: Je schmaler ein Impuls ist, desto höhere Frequenzen sind darin enthalten. D.h. umgekehrt filtert man hohe Frequenzen weg (was in jeden realen System passiert), dann "verschleift" sich der Impuls. Und was für Impulse gilt, gilt in analoger Weise auch für Treppen und Rechtecke. Ein Rechteckimpuls hat auch ein unendliches Spektrum jedoch nicht mit gleicher Verteilung. Das Frequenzspektrum ist hier ein sog. Si-Funktion oder Spaltfunktion. Wir begegnen ihr noch beim Tonband. Ein Sinussignal hat genau eine Frequenz. Ein Signal zusammengesetzt aus zwei Sinussen hat zwei Frequenzen. Der Spezialfall ist eine Schwingung mit f = 0Hz. Das ist eine Gleichspannung. Und diese hat nur eine Frequenz, nämlich 0. Vergleicht man das mit unserem Dirac-Stoß von oben, sieht man sofort dass es quasi das Gegenteil ist. Ein Sinus ist ein periodisches Signal. Periodische Signale habe ein diskretes Frequenzspektrum. D.h. sie enthalten nur ganz bestimmte Frequenzen im Abstand des reziproken der Periodendauer. Zum Beispiel hat eine Folge von periodischen Rechteckimpulsen nur diskrete Frequenzen. Aber wie man sieht weiterhin die gleich "Hüllkurve". Und jetzt kommt was ganz entscheidendes: Ein periodisches Signal im Zeitbereich hat ein diskretes Spektrum im Frequenzbereich. Und ein periodisches Spektrum? Das hat eine diskrete Impulsfolge im Zeitbereich. Betrachte man es andersherum und macht aus einem normalen Audiosignal eine Impulsfolge mit jeweils der selben Amplitude, hat man ein periodisches Spektrum, was sich aus unendlicher Wiederholung des originalen Spektrums besteht. Und genau das passiert bei der digitalen Abtastung.

1.2. theoretische Perfektion bis zur obersten Frequenz

Man kann darüber streiten - und wir werden das auch an anderer Stelle tun - ob 20kHz tatsächlich die oberste Frequenz ist, die wir übertragen müssen. Fürs erste gehen wir davon aus und sagen, dass wir alle Frequenzen darüber für irrelevant erachten. Deshalb filtern wir sie aus dem originalen Audiosignal mit theoretisch(, aber nicht praktisch) unendlich hohen Frequenzen die höheren Frequenzen komplett weg. Alle Frequenzen in diesem Signal sind nun tiefer als 20kHz. D.h. keine Flanke, kein Transient, kein Impuls verläuft steiler als der Anstieg eines maximal ausgesteuerten 20kHz Sinus. Man kann also die folgende Betrachtung auf 20kHz beschränken. Denn was dafür gilt, gilt für tiefere Frequenzen erst recht. Und damit für das gesamte Audiosignal. Die Frage ist nun, wie viele Daten oder Messwerte braucht man um diesen Sinus von 20kHz eindeutig zu beschreiben? Hier bietet sich nur zur Vorstellung eine Analogie an. Wie viele Punkte braucht man um eine Gerade eindeutig zu beschreiben? Wie man aus dem Mathematikunterricht vielleicht noch weiß, sind es zwei. Man braucht nur zwei Punkte um eine unendlich(!) lange Gerade beschreiben. Jeder Punkt auf der Geraden ist damit eindeutig beschrieben. Man braucht keine Punkte zusätzlich dazwischen. Alles Punkte auch zwischen diesen beiden Punkten sind eindeutig definiert. Auch ein Sinus ist mit wenigen Werten eindeutig beschrieben. Seine Amplitude, Frequenz und Phasenlage reichen dazu aus. Genau wie bei einer Geraden reichen hier zwei Punkte aus! Und zwar müssen beide Punkte innerhalb einer kompletten Periode liegen. Damit ist ein Sinus eindeutig beschrieben. Genau wie bei einer Geraden braucht man keine Punkte dazwischen. Es gibt noch eine Sache zu beachten: Und zwar dürfen nicht beide Messpunkte bei den Nulldurchgängen liegen. Damit hätte man ja eine Nullaussage. Also müssen beide Punkte näher Zusammensein als eine halbe Periode um das zu verhindern. Also muss die minimale Abtastfrequenz etwas größer als die doppelte Frequenz des Sinus sein. Aber wenn das gewährleistet ist, dann ist der Sinus von 20kHz mathematisch eindeutig beschrieben. Und alle tieferen Frequenzen erst recht und damit auch das originale, aber auf 20kHz begrenzte, Audiosignal. Schauen wir uns mal an was frequenzmäßig passiert. Wir ersetzen das originale Audiosignal durch eine Folge von periodischen Impulsen deren Amplitude denen des Audiosignals an dieser Stelle entspricht. Wir vergleichen das mit oben. Ein zeitdiskretes Signal hat ein periodisches Spektrum. Also wird das originale Spektrum unendlich oft widerholt. Und nun sieht man auch warum die Abtastfrequenz größer sein muss als die größte im Signal enthaltene Frequenz. Wäre dem nicht so würden sich die Spektren überlappen und eigentlich hohe Frequenzen erscheinen plötzlich als tiefe Frequenzen. Denn nennt man Aliasing. Eine Analogie dazu sind die scheinbar rückwärts laufenden Räder in Filmen. Die hohe Frequenz des tatsächlichen Raddrehens wird nur 24 mal in der Sekunde abgetastet was dann zu einer langsamen oder eben gar rückwärts laufenden scheinbaren Drehung führt. Das digitale Audiosignal sind genau diese periodischen Impulse, die aus dem originalen Signal durch Abtastung gewonnen worden. Natürlich laufen diese Impulse nicht durchs Kabel - könnten sie auch nicht, da keine Kabel unendlich hohe Frequenzen übertragen kann - sondern die werden schlicht als Zahlenwerte gespeichert. Um das originale Audiosignal zu gewinnen muss man nur die oberen Frequenzbänder wegfiltern und erhält automatisch das originale Audiosignal bestehend nur noch aus dem Basisband.

Die Mathematik dahinter ist gar nicht so wichtig. Es ist aber wichtig zu begreifen, dass digitales Audio theoretisch perfekt ist. Es wird weder zerhackt, noch treppenartig noch sonst was, sondern eine perfekte vollständige Darstellung des (bandbegrenzten) originalen Audiosignals. Das gilt insbesondere auch für die Phasenlage des Signals. Die Phase ist nicht wie oft gehört nur 1/44100s genau aufgelöst, sondern sie ist perfekt 1:1 entsprechend des Originals.

1.3. Quantisierung

1.4. Darstellung im Audioprogramm

1.5. Resümee