Sie sind hier

Gibt es absolute Information?

Ich bin überzeugt, dass Information das fundamentale Konzept unserer Welt ist. Sie bestimmt, was gesagt werden kann, aber auch, was Wirklichkeit sein kann. In der üblichen Auffassung des Physikers und im täglichen Leben existiert die Wirklichkeit da draußen primär; durch diese Wirklichkeit spazieren wir wie über eine Bühne, und die Information, die wir darüber haben, ist ein sekundäres Konzept. In der Quantenphysik – zumindest in bestimmten Situationen – ist nach meiner Überzeugung die Information das Primäre: das, was gesagt werden kann.
[Zeilinger]

Was ist eigentlich Information?

Nach der Informationstheorie von C. E. Shannon ist der Informationsgehalt \(I\) einer Nachricht über das Eintreffen einer von \(N\) möglichen Alternativen
\begin{equation}
I = \log_2 N
\end{equation}
Beispiel: Wenn nur die Auswahl einer einzigen Farbe aus den Farben {rot, grün, gelb, blau} möglich ist, hat man 4 Alternativen. Um eine Mitteilung über die ausgewählte Farbe zu kodieren sind 2 Bit notwendig. Die Information \(I\) ist eine positive reelle Zahl, die Anzahl der Alternativen muss keine Zweierpotenz sein.

Die Deutung der Alternativen als Ergebnis zufälliger Vorgänge führt auf die allgemeinere Shannon-Entropie. Wenn die Alternative \(i\) mit der Wahrscheinlichkeit \(p_i\) eintreten kann, dann bedeutet eine Mitteilung über ihr Eintreten die Information \(I_i = -\log_2 p_i\). Der mittlere Informationsgewinn \(H\), der Erwartungswert, ist
\begin{equation}
H = - \sum_{i=1}^{n} p_i \log_2 p_i
\end{equation}
Wenn ein Ereignis sicher ist, dann gewinnt man durch eine Mitteilung über sein Eintreten \(-1 \log_2 1 = 0\) Information.

Bei \(N\) gleich wahrscheinlichen Ereignissen ist die Wahrscheinlichkeit des Einzelereignisses \(p_i = \frac{1}{N}\). Der Erwartungswert ist dann \(H = - N \frac{1}{N} \log_2 \frac{1}{N} = \log_2 N = I\).

Semantische Ebenen der Information

Die Kodierung der Nachricht „Das Haus ist gelb.“ in einem ISO-8859 Zeichensatz beansprucht, da sie aus 18 Zeichen besteht, 18 Byte = 144 Bit. Für einen Digitalrechner, der diese Nachricht übertragen soll, hat sie einen Informationsgehalt von 144. Wenn du diese Nachricht erhältst, hat sie für dich auch den Informationsgehalt 144? Natürlich nicht! Das sieht man schon daran, dass die Nachricht genauso gut in einem UTF-16 Zeichensatz hätte übertragen werden können, dann hätte sie für den Rechner einen Informationsgehalt von 18 * 2 Byte = 288 Bit. Welchen Informationsgehalt hat diese Nachricht für einen Menschen?

Beispiel: Um die Sache nicht allzu kompliziert zu machen stellen wir uns vor, ein Kleinkind mit asiatischen (gelben) Eltern wäre der Empfänger der Nachricht. Es hat bisher lediglich 4 Substantive gelernt: {Mama, Papa, Auto, Haus}. Daneben kennt es bereits die Farbwörter {rot, gelb, blau}. Aus seinem Dorf, bestehend aus 3 Häusern, ist es noch nie hinausgekommen. Dort gibt es nur 2 Autos. Wenn alle Kombinationen gleich wahrscheinlich sind, wenn also „Das Haus ist gelb.“ genauso wahrscheinlich ist wie „Der Papa ist blau.“, dann gibt es in der kleinkindlichen Sprachwelt \((1+1+3+2) \cdot 3\) gleich wahrscheinliche Nachrichten und jede Nachricht hat die Information \(I = \log_2 21 \approx 4,4\).

Wir wissen, dass die Bedeutung von Nachrichten im Empfänger entsteht. Für einen Rechner, der eine Nachricht nur unverfälscht übermitteln soll, hat jedes Bit immer nur die Bedeutung „da ist etwas gesetzt“ oder „da ist etwas nicht gesetzt“. Für das Kleinkind hat die Nachricht „Das Haus ist gelb.“ eine ganz andere Bedeutung. Ein Buch enthält Sätze. Zuweilen werden im Alltag Fragen gestellt wie „was bedeutet dieser Satz?“ Die richtige Antwort ist immer: „nichts!“ Die Frage ist falsch gestellt, sie müsste eigentlich lauten: „was bedeutet dieser Satz für dich jetzt und hier?“ Die Antwort des Gefragten ist wieder eine Nachricht ohne Bedeutung, gegeben in der Hoffnung, dass die Bedeutung im Empfänger ähnlich der Bedeutung im Absender wird. Wenn beide das Gefühl haben, die Bedeutungen in Sender und Empfänger seien gleich, dann projizieren sie diese Bedeutung in die Nachricht hinein und tun so, als ob eine Nachricht etwas bedeuten könnte. Dieser Text hier hat also keine Bedeutung und ist nichts weiter als der kunstvolle Versuch, mittels einer Nachricht in einem fremden Verstand bestimmte Wirkungen zu verursachen.

Die sprachgestützte Vorstellungswelt eines Erwachsenen bietet natürlich viel mehr zur Auswahl als die eines Kleinkindes, und für ihn hat die gleiche Nachricht eine vielfach höhere Information. Der Informationsgewinn kann von der Tagesform des Erwachsenen abhängen. Eine Nachricht kann in verschiedenen Umgebungen für ihn ganz unterschiedliche Informationsgewinne bedeuten.

Nach allem scheint Information eine sehr subjektive Sache zu sein.

Es folgt dann, daß die Maßzahl der Information relativ auf zwei semantische Ebenen, eben die der zugrundegelegten Makro- und Mikrozustände definiert ist. Ein „absoluter“ Begriff der Information hat keinen Sinn; Information gibt es stets nur „unter einem Begriff“, genauer „relativ auf zwei semantische Ebenen“. [Weizsäcker 5.4]

Weizsäcker bezieht sich dabei offensichtlich auf die statistische Mechanik und die „Erklärung“ von Gesetzen der phänomenologischen Thermodynamik durch sie.

Information in der Natur?

Die Informationstheorie hat sich als gewinnbringend für menschliche Ziele erwiesen. Wenn sie so gewinnbringend ist, muss sie irgendetwas mit der Welt zu tun haben, oder nicht? Um diese Frage zu untersuchen, hinterfragen wir den Informationsbegriff zunächst weiter. Nützlich ist dabei dieser Hinweis:

Wenn wir irgendetwas in der Natur beschreiben wollen, müssen wir die Welt in zwei Teile separieren: in das System, das wir eigentlich beschreiben möchten, und seine Umgebung, d.h. den Rest der Welt.
[Amann 2.1]

Die Frage, die uns beschäftigt, ist: ist in der Welt Information oder erfinden wir Information nur für unsere praktischen Zwecke? Wenn wir die Einteilung der Welt in Alternativen nicht postulieren wollen, dann bietet sich als schwächere Begrifflichkeit diese Herangehensweise an: wenn wir uns die Welt in 2 Teile A und B getrennt denken, dann bedeutet Information im Teil A die Vielfältigkeit, mit der Teil A den Zustand des Teils B verändern kann. Das ist der Informationsgehalt des Teils A.

Sollte es in A punktförmige Teilchen geben, die sich in einem kontinuierlichen Raum mit kontinuierlichen Impulsen bewegen, dann enthielte A immer unendlich viel Information, denn durch das Kontinuum kann jedes Teilchen an unendlich vielen Orten in A sein und unendlich viele verschiedene Impulse haben. Jedes Teilchen könnte die Restwelt auf unendlich viele Arten verändern und stünde für unendlich viel Information.

Dennoch lässt sich solch ein kontinuierlicher Weltzustand in der Vorstellung rastern, so dass er nur noch endlich viele Kombinationen von Orts- und Impulswerten erlaubt. Über solch einen gerastert gedachten Zustand lassen sich Mitteilungen verschicken, die weniger als unendlich viele Bits zur Kodierung benötigen. Wenn wir solch eine Nachricht zum Beispiel durch den Abstand \(a\) zweier Teilchen kodieren wollten, dann könnten wir den kompletten Zustand von A, der ja in der Vorstellung nur abzählbar endlich viele Werte annehmen kann, mit nur 2 Teilchen in beliebiger Genauigkeit an B übertragen. Natürlich müssten wir unendliche Wertebereiche von Impulsen \([- \infty, \infty]\) zunächst auf endliche transformieren. Das ist mathematisch überhaupt kein Problem und könnte zum Beispiel von einem \(\arctan\) erledigt werden.

Schon vor mehr als 2000 Jahren äußerten Philosophen Bedenken über die unendlich feine Teilbarkeit:

Nur scheinbar hat ein Ding eine Farbe, nur scheinbar ist es süß oder bitter; in Wirklichkeit gibt es nur Atome und leeren Raum. [Wikipedia 2013: Demokrit]

Assume that the matter is not made of indivisible atoms, and that it is continuous. Take a stone. One can divide this up into infinitely many pieces (since matter is continuous). Now, the Himalayan mountain range also has infinitely many pieces, so one may build another Himalayan mountain range with the infinite number of pieces that one has. One begins with a stone and ends up with the Himalayas, which is a paradox - so the original assumption that matter is continuous must be wrong, and so all objects must be made up of a finite number of paramāṇus (atoms). [Wikipedia 2013: Vaiśeṣika]

Wir halten fest: eine kontinuierliche Raumzeit

  • lässt alle unsere Vorstellungen von Information in einem subjektiven, willkürlichen Licht erscheinen.
  • erlaubt eine geradezu groteske Verdichtung von Information.

Beides könnte man schon fast paradox nennen.

Ein erster Fingerzeig aus der statistischen Mechanik

Die Entropie der phänomenologischen Thermodynamik ist eine kontinuierliche extensive Größe. „Extensiv“ heißt, dass sie mit wachsender Stoffmenge wächst. Die klassische statistische Mechanik erlaubt die Herleitung der phänomenologischen Markoentropie aus mirkomechanistischen Vorstellungen heraus. Diese statistische Theorie muss natürlich die richtigen Zahlenwerte für die thermodynamischen Makrogrößen liefern können. Eine wesentliche Rolle spielt dabei eine mit dem Volumen des 6n-dimensionalen kontinuierlichen Phasenraums (von n gleichen Teilchen) in Beziehung stehende Größe \(\Phi\). Die richtigen Ergebnisse liefert diese Formel [Becker (35.3)]:
\begin{equation}
S = k \ln{ \Phi } \quad \quad \Phi(E, V, N) = \frac{1}{ h^{3n} n! } \idotsint_{\mathscr{H} < E} dp_1 dq_1 \dots dp_{3n} dq_{3n}
\end{equation}
Das Volumen des Phasenraums unterhalb einer Grenze \(E\) für die Gesamtenergie ist darin \(\idotsint_{\mathscr{H} < E} dp_1 dq_1 \dots dp_{3n} dq_{3n}\).
Bemerkenswert ist das Auftauchen des Plankschen Wirkungsquantums im Nenner. Der Logarithmand entspricht einer Anzahl von Alternativen in der Informationstheorie. Es scheint so zu sein, als würde die Planksche Konstante uns diese Zahl für jedes Paar kanonischer Variablen \(p, q\) aus dem Kontinuum seiner Phasenraumfläche herausschälen, als müssten Phasenraumflächen aus Elementarflächen der Größe h aufgebaut werden, wobei die genaue Gestalt der Flächen unerheblich ist. Nur deren Zahl spielt eine Rolle.

Die Wahrscheinlichkeitsinterpretation der Quantentheorie

Wenngleich nicht ausgemacht ist, ob wir uns am Ende auf die Seite der Wahrscheinlichkeitsinterpretation schlagen werden, muss man sie kennen. Im Praktischen funktioniert sie bestens in dem Sinn, dass die als Wahrscheinlichkeiten interpretierten Zahlen, die aus der QT herausfallen, hervorragend zu wahrgenommenen Häufigkeiten passen - wenn man sein Experiment entsprechend aufbaut.

Ein Quantenzustand lässt sich normalerweise auf unendlich viele Arten nach Basisvektoren \(\{u_i\}\) entwickeln: \( \psi = \sum_i a_i u_i \ = \sum_i b_i v_i = ...\) Der Quantenzustand beschreibt den Zustand „des Systems“ vollständig. Genau in diesem „System“ liegt aber schon das erste Problem: es fasst wenige Variablen und Vektorkomponenten zusammen und betrachtet sie als eine vom Rest als abtrennbare Welt. Weiter unten werden wir sehen, dass nur ein System dauerhaft einen Zustand haben kann: die Welt. Doch weiter im Text...

Die Erfahrungen mit den Doppelspalt- und Stern-Gerlach Experimenten usw. haben dann diese Interpretation nahegelegt:

  • Nach der Messung befindet sich das System in einem Eigenzustand des Messoperators. Bei einer wiederholten Messung wird mit Sicherheit der Eigenwert gemessen, so lange bis ein mit dem Messoperator unverträglicher - nicht kommutierender - Operator auf das System angewendet wird.
  • Befindet sich das System bei der Messung nicht in einem Eigenzustand des Messoperators, dann liefert eine Messung mit dem Messoperator eine zufällige Verteilung der Eigenwerte.

Die erste Frage, die sich stellt, ist: wann ist ein Operator \(\hat{O}\) ein Messoperator? Erstens muss er hermitesch sein, damit er reelle Messwerte liefern kann. Zweitens muss er linear sein. Und drittens muss er einer klassischen(!) Größe entsprechen - so jedenfalls in den Anfängen der Quantenmechanik.

Für ein Wahrscheinlichkeitsmaß muss gelten, dass die Summe der Wahrscheinlichkeiten \(p_i\) für das Eintreten aller möglichen Alternativen 1 ist: \( \sum_i p_i = 1 \). Die Messwerte liefert in der Theorie ein Eigenvektor \(| o_i >\) von \(\hat{O}\) genauso gut wie ein Eigenvektor \(4711 \cdot | o_i >\). Doch damit diese Kette für den Erwartungswert einer Messung
\begin{equation}
<\hat{O}>_{\psi} = <\psi |\hat{O} \psi> = \sum_{i,j} a_i^* a_j o_j < o_i | o_j > = \sum_i |a_i|^2 o_i := \sum p_i o_i
\end{equation}
Bestand haben kann, müssen erstens normierte Vektoren verwendet werden, und \(\hat{O}\) muss ein linearer Operator sein (für das 2. Gleichheitszeichen). Eine Quantentheorie mit nichtlinearen Operatoren gerät demnach als erstes in Konflikt mit der Wahrscheinlichkeitsinterpretation.

Die Operatoren wurden zunächst über ein Korrespondenzprinzip erhalten. Ausgehend von der theoretischen Mechanik mit ihren kanonischen Koordinaten \(q_i\) und \(p_i\) sollten die Operatoren der Quantenmechanik aus den Größen der klassischen Mechanik durch folgende Vorschrift erhalten werden:
\begin{equation}
q_i \mapsto q_i \quad\quad p_i \mapsto -\mathrm i \hbar \frac{\partial}{\partial q_i}
\end{equation}
Eine entsprechende „kanonische Quantisierungsvorschrift“ gibt es natürlich auch für kanonische Feldvariable und über diesen Weg gelangte man zu den ersten Quantenfeldtheorien.

In der ursprünglichen Wahrscheinlichkeitsinterpretation werden Vorstellungen über die Natur, die aus der klassischen Physik des 19. Jahrhunderts stammen, nicht in Frage gestellt. Die Quantenmechanik wird zu einem Lieferanten für Wahrscheinlichkeiten von klassischen Ereignissen heruntergestuft. Irgendwo in einem nebulösen Bereich, an einem heisenbergschen Schnitt allerspätestens kurz vor dem Bewusstsein, soll der Übergang von der Quantenwelt in die klassische Welt stattfinden.

Die kanonische Quantisierung liefert uns heute keine neuen Theorien mehr. Bis heute ist es nicht gelungen, die allgemeine Relativitätstheorie einer kanonischen Feldquantisierung zu unterziehen. Wenn heute eine Theorie gebaut wird, geht man anders vor: ausgehend von Symmetrien, an die man glaubt, weil die Experimente sie nahelegen, bastelt man Gleichungen zusammen, die diese Symmetrien erfüllen. Und mit dem Prinzip der lokalen Symmetrien gelangt man zu den Eichbosonen dieser Symmetrien, die nichts weiter als weitere Feldvariable in den Gleichungen sind. Der jüngste Erfolg solchen Vorgehens ist der Higgsmechanismus. Dabei lokalisiert man Stand heute nur kontinuierliche Symmetrien wie die Translationsinvarianz und die U(1), SU(2) und SU(3) Gruppen des Standardmodells. Die Lokalität der Metrik in der allgemeinen Relativitätstheorie legt jedoch nahe, dass auch diskrete Symmetrien wie die Parität in zukünftigen Theorien einen lokalen Charakter bekommen müssen.

Dichteoperatoren

An anderer Stelle haben wir gesehen, dass es abtrennbare Systeme so nicht gibt, dass es immer viele Sichten gibt, in denen ein Zustand mit wenigen Variablen und Komponenten verschränkt mit dem Rest ist. Für unsere Welt heißt das, dass ihr Zustand nicht als \( | A > \otimes | B > \) geschrieben werden kann. Dennoch lassen sich Apparate bauen, die sich bestimmte Variablen aus A herauspicken und sich daran ankoppeln. A wird dann als „offenes Quantensystem“ bezeichnet.

Für eine abgeschlossene Welt gibt es einen Zustand (wenigstens in der Theorie). Wenn die \( u_i \) keine Eigenvektoren von \(\hat{O}\) sind, dann lässt sich der Erwartungswert eines auf die Welt angewendeten Operators so ausdrücken
\begin{equation}
<\hat{O}>_{\psi} = \sum_{i,j} a_i^* a_j < u_i | \hat{O} u_j >
\end{equation}
Natürlich können wir keinen Operator auf die Welt von außerhalb der Welt anwenden. Aber dies ist der erste Schritt zur Definition einer Dichtematrix
\begin{equation}
\rho_{ji} := a_i^* a_j \quad\quad \rho = a \otimes a^*
\end{equation}
Sie ist das Tensorprodukt des konjugiert komplexen Vektors der Entwicklungskoeffizienten mit dem Vektor der Entwicklungskoeffizienten. Nicht jede Matrix lässt sich als ein solches Tensorprodukt schreiben
\begin{equation}
\frac{1}{\sqrt{2}} \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} \neq \begin{pmatrix} |a_1|^2 & a_1^* a_2 \\ a_2^* a_1 & |a_2|^2 \end{pmatrix}
\end{equation}
Nun haben wir also Operatoren, die wir nicht auf die Welt anwenden können, weil wir nicht aus ihr heraustreten können, und eine neue mathematische Darstellung ihrer Erwartungswerte mit einer Dichtematrix, die nicht wirklich etwas neues bringt. Was soll das?

Ein Schlenker über die Geschichte der Quantenstatistik: in den Zeiten, als man an der klassischen Vorstellungswelt festhielt, war es naheliegend zu denken, dass auch Quantenexperimente mit klassischen Zufallsschwankungen präpariert werden, wie eben alle anderen Experimente auch. Um dies abzubilden, führte man „gemischte Zustände“ ein. Obigen Dichteoperator eines reinen Zustands kann man im Hilbertraumformalismus als \( | \psi > < \psi | \) ausdrücken. Gemischte Zustände bilden sich durch die Gewichtung solcher Quantenzustände mit klassischen Wahrscheinlichkeiten: \( \sum_i p_i | \psi_i > < \psi_i | \). Dadurch erhält man Dichtematrizen, die nicht mehr als Tensorprodukt zerlegbar sein müssen. Und der Erfolg gibt Recht: mit den erhaltenen Formeln konnte man z.B. Spinstatistiken erklären.

Ausgehend von der Vorstellung einer reinen Quantenwirklichkeit kann man nicht mehr einfach klassische Wahrscheinlichkeiten über den Formalismus der Quantentheorie stülpen, auch wenn es am Ende funktioniert. Vielmehr muss das Zustandekommen der klassischen Wahrscheinlichkeiten aus der Quantentheorie heraus erklärt werden.

Den Erwartungswert eines Operators, der nur auf eine Teilwelt, auf ein „offenes Quantensystem“, wirkt, haben wir schon im Kapitel über die Masse bemüht:
\begin{equation}
<\hat{O}> = < \Xi | \hat{O} \otimes \hat{1} | \Xi > = \sum_{n,m} \sum_{r,s} c_{nm}^* c_{rs} <\psi_n | \hat{O} | \psi_r > < \phi_m | \phi_s > = \sum_{n,m,r} c_{nm}^* c_{rm} <\psi_n | \hat{O} | \psi_r >
\end{equation}
In diesem Fall lässt sich eine Dichtematrix \( \rho_{ji} := \sum_m c_{im}^* c_{jm} \) definieren, die kein Tensorprodukt aus Entwicklungskoeffizienten mehr ist, aber das passende Mittel, um Erwartungswerte von Weltteilen zu bilden, die keinen Zustandsvektor für sich besitzen. Das ist ein Schritt hin zu Dichtematrizen, die zur Erklärung makroskopischer Beobachtungen notwendig sind. Ein weiterer Schritt kann die dynamische Entwicklung der Dichtematrizen sein, wie sie durch das Zusammenwirken von A mit B angetrieben wird. Dies ist Gegenstand aktueller Forschung (z.B. Dekohärenztheorie)! Statistische Physik ist nicht leicht, Quantenmechanik weit entfernt von unserer Alltagsvorstellungswelt und Quantenfeldtheorie noch mal so weit davon entfernt. So darf man sich nicht wundern, dass wir noch keine Begründung des Funktionierens der „alten“ Quantenstatistik aus einer statistischen Quantenfeldtheorie heraus haben.

Ein einfaches Beispiel

Ein Experimentator kann ein „Quantensytem“ in zwei verschiedenen Ausganszuständen präparieren. Die alte Sichtweise stülpt der Quantentheorie eine klassische Statistik über: die Wahrscheinlichkeit für die Präparation in Zustand 1 sei \(p_1 = \frac{1}{2}\), für die in Zustand 2 folglich \(p_2 = 1 - p_1 = \frac{1}{2}\). Deswegen berechnet er den Erwartungswert für eine Messung gewichtet mit klassischen Wahrscheinlichkeiten:
\begin{equation}
< \hat{O} > = \sum_i p_i < \psi_i | \hat{O} \psi_i > = \sum_i p_i < \hat{O} >_{\psi_i}
\end{equation}
Daraus kann er sich eine Dichtematrix definieren, die keinem Zustand entspricht:
\begin{equation}
\rho = \sum_i p_i \rho_i
\end{equation}
Wodurch sich der Erwartungswert so schreiben lässt:
\begin{equation}
< \hat{O} > = \sum_{i,j,k} p_i (\rho_i)_{jk} O_{kj} = \mathrm {Spur} ( \hat{\rho} \hat{O} )
\end{equation}
Angenommen, die präparierten Zustände seien Eigenzustände von \(\hat{O}\), dann sind die einzelnen Dichtematrizen \( \begin{pmatrix} 1&0 \\ 0&0 \end{pmatrix}\) und \( \begin{pmatrix} 0&0 \\ 0&1 \end{pmatrix}\) und seine Gesamtdichtematrix ist \( \begin{pmatrix} \frac{1}{2} & 0 \\ 0 & \frac{1}{2} \end{pmatrix}\).

Betrachtet er sein System aber als „offenes Quantensystem“, dann muss er seinen Erwartungswert durch Ausspuren der Freiheitsgrade der Restwelt berechnen. Das Ergebnis hängt natürlich vom Zustand der Restwelt ab. Wenn der Experimentator nur mit der Restwelt verschränkte Bell-Zustände präparieren kann
\begin{equation}
\Xi = \frac{1}{\sqrt{2}} ( \psi_1 \otimes \phi_1 + \psi_2 \otimes \phi_2 )
\end{equation}
dann sind die Entwicklungskoeffizienten \(c_{ij}\)
\begin{equation}
c_{11} = c_{22} = \frac{1}{\sqrt{2}} \quad\quad c_{12} = c_{21} = 0
\end{equation}
und sein Dichteoperator wird derselbe wie oben \( \begin{pmatrix} \frac{1}{2} & 0 \\ 0 & \frac{1}{2} \end{pmatrix}\), ohne dass dem Formalismus der Quantentheorie klassische Wahrscheinlichkeiten übergestülpt werden mussten.

Die Dekohärenztheorie liefert Modelle, die eine Diagonalisierung der Dichtematrix in der zeitlichen Entwicklung voraussagen. Ein ursprünglich entschränkter Zustand der Teilwelt A wird durch Wechselwirkung mit der Umgebung B sehr schnell verschränkt. In welcher Basis die resultiertende Dichtematrix diagonalisiert wird, hängt von der Art der Wechselwirkung ab. Bei abstandsabhängigen Wechselwirkungen tritt in der Regel eine Diagonalisierung in der Ortsbasis ein, wodurch Dinge an Orten gewichtet mit klassischen Wahrscheinlichkeiten erscheinen.

Anmerkung: eine Dichtematrix ist hermitesch und immer diagonalisierbar. Die Diagonalisierung einer Dichtematrix eines reinen Zustands liefert einen Pojektor auf den reinen Zustand \( | \psi >< \psi | \), in Matrixform also eine Matrix mit einer einzigen 1 in der Diagonale.

\begin{equation}
\begin{pmatrix} |a_1|^2 & a_1^* a_2 \\ a_2^* a_1 & |a_2|^2 \end{pmatrix} \xrightarrow[\Delta t]{Dekohärenz} \frac{1}{\sqrt{2}} \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}
\end{equation}

Die Wechselwirkung kann unerwünscht sein und einen dauerhaft entschränkt gewollten A-Zustand zerstören. Dies ist z.B. der Fall bei Quantencomputern. Die Wechselwirkung kann aber genauso erwünscht sein in einem Detektor wie einer Blasenkammer, die Teilchenspuren erscheinen lässt.

Qubits und Quanteninformation

Der Begriff „Qubit“ ist gar nicht so leicht zu fassen. Klar ist, dass es dabei um einen Zustand in einem zweidimensionalen Hilbertraum geht, oder um einen Zustand in einem mehrdimensionalen Hilbertraum, wobei unter Menschen ein Abkommen geschlossen wurde, nur 2 Dimensionen davon zu benutzen. Wenn man es genau genug betrachtet, liegt meistens der letzte Fall vor. Ein Beispiel dafür ist ein Ion in einer Ionenfalle, das so benutzt wird, dass nur der Grundzustand und der 1. optisch angeregte Elektronenzustand verwendet werden, aber keine Kernanregungszustände und keine höher angeregten Elektronenzustände. Ein Qubit ist die kleinste Quanteninformationeinheit.

Sofort drängt sich die Frage auf, warum ein eindimensionaler Zustand keine Information darstellen können soll. Ein eindimensionaler Zustand könnte zum Beispiel der S0-Zustand eines Helium-Ions in einer Penning-Falle sein. Wenn Alice an Bob Information übertragen will und das nur mit eindimensionalen Hilbertraumvektoren tun kann, dann hat sie die Wahl zwischen genau einem Vektor, einem von vielen identischen Helium-Ionen im S0-Zustand. Damit weiß Bob sicher, was ankommen wird und gewinnt null Information: er sieht immer nur S0-Zustände ankommen, also eine reine Folge aus Nullen (oder Einsen, je nach getroffener Kodierungsvereinbarung). Doch ganz so einfach ist es nicht...

Der eindimensionale Zustand ist in der Wahrscheinlichkeitsinterpretation auf 1 normiert. Damit ist die mathematische Funktion des S0-Zustands fast vollständig festgelegt bis auf eine Phase, d.h. den Teil \(e^{i\phi}\) der komplexen Zahl in der Polardarstellung. Insgesamt schickt Alice also \(e^{i\phi} \psi_{100}\) auf den Weg, wenn \(\psi_{100}\) nur den Realteil bezeichnet, und könnte in \(\phi\) unendlich viel Information unterbringen. Doch Bob kann sie nicht herausbekommen. Zuweilen liest man, auch noch in Schriften, die erst in diesem Jahrtausend entstanden sind, dass die Phase der Wellenfunktion keine physikalische Bedeutung hätte. Das ist falsch!

Ein Quantenrechner ist ein Teil der Welt, entschränkt vom Rest, der gezielt unitäre Transformationen auf die entschränkten Zustände anwendet und dabei tunlichst darauf achten soll, dass sie entschränkt bleiben, dass also nicht unabsichtlich Information in diese hineingelangt oder aus ihnen herausgenommen wird - die größte technische Herausforderung beim Bau von Quantencomputern. Die unitären Transformationen rechnen mit den Hilbertraumvektoren so wie sie sind, dadurch sind sie potentiell in der Lage dazu, unendlich viele Eingangswerte auf einmal zu verarbeiten. Das ist ihre überlegene Kraft gegenüber herkömmlichen Rechnern. Sie rechnen auch mit den Phasen. Würde man die Phasen aus der Quantentheorie herausnehmen, dann könnte man die Erscheinungen, die sie jetzt erklären kann, nicht mehr erklären können.

Wieso stellt ein eindimensionaler Hilbertraumvektor trotzdem null Information für uns dar? Der Grund dafür ist die Zweischichtigkeit der Quantentheorie. In der unteren Schicht leben die Hilbertraumvektoren. Die obere Schicht der Quantentheorie lebt dagegen in der Welt der ausgedünnten Information. Wie wir bei der Wahrscheinlichkeitsinterpretation gesehen haben, gibt es irgendwo auf dem Weg in unser Bewusstsein einen Ausdünnungsschritt, sei es ein Kollaps der Wellenfunktion oder was auch immer für einen Prozess, der dafür sorgt, dass letztlich nur Absolutquadrate von Skalarprodukten vor dem Bewusstsein erscheinen. Dadurch verschwindet die Phase für diese Schicht. Und es verschwindet noch mehr...

Alice braucht also mindestens 2 Vektoren zur Auswahl, die sie Bob schicken kann. Nehmen wir an, sie lauten \(\psi_1\) und \(\psi_2\). Selbstverständlich kann sie irgendeinen Vektor aus dem zweidimensionalen Hilbertraum auf den Weg schicken: \(\psi = a_1\psi_1\ + a_2\psi_2\). Der Vektor ist normiert. Die a-Koeffizienten sind komplexe Zahlen, damit könnte Alice noch 3 reelle Zahlen frei festlegen. Zwei davon sind Phasen, doch eine davon steht für das Mischverhältnis der beiden Vektoren. Wenn Bob in der \(\{ \psi_1, \psi_2 \}\) Basis misst, dann erhält er nur entweder \(\psi_1\) oder \(\psi_2\) als Ergebnis einer „Messung“, mit den Wahrscheinlichkeiten \(|a_1|^2\) bzw. \(|a_2|^2\). Da die Qubit-zerstörende Messung nicht wiederholt werden kann, kann Bob keine Häufigkeiten ermitteln und damit nicht auf das Mischverhältnis zurückschließen, das Alice gewählt hat. Das Beste, was die beiden treiben können, ist, die gleiche Basis zu verwenden und nur \(\psi_1\) und \(\psi_2\) auf den Weg zu schicken. Dann kann Bob davon ausgehen, dass wenn er \(\psi_1\) sieht, Alice \(\psi_1\) mit Sicherheit auf den Weg geschickt hat. Damit bedeutet ein Qubit unendlich viel Information für die untere Schicht, doch genau 1 Bit klassische Information für die obere Schicht.

Ein Beispiel dafür, was geschieht, wenn Alice mit 3 Vektoren eines zweidimensionalen Hilbertraums arbeiten will, findet sich in der Bibliothek [Preskill 5.4.2].

Neumannsche Entropie

Die Entropiedefinition der Quantentheorie greift zurück auf den Dichteoperator \(\rho\) und ähnelt augenscheinlich der Shannon-Entropie.
\begin{equation}
S=-\mathrm {Spur} (\rho \ln \rho)
\end{equation}

Die Neumannsche Entropie lebt in der unteren Schicht der Quantentheorie, die Shannonsche in der oberen. An der Kontaktstelle entstehen zwischen beiden Beziehungen, die von Preskill „Messungsentropie“ und „Vorbereitungsentropie“ genannt werden [Preskill 5.2.1 (5) & (6)]. Wichtig für unser Problem ist diese Ungleichung:
\begin{equation}
S \leqslant H
\end{equation}
Wenn man es geschickt anstellt, kann man klassische Bits quasi 1:1 an Qubits koppeln.

Ein reiner Zustand hat die Neumannsche Entropie 0. Damit hätte der Weltzustand die Entropie 0 und würde sie durch unitäre Zeitentwicklung für immer behalten!

An dieser Stelle muss eine Warnung ausgesprochen werden: die Quanteninformationstheorie und die Dekohärenztheorie werden heutzutage fast immer in der Sprache der nichtrelativistischen Quantenmechanik dargestellt. Der Grund dafür ist einfach, dass die Mathematik in der relativistischen Quantenfeldtheorie vielfach schwieriger wäre. Die Erkenntnisse aus diesen beiden Theorien auf den gesamten Kosmos anzuwenden, ist deswegen natürlich sehr gefährlich. Es gibt in einer relativistischen Theorie keine unitäre Zeitentwicklung mehr für die Gesamtwelt. Weiterführend z.B. [Lee Chang-Young].

Die Bekenstein-Hawking Entropie schwarzer Löcher

bla bla ... nicht-rotierend -> Schwarzschild Grundzüge der Argumentation von Bekenstein wiederholen, Temperatur gibt es auch ...

Die Bekenstein-Hawking Entropie ist eine klassische Shannon-Entropie. Aufgrund des vereinnahmenden Wesens der Quantentheorie müssen aber auch schwarze Löcher quantentheoretisch beschrieben werden. Stand heute gibt es noch keine widerlegbare Theorie, die das leisten kann. Im Sinne unserer obigen Betrachtung entspricht ein schwarzes Loch einem abgeteilt gedachten Bereich A mit einer „Grenze“, die man sich klassisch als Ereignishorizont vorstellen kann. Quantentheoretisch stellt das schwarze Loch mit dem Außenbereich zusammen einen reinen Zustand in einem Hilbertraum dar, der null Entropie hat. Durch die gedachte Teilung am Ereignishorizont und die gleichzeitig anhaltende Verschränkung mit der Außenwelt wird das schwarze Loch zu einem „offenen Quantensystem“ und sein Teilzustand muss durch eine Dichtematrix beschrieben werden, die keinem reinen Zustand entspricht und somit klassische Wahrscheinlichkeiten erscheinen lässt. Das ist die quantentheoretische Erklärung dafür, warum ein schwarzes Loch Entropie haben muss. Die Bekenstein-Hawking Entropie ... Ungleichung s.o. -> Neumann-Entropie.

Informations-Paradoxien

2. Penrose-Papier SL soll reinen Zustand haben und sich unitär in Hawking-Strahlung wandeln, die gemischt sein soll. (Auflösen!)

1. delta S > 0 wider Zeitumkehrinvarianz. Auflösen mit Beispiel 2 harmonische Oszi Verdacht: mit r,R und r1,r2 Koordinaten kommt mal Entropie 0 heraus und mal > 0. Entropie ist subjektiv. Die Obergrenze objektiv?

3. klassische Thermo S extensiv ~m währen bei schwarzen Löchern ~M^2. Auflösen: Entropie ist eine Beziehung, so dass d(M^2) = 2 M dM entspricht M. Lineare Näherung = extensive Entropie.

Holografische Grenze, Bekenstein-Grenze, Bremermann-Grenze

Absolute Seins- oder Werdensinformation? M^2 Schw. Loch. M*m Görnitz. Braucht die Masse des Alls!

Görnitz Entropie des Protons, Quelle nennen! Falls nicht online => In Bibliothek stellen!

Die Entropie des Neutrons selber rechen?
als ideales klassisches Gas
als Fermi-Gas
als Bose-Gas?