Jump to content
HiFi Heimkino Forum

Jakob

Mitglieder
  • Gesamte Inhalte

    625
  • Benutzer seit

  • Letzter Besuch

Alle erstellten Inhalte von Jakob

  1. @ blackgate, wird eigentlich funktionieren. Masseausgleich ist ein wichtiger Punkt; handelt es sich um einen Verstärker mit einem Netzteil für beide Kanäle ist es aber i.a.R. relativ unkritisch- trotzdem schadet es nie, die Masseführung in Augenschein zu nehmen und sich zu vergewissern, daß sie ausreichend dimensioniert ist. Immerhin muß über diese Verbindung der doppelte Strom zwischen beiden Hälften fliessen. Die Verlustleistung kann in jedem Kanal auf das doppelte steigen- die Lüfteridee scheint gut, aber trotzdem würde ich anhand der Datenblätter prüfen, ob die Endtransistoren noch im erlaubten Bereich betrieben werden. Gruß
  2. Kobe den Nachweis des so kühn behaupteten nicht so recht antreten. So oder so ist aber an der Zeit, dem "unwürdigen Schauspiel" ein Ende zu bereiten. Vielleicht noch ein paar Gedanken zu Grundsätzlichem; wenn man die Axiome von Kolmogorov bemüht, darf man sich nicht dagegen sperren, daß es keine negativen Wahrscheinlichkeiten gibt. Deshalb verbietet sich Kobes Ansatz mit "p' = p + 0.5*(1-p)" Weiter kann man sich ebenfalls nicht dagegen sperren, daß eine "faire Münze" eine Erkennungswahrscheinlichkeit (=Trefferwahrscheinlichkeit) von 0.5 besitzt, denn daraus folgt gleichzeitig, daß diese Münze eine Misserfolgswahrscheinlichkeit von ebenfalls 0.5 besitzt. Da wir bei dem statistischen Test prüfen, ob ein Ergebnis auch hätte durch reines Raten erzielt werden können, prüfen wir die Nullhypothese p=0.5 . Für die Alternativhypothese ergeben sich zwei Möglichkeiten, sie kann zweiseitig sein, d.h. p ungleich 0.5, oder wie in den von Leventhal analysierten ABX-Versuchen, einseitig interessierend, d.h. p>0.5 . (Man kann vortrefflich darüber diskutieren, ob eine zweiseitige Alternativhypothese nicht sinnvoller sei, Leventhal schrieb dazu auch noch etwas) Wenn die Alternativhypothese nun p>0.5, dann folgt, unter der Prämisse, die Alternativhypothese sei wahr, daß p im Intervall >0.5 und <=1 liegt. Und genau aus diesem Bereich wählte Leventhal deshalb folgerichtig die Alternativwerte, um mögliche Fehler 2.Art berechnen zu können. Denn über den Fehler 2.Art kann man eine Risikoabschätzung machen und unter anderem eine sinnvolle Anzahl von Versuchen festlegen. Der aus dieser Berechnung folgende Vorwurf, die üblichen ABX-Tests mit n=16 legten einseitig ihr Augenmerk auf die Verringerung des Alpha-Fehlers ist ein rein statistisches; ein Ansatz, das p von Leventhal sei gar nicht das "richtige" p entbehrt jeglicher logischen Grundlage, denn die einzige Bedingung, die man an p stellen kann, ist eben, daß es >0.5 und <=1 zu sein habe. An diesem rein statistischen Argument kann man nichts aussetzen, welche Schlußfolgerungen sich daraus für die Praxis ergeben können, ist dann wieder etwas anderes. Ein möglicher Fallstrick liegt, darin, daß bei "ausreichend" großen Stichproben, selbst sehr kleine, für die Praxis irrelevante, Unterschiede signifikant werden. Hier gilt es, eine sinnvolle Abwägung zu treffen. Leventhal wies auch schon darauf hin, daß bei guter Erkennungswahrscheinlichkeit (p=0.9), bereits 16 Versuche unnötiger Aufwand seien, man sich lieber auf 10 beschränken könnte. Die sinnvollste Schlußfolgerung scheint mir, dafür zu sorgen, daß Testpersonen möglichst auch unter Testbedingungen zu hohen Erkennungswahrscheinlichkeiten kommen können. Eine Komponenete dabei wäre die Verwendung von Triple-Blind-Tests, um einen weiteren Teil der Erwartungshaltung auszublenden; eine weitere Komponente bestünde in einer Art Trainingsprogramm für Testpersonen, denn seit Olive gibt es deutliche Hinweise, daß Training selbst bei relativ großen Unterschieden (zwischen Lautsprechern) "segensreiche" Auswirkungen hat. Gruss P.S. Der von Leventhal verwendete Ansatz ist, wie schon häufiger erwähnt, absolutes Statistik-Grundwissen; Quellen wären nicht nur die bereits verlinkten Wikipedia-Seiten, sondern auch jedes zweite Statistikbuch, Uniskript etc. etc. . Leider wird nicht in jedem Text explizit erklärt, wie ein entsprechender Schritt auszusehen habe, die häufig verwendete Formulierung "eine Abschätzung der notwendigen Stichprobengröße erfolgt über die Gütefunktion" überfordert manchen wegen der notwendigen Transferleistung. Umso grotesker mutet die seit Jahren fortwährende, unerquickliche Diskussion über diese Grundlagen an.
  3. das Deine Behauptung belegt, ich hätte etwas geschrieben, daß den von Dir hier aufgeführten 4 Punkten widerspricht. Gaaanz, gaaanz, langsam solltest Du ein solches Zitat beibringen können und dieses sollte das behauptete vollkommen ohne eigenwillige "Kobesche Interpretationskapriolen" belegen können. " >1. Wahrscheinlichkeitstheoretische und statistische >Grundbegriffe >1.1. Kolmogorowsche Axiome > >(1) 0<= P(A) <= 1 >(Die Wahrscheinlichkeit eines Ereignisses liegt zwischen 0 und >1.)" Deshalb fragte ich Dich nach einem weiteren Wert für das von Dir eingeführte p' ; ich kopiere Dir nochmals die entsprechende Passage aus #117: "Du hattest einen ganz "eigenen" Ansatz. Zitat Kobe: "p' = p + 0,5 *(1-p)" und "Nehmen wir mal meine Formel, und setzen zuerst die 1 ein - Wir kommen auf 100% Treffer. Soweit schon mal ganz gut. Setzten wir die 0 ein (also eine Erkennungswahrscheinlichkeit von 0) dann kommen wir auf 50%... Huch! Genau die Wahrscheinlichkeit für 'Zufall' bzw. dass, was wir in diesem Fall erwarten würden!" Somit haben wir nach Deiner Idee also: p' = 1 für p = 1 p' = 0.5 für p = 0 p' = 0 für p = ?? Welchen Wert schlägst Du für p in diesem Fall vor, um auf ein p'=0 zu kommen?" "(2) P(E) = 1 >(Die Wahrscheinlichkeit des 'Sicheren Ereignisses' ist 1.) >(3) (ohne Fomel, da hier schlecht darstellbar: Die >Wahrscheinlichkeit einer Vereinigung abzählbar vieler >inkompatibler Ereignisse entspricht der Summe der >Wahrscheinlichkeiten der einzelnen Ereignisse.) > >Daraus folgt direkt (1. Folgerung durch einen Beweis; die >anderen 3 sind Axiome): >(4) P(NICHT A) = 1 - P(A) >und NICHT P(1 - A)..." > >Der Punkt wird in der Literatur WIRKLICH als (4) abgehandelt, >es ist also die ERSTE Folgerung in dieser ganzen >Wissenschaft... Und ich 'diskutiere' mit einem Tölpel, der DAS >NICHT versteht... HILFE!!!" Kobe leidest Du unter einer Wahrnehmungsstörung? (keine Spassfrage, auch nicht als unterschwellige Beleidigung gemeint), denn ich schrieb z.B. in#117: "....im Falle des Würfelwurfs beträgt die Wahrscheinlichkeit für den Wurf einer "6" (Erfolg) bei jedem Versuch p=1/6, die Wahrscheinlichkeit für das Eintreten des Komplementärereignisses "Nichtsechs" (Misserfolg) bei jedem Versuch beträgt q=1-p=1-1/6=5/6 ." d.h. mit p=P(A) und q=P(NICHT A) folgt P(NICHT A)=1-P(A), erkennst Du es wieder?? "Analog dazu das von mir angesprochene Vorgehen für die Erkennungswahrscheinlichkeit im Sinne von Leventhal. Die Wahrscheinlichkeit für einen "Treffer" (Erfolg) bei jedem Versuch kann z.B. p=0.6 betragen, dann beträgt die Wahrscheinlichkeit für das Eintreten des Komplementärereignisses "Nichttreffer" (Misserfolg) bei jedem Versuch q=1-p=1-0.6=0.4 ." In Beitrag #113 schrieb ich z.B. : "Hätte die Münze eine Erkennungsquote (=Trefferquote) von Null, dann wäre die Erkennungswahrscheinlichkeit p=0, die Wahrscheinlichkeit für das Komplementärereignis läge bei q=1 und die Münze würde überhaupt keinen Treffer erzielen." Du siehst mit p=P(A)=0 folgt q=P(NICHT A)=1-P(A)=1-p=1-0=1 erkennst Du es wieder? ">Zudem ist die WAHRSCHEINLICHKEIT für ein EREIGNIS i.d.R. NICHT >eine/die elementare WAHRSCHEINLICHKEIT, die ich einsetze, um >die Wahrscheinlichkeit für ein Ereignis zu berechnen - >Dementsprechend gilt der Umkehrschluß erst recht nicht - Es >mag bei elementaren Zufallsereignissen (Würfel, Münze, >Roulette) Ausnahmen geben." Mal abgesehen von der interessanten Formulierung, hatte ich irgendwo etwas anderes behauptet? >Mann, wenn du selbst dazu zu dumm bist, dann geh' bei den >dicken Bär in's Deppen-Forum, für den langt's vielleicht. Die >Nummer, die du hier abziehst, ist nur lächerlich - oder du >bist wirklich Saudumm. Wie gesagt, "Halbstarkenprosa" . Gruss
  4. sich die Sorgen zusehends. "Edit: Falls noch jemand mitlesen sollte: Das Komplementärereignis lässt sich eben NICHT so berechnen, wie von J. 'gefordert'. Um's mal mit einem Gegenbeispiel klarzumachen: Ich werfe 2 Münzen, und fordere 2* 'Kopf', berechnet wird das mit 1/2 * 1/2 = 1/4. Das Komplementärereignis ist: NICHT 2*Kopf, und hat die Wahrscheinlichkeit 1 - W(2*Kopf) = 0,75 (W für Wahrscheinlichkeit). Würde ich die einzelnen Wahrscheinlichkeiten des jeweiligen Komplementärereignis 'NICHT Kopf' = 0,5 einsetzen, bekäme ich aber (1-1/2)*(1-1/2) = 1/4. Das ist die Wahrscheinlichkeit für 2 * 'NICHT Kopf' = 2 * 'Zahl'. Aber dies ist eben nicht die Wahrscheinlichkeit für NICHT 2*Kopf - Die Aussagen klingen ähnlich, sind es aber nicht. 'NICHT 2*Kopf' beinhaltet ja auch die Ereignisse Kopf und Zahl gemischt, die 2 mal auftreten können. Das zu verstehen ist Elementar und bekommt man so ziemlich in der 1. Stunde einer W&S-Vorlesung (oder vergleichbarem) erzählt... Wenn jemand das aber schon nicht kapiert hat... Nee." Du verwechselst hier die Berechnung von Wahrscheinlichkeiten für das Auftreten von Elementarereignissen resp. zusammengesetzten Ereignissen mit der Berechnung von Grundwahrscheinlichkeiten für das Auftreten von Erfolg oder Mißerfolg bei jedem unabhängigen Bernoulli-Versuch. Bitte lies einmal http://de.wikipedia.org/wiki/Bernoulli-Versuch Zitat von dieser Seite: "Ein Bernoulli-Prozess ist ein zeitlich diskreter stochastischer Prozess, der aus einer endlichen oder abzählbar-unendlichen Folge von Bernoulli-Versuchen besteht. Er kann durch eine Folge von Zufallsvariablen X1, X2, X3,..., beschrieben werden, deren jede mit der konstanten Wahrscheinlichkeit p den Wert X=1 (Erfolg) und mit der Wahrscheinlichkeit q=1-p den Wert X=0 (Misserfolg) annimmt." Die Seite hält noch zwei Beispiel parat: -) Fairer Wurf einer Münze mit p=q=0,5. -) Werfen eines Würfels, wobei nur eine „6“ als Erfolg gewertet wird: p=1/6, q=5/6. Zur Erläuterung für Dich; im Falle des Würfelwurfs beträgt die Wahrscheinlichkeit für den Wurf einer "6" (Erfolg) bei jedem Versuch p=1/6, die Wahrscheinlichkeit für das Eintreten des Komplementärereignisses "Nichtsechs" (Misserfolg) bei jedem Versuch beträgt q=1-p=1-1/6=5/6 . Analog dazu das von mir angesprochene Vorgehen für die Erkennungswahrscheinlichkeit im Sinne von Leventhal. Die Wahrscheinlichkeit für einen "Treffer" (Erfolg) bei jedem Versuch kann z.B. p=0.6 betragen, dann beträgt die Wahrscheinlichkeit für das Eintreten des Komplementärereignisses "Nichttreffer" (Misserfolg) bei jedem Versuch q=1-p=1-0.6=0.4 . Du magst das Verwechseln, aber bitte versuche nicht, es mir in die Schuhe zu schieben. Ansonsten schlage ich vor, Du belegst es mit einem Zitat und bitte diesmal ohne eigenwillige Interpretationsversuche Deinerseits. Gruß
  5. mit Dir?? Ich beginne, mir ernsthaft Sorgen zu machen. "Ach? Du willst beim Münzwurf eine 100prozentige Wahrscheinlichkeit (also das sichere Ereignis) für das Komplementärereignis von 'Kopf' (oder alternativ 'Zahl')? Häää? Und das soll ein Zufallstreffer sein? Bist du jetzt völlig verblödet? Allem Anschein nach ja, ich weigere mich, an dieser Stelle mit solchen Dummschwätzern zu diskutieren." Dieses Interpretationsausstiegsmanöver erscheint mir nun arg durchsichtig; solltest Du aufgrund meines Beitrages Deine Interpretation wirklich für plausibel halten, gäbe es für die "Verblödungsfrage" sicher einen geeigneteren Adressaten. Deine Idee war, man solle zwischen "Erkennungswahrscheinlichkeit" und "Zufalltrefferquote" unterscheiden, weil Dir eine "Erkennungsquote" von p=0.5 nicht gefiel. Du hattest einen ganz "eigenen" Ansatz. Zitat Kobe: "p' = p + 0,5 *(1-p)" und "Nehmen wir mal meine Formel, und setzen zuerst die 1 ein - Wir kommen auf 100% Treffer. Soweit schon mal ganz gut. Setzten wir die 0 ein (also eine Erkennungswahrscheinlichkeit von 0) dann kommen wir auf 50%... Huch! Genau die Wahrscheinlichkeit für 'Zufall' bzw. dass, was wir in diesem Fall erwarten würden!" Somit haben wir nach Deiner Idee also: p' = 1 für p = 1 p' = 0.5 für p = 0 p' = 0 für p = ?? Welchen Wert schlägst Du für p in diesem Fall vor, um auf ein p'=0 zu kommen? Gruss
  6. "Wie kann etwas, dass sicher nicht in der Lage ist, einen Unterschied zu hören, eine Erkennungswahrscheinlichkeit besitzen? Ist das nicht vielleicht doch 'Zufall'? Sollte man nicht versuchen, zwischen Erkennungswahrscheinlichkeit und Zufall zu unterscheiden? Würde das nicht vielleicht doch einen Sinn ergeben?" Den semantischen Ansatz in allen Ehren; Du darfst Dir genehmere Begriffe wählen, solange Du fürderhin die Zahlenwerte nicht mehr durcheinander bringst. Bernoulli Tests sind Versuche mit dichotomem Ausgang; Treffer/nicht Treffer; Richtig/falsch etc. etc. Das heißt, im Zufallsfalle ist die Wahrscheinlichkeit für einen Treffer p=0.5, und die Wahrscheinlichkeit für das Komplementärereignis "Nichtreffer" ist q=0.5 , also sind beide Wahrscheinlichkeiten gleich gross. Wolltest Du in Deinem Ansatz die Erkennungswahrscheinlichkeit für "Zufallstrefferquote" mit Null ansetzen, bräuchtest Du für den Fall des zu 100% wahrscheinlichen Komplementärereignisses (Nichttreffer, q=1) bereits negative Erkennungswahrscheinlichkeiten. "Aha... Kapierst du, was da steht? "ist in aller Regel unbekannt" - Soll ich's noch mal schreiben? "ist in aller Regel unbekannt" - du und dieser andere Pausenclown rechnet mit irgendwelche hypothetischen Zahlenwerten - Das muss eine wissenschaftliche Betrachtung sein." Hattest Du absichtlich vergessen, den folgenden zweiten Satz des Wikipedia-Artikels zu zitieren?? Der Vollständigkeit halber sei er hier Für Dich wiederholt: "Man kann für eine Risikoabschätzung einer falschen Entscheidung die β-Fehler für verschiedene alternative Parameterwerte θ1 berechnen." Genau das machte Leventhal (der andere Pausenclown ) , er berechnete Beta-Fehler für alternative Parameterwerte von p, um eine Grundlage für eine Risikoabschätzung zu schaffen. "Kapierst du eigentlich irgendwas von diesem 'Betafehler'? Und: Welchen soll ich jetzt nehmen? Darf ich mir einen Aussuchen?" _Du_ darfst Dir sogar einen mit nach Hause nehmen. Jeder andere würde anhand der berechneten Beta-Fehler eine Risikoabschätzung bezüglich des Tests machen. Z.B. hinsichtlich der sinnvollen Stichprobengröße. Soll heißen, welchen möglichen Beta-Fehler er als Testveranstalter/Testperson bereit ist, zu akzeptieren. ">>"Es werden nur Annahmen für p gemacht, um die >>korrespondierenden Beta-Fehler berechnen zu können und somit >>eine Grundlage für die Risikoschätzung zu haben" >Das macht man mit der Gütefunktion. Hab' ich vor ca. 1,5 >Jahren schon mal geschrieben, aber, naja: Wann kapierst du >das?" Ich fand schon vor 1,5 Jahren faszinierend, dass Du nicht bemerkt hast, das dies _genau_ _das_ _gleiche_ ist. Weshalb das gleiche? Weil: β = f(θ1) ist und die Gütefunktion GF(θ1)=1-β . D.h., Du behauptest, eine Risikoabschätzung mit Hilfe der oben skizzierten Beta-Fehler-Berechnung sei vollkommen unsinnig/unmöglich, die Risikoabschätzung muss man mit GF=1-β erledigen. :) Gruß P.S. Sollte Robeuten bei der von Dir verfassten "Halbstarkenprosa" immer noch keine Bedenken haben, braucht er das Geld dringend für die Statistikfortbildung seiner Kollegen.
  7. "Eine Trefferquote von 50% hat auch eine Münze - Und die hört ganz sicher keine Unterschiede." Donnerwetter! Aber genau richtig- die Münze hört keine Unterschiede, erzielt aber trotzdem eine Erkennungsquote (=Trefferquote) von 50%, hat _darum_ _eine_ _Erkennungswahrscheinlichkeit_ _von_ _p=0.5_ _und_ _deshalb_ _lautet_ _die_ _Nullhypothese_ _p=0.5_ . Hätte die Münze eine Erkennungsquote (=Trefferquote) von Null, dann wäre die Erkennungswahrscheinlichkeit p=0, die Wahrscheinlichkeit für das Komplementärereignis läge bei q=1 und die Münze würde überhaupt keinen Treffer erzielen. ">>P.S. Und nein, es möchte immer noch niemand auf andere Werte >>von p als 0.5 testen. Es werden nur Annahmen für p gemacht, >um >>die korrespondierenden Beta-Fehler berechnen zu können udn >>somit eine Grundlage für die Risikoabschätzung zu haben." ">Geil... Hier möchte jemand den Beta-Fehler berechnen... Ich >kann das nicht, mein Bruder kann das nicht (Studiert ebenfalls >Mathe, momentan im Hauptstudium), meine Professoren konnten >das nicht, und wenn ich mich hinstelle, und erzähle jemandem, >dass ich das kann, dann werde ich sehr wahrscheinlich >eingewiesen... Aber erzähl' mir mal, wie du das machen >willst..." Du hast den entscheidenden Satz zitiert, aber vielleicht nicht gelesen: "Es werden nur Annahmen für p gemacht, um die korrespondierenden Beta-Fehler berechnen zu können udn somit eine Grundlage für die Risikoschätzung zu haben" Für Dich noch etwas ausführlicher; man macht, unter der Prämisse die Alternativhypothese sei wahr, Annahmen über mögliche Werte von p und berechnet mit diesen (angenommenen) Werten die für diese Fälle entstehenden Beta-Fehler. Du hattest diesen Wikipedia-Artikel verlinkt, aber vielleicht nicht gelesen: http://de.wikipedia.org/wiki/Operationscharakteristik In diesem Artikel findest Du folgenden Satz: "β hängt aber vom wahren Parameter θ1 ab und ist in aller Regel unbekannt. Man kann für eine Risikoabschätzung einer falschen Entscheidung die β-Fehler für verschiedene alternative Parameterwerte θ1 berechnen" Für Dich ausführlicher; unser Parameterwert θ1 entspricht der Erkennungswahrscheinlichkeit p. Ist p>0.5 sollte die Nullhypothese abgelehnt werden. Man (Leventhal) nimmt nun z.B. an, die wirkliche Erkennungswahrscheinlichkeit läge bei p=0.6 und kann mit diesem angenommen Parameterwert den Beta-Fehler berechnen, der entstünde, wenn dieser angenommene Parameterwert der richtige Wert für p wäre. Es ergibt sich also aus der Binomialfunktion mit p=0.6, q= 1-p = 0.4 und n=16 eine Wahrscheinlichkeitsfunktion, wenn man für x die möglichen Werte von 0 - 16 einsetzt. Nun läßt sich der Beta-Fehler berechnen. Nimmt man (Leventhal) nun als weitere Alternative an, die wirkliche Erkennungswahrscheinlichkeit läge bei p=0.7, dann ergäbe sich aus der Binomialfunktion mit p=0.7, q=1-p=0.3 und n=16 eine Wahrscheinlichkeitsfunktion, wenn man für x die möglichen Werte von 0 - 16 einsetzt. Auch für diesen Fall läßt sich nun der Beta-Fehler berechnen. Als weitere Alternativen wählte Leventhal p=0.8 und p=0.9 . Gruß
  8. möchtest p=0.5 lieber meiden, weil das Ergebnis nicht "ganz stimmig" ist?? "Na, was schrieb ich oben? Ich werd' mich mal selbst zitieren: Nehmen wir mal meine Formel, und setzen zuerst die 1 ein - Wir kommen auf 100% Treffer. Soweit schon mal ganz gut. Setzten wir die 0 ein (also eine Erkennungswahrscheinlichkeit von 0) dann kommen wir auf 50%... Huch!..." Das "Huch" ist berechtigt, wenn bei einer angenommenen Erkennungswahrscheinlichkeit von 0 plötzlich eine von 50% herauskommt. "Genau die Wahrscheinlichkeit für 'Zufall' bzw. dass, was wir in diesem Fall erwarten würden!" Ja, p=0.5 wäre die Wahrscheinlichkeit für "Zufall" aber offenkundig wäre die Erkennungswahrscheinlichkeit dann nicht ´Null´. Spätestens hier _muss_ Dir doch eine gewisse Diskrepanz auffallen. Es handelt sich um Bernoulli-Versuche: p ist die Wahrscheinlichkeit, einen Treffer zu landen, q ist die Wahrscheinlichkeit für das Komplementärereignis mit q = 1-p . Wenn p=0.5 dann q = 0.5, Wahrscheinlichkeit für Treffer bei reinem Raten. Wenn p=0.6 dann q = 0.4, Wahrscheinlichkeit für Treffer (Erkennungswahrscheinlichkeit) liegt bei 60% und beeinhaltet tatsächlich _alle_ Treffer; richtig erkannte, richtig erratene, vom Nachbar vorgesagte, vom Versuchsleiter unbewußt verratenene usw. usw. usw. Gruss P.S. Und nein, es möchte immer noch niemand auf andere Werte von p als 0.5 testen. Es werden nur Annahmen für p gemacht, um die korrespondierenden Beta-Fehler berechnen zu können udn somit eine Grundlage für die Risikoabschätzung zu haben.
  9. "Leider macht das die inhaltliche Auseinandersetzung nicht besser... Fakt ist, dass wieder der nächste Testballon aufgeblasen wurde... Jetzt geht es um ABX-Tests..." Ich kopiere, wie auch bei früheren Gelegenheiten, die ursprüngliche Quellangabe: Les Leventhal "Type 1 and Type 2 Errors in the Statistical Analysis of Listening Tests" (JAES, Vol.34 No.6) da es meist etwas schwierig ist, die AES Papers über das Netz zu erhalten- es gibt einen guten Abriß der Diskussion in der Stereophile: http://www.stereophile.com/features/141/index1.html> Magst Du nachzählen, wie oft auf der verlinkten (und nachfolgenden) Seite das Wort ABX-Test auftaucht? Wenn also der Zusammenhang mit ABX-Tests nicht klar wurde, dann mag ja eine Sprachbarriere der Grund sein, in dem Fall wäre aber ein entsprechender Hinweis deutlich hilfreicher/zielführender gewesen. "Erst einmal ist mir oben ein Fehler unterlaufen, wenn ich zu p etwas richtig erkenne (im Sinne dieser Erkennungsrate), dann rate ich in 0,5 *(1-p) Fällen richtig, sorry, Fehler von mir." Die Annahme als solche ist falsch. "Da lernt man bspw., dass man alternative Tests machen kann, wie bspw. einen Run-Test, einen Vierfelder-Test, oder einen Chi-Quadrat-Test... Das hat dann eben NICHTS mit der Erhöhung der Stichprobenanzahl zu tun." Das ist aber jetzt eindeutig ein neuer Schauplatz. Wenn ich mich recht erinnere, hatte ich auch die Quellenangaben zu weiteren Artikeln Leventhals wiederholt gepostet; u.a. zu dem Begriff SSPP (statistial significant poor performance) als möglichem Indikator für Fehler in der Testanlage; zur Anwendung weiterer Tests; der möglicherweise sinnvolleren Verwendung zweiseitiger anstelle einseitiger Tests etc. "Auch scheint sich immer noch nicht rumgesprochen zu haben, dass man die Anzahl einfach dadurch erhöhen kann, dass man alle Tests zuammenfasst." Wenn Du Tests mit 10 verschiedenen Hörern machst, und dies auch noch mit unterschiedlichen Testgegenständen, welchen Sinn ergibt dann die Zusammenfassung von Tests? Es interessiert doch, ob vielleicht/wenigstens einer von Ihnen eine von p=0.5 abweichende Trefferwahrscheinlichkeit hat. "Und auch, dass es keinen Sinn macht, auf ein willkürliches p zu testen (oder auf den Mittelwert der Stichprobe)... 0,6? Warum nicht 0,55?" Es _will_ _auch_ _keiner_ auf willkürliches p testen. Die Annahmen Leventhals zu anderen Erkennungswahrscheinlichkeiten dienen zur Berechnung möglicher Beta-Fehler, und folgt genau dem kurz angerissenen Vorgehen in dem von Dir verlinkten Wikipedia-Artikel. "Übrigens bedeutet ein 0,6, dass ich 20% richtig erkannt habe, und von den restlichen 80% die Hälfte (also 40%) richtig geraten habe." Rein interessehalber, 20 % richtig erkannt und 40 % richtig geraten, woher kommen die restlichen 40% ? "Desweiteren wird hier so getan, als hätte ich den Beta-Fehler einfach so vorliegen....." Es wird nicht so getan, als läge der Beta-Fehler einfach so vor, sondern es werden annahmen über von p=0.5 abweichende Erkennungswahrscheinlichkeiten gemacht, und für diese die sich ergebenden Beta-Fehler berechnet; getreu dem Vorgehen in dem von Dir verlinkten Wikipedia-Artikel (und auch in zahlreichen weiteren Werken zur Statistik, nur anscheinend unglücklicherweise nicht in dem von Dir bevorzugten Büning?? ) "Bevor jetzt wieder die 16 auftaucht: Wie oben geschrieben, kann man die einzelnen Stichproben zusammenfassen. Im Münchner Test waren es glaub' ich 21 Personen, also 336 einzelne Tests, und das Ergebnis war ungefähr 50/50." Ein weiteres Mal sei gesagt, nichts gegen die Vorgehensweise einzuwenden. "Bevor jetzt die 0,6 auftaucht: Es waren weniger richtige als falsche Ergebnisse dabei. Und da jetzt der Testballon 'Der Test war unseriös' aufgeblasen wird: Warum? Die Testpersonen waren mit dem Verfahren alle einverstanden, wenn ich mich recht erinnere, war Jakob damals noch im Hifi-Forum aktiv, und hat selbst daran mitgearbeitet." Das im Endeffekt ausgewählte Verfahren schlug meine Ratschläge gänzlich in den Wind; das die Testpersonen, die alle samt und sonders über _keinerlei_ Erfahrung mit Blindtests verfügten, mit den Bedingungen einverstanden waren, beruhigt nicht; hattest Du nicht zu herrliche Beispiele parat, mit Bäckern/Blumenverkäufern, und anderen, die man nicht um Rat fragen sollte? "Und bevor der Testballon 'Detmolder Kabeltest' aufgeblasen wird: Es ist schön, einfach mal zu schreiben, er wäre unseriös, ohne überhaupt zu schreiben, warum er es ist, bzw. wo man etwas darüber überhaupt finden kann." Ich habe nichts über einen angeblichen Detmolder Kabeltest geschrieben; ich habe die Detmolder Tests zu Digitalauflösungen angeführt, weil man an ihnen den immensen Aufwand erkennen kann, der notwendig ist, wenn man BT/DBTs wissenschaftlich angehen will; trotz dieses Aufwands sind selbst diese methodisch nicht einwandfrei. Gruss
  10. "Das bedeutet, wenn ich diese Erkennungsrate, die Leventhal eingeführt hat,...." Das ist nicht die Erkennungsrate, die Leventhal einführte... weiteres s.u. "...einsetze (ich will sie mal p nennen), dann habe ich folgende Formel p' = p + 0,5 *(1-p) für die Trefferanzahl (p' ist hier die Trefferanzahl). Vorrausgesetzt, meine Rechnung stimmt. Leventhal geht von p' = p aus, oder zumindest habe ich nichts gegenteiliges gelesen. Nun, um diese Berechnungen mal zu testen, kann man ja einfach mal Extremwerte einsetzen, und schauen was passiert. Extremwerte sind hier sicher 0 und 1, also ich erkenne nichts oder eben alles. Nehmen wir mal Leventhals Idee. Eine Erkennungswahrscheinlichkeit von 1 bedeutet, dass 100% erkannt werden. OK. Eine Erkennungswahrscheinlichkeit von 0 bedeutet, das 0% erkannt werden... Nun ja, wir wissen aber, dass eine Erkennungswahrscheinlichkeit von 0 zu 50% Treffern führt...Hm." Falsche Prämissen führen zu falschen Schlussfolgerungen; wenn die Erkennungswahrscheinlichkeit (=Trefferwahrscheinlichkeit) gleich Null ist, dann werden tatsächlich Null Treffer erzielt. Eine Erkennungswahrscheinlichkeit von p=0.5 führt bei unendlicher Anzahl von Versuchen zu 50% Treffern. Zur Erinnerung, die Nullhypothese lautet p=0.5 . "Nehmen wir mal meine Formel, und setzen zuerst die 1 ein - Wir kommen auf 100% Treffer. Soweit schon mal ganz gut. Setzten wir die 0 ein (also eine Erkennungswahrscheinlichkeit von 0) dann kommen wir auf 50%... Huch! Genau die Wahrscheinlichkeit für 'Zufall' bzw. dass, was wir in diesem Fall erwarten würden! Aus gutem Grund reicht es in der Mathematik nicht aus, für einige wenige Fälle einen Zufallstreffer gelandet zu haben. Setze eine Erkennungswahrscheinlichkeit von p=0.5 (entspricht reinem Raten) ein, dann ergibt Dein Ansatz p' = 0.75, erscheint Dir dies wirklich sinnvoll? Wie auch bei früheren Gelegenheiten auch, eine Erkennungswahrscheinlichkeit von p=0.6 bedeutet, dass die Erkennungswahrscheinlichkeit 0.6 beträgt, sie wird nicht noch durch Zufallstreffer verbessert. Und, genau wie auch p=0.5 für eine angenommene unendliche Anzahl von Versuchen gilt, gilt auch ein p=0.6 für eine angenommene unendliche Anzahl von Versuchen. Nimmt man kleinere Stichproben, kann es zu Abweichungen kommen, weshalb man Risikoabschätzungen mit Hilfe statistischer Betrachtungen macht. Gruss
  11. " K. hat J. schon x-mal auf logische Fehler in seinen Argumentationsketten aufmerksam gemacht,..." Richtiger wäre, kobe hätte gedacht, es gäbe..... Erstaunlicherweise widerspräche sich Kobe in nahezu jedem zweiten Beiträg, lägen Leventhal und somit auch ich falsch. Denn, nochmals widerholt, was Leventhal schrieb, ist absolutes Statistik-Grundmaterial, und ebenso, wenn auch verkürzt, im von Kobe verlinkten Wikipedia-Artikel so geschrieben. Weshalb nun Du und/oder auch er darauf bestehen möchten, es gäbe genau dort logische Fehler, entzieht sich leider meinem Verständnis. "der gleiche Quatsch - sorry, da fällt mir wirklich kein anderer Terminus ein - nahezu 1:1 wieder aus dem Zylinder gezaubert. J. ist 1) beratungsresistent 2) impertinent 3) überempfindlich (also, wenn ich jemandem mit ad hominem Argumenten auf den Pelz rücke, hört sich das ganz anders an ;-))." Das ad hominem Argumente von sanft unterstellend bis schwer beleidigend ausfallen können, dürfte klar sein; nmE hattest Du in diesem Thread einen flammenden Beitrag eingestellt (war er an guetsel gerichtet? ), in dem Du darlegtest, weshalb ad hominem Argumentation anstelle von inhaltlicher Auseinandersetzung so beleidigend wäre. Nur ein (bemühtes) Missverständnis? Oder soll es gar nur bei genehmen Meinungen gelten? Gruss P.S. Wenn Du eigenes Nachdenken denn schon lieber durch Autoritätsgläubigkeit ersetzen möchtest- wie gross schätzt Du die Chance ein, dass das Peer-Review-Board, wie auch alle in der AES, die ihn lasen, in der Einschätzung von Leventhals Artikeln falsch lag, Kobe hingegen richtig??
  12. Es handelt sich bei ABX-Test wie auch bei A-B-Tests um sogenannte Bernoulli-Tests, d.h. es gibt genau 2 Antworten, von denen eine richtig ist. Salopp gesagt, wird per statistischem Test verglichen, ob ein Hörergebnis auch hätte durch reines Raten so erzielt werden können. Da bei Raten auch durchaus einmal 100% richtige Antworten erreicht werden könnten, gibt man als SL-Niveau (Signifikanzlevel) die Wahrscheinlichkeit für zufällig erzielte Ergebnisse vor, die man noch bereit ist zu akzeptieren. Denn selbstverständlich bedeutet die Zufälligkeit (p=0.5), dass diese sich bei unendlicher Versuchswiederholung im Ergebnis ergeben würde; bei endlicher Versuchsanzahl können und werden Abweichungen auftreten, die Wahrscheinlichkeit für diese Abweichungen können mit Hilfe der Binomialverteilung ermittelt werden (sofern die einzelnen Versuche wirklich unabhängig voneinander sind). Der angsprochene SL von 0.05 bedeutet, dass die Nullhypothese zurückgewiesen wird bei Ergebnissen, die nur mit einer Wahrscheinlichkeit von <5% durch reines Raten hätten erzielt werden können. Die Rückweisung der Nullhypothese bedeutet, dass das Ergebnis nicht durch reines Raten erzielt wurde. Gruss
  13. "Warum einem guten Mathematiker ein Begriff wie 'Suppenkasper' einfällt?" Einem guten Mathematiker wäre der Begriff an dieser Stelle nicht in den Sinn gekommen. "Weil Leventhal vergessen hat, bei seinen tollen Annahmen von p=0,5 ; 0,6 usw. zu bedenken, dass es sich hier um einen Multiple-Choice-Test handelt. Ich hatte es schon mal gepostet, und werde es hier wieder tun, und von mir aus kann die Hölle zufrieren, bevor du es kapierst:" Bevor Du es noch einmal postest, lies einfach nach, was ein ABX-Test ist; überprüfe dabei die Prämisse, es handele sich um einen Multiple-Choice-Test. Wie bereits geschrieben- eins nach dem anderen. Leventhals Kritik an den 16-Trial ABX-Versuchen ist eine Sache; Hobby-Tests wie der Münchener haben selbst nie den Anspruch eines wissenschaftlichen Versuchs gehabt und könnten diesem auch in keiner Weise gerecht werden. Die Diskussion zwischen Leventhal und den bereits genannten anderen fand innerhalb der AES statt und war somit durchaus etwas anderes. " Es ist vollkommen egal, wie groß der Alpha-Fehler im Vergleich zum Beta-Fehler ist." Sofern man nicht an seriöser Arbeit interessiert ist, mag dieses Ungleichgewicht egal sein. "Kein vernünftig denkender Mensch wird nicht abschließend noch ein paar alternative Tests drüberlaufen lassen" Herzlichen Glückwunsch- zwar handelte es sich für Dich ja nur um "Suppenkasperei", denn was wären Nachtests denn anderes als eine Erhöhung der Durchlaufzahl? Aber ansonsten, genau das hätte man machen sollen. "Leventhal nimmt das allem Anschein nach an und du auch." Leventhal nimmt an der Stelle nicht an, sondern reagiert auf das im Rahmen von AES-Journal-Artikeln (für Robeuten- Peer-Review-Board) veröffentlichte Material. Von durchgeführten Nachtests war bei den Autoren nicht die Rede. "Leventhal ist an einem Institut für Psychologie (oder so ähnlich)" Ist es _so_ schwer herauszufinden, wo und woran Leventhal arbeitet? "Tja, wenn das p vorher bekannt wäre, bräuchte man den ganzen Kram gar nicht zu machen... MitderHandgegendenKopfschlag" Gut erkannt, und wenn man denn keine Ahnung davon hat, wie gross p denn seien könnte, dann sollte man wenigstens einen Testablauf haben, der auch bei z.B. p=0.6 noch funktioniert. Gruss
  14. "im Gegensatz zu Dir gibt sich Klaus keine Mühe, einen misszuverstehen - insofern muss er mich vermutlich auch nicht fragen, da er meine Antwort kennt." Bedenkt man, wie sehr Du Dich hier schon gegen ad hominem-Beiträge ausgesprochen hast, verwundern, mich zumindest, manche Formulierungen sehr. Da kestudio Erkenntnisgewinn für den Anwender durch "einfaches" Hinhören ohne ausgefeilte BT-Prozeduren für zielführend hält (was ich im übrigen, wenn auch nur unter Voraussetzung einigen Trainings, auch tue), könnte er bei Dir nachfragen, ob Du diese Herangehensweise ebenfalls für ausreichend befindest. Falls ja, hätte ich Dich tatsächlich bislang missverstanden, wenn auch nicht bemüht. "Ansonsten gilt: Si tacuisses... - ich gelte unter meinen Kollegen als guter Statistiker, aber einen Mathematiker wie kobe werde ich kaum belehren wollen, sondern, so ich anderer "Meinung" als er bin, erstmal dem Verdacht nachgehen, dass bei mir der Denkfehler zu finden ist..." Kann auch nicht schaden, aber wenn die Prämisse des guten Statistikers stimmt, dann nimm Dir 2-3 Minuten Zeit, das Folgende zu bedenken (wie schon häufiger angemerkt, handelt es sich um absolute Grundlagen der Statistik, weshalb mir das Beharren auf einer falschen Gegenposition auch so merkwürdig erscheint) Das übliche Vorgehen der ABX-Tests von Krüger, Clark, Shanefield & Nousaine war, 16 Testdurchgänge mit Probanden zu machen. Getestet wurde die Nullhypothese p=0.5 mit SL=0.05 . Alpha-Fehler ist hierbei Ablehnung der Nullhypothese von p=0.5 obwohl diese richtig ist; wie oben beschrieben wurde dieser Fehler relativ klein im Testablauf vorab festgelegt. Beta-Fehler ist Annahme der Nullhypothese, obwohl ein anderer Wert von p richtig ist. Da die wirkliche Grösse von p unbekannt ist, kann der Beta-Fehler zunächst nicht berechnet werden. Leventahl nahm nun verschiedene Werte für p an (Berechnungen für p=0.6, p=0.7, p=0.8 und p=0.9), und berechnete für diese die dabei entstehenden Beta-Fehler. Dabei kam heraus, dass für p=0.6 der Beta-Fehler "schwindelerregende" Grössenordnung erreicht, und selbst für p=0.8 der Beta-Fehler um ein Mehrfaches grösser ist, als der vorab akzeptierte Alpha-Fehler. Leventhal prägte für das Verhältnis der beiden Fehler den sogenannten Fairness-Koeffizienten, und empfahl als Gegenmittel die Erhöhung der Durchgangszahlen, um den Beta-Fehler ebenfalls klein zu halten. Wie bereits häufig gesagt, alles absolute Grundlagen (was nicht weiter überrascht, denn Leventhal lehrt als Professor in einem Fachbereich, der sich gerade mit derartigen Tests beschäftigt). Weshalb nun dem Mathematiker Kommentare einfallen wie "Artikel von Suppenkaspern" (die aus gutem Grund in Mathematikvorlesungen nicht verwendet würden, oder "oho, ganz falsch, die Erhöhung der Versuchszahl verringert nicht den Beta-Fehler sondern den Alpha-Fehler" und "Blödsinnsgerechne" (zu Leventhals verschiedenen Beispielrechnungen für alternative p-Werte) und etliches mehr, erschliesst sich mir nicht; dass der "gute Statistiker" sich dieser Wertung offenkundig ohne Prüfung anschliesst, gar eine "Zerpflückung" erkannt zu haben glaubt, auch nicht wirklich. Oder sollte es etwa mit Wunschdenken/Erwartungshaltung zusammenhängen?? Es schlägt allerdings beinahe dem Fass die Krone aus, dass der verlinkte Wikipedia-Artikel zur Gütefunktion ebenfalls die Vorgehensweise und die Empfehlung von Leventhal bestätigt (selbstverständlich möchte man meinen, da es sich eben um gut bekannte Grundlagen der Statistik handelt), der Poster aber das genaue Gegenteil denkt/behauptet. Zwei Zitate aus besagtem Wikipedia-Artikel: "Man kann für eine Risikoabschätzung einer falschen Entscheidung die β-Fehler für verschiedene alternative Parameterwerte θ1 berechnen " (enspricht Leventhals Berechnung für verschiedene, alternative, von 0.5 abweichende p-Werte) "Mit der Erhöhung des Stichprobenumfangs kann man den β-Fehler reduzieren" War Leventhals Empfehlung zum allgemeinen Testablauf bei unbekanntem p. Gruss
  15. müßtest Du z.B. Robeuten befragen. Gruß
  16. Vielleicht vermengst Du hier einfach zu viele Dinge. Auf der einen Seite geht es um die üblicherweise verwendeten ABX-Tests mit 16 Durchgängen und die möglichen Fallstricke hierbei. Es gibt auch andere BT-Versuche wie eben den "Münchener"; weshalb dieser in der Durchführung nicht glücklich/zielführend war, habe ich im Vor- und Nachfeld geschrieben, resp. darauf hingewiesen, was man besser vermeiden sollte. Der Text bei wikipedia ist wirklich lesens- und bedenkenswert: http://www.audiomap.de/o.php?http%3A%2F%2F...ki%2FDiskussion Gruß
  17. Ja, sehr gute Möglichkeit. Es wird allerdings häufiger bestritten, daß man auf diese Weise zu sinnvollen Ergebnissen kommen kann. Gruß
  18. so ist es. Der Konsument/Anwender muß seine eigenen Erfahrungen machen. Die Frage wäre nur noch, auf welche Art und Weise die Erfahrungsgewinnung denn geschehen sollte. Offener oder BT? Erwartungshaltung etc. etc. . Vorgschlagen wurde eben wegen der Erwartungshaltungsproblematik häufiger der BT; eigentlich eine gute Idee, nur sollte sichergestellt sein, man unter BT-Bedingungen genauso hört, wie sonst auch; hört sich trivial an, ist es aber in der Praxis nicht. Aus wissenschaftlicher Sicht wären/sind allerdings auch sehr kleine Unterschiede interessant, wenn denn eigentlich gar keine zu erwarten wären nach dem Stand der Lehrmeinung. Da derartige Phänomene leider i.a.R. nicht Gegenstand wissenschftlicher Forschung sind, zumindest nicht in den eigentlich dafür in Frage kommenden Fachgebieten, werden Audio-Tests meist ohne die entsprechende Sorgfalt durchgeführt, aber die Ergebnisse noch sorgloser zur Verallgemeinerung benutzt. Gruß
  19. war, auf einen Fallstrick (resp. Unfairness) hinzuweisen. Ist die Erkennungswahrscheinlichkeit eines Testhörers für einen Klangunterschied relativ klein (Leventhal wählte z.B. p=0.6) dann _muß_ man die Anzahl der Testdurchgänge drastisch erhöhen, um nicht die Wahrscheinlichkeit für Fehler 2.Art dramatisch zu steigern. Diese Information war wichtig, weil die Ende der 70iger Jahre aufkommenden ABX-Testverfahren i.a.R. mit 16 Durchgängen arbeiteten. Es geht hierbei nur um die statistische Argumentation; aus welchem Grund die Erkennungswahrscheinlichkeit niedrig ist, kann ohne weiteres nicht beurteilt werden. Zulässige Hypothesen wären sowohl kleine Unterschiede, als auch "schlecht funktionierende" (unter Testbedingungen) Testhörer. Gruß P.S. http://de.wikipedia.org/wiki/Diskussion
  20. würde mich denn auch interessieren. NmE gab es zwar nur Ankündigungen, was nicht wirklich überrascht, handelt es sich bei den angesprochenen zweifelhaften Aspekten doch um absolute Grundlagen, die Leventhal nur versuchte, den auf dem Gebiet offenkundig eben nicht bewanderten, Audio-BT-Experten nahezubringen. Wie gesagt, wenn man wissenschaftliches Arbeiten einfordert, _muß_ man daran interessiert sein, seriös zu analysieren, auch wenn es dem eigenen Wunschdenken nicht entspricht, weil (wunschgemäße) Ergebnisse in Frage gestellt werden müssen. Gruß
  21. Eigentlich ist die Antwort relativ simpel; legt man auf gute, alte wissenschaftliche Traditionen wert, dann bedarf es eines, mittels anerkannter wissenschaftlicher Arbeitsweisen herbeigeschafften, Nachweises. Der fehlt in Sachen unterschiedlich klingender Kabel, also darf man das auch so darstellen. Das es in der Formulierung einer ablehnenden Haltung dann zu allerlei (eigentlich unbegreiflichen) Entgleisungen/Unterstellungen/Beleidigungen kommt, scheint in der Natur des Forenalltages zu liegen. Was die wissenschaftlichen Nachweise angeht, so mag es sich bei mir um eine Wissenslücke handeln, aber imho gab es bislang noch nicht einmal den Versuch eines solchen in Sachen Kabelklang. Das in Foren der sogenannte "Münchener Kabeltest" als methodisch sauberer Test mit erheblichem Verallgemeinerungspotential herhalten muß, mutet merkwürdig an. Es gibt zum Kabelklang einige "Hobby-BTs", die alle samt und sonders zur Annahme der Nullhypothese führten; wer sich darüber wundert, darf die Verwunderung auch auf zahlreiche andere, dann sogar mit größerem Aufwand durchgeführte BTs ausdehnen, denn es gab bislang auch keine positiven in Sachen Verstärker, CD-Spieler, DA-Wandler etc. etc. , immer unter der Prämisse, es ginge um einen wissenschaftlichen Nachweis. Schaut man sich die veröffentlichten und auch gut dokumentierten BTs an, muß man konstatieren, daß sie alle unter mehr oder minder großen methodischen Mängeln leiden, was in meinen Augen einigermaßen unverständlich bleibt. Auch ein DBT/BT bleibt auf den Detektor Hörer angwiesen, er ist nur der Versuch, subjektive Einschätzungen in gewisser Hinsicht zu objektivieren. Nur schließt er mitnichten die Erwartungshaltung aus, er blendet nur einen Teil dieser aus, andere bleiben unadressiert, weshalb in wirklich seriöer Arbeit der Triple-Blind-Test verwendet wird. Die Fähigkeit der Hörer/Detektoren auch unter BT-Bedingungen wunschgemäß zu funktionieren bleibt dabei weitestgehend unberücksichtigt, obwohl aus Tests zu Wiedergabegeräten mit recht groeßn Unterschieden bekannt, daß spezifisches Training zu deutlich besseren Resultaten führt. Überraschenderweise sind viele der in der Voodoo-Abteilung behandelten Themen von wissenschaftlicher Untersuchung "verschont" geblieben; daß die mehr oder minder laienhaften "Ersatzhandlungen" nur ein kümmerlicher Ersatz sein können, liegt nahe, bedenkt man den Aufwand, der z.B. in den Tests der Detmolder nachzulesen ist, und selbst diese sind noch nicht frei von methodischen Mängeln. Gruß
  22. Gern geschehen! Anonsten kann ich nichts zu dem Gerät sagen, da ich es (noch) nicht aus eigener Anschauung kenne. Gruß
  23. Hi Michael, es gab einen Thread "Wer möchte HiFidelio testen" , den Du hier findest: http://www.hifi-forum.de/index.php?action=...back=&sort=&z=1 Gruß
  24. Jakob

    SACD

    "Was ich ebenfalls gemacht habe... Naja, bei mir ist es nett..." Na ja, ursprünglich lautete Deine Ansicht zu derlei nachvollziehbaren Berechnungen "Blödsinnsgerechne" . Nett aber überflüssig trifft es aber besser. "Übrigens braucht man das nicht zu tun, wenn man weiß, dass der Binomialtest (zumindest wenn man die Binomialverteilung durch die Normalverteilung approximiert) konsistent ist, und dann begriffen hat, was die Operationscharaktersitik, Güte und Gütefunktion dann so machen. Naja,..." Du müßtest wirklich einmal nachlesen, um welche Art von Tests und Testergebnissen es hier geht. Soll heißen, was die ABX-Fraktion damals tatsächlich gemacht hat, und was nur in Deiner Phantasie stattgefunden hat. "Tja, ich kann mich auch nicht daran erinnern, im Beispiel auf ein anderes p als p=0,5 getestet zu haben oder testen zu wollen... Naja, du brauchst ja nichts zu glauben, du liest es halt einfach..." Womit wir wieder beim Sprachverständnis wären, ich hatte nicht gesagt, Du habest auf etwas anderes als p=0.5 testen wollen. "Übrigens passiert bei p=0,6 das Gleiche. Oder hast du ernsthaft was anderes erwartet?" Ja, denn dieses p=0.6 ist eben gleich 0.6, es kommen nicht noch weitere Treffer hinzu, es wird nicht durch Raten verbessert, oder durch motorische Ungeschicklichkeit verkleinert, es ist p=0.6. "Naja... Seite 3, ganz unten: (The p values should be interpreted as the proportion of correct identifications the listener will provide when given an infinite number of trials under the conditions of the listening study, even if those conditions are not ideal for making correct identifications.)" Exakt. Die Testperson liegt mit einer Wahrscheinlichkeit von p=0.6 richtig. Was dann nicht heißt, identifiziert in 60% der Fälle richtig, und schafft weitere richtige per Raten. "Nun ja, es reicht ja, wenn man die Tests irgendwann irgendwo mal wieder macht... Man benötigt nicht einmal die gleichen Testbedingungen, die Ergebnisse müssen nicht reproduzierbar sein, und das 'wahre' p kann auch unterschiedlich sein... " Dein Argument funktioniert nur, wenn p in allen Tests tatsächlich von 0.5 verschieden ist. Leider weiß das keiner. Wenn Testteilnehmer und Testrahmenbedingungen beständig wechseln, kann am Ende doch kein Mensch mehr sagen, wie das Hörvermögen im einzelnen lag. Einig waren wir uns darüber, daß bei großen Testzahlen irgendwann etwas greifbares herauskommen müßte, aber nur solange das Testprocedere es tatsächlich erlaubt. "Wie ich mit Zahlen gezeigt habe (Theorie geht leider nicht, da es hier leider an grundsätzlichem Verständnis und Wissen mangelt), geht die Wahrscheinlichkeit, dass es immer einen Fehler 2. Art gibt, ziemlich schnell gegen 0..." In Deinem Beispiel gingst Du von p=0.8 aus bei mehrfachen Tests, woher willst Du das wissen? Also willst Du umgekehrt schließen, daß, da kein positiver Test auftauchte, p vermutlich nicht (immer) bei 0.8 lag. Da Du aber nicht auf Wiederholung des gleichen Tests bestehst, woraus willst Du schließen, daß nicht z.B. die erste Testperson im ersten bei 0.7 lag, was aufgrund der geringen Versuchsanzahl nicht detektiert wurde, aber p in weiteren Tests, bei völlig anderen Bedingungen, also auch anderen Testpersonen, dann bei 0.5? "Naja, den saudummen Kommentar will ich mal netterweise als Scherz auffassen." Immerhin wurden eigene Testverfahren entwickelt, um die Testergebnisse weiter abzusichern, da bei häufiger Wiederholung die Wahrscheinlichkeit stark ansteigt, einen Fehler 1.Art zu machen, mithin einen Blindtest mit falschem positivem Ausgang zu haben. Wenn also die Aussage stimmt, es sei öfter getestet worden, aber nicht mit positivem Ausgang, können wir direkt abschätzen, wie viele Versuche sich wahrscheinlich hinter dem "öfter" verbergen. Denn, wäre wirklich oft getestet worden, hätte es positive Ausgänge geben müssen. Aber, ansonsten sei Dir Deine Auffassung gegönnt. "P.S.: Und ich Idiot hab' gedacht, man kann über 6 Monate mal dazu nutzen, um in seinem Leben was dazuzulernen... Ja, ihr habt' ja recht..." Im Satzanfang scheint ein Funken Wahrheit enthalten. Gruß
  25. Jakob

    SACD

    "dann erzähl mir mal, wie ich seine Zahlen verifizieren konnte, OHNE den Artikel von Leventhal gelesen zu haben? Na?" Die Quellenangabe liegt lang zurück, deswegen als Zitat: Les Leventhal "Type 1 and Type 2 Errors in the Statistical Analysis of Listening Tests" (JAES, Vol.34 No.6) da es meist etwas schwierig ist, die AES Papers über das Netz zu erhalten- es gibt einen guten Abriß der Diskussion in der Stereophile: http://www.stereophile.com/features/141/index1.html> Artikel meint tatsächlich Artikel; wer beurteilen will, was Leventhal in seinem Artikel geschrieben und was "aus Versehen" weggelassen hat, sollte ihn gelesen haben. "1. Leventhal geht in seiner Tabelle von 'correct identifications' aus. Nun ist es so, wenn ich zu einen Prozentsatz von p etwas korrekt identifizieren kann, habe ich die Möglichkeit, mit einer Wahrscheinlichkeit von 0,5 die anderen (1-p)-'Fälle' (ich schreib's mal so) richtig zu raten. Ich gehe mal davon aus, dass beide zu testende Objekte gleich oft als Testobjekt herhalten (also von mir aus Amp1 und Amp2 je 8 mal.) Das bedeutet, dass bei einer W'keit von p insgesamt p+(1-p)*0,5 richtige Ergebnisse abgegeben werden. Oder mit Zahlenwerten: Wenn ich in 20% der Fällen was höre, kommen schon 60% Treffer raus, bei 40% sind's 70% richtige, und bei 60% sind 80% richtige." Ist ein nettes Gedankenspiel, aber vollkommen irrelevant. Man testest eben auf Zufälligkeit (richtiger, ob ein Ergebnis auch so per zufälligem Raten hätte erzielt werden können), wenn p nicht gleich 0.5 ist, sondern einen anderen Wert annimmt, dann ist das eben so. Leventhal nimmt bestimmte Werte für p an, um für diese Fälle den Fehler 2.Art berechnen zu können. Wenn p=0.6 wäre, dann wäre die Chance für einen Fehler 2.Art bei beschriebenem Testablauf eben ziemlich hoch. Wie gesagt, p wäre dann gleich 0.6, es kommen nicht noch weitere geratene Treffer hinzu. Wie die Trefferzahl zustande kommt, ist reine Spekulation, man könnte auch annehmen, die Testperson habe immer richtig gehört, aber sich häufig bei der Eingabe vertan. "2. Die Jungs von der stereophilen schreiben, dass sie des öfteren Test machen." Vielleicht sortieren wir nochmals die Fakten; die "Jungs von der Stereophile" sind hier nicht die Adressaten, sondern stattdessen David Clark, Dan Shanefield, Thomas Nousaine (und etwas im Hintergrund Arny Krueger), und diese haben mit der Stereophile rein gar nichts zu tun. Ganz im Gegenteil, zumindest Krueger und Nousaine führen eher eine Art persönlichen Kreuzzuges gegen die "Jungs von der Stereophile" durch. Die genannten schreiben, sie würden öfter testen, geizen aber ziemlich mit Informationen über diese "öfter gemachten" Tests. "Würde man nicht anhand des 'Gesetz der großen Zahlen' erwarten, dass die Anzahl der 'correct identifications' gegen den wahren Wert streben würde, und glaubst du nicht, dass vielleicht mal jemand auf den Gedanken kommt, einfach mal 'nen Mittelwert zu berechnen? So wie bspw. im Kabeltest im Hififorum? (Da kamen übrigens 50% Treffer raus... Komisch.)" Mag sein, daß man dies erwarten würde, aber was der einzelne glaubt, ist eine Sache, was publiziert und überprüfbar ist, eine vollkommen andere. "3. Da du es mit der Statistik ja nicht so hast, beschreib' ich's mal ohne Fachbegriffe, die du sowieso nicht verstehst, und bring mal ein paar Zahlen: Leventhal schreibt, dass das Beta bei einem Stichprobenumfang von 16 sei zu hoch. Nun schreiben die Jungs von der stereophile, sie machen des öfteren Tests, und es sei noch nie zu einem Ergebnis 'Hörbar' gekommen. Leventhal schreibt, dass sei wegen des zu großen Betas der Fall." Leventhal schreibt dies eigentlich nicht, sondern überbringt nur die Botschaft, daß bei relativ kleinem p (aber p > 0.5) die Zahl der Versuche größer sein müßte, um nicht mit einer großen Wahrscheinlichkeit für Fehler 2.Art leben zu müssen. Soll heißen, er behauptet nicht, es läge daran, sondern weist nur darauf hin, daß Fehler 2.Art wahrscheinlich sind. "Rechnen wir mal ein wenig: Ich nehme einfach mal das Beispiel von Leventhal, das er gerade unter der Tabelle stehen hat. Er schreibt, dass es reicht, bei 16 Versuchen 12 'richtige' zu haben (also 75%). Wie ich oben gezeigt habe, ist eine Wahrscheinlichkeit für 'Erkennen' von 0,8 (also 0,6 für das korrekte Erkennen + 0,2 für's 'richtige Raten') nicht zu hoch, weswegen ich mal mit diesem Wert weiterrechne." Von "gezeigt" haben kann man nicht reden, es war nur eine Möglichkeit, wie ein Wert von 0.8 zustande kommen könnte. "Wenn ich nun die Tests mehr als einmal mache (wovon ich auszugehen habe),......" Tatsächlich hast Du nicht davon auszugehen, sondern Du _willst_ davon ausgehen. Es gibt keinerlei Informationen darüber, ob wirklich die gleichen Tests wiederholt wurden, oder ob einfach öfter Tests mit anderen Bedingungen durchgeführt wurden. ".....ohne das ich irgendwann mal einen Treffer habe, dann sind das unabhängige Ereignisse, d.h. man kann die Wahrscheinlickeiten einfach multiplizieren. Wenn ich also nun 2 Versuchsdurchgänge habe, liege ich mit knapp 4% 2 mal daneben, bei 3 Durchgängen 0,8%; bei 5 Durchgängen 0,033...%; bei 10 Durchgängen 0,000012%; bei 25 Durchgängen ungefähr 1 zu 239.560.997.259.578.000, also wesentlich schlechter als Lotto." Nur leider wissen wir nicht, ob der gleiche Test (sprich gleiche Testperson, gleiche Testobjekte, gleiche Rahmenbedingungen) überhaupt auch nur einmal wiederholt wurde. Und es macht eben einen Unterschied, ob heute z.B. David Clark eine ML mit einer Hafler vergleicht, und nächste Woche Tom Nousaine. Oder die gleiche Testperson heute ML gegen Hafler vergleicht und nächste Woche ein Accuphase Modell gegen ein anderes. Und, wenn wir so herrlich über vielleicht durchgeführte Tests spekulieren,können wir auch darüber nachdenken, ob es Einfluß auf die Ergebnisse haben kann, wenn die Testpersonen alle felsenfest davon überzeugt sind, daß z.B. alle Verstärker gleich klingen. Nachdenken könnte (und sollte) man auch für den Fall der Wiederholung von Tests (oder Testdurchläufen), unter welchen Voraussetzungen man tatsächlich von Unabhängigkeit jeweils ausgehen kann. BTW, wieviele Testdurchläufe auf 0.05 Niveau braucht man, um mit recht hoher Wahrscheinlichkeit wenigstens einmal einen Fehler 1.Art zu machen? Gruß P.S. Für Liebhaber der Groteske noch der Link zu einem weiteren Teil der früheren Diskussion: http://www.audiomap.de/forum/index.php/az/...id/21330/page/7
×
×
  • Neu erstellen...