Steyer, R., Schwenkmezger, P., Eid, M. & Notz, P.
Trier, im Dezember 1991
Inhaltsverzeichnis
Vorwort
1. Voruntersuchung
1.1 Ziele der Voruntersuchung
1.2 Itemauswahl
1.2.1 Zusammenstellung des Itempools
1.2.2 Auswahl von geeigneten Items aus dem Itempool
1.2.3 Auswahl der Antwortskalierung
1.3 Untersuchungsdesign
1.4 Ergebnisse der Voruntersuchung
1.4.1 Deskriptive Ergebnisse
1.4.2 Ergebnisse der Dimensionsanalysen
1.4.2.1 Auswirkungen der Unterschiede in der Form der Antwortskalierung auf die Dimensionalität der Befindlichkeitsskala
1.4.2.2 Ladungsmuster der als ungeeignet eingestuften Stimmungsadjektive
1.4.2.3 Auswahl der Items anhand der Ergebnisse der Voruntersuchung
1.4.3 Verteilungskennwerte und Reliabilitätsschätzwerte der Befindlichkeitssubskalen
1.4.4 Auswahl der Antwortskalierung anhand der Ergebnisse der Voruntersuchung
2. Hauptuntersuchung
2.1 Ziele der Hauptuntersuchung
2.2 Auswahl der Testverfahren
2.2.1 Situative Bedingungen
2.2.2 Personale Bedingungen
2.3 Stichprobengewinnung
2.3.1 Gruppenuntersuchung
2.3.2 Kontrolliertes Schneeballverfahren
2.4 Datenerhebung
2.5 Erste Ergebnisse
3. Ausblick
Literatur
Anhang
Vorwort
In diesem Arbeitsbericht beschreiben wir die Arbeiten, die im Projekt "Befindlichkeitsmessung und Latent-State-Trait-Modelle" im Zeitraum vom März 1990 bis Dezember 1991 durchgeführt wurden.
Im Projektantrag vom 28. Juli 1989 sind folgende zwei Zielsetzungen formuliert worden:
1. Generalisierung von testtheoretischen Modellen für kategorielle Antwortvariablen zur simultanen Messung von States und Traits.
2. Die Überprüfung der Anwendbarkeit von Latent-State-Trait-Modellen für kategorielle und kontinuierliche Variablen im Bereich der Messung emotionaler Befindlichkeiten.
Im bisherigen Zeitraum wurden die meßtheoretischen Grundlagen eines Latent-Trait- und eines Latent-State-Modells für kategorielle Variablen entwickelt. Die Erarbeitung der meßtheoretischen Grundlagen des Latent-State-Trait-Modells soll bis zum Ende des ersten Projektabschnitts (März 1992) abgeschlossen sein. Die Dokumentation dieser Ergebnisse erfolgt nach Abschluß aller meßtheoretischen Analysen im Rahmen des Abschlußberichts. Erste Datenanalysen mit Latent-State-Trait-Modellen für kategoriale Variablen zeigten jedoch, daß die betrachteten Items nicht perfekt homogen im Sinne der Latent-State-Trait-Modelle sind, sondern auch itemspezifische Anteile erfassen. Die bisher entwickelten Modelle müssen daher zur Erfassung dieser spezifischen Anteile erweitert werden (siehe hierzu den Verlängerungsantrag).
Zur Analyse des zweiten Projektziels wurden umfangreiche Vorarbeiten durchgeführt. Im folgenden Bericht beschränken wir uns auf die Darstellung der Voruntersuchung und einiger Ergebnisse der Hauptuntersuchung. Es wird über Vorarbeiten zur Erstellung einer ersten Probeversion des Befindlichkeitsmeßinstruments berichtet und über Analysen, die im Hinblick auf die Erstellung des Fragebogens für die Hauptuntersuchung durchgeführt wurden. Im zweiten Teil des Berichts werden die Vorbereitungen und die Durchführung der Hauptuntersuchung dargestellt und erste Ergebnisse präsentiert.
Bisher wurden im Rahmen dieses Projekts zwei Vorträge ausgearbeitet und auf der "33. Tagung experimentell arbeitender Psychologen" in Gießen am 25. März 1991 vorgetragen. Außerdem wurden zwei Poster erstellt, welche auf dem "7th European Meeting of the Psychometric Society" in Trier am 29. Juli 1991 präsentiert wurden. Desweiteren wurde das Computer-Programm "Fast Analyses of Latent-State-Trait Models" (FAST) erstellt, das zur schnelleren Arbeit mit Latent-State-Trait-Modellen entwickelt wurde. FAST leistet bisher folgendes: Es erstellt optimierte Eingabedateien für Analysen mit dem Programm LISREL 7 (Jöreskog & Sörbom, 1989) und berechnet Parameter, die innerhalb der Latent-State-Trait-Theorie von Interesse sind. Es werden zum Beispiel die für den Gesamttest geschätzten Reliabilitäts-, Konsistenz- und Spezifitätskennwerte berechnet und in tabellarischer Form zur Verfügung gestellt.
1. Voruntersuchung
1.1 Ziele der Voruntersuchung
Mit der Voruntersuchung wurden die folgenden zwei Ziele verfolgt:
(1) Auswahl der Items für die Hauptuntersuchung. Aus einem Pool von Items deutschsprachiger Adjektivlisten zur Befindlichkeitsbeschreibung sollten anhand theoretischer Kriterien und itemstatistischer Kennwerte Items für den Fragebogen der Hauptuntersuchung ausgewählt werden.
(2) Auswahl der Antwortskalierung. Aus verschiedenen Formen der Antwortskalierung sollte die geeignetste anhand teststatistischer Kennwerte und der Rückmeldungen der Probandinnen und Probanden ausgewählt werden.
1.2 Itemauswahl
1.2.1 Zusammenstellung des Itempools
Zur Auswahl von Items für deutschsprachige Befindlichkeitsskalen lassen sich in der bisherigen Forschungspraxis grundsätzlich fünf Strategien unterscheiden:
(a) Selektion aller zur Befindlichkeitsbeschreibung geeigneten Adjektive aus deutschsprachigen Wörterbüchern anhand rationaler Vorauslese (Hampel, 1977; Janke & Debus, 1978; Nitsch, 1976).
(b) Selektion von Adjektiven zur Befindlichkeitsbeschreibung aus bisher entwickelten Adjektivlisten anhand verschiedener Kriterien (Becker, 1988; Bottenberg, 1970; Hecheltjen & Mertesdorf, 1973).
(c) Selektion von Adjektiven zur Befindlichkeitsbeschreibung aus bisher entwickelten Adjektivlisten anhand eines theoretischen Modells (Abele-Brehm & Abele, 1986).
(d) Übersetzungen fremdsprachiger Verfahren (Baumann & Dittrich, 1972; Biehl, Dangel & Reiser, 1986; Dann, 1974; Gräser, 1978).
(e) Zusammenstellung von Items aufgrund klinischer Erfahrungen (Hobi, 1985; von Zerssen & Koeller, 1976).
Strategie (b) erwies sich als adäquate Itemselektionsstrategie für die angestrebten Projektziele. Die anderen Strategien waren aus folgenden Gründen ungeeignet: Da ein Ziel des Projekts in der Untersuchung der Anwendbarkeit verschiedener Itemselektionskriterien besteht, sollte ein möglichst großer Pool von Items zusammengestellt werden. Es wurde daher auf eine reine Übersetzung fremdsprachiger Verfahren [Strategie (d)] verzichtet. Aufgrund des begrenzten Zeitumfangs der Projektdauer schied auch Strategie (a) aus. Da sowohl die Frage nach der Struktur der selbstberichteten emotionalen Befindlichkeit als auch die Frage, ob diverse Modelle zur Beschreibung der Struktur der Befindlichkeit methodische Artefakte sind (s. z. B. Lorr, 1989), sehr kontrovers diskutiert wird, wurde auch Strategie (c) ausgeschlossen. Strategie (e) entfiel ebenso, da kein Befindlichkeitsbogen für ausschließlich klinische Zwecke konstruiert werden sollte.
Zur Itemauswahl wurden daher verschiedene deutschsprachige Befindlichkeitsskalen zusammengestellt. Grundlage hierzu bildete eine Literaturrecherche anhand der Datenbank PSYTKOM, die bei der Zentralstelle für psychologische Information und Dokumentation (ZPID, Trier) in Auftrag gegeben wurde. Diese Literaturrecherche wurde darüber hinaus durch eigene Recherchen ergänzt. Zur Itemauswahl wurden nur solche Verfahren betrachtet, die als Adjektivlisten oder Polaritätenprofile vorliegen und in verschiedenen Anwendungsbereichen eingesetzt werden können. Ausgeschlossen wurden daher Testverfahren, die
Da die Frage der Bipolarität von Stimmungsdimensionen sehr umstritten ist (s. zum Überblick Eid, 1990; Lorr, 1989; Mackay, 1980), wurde die Befindlichkeitsskala als Adjektivliste konzipiert. Die Adjektive zur Kennzeichnung der entgegengesetzten Pole der Polaritätenprofile wurden daher als einzelne Adjektive in den Itempool aufgenommen. Der Itempool umfaßte die Items der in Tabelle 1 zusammengestellten deutschsprachigen Befindlichkeitsskalen.
Tabelle 1
Deutschsprachige Befindlichkeitsskalen
* Stimmungswortinventar (SWI; Bottenberg, 1970)b
* Polaritätenprofil zur Erfassung der Befindlichkeit (PP‑S; Baumann & Dittrich, 1972; Originalversion: Heiman, 1967)a
* Mehrdimensionaler Stimmungsfragebogen (MSF; Hecheltjen & Mertesdorf, 1973)b
* Stimmungs‑Adjektiv‑Checkliste (SACL; Dann, 1974; Originalversion: Multiple Adjective Check List, Nowlis, 1965)b
* Eigenzustandsskala (EZ; Nitsch, 1976)b
* Befindlichkeitsskala (BF‑S; von Zerssen & Koeller, 1976)a
* Adjektiv‑Skalen zur Einschätzung der Stimmung (SES; Hampel, 1977)b
* Eigenschaftswörterliste (EWL; Janke & Debus, 1978)b
* Basler Befindlichkeitsskala (BBS; Hobi, 1985)a
* Befindlichkeitsskalen (BFS; Abele‑Brehm & Brehm, 1986)b
* Profile of Mood States (POMS; Biehl, Dangel & Reiser, 1986; Originalversion: McNair, Lorr & Doppleman, 1970)b
* Verlaufsskalen zur emotionalen Befindlichkeit (VEB; Becker, 1988)b
Anmerkungen. Die Befindlichkeitsskalen sind nach ihrem Erscheinungsjahr geordnet.
a Polaritätenprofil
b Adjektivliste
1.2.2 Auswahl von geeigneten Items aus dem Itempool
Zu Beginn jeder Testkonstruktion und Itemselektion sollte die theoretische Abgrenzung des Konstrukts bzw. die Explikation der zugrundegelegten Theorie vorgenommen werden. Die Konstruktionen deutschsprachiger Stimmungsskalen sind durch das Vorherrschen operationaler Definitionen gekennzeichnet. Dies zeigt sich bspw. darin, daß bei der Hälfte der hier betrachteten Befindlichkeitsskalen der zugrundeliegende Stimmungsbegriff weder in den Testmanualen noch in den zugänglichen Publikationen expliziert wird und eine Bestimmung des Erhebungsgegenstandes erst post hoc aufgrund der dimensionsanalytischen Ergebnisse vorgenommen wird (s. zum Überblick Eid, 1990).
Die Kennzeichnung des Stimmungsbegriffs durch die faktorenanalytisch gewonnenen Dimensionen einer Befindlichkeitsskala kann zwar ‑ von einem empirischen Standpunkt gesehen ‑ durchaus berechtigt sein, sie verdeckt jedoch die Tatsache, daß schon in die Itemauswahl theoretische Vorüberlegungen eingeflossen sind, d. h. auch operationale Definitionen finden nicht in einem theoretischen Vakuum statt. Die Güte einer Testkonstruktion zeichnet sich u. a. dadurch aus, daß implizite theoretische Vorüberlegungen explizit formuliert werden.
Eine Abgrenzung von anderen psychologischen Konzepten und Konstrukten legen Abele-Brehm und Brehm (1986), Bottenberg (1970), Hecheltjen und Mertesdorf (1973) sowie Hampel (1971) und Becker (1988) vor. Die Autoren kennzeichnen Stimmungen als relativ überdauernde emotionale Erscheinungen (Zustandscharakter), die im Gegensatz zu Gefühlen nicht auf bestimmte Gegenstände (Personen, Dinge, Ereignisse) gerichtet sind und die den Hintergrund für andere Erlebnisqualitäten bilden (Figur-Grund‑Unterscheidung). Bottenberg (1970), Hampel (1971) sowie Hecheltjen und Mertesdorf (1973) heben darüber hinaus die Erschwerung des Bewußtwerdens von Stimmungen und das Fehlen kognitiver Elemente hervor. Stimmungen lassen sich aufgrund der fehlenden Zielgerichtetheit von Motiven abgrenzen (Hecheltjen und Mertesdorf, 1973), involvieren die gesamte Person und weisen eine geringere Intensität als Gefühle auf (Hampel, 1970). Stimmungen werden nicht unbedingt durch einen äußeren Anlaß hervorgerufen und lassen sich von Persönlichkeitseigenschaften durch die geringere zeitliche Stabilität abgrenzen (Abele-Brehm & Brehm, 1986).
Aufbauend auf diesen Begriffsbestimmungen wurde der Itemauswahl folgende Arbeitsdefinition zugrunde gelegt:
Arbeitsdefinition. Unter Stimmungen[1]sollen im folgenden erlebnismäßig repräsentierte psychophysische Zustände eines Individuums verstanden werden, die sich in Abgrenzung von anderen psychologischen Konzepten und Konstrukten wie folgt charakterisieren lassen: Im Gegensatz zu beobachtbarem Verhalten kennzeichnen Stimmungen das innere Erleben und Empfinden eines Individuums ("erlebnismäßig repräsentiert"). Stimmungen sind nicht auf spezifische Objekte (z. B. Personen, Dinge, Ereignisse, Organe) bzw. Situationen gerichtet und sind nicht an spezifische Ursachen gebunden; sie lassen sich anhand dieser Kriterien von Gefühlen, Einstellungen, Bedürfnissen und Organempfindungen abgrenzen. Im Gegensatz zu Motiven fehlt Stimmungen die Zielgerichtetheit (Intentionalität), und im Vergleich zu Motiven und Persönlichkeitseigenschaften sind Stimmungen durch eine geringere zeitliche Stabilität gekennzeichnet.
Aufbauend auf dieser Begriffseingrenzung können diejenigen Dimensionen nicht dem Phänomen der Stimmungen zugeordnet werden, die objektbezogene Aufmerksamkeitszustände (Konzentration, Vigilität), Gefühle (Schuld, Neid), kognitive Aktivitäten (Skeptizismus), soziales Verhalten (Introvertiertheit, Extravertiertheit, Anteilnahme) und selbstbezogene Kognitionen (Selbstsicherheit, soziale Anerkennung) kennzeichnen bzw. sich auf eine spezifische Ursache beziehen (Benommenheit). Darüber hinaus können Adjektive der Dimensionen Ängstlichkeit und Ärger nicht dem Bereich der Stimmungen zugeordnet werden, wenn sie objektbezogene Gefühlsausprägungen und nicht ärgerliche bzw. ängstliche Stimmungen kennzeichnen (z. B. "verärgert" im Gegensatz zu "gereizt").
Tabelle 2
Itemselektionskriterien
1. Bezeichnet dieses Item ausschließlich ein beobachtbares Verhalten?
Beispiele: wortkarg, gesprächig, zappelig
2. Bezeichnet diese Item ausschließlich eine zeitlich stabile Eigenschaft?
Beispiel: intelligent
3. Ist dieses Item ungeeignet zur Beschreibung eines Gefühls oder einer Stimmung?
Beispiele: trüb, gut in Schuß
4. Ist dieses Item zu schwer verständlich (z. B. ein Fremdwort) oder ungebräuchlich?
Beispiele: apathisch, lethargisch, agil, bedeppert
5. Wird mit diesem Item ein körperlich lokalisierbarer Zustand bezeichnet?
Beispiel: flau
6. Nimmt dieses Item Bezug auf einen spezifischen Anlaß/Ursache oder setzt die Beurteilung dieses Items eine soziale Situation voraus?
Beispiele: abgekapselt, beschwipst, abgearbeitet, beleidigt
7. Ist zu erwarten, daß die Beantwortung dieses Items übergeordnete Bewertungsprozesse in Gang setzt?
Beispiel: minderwertig
In einem ersten Itemselektionsschritt wurden alle Adjektive des Itempools von 4 Diplom-Psychologen und 4 Studierenden des Faches Psychologie danach bewertet, ob sie zur Erfassung der emotionalen Befindlichkeit geeignet sind. Die Beurteilung erfolgte anhand von 7 Eignungskriterien, die in Tabelle 2 zusammengestellt sind. Die Kriterien 1, 2 und 6 können unmittelbar aus der Arbeitsdefinition hergeleitet werden. Mit Kriterium 4 sollte sichergestellt werden, daß die Beantwortung der Items nicht aufgrund eines Mangels an sprachlicher Kompetenz scheitert. Anhand von Kriterium 5 sollten Adjektive, die körperliche Beschwerden erfassen und/oder in dem Sinne mehrdeutig sind, daß sie sowohl zur Beschreibung körperlicher als auch emotionaler Befindlichkeiten geeignet sind, ausgeschlossen werden, um eine Erfassung von Überlagerungen körperlicher und emotionaler Befindlichkeiten zu vermeiden. Um eine Induktion von Stimmungsänderungen durch die Items selbst zu minimieren, wurden ebenfalls Adjektive ausgeschlossen, die übergeordnete kognitive Bewertungsprozesse in dem Sinne in Gang setzen können, daß eigene Lebensbereiche in den Fokus der Aufmerksamkeit rükken, deren Bewertung die momentan erlebte emotionale Befindlichkeit beeinträchtigen könnte (s. hierzu z. B. Carver & Scheier, 1990). Kriterium 3 diente schließlich dazu, Adjektive zu eliminieren, deren Ungeeignetheit aufgrund semantischer Überlegungen offensichtlich ist.
Die Adjektive aus dem Itempool sollten hinsichtlich der oben beschriebenen Kriterien eingeschätzt werden. Um erste Einschätzungen zu den einzelnen Adjektiven zu erhalten, ohne gleichzeitig ermüdende Diskussionen führen zu müssen, wurde das Computer-Programm "Itemurteil" (ITU) erstellt. Dieses sollte von jedem Diskussionsteilnehmer eine individuelle Beurteilung des Items bezüglich der oben beschriebenen Kriterien erfassen. Auf Grundlage der Ergebnisse dieser Prozedur sollte dann über die letztendliche Aufnahme eines Items in den Fragebogen entschieden werden.
Das PC-Programm zur Itembeurteilung (ITU) wurde so geschrieben, daß für jedes einzelne Kriterium alle Adjektive in randomisierter Reihenfolge sukzessive vorgegeben wurden. Die beurteilende Person mußte zu jedem Item per Tastendruck angeben, ob sie der entsprechenden Kriteriumsfrage zustimmt oder sie ablehnt (s. Abbildung 1). Um die Probanden nicht allzusehr zu belasten, wurden die Kriterien in zwei Blöcke und die Items in fünf Blöcke von jeweils circa 50 Items aufgeteilt.
Die codierten Beurteilungen der Probanden wurden in externe Dateien abgelegt. Die Ergebnisse aller Beurteilungen wurden dann für jedes einzelne Item und für jedes der Kriterien über die beurteilenden Personen hinweg aufaddiert. Diese Ergebnisse bildeten die Grundlage für die rationale Vorauslese der Items. Diejenigen Items, welche von allen Personen bezüglich der sieben Kriterien als geeignet beurteilt wurden, konnten ohne Diskussion in den Itempool aufgenommen werden. Für die unterschiedlich beurteilten Items wurde nach Klärung der Vorbehalte über die Aufnahme bzw. Ablehnung entschieden. Letztendlich wurden somit 85 Adjektive für den Itempool der Voruntersuchung zusammengestellt (s. Abbildung 1).
abgeschlafft angenehm angespannt ängstlich apathisch ärgerlich aufgeregt ausgeglichen ausgelassen ausgelaugt ausgeruht ausgewogen beschwingt betrübt elend energiegeladen energielos entspannt erledigt ermattet ernst erregbar erschöpft freudlos frisch fröhlich gedrückt gedrückte Stimmung gehobene Stimmung gelassen |
gereizt gleichgültig glücklich grüblerisch gut gut gelaunt guter Dinge heiter hellwach hochgestimmt lebensfroh lebenslustig leer lustlos matt mißgestimmt mißmutig müde munter nachdenklich nervös niedergeschlagen reizbar ruhelos ruhig schläfrig schlapp schlecht schlecht aufgelegt schlecht gelaunt |
schwunglos schwungvoll todmüde träge traurig trübsinnig übermütig überreizt unangenehm unausgeglichen unglücklich unruhig unternehmungslustig unwohl unzufrieden vergnügt verträumt verwirrt voller Energie wach wohl zerfahren zermürbt zerschlagen zufrieden |
Abbildung 1: Itempool der durch Vorauslese bestimmten Adjektive für die Voruntersuchung (in alphabetischer Reihenfolge).
Zusätzlich zu den oben aufgeführten Adjektiven wurden weitere zehn Items in den Pool der Voruntersuchung mit aufgenommen, um die Angemessenheit der theoretischen Präselektion zu überprüfen. Es handelte sich dabei um folgende als ungeeignet eingestufte Adjektive: aggressiv, bedauernswert, behäbig, depressiv, grantig, liebesfähig, menschenscheu, trüb, versöhnlich, zappelig. Diese Items sollten sich auch anhand empirischer Ergebnisse als ungeeignet identifizieren lassen (s. dazu Kapitel 1.4.2.2).
1.2.3 Auswahl der Antwortskalierung
Bei der Vorgabe von Adjektivlisten muß in Betracht gezogen werden, daß die Dimensionalität einer Skala durch die Wahl der Antwortskalierung beeinflußt werden kann. So zeigten Meddis (1972), Russell (1979) und Svensson (1977), daß die von Nowlis (1965) vorgeschlagene Form der Antwortskalierung, die sowohl Hecheltjen und Mertesdorf (1973) in etwas abgeänderter Form als auch Dann (1974) übernommen haben (s. Tabelle 3), zu schiefen, bimodalen Verteilungen der Kategorienhäufigkeiten führt. Faktorenanalytische Untersuchungen von Befindlichkeitsskalen mit Nowlis‑Antwortformat ergaben mehrdimensionale, monopolare Lösungen. Dagegen zeigte sich im Rahmen der Analyse derselben Skalen bei Vorgabe einer symmetrischen Antwortskala (gleiche Anzahl der Zustimmungs‑ und Ablehnungskategorien), daß die Struktur durch eine geringere Anzahl bipolarer Faktoren beschrieben werden kann (s. z. B. Meddis, 1972). Im Gegensatz zu einer symmetrischen Antwortskala zeigen Korrelationsanalysen von Items mit Nowlis‑Antwortformat, daß letzteres zu einer Verminderung der Ausprägung negativer Korrelationen semantisch entgegengesetzter Adjektive führt. Die Kategorie "weiß nicht" bzw. "?" ist darüber hinaus mehrdeutig, so daß eine ordinale Ordnung der Antwortkategorien in Frage gestellt werden kann. Überträgt man die Ergebnisse dieser Studien auf die Bewertung der Dimensionsanalysen deutschsprachiger Verfahren, so ist die von Hecheltjen und Mertesdorf (1973) sowie von Dann (1974) gewählte Antwortskalierung als ungeeignet zu bewerten, da sie eine Überfaktorisierung erwarten läßt.
Tabelle 3
Ausgewählte Formen der Antwortskalierung von Befindlichkeitsskalen
Nowlis‑Antwortformat
SACL1: ss s ? nein
MSF2: sehr stark ‑ stark ‑ mittel ‑ etwas ‑ weiß nicht ‑ bestimmt nicht
Asymmetrische Likert‑Skala
EZ3: kaum ‑ etwas ‑ einigermaßen ‑ ziemlich ‑ überwiegend ‑ völlig
Anmerkungen.
1 SACL: Stimungs-Adjektiv-Checkliste (Dann, 1974), die Kategorien "ss" und "s" bezeichnen den Grad der Zustimmung;
2 MSF: Mehrdimensionaler Stimmungsfragebogen (Hecheltjen & Mertesdorf, 1973);
3 EZ: Eigenzustandsskala (Nitsch, 1976).
Bei Skalen mit einem dichotomen Antwortmodus und sehr schiefverteilten Antworthäufigkeiten muß der möglichen Extraktion von Schwierigkeitsfaktoren besondere Beachtung geschenkt werden (McDonald & Ahlawat, 1974). Einen dichotomen Antwortmodus wählen Abele‑Brehm und Brehm (1986) sowie Janke und Debus (1978). Weder Janke und Debus (1978) noch Abele‑Brehm und Brehm (1986) teilen jedoch mit, welche Art von Korrelationsmatrizen den Faktorenanalysen zugrundegelegt wurde. Es ist zu erwarten, daß die Faktorenanalysen in beiden Fällen auf Produkt‑Moment‑Korrelationsmatrizen basieren. Die von Janke und Debus (1978) publizierten Schwierigkeitsindizes weisen vor allem bei den "negativen" Dimensionen (Desaktiviertheit, Deprimiertheit, Ängstlichkeit, Ärger, Erregtheit, Müdigkeit) z. T. sehr schiefe Verteilungen auf, so daß die Extraktion von Schwierigkeitsfaktoren als mögliche Erklärung der monopolar mehrdimensionalen Struktur nicht ausgeschlossen werden kann. Auch die von Abele‑Brehm und Brehm (1986) publizierten Mittelwerte zeigen bei einigen Items extrem schiefe Verteilungen (z. B. Subskala Ärger: 3 von 5 Items haben einen Mittelwert M < .10), die Annahme einer bipolaren Struktur mußte jedoch nicht verworfen werden, wenn zur Faktorenextraktion der Scree-Test herangezogen wird. Diese bipolare Struktur findet auch bei Vorgabe einer fünfstufigen Antwortskala empirische Unterstützung.
Der Einfluß mehrkategorieller Antwortskalen auf die Dimensionsstruktur ist wenig untersucht. Hampel (1971) überprüfte alle Items auf Normalverteilung. Die Analyse ergab für alle Items anomale J‑förmige Kurven. Obwohl Hampel (1971) die Unangemessenheit der Hauptkomponentenanalyse diskutiert, entscheidet er sich letztlich doch für deren Anwendung, so daß auch in diesem Fall Überfaktorisierungen zumindest nicht ausgeschlossen werden können. Dies gilt auch für die POMS‑Skalen, bei denen vor allem Items der "negativen" Dimensionen (Niedergeschlagenheit, Mißmut) linksschiefe Verteilungen aufweisen (Bullinger et al., 1990).
Die Anwendung von kategorialen Antwortskalierungen wird von mehreren Autoren grundsätzlich in Frage gestellt (s. zum Überblick Mackay, 1980), da durch diese Form der Antwortskalierung ein "kontinuierliches" Phänomen artifiziell kategorisiert wird und die verbalen Kennzeichnungen der Antwortkategorien das subjektive Empfinden nicht exakt beschreiben können. Zeally und Aitken (1969), Bond und Lader (1974) u. a. plädieren daher für den Gebrauch visueller Analogskalen (VAS), deren Vor- und Nachteile bspw. von Fähndrich und Linden (1982) sowie McCormack, Horne und Sheather (1988) diskutiert werden.
Während die Untersuchungen von Abele-Brehm und Brehm (1986) sowie Martin, Fruchter und Mathis (1974) darauf hinweisen, daß sich Skalen mit dichotomem und mehrstufigem Antwortmodus nicht in der empirisch gewonnenen Dimensionalität unterscheiden, dichotome Antwortskalen jedoch eine geringere Reliabilität aufweisen, fehlt es bisher an Vergleichsuntersuchungen, die neben dichotomen und mehrkategorialen Antwortskalen auch visuelle Analogskalen einbeziehen. Der Effekt der Antwortskalierung auf die Dimensionalität der selbstberichteten emotionalen Befindlichkeit und die Reliabilität der Befindlichkeitsskalen sollte daher als zweites Ziel der Voruntersuchung analysiert werden.
Hierzu wurden drei Skalen zusammengestellt, die jeweils die Items der Vorform des Befindlichkeitsfragebogens in derselben Reihenfolge enthielten, jedoch mit einer der in Tabelle 4 dargestellten Formen der Antwortskalierung verbunden wurden.
Tabelle 4
Formen der Antwortskalierung
* dichotomer Antwortmodus
trifft zu trifft nicht zu
wohl [ ] [ ]
* siebenstufige Antwortskala
1 2 3 4 5 6 7
wohl [ ] [ ] [ ] [ ] [ ] [ ] [ ]
* visuelle Analogskala
wohl
0__________________________________________________ 100
Neben einer dichotomen Antwortskalierung wurde eine visuelle Analogskala vorgegeben, deren Länge auf das übliche Maß von 100 mm festgelegt wurde (s. hierzu McCormack, Horne & Sheather, 1988). Zusätzlich wurde eine mehrstufige Antwortskala mit 7 Antwortkategorien ausgewählt.
Im Falle des dichotomen Antwortmodus wurden die Antwortkategorien mit "trifft zu" und "trifft nicht zu" gekennzeichnet. Im Falle der siebenstufigen Antwortskala und der visuellen Analogskala wurde auf eine verbale Kennzeichnung der Kategorien bzw. der Endpunkte der Skalen verzichtet, da die Kennzeichnung der Kategorien nach den Untersuchungen von Sjöberg, Svensson & Persson (1979) einen Einfluß auf die Dimensionalität der Skala haben kann. Zur Intensitätsabstufung wurden die Kategorien bzw. Endpunkte mit Ziffern versehen (s. Tabelle 4).
1.3 Untersuchungsdesign
Zur Untersuchung der oben dargestellten Ziele wurde 544 Studierenden der Universität Trier eine der drei Befindlichkeitsskalen in drei Gruppenuntersuchungen vorgelegt. Die Untersuchung fand vor einer Vorlesung im Fach Soziologie bzw. nach zwei Vorlesungen im Fach Psychologie (Messen, Testen, Skalieren bzw. Statistik I) statt. Die Verteilung der Studierenden auf die einzelnen Bedingungen ist in Tabelle 5 dargestellt.
Tabelle 5
Stichprobengröβe der Voruntersuchung vom 29. und 30.11.1990
Stichprobengröβe
a) Verteilung auf die drei Lehrveranstaltungen (Anzahl N der Probanden)
Soziologie 258
Messen, Testen, Skalieren 126
Statistik I 160
Gesamt 544
b) Verteilung auf die drei Formen der Antwortskalierung (Anzahl N der Probanden)
Skala dichotom 7‑stufig VAS
Statistik 58 50 52
Messen, Testen, Skalieren 47 34 45
Soziologie 81 84 93
Gesamt 186 168 190
1.4 Ergebnisse der Voruntersuchung
1.4.1 Deskriptive Ergebnisse
Für die Daten aus der Voruntersuchung sind in Anhang A deskriptive Ergebnisse tabellarisch zusammengefaßt. Es werden Maßzahlen für den Mittelwert, die Standardabweichung, den Schwierigkeitskoeffizienten, die Schiefe und den Exzeß dargestellt. Diese Kennwerte werden für jedes der 95 Items nach der Art der Skalierung differenziert. Zur Analyse wurde für die dichotome Skala der Kategorie <trifft nicht zu> der Wert 1 und der Kategorie <trifft zu> der Wert 2 zugeordnet. Die 100 mm-Analogskala wurde nach der Empfehlung von McCormack, Horne & Sheather (1988) in 20 gleich breite Kategorien aufgeteilt, denen von links nach rechts die Zahlen eins bis zwanzig zugeordnet wurden. Den Kategorien der siebenstufigen Antwortskala wurden die Werte eins bis sieben zugeordnet. In Hinblick auf die Frage, ob monopolare Stimmungsfaktoren methodische Artefakte (Schwierigkeitsfaktoren) sind, die durch die unterschiedlichen Schiefen semantisch entgegengesetzter Adjektive bedingt sind, ist der Vergleich der Schwierigkeitskoeffizienten zwischen verschiedenen Antwortskalierungen von besonderer Relevanz. Zum Vergleich der Skalierungen unterschiedlicher Kategorienanzahl sind die Schwierigkeitskoeffizienten geeignet, da diese Koeffizienten den Itemmittelwert jeder Skala in einen Bereich zwischen 0 und 1 transformieren.
Der Vergleich der Schiefekoeffizienten zwischen den Skalierungen läßt deutlich erkennen, daß sich für die Daten der dichotomen Skalierung extremere Koeffizienten ergeben als für die Daten, die mit den anderen beiden Skalierungen erhoben wurden. Zwischen den Koeffizienten, welche für die visuelle Analogskala und die siebenstufige Antwortskala berechnet wurden, sind keine größeren Differenzen zu beobachten. Die extremsten Werte sind für solche Items zu beobachten, die der gedrückten Stimmung zuzuordnen sind. Dagegen weisen Items, die der gehobenen Stimmung zuzuordnen sind, mittlere Werte auf. Dieses Phänomen ist aus anderen Studien bekannt (s. z. B. Janke & Debus, 1978; Abele-Brehm & Brehm, 1986; Watson & Tellegen, 1985). Die Problematik der Schwierigkeitsfaktoren wird in den nachfolgenden Dimensionsanalysen aufgegriffen werden.
1.4.2 Ergebnisse der Dimensionsanalysen
Anhand der faktorenanalytischen Auswertung der Befindlichkeitsskalen wurden drei Fragestellungen untersucht:
(1) Im Vergleich der faktorenanalytischen Ergebnisse der Befindlichkeitsskalen mit den drei verschiedenen Formen der Antwortskalierung sollte exploriert werden, ob sich Unterschiede in der Antwortskalierung der Skalen auf die Dimensionalität einer Befindlichkeitsskala und die Polarität der Dimensionen auswirken.
(2) Weiterhin sollte überprüft werden, ob die Items, die aufgrund der in Abschnitt 1.2.2 formulierten Kriterien als ungeeignet eingestuft wurden, auch anhand der Faktorenanalysen als ungeeignet identifiziert werden konnten.
(3) Schließlich sollten die Ergebnisse der Faktorenanalysen eine Grundlage für die Itemselektion bilden.
1.4.2.1 Auswirkungen der Unterschiede in der Form der Antwortskalierung auf die Dimensionalität der Befindlichkeitsskala
Für jede Substichprobe wurde mit dem Programmpaket SPSS‑X eine Hauptachsenanalyse mit Kommunalitäteniteration gerechnet und die Faktoren im Anschluβ oblique (oblimin) rotiert. Zur Überprüfung des Einflusses des Extraktionskriteriums wurden drei Extraktionskriterien ausgewählt:
1) Kaiser-Guttman-Kriterium (Eigenwerte > 1);
2) Scree‑Test: erster Knick im Eigenwertverlauf;
3) Scree-Test: Hauptknick im Eigenwertverlauf.
Ergebnisse.
Das Kaiser‑Guttmann‑Kriterium legt für den dichotomen Antwortmodus die Extraktion von 18 Faktoren, für den siebenstufigen Antwortmodus die Extraktion von 10 Faktoren und für die visuelle Analogskala die Extraktion von 11 Faktoren nahe. Die extrahierten Faktoren erklären im Falle des dichotomen Antwortmodus 62.1 %, im Falle der siebenstufigen Antwortskala 69.7 % und bei der visuellen Analogskala 68.6 % derVarianz auf.
Die Varianzaufklärung ist im Falle der siebenstufigen Antwortskala am günstigsten, da mit dieser Skala im Vergleich zu den beiden anderen Antwortmodi mit der geringsten Anzahl an Faktoren die meiste Varianz aufgeklärt werden kann. In Tabelle 6 werden die extrahierten Faktoren inhaltlich bestimmt und verschiedenen Stimmungsbereichen zugeordnet. Wie dieser Tabelle entnommen werden kann, wird der Stimmungsbereich "gehobene vs. gedrückte Stimmung" bei allen drei Formen der Antwortskalierung durch monopolare Faktoren abgebildet. Der Stimmungsbereich "Nervosität/Unruhe vs. Ruhe/Gelassenheit" wird im Falle der dichotomen Antwortskala und der visuellen Analogskala durch einen bipolaren und einen monopolaren Faktor abgebildet, im Falle der siebenstufigen Antwortskala werden nur monopolare Faktoren zur Kennzeichnung dieses Bereichs extrahiert. Der Stimmungsbereich "Wachheit vs. Schläfrigkeit" wird in allen Fällen durch einen bipolaren Faktor abgebildet. Die übrigen Faktoren kennzeichnen jeweils monopolare Stimmungsfaktoren.
Nach dem Scree‑Test (Kriterium: erster Knick im Eigenwertverlauf) lassen sich bei allen drei Skalierungsformen vier Faktoren extrahieren, die 41 % (dichotom), 62 % (siebenstufig) bzw. 59 % (VAS) der Varianz aufklären. Die Faktorenstruktur kann in allen drei Fällen in analoger Weise interpretiert werden. Während für den Stimmungsbereich "gehobene vs. gedrückte Stimmung" zwei monopolare Faktoren extrahiert werden, werden die Stimmungsbereiche "Nervosität/Unruhe vs. Ruhe" und "Wachheit vs. Schläfrigkeit" jeweils durch einen bipolaren Faktor abgebildet.
Tabelle 6
Ergebnisse der Hauptachsenanalysen (Eigenwerte > 1): Ordnung der Faktoren nach Stimmungsbereichen
dichotom |
siebenstufig |
VAS |
gehobene vs. gedrückte Stimmung
gedrückte Stimmung: F3 (betrübt) F4 (schlecht gelaunt) F8 (unangenehm) F11 (gedrückte Stimmung) |
F1 (unangenehm) |
F1 (elend) F7 (zermürbt) |
gehobene Stimmung: F1 (zufrieden) F12 (lebenslustig) |
F9 (gut) |
F2 (ausgelassen) |
Nervosität/Unruhe vs. Ruhe/Gelassenheit:
F2 (nervös vs. ruhig) F13 (überreizt) |
F2 (ruhelos) F8 (aufgeregt) F4 (entspannt) |
F4 (ausgeglichen vs. unausgeglichen) F6 (aufgeregt) |
Wachheit vs. Schläfrigkeit:
F3 (hellwach vs. schläfrig) |
F3 (wach vs. schläfrig) |
F3 (wach vs. müde) |
Tatkraft:
F9 (voller Energie) |
F10 (unternehmungslustig) |
F10 (schwungvoll) F9 (schwunglos) |
Nachdenklichkeit:
F6 (nachdenklich) |
F5 (nachdenklich) |
F8 (nachdenklich) |
Gleichgültigkeit:
F7 (gleichgültig) |
F11 (gleichgültig) |
Verwirrtheit:
F15 (verwirrt) |
Erregbarkeit:
F16 (erregbar) |
Mißstimmung/Ärger:
F14 (mißgestimmt) |
F7 (ärgerlich) |
F5 (gereizt) |
Verträumtheit:
F17 (verträumt) |
F6 (verträumt) |
Anmerkungen. F1 bis F17 kennzeichnen die extrahierten Faktoren. In Klammern sind jeweils Markieritems angegeben.
Der Knick im Eigenwertverlauf ist bei allen drei Skalierungsformen vor dem vierten Faktor sehr gering. Wählt man als Extraktionskriterium den Hauptknick im Eigenwertdiagramm, dann würde im Falle der dichotomen Antwortskala eine zweifaktorielle Lösung und im Falle der visuellen Analogskala eine dreifaktorielle Lösung bevorzugt werden. Im Falle der siebenstufigen Skala steigt der Eigenwertverlauf zunächst eher linear an, so daß vor dem zweiten Faktor kein eindeutiger Knick festzustellen ist. Betrachtet man die drei- und zweifaktoriellen Lösungen, so ist zwischen der dichotomen und siebenstufige Skala eine hohe Übereinstimmung feststellbar. Im zweifaktoriellen Fall wird der Raum durch die zwei Achsen "Nervosität vs. Ruhe" und "Wachheit vs. Schläfrigkeit" aufgespannt, wobei der Stimmungsbereich "gehobene vs. gedrückte Stimmung" klar als bipolarer Stimmungsbereich in den Stimmungsraum eingeordnet werden kann. Allerdings haben die Items zur Kennzeichnung des "Ruhe"-Pols, die bei der dichotomen Antwortskalierung nur mit dem Faktor "Nervosität/Unruhe vs. Ruhe" hoch korrelieren, bei dem siebenstufigen Antwortmodus z. T. auch hohe Korrelationen auf dem anderen Faktor. Im Falle der dreifaktoriellen Lösung wird der Stimmungsbereich "gehobene vs. gedrückte Stimmung" durch einen zusätzlichen bipolaren Faktor abgebildet. Bei der visuellen Analogskala zeigt sich jedoch ein anderes Bild. Sowohl im zweifaktoriellen als auch im dreifaktoriellen Fall, können zwei Faktoren als monopolare Faktoren zur Kennzeichnung der gehobenen bzw. gedrückten Stimmung interpretiert werden, die nach obliquer Rotation nicht hoch miteinander korrelieren.
Faßt man die Ergebnisse zusammen, so kann folgendes festgehalten werden:
Unterschiede in der Antwortskalierung wirken sich auf die faktorielle Struktur einer Befindlichkeitsskala aus, legt man der Auswertung der unterschiedlich skalierten Fragebogen das gleiche faktorenanalytische Modell zugrunde. Allerdings zeigen sich Unterschiede je nach Auswahl des Faktorextraktionskriteriums. Während nach dem Scree‑Test (erster Knick im Eigenwertverlauf) relativ ähnliche Strukturen gefunden wurden, unterschieden sich die drei Skalierungsformen vor allem bei den beiden anderen Extraktionskriterien. Bei dem Extraktionskriterium Eigenwert größer 1 wurden für die Skala mit dichotomen Antwortmodus deutlich mehr Faktoren extrahiert als für die beiden anderen Skalierungsarten. Hingegen zeigte sich bei Anwendung des dritten Kriteriums deutlichere Übereinstimmungen zwischen dem dichotomen und siebenstufigen Antwortmodus, während sich beide von der VAS unterscheiden. Im Vergleich zu den anderen beiden Antwortmodi weist die 7‑Punkte‑Skala ‑ bei gleicher Faktorenzahl ‑ die höchste Varianzaufklärung auf. Diese ist bei der dichotomen Antwortskalierung am geringsten. Auch in bezug auf die Polarität zeigen sich Unterschiede je nach Extraktionskriterium und Antwortskalierung. Während die Stimmungsbereiche "Ruhe vs. Unruhe" und "Wachheit vs. Schläfrigkeit" in den meisten Fällen durch bipolare Faktoren repräsentiert werden, zeigen sich Unterschiede vor allem bei dem Stimmungsbereich "gehobene vs. gedrückte Stimmung". Während sich beide Bereiche als entgegengesetzte Pole in das zweifaktorielle Modell bei dichotomen und siebenstufigen Antwortmodus einbauen lassen, weisen fast alle anderen Ergebnisse auf monopolare Faktoren hin. Zur Erklärung dieses Phänomens lassen sich mehrere Hypothesen diskutieren, von denen zwei erwähnt werden sollen.
Aufgrund der geringen Prävalenzrate zeigen beispielsweise die Items zur Bezeichnung der gedrückten Stimmung sehr schiefe Verteilungen, insbesondere bei den dichotomen Items. Die Extraktion von Schwierigkeitsfaktoren als Erklärung der Trennnung von gehobener und gedrückter Stimmung kann zumindest nicht ausgeschlossen werden. Die im Falle von Schwierigkeitsfaktoren häufig empfohlene Analyse von tetrachorischen und polychorischen Korrelationen mittels Hauptkomponentenanalysen kann nur bedingt zur Lösung des Problems beitragen. Im vorliegenden Fall zeigten die Analysen beider Korrelationsmatrizen den Produkt‑Moment‑Analysen vergleichbare Eigenwertverläufe, allerdings mit z. T. deutlich höheren Eigenwerten der ersten beiden Faktoren und der Ladungskoeffizienten (s. hierzu Eid, Notz, Steyer & Schwenkmezger, 1991). Allerdings stellt sich auch hier die Frage nach dem geeigneten Auswahlkriterium und der Überprüfung der diesen Koeffizienten zugrundeliegenden Annahmen. Je nach Extraktionskriterium zeigen sich auch hier z. T. Unterschiede in der Polarität der Skalen.
Auffällig ist auch, daβ bei der Analyse der VAS bei allen Extraktionskriterien gehobene und gedrückte Stimmung als monopolare Faktoren vorliegen. Eine weitere mögliche Erklärung kann darin liegen, daβ den Versuchspersonen der Wechsel der Schlüsselrichtung der Items (100 bedeutet bei dem Item glücklich "äuβerst glücklich", bei dem Item unglücklich "äuβerst unglücklich") besonders schwer fällt. Dies wurde auch von Versuchspersonen zurückgemeldet. Analysen von Schmitt & Stults (1985) zeigen, daβ schon 10 % von Personen, die die Schlüsselrichtung systematisch miβachten, ausreichen, sogenannte Polungsfaktoren zu erzeugen.
Darüber hinaus sind Hauptachsen‑ und Hauptkomponentenanalysen von Produkt‑Moment‑Korrelationen nicht für alle Skalierungsformen geeignet. Welche Struktur nun die "wahre" ist, kann anhand solcher Analysen nicht geklärt werden. Eine angemessenere Überprüfung der dimensionalen Struktur der Befindlichkeitsskalen wird dagegen erst durch die Anwendung von faktorenanalytischen Modellen ermöglicht, die die Eigenarten verschiedener Skalierungsformen berücksichtigen. Zu erwähnen sind hier die faktorenanalytischen Modelle für Variablen mit gestutzten Verteilungen und die faktorenanalytischen Modelle für kategoriale Variablen (Mislevy, 1986; Muthén, 1988), deren Weiterentwicklungen inzwischen auch die Analyse gröβerer Variablensätze erlauben (Muraki & Engelhard, 1985; Bock, Gibbons & Muraki, 1988) und deren Einsatz im Rahmen der Hauptuntersuchung untersucht werden soll.
Verfügt man nicht über den hierfür benötigten groβen Stichprobenumfang, so besteht eine weitere Möglichkeit der Überprüfung in Simulationsstudien, in denen vorgegebene theoretische Strukturen simuliert werden, und die Auswirkungen verschiedener Formen der Antwortskalierung und der Verteilungen auf verschiedene Faktorextraktions‑ und Modellgütekriterien untersucht werden können. Zur Untersuchung der Auswirkungen der Verteilungsformen der Items auf die Dimensionalität haben Eid, Mayer, Steyer, Notz und Schwenkmezger (1991) eine Simulationsstudie durchgeführt. Basierend auf einem zweifaktoriellen Circumplexmodell wurden Daten erzeugt, die die typischen Verteilungsformen von Befindlichkeitsitems aufweisen. Die Ergebnisse weisen darauf hin, daß nach dem Kaiser-Guttman-Kriterium monopolare Faktoren für den Stimmungsbereich "gehobene vs. gedrückte Stimmung" extrahiert werden, während das Kriterium Scree-Test (Haupt-Knick im Eigenwertverlauf) zu einer Struktur führt, die der theoretischen Ausgangsstruktur in hohem Maße entspricht. Aufgrund dieser Simulationsstudie kann als Extraktionskriterium für den hier betrachteten Anwendungsbereich der Hauptknick im Eigenwertverlauf empfohlen werden.
1.4.2.2 Ladungsmuster der als ungeeignet eingestuften Stimmungsadjektive
Zur Überprüfung des Ladungsmuster der als ungeeignet eingestuften Stimmungsadjektive wurden Hauptachsenanalysen über alle (geeigneten und ungeeigneten) Items gerechnet. Die Anzahl der Faktoren wurde nach dem Kaiser-Guttman-Kriterium bestimmt. Die Korrelationen der Items mit den extrahierten Faktoren lassen sich wie folgt beschreiben: Keine substantiellen Korrelationen bzw. ein divergierendes Korrelationsmuster über die verschiedenen Antwortskalierungen hinweg weisen die Items liebesfähig, behäbig, versöhnlich und menschenscheu auf. Die theoretische Präselektion konnte daher auch empirisch gestützt werden.
Die anderen als ungeeignet bewerteten Stimmungsitems können jedoch eindeutig einem Stimmungsfaktor zugeordnet werden. Auf dem Faktor zur Kennzeichnung der gedrückten Stimmung laden die Items trüb, depressiv und bedauernswert. Auf dem Faktor zur Kennzeichnung von Nervosität/Gereiztheit laden die Items grantig, aggressiv und zappelig. Diese Zuordnung zu den Faktoren kann dadurch erklärt werden, daß durch grantig, zappelig und aggressiv der behaviorale Aspekt einer nervösen bzw. gereizten Stimmung beschrieben wird und daher bei einer gereizten Stimung eine hohe Auftrittswahrscheinlichkeit hat. Das Fremdwort depressiv wird dem Stimmungsbereich "gedrückte Stimmung" adäquat zugeordnet. Da es sich bei der betrachteten Stichprobe um Studierende handelt, ist jedoch unklar, ob der Begriff auch in Bevölkerungsgruppen mit einer geringeren Bildung adäquat verstanden wird. Das Adjektiv trüb wurde aufgrund des dritten Kriteriums (siehe Tabelle 2), das Adjektiv bedauernswert wurde aufgrund des sechsten und siebten Kriteriums als ungeeignet eingestuft. Diese beiden Adjektive werden zwar eindeutig dem Fakter "gedrückte Stimmung" zugeordnet, ihr Auschluß aus dem Itempool ist jedoch aufgrund der genannten Kriterien gerechtfertigt. Zusammengefaßt kann festgehalten werden, daß die theoretische Präselektion nicht für alle Items empirisch bestätigt werden kann.
1.4.2.3 Auswahl der Items anhand der Ergebnisse der Voruntersuchung
Das wesentliche Ziel der Voruntersuchung bestand in der Vorauswahl von Items für den Befindlichkeitsfragebogen der Hauptuntersuchung. Die Items sollten jedoch nicht nach den strengen formalen Kriterien ausgewählt werden, die bei der Endzusammenstellung einer Itemliste zu einem Fragebogen der Itemselektion zugrunde gelegt werden. Die Endzusammenstellung der Items zu einer änderungssensitiven Befindlichkeitsskala soll erst anhand der Latent-State-Trait-Modelle für kategoriale Variablen im Rahmen der Hauptuntersuchung erfolgen, für deren Erprobung ein Längsschnittdesign mit einer entsprechend großen Stichprobe benötigt wird. Anhand der Ergebnisse der Voruntersuchung sollte vielmehr ein erstes Itemscreening vorgenommen werden, wonach Items aufgrund verschiedener Kriterien, die für die Itemanalyse im Rahmen der Hauptuntersuchung von Relevanz sind, zusammengestellt werden sollten. Aus diesem Itempool können dann anhand der Analyse mittels Latent-State-Trait-Modellen geeignete (änderungssensitive) Items ausgewählt werden. Die Itemauswahl erfolgte in zwei Auswahlschritten.
1. Auswahlschritt. In einem ersten Auswahlschritt wurden Items nach drei relevanten Kriterien ausgewählt.
1. Repräsentation der relevanten Stimmungsbereiche. Aufgrund der oben dargelegten Ergebnisse der faktorenanalytischen Auswertung der Fragebögen wurden drei relevante Stimmungsbereiche für die weiteren Analysen ausgewählt:
(a) gehobene vs. gedrückte Stimmung;
(b) Nervosität/Unruhe vs. Ruhe;
(c) Wachheit vs. Schläfrigkeit.
Zur Auswahl von Items für diese drei Stimmungsbereiche wurde nur auf die Ergebnisse der Faktorenanalysen des dichotomen und des siebenstufigen Antwortmodus zurückgegriffen. Auf die Berücksichtigung der VAS wurde verzichtet, da diese Skala eine divergierende faktorielle Struktur aufweist und ein Projektziel die Entwicklung von Modellen für kategoriale Variablen ist. Aufgrund der Ergebnisse der Simulationsstudie wurde eine zweifaktorielle Lösung zur Itemselektion ausgewählt. Die Lokalisation der drei Stimmungsbereiche im zweidimensionalen Stimmungsraum wird im folgenden kurz erläutert. Im Falle des siebenstufigen und des dichotomen Antwortmodus kann der erste Faktor als "Wachheit vs. Schläfrigkeit " und der zweite Faktor als "Nervosität/Unruhe vs. Ruhe" interpretiert werden. Die Bipolarität des letztgenannten Faktors zeigt sich jedoch deutlicher bei dem dichotomen Antwortmodus (s. Abschnitt 1.4.2). Die Itemselektion für den Stimmungsbereich "Nervosität/Unruhe vs. Ruhe" bezog sich daher vor allem auf die Ergebnisse bezüglich des dichotomen Antwortmodus. Items zur Kennzeichnung der gehobenen Stimmung korrelieren mit beiden Faktoren negativ, während Items zur Kennzeichnung der gedrückten Stimmung mit beiden Faktoren positiv korrelieren. Zur Itemselektion wurden daher Items für die jeweiligen Stimmungsbereiche ausgewählt, die je nach Stimmungsbereich mit nur einem Faktor bzw. mit beiden Faktoren hohe Korrelationen aufweisen (die Faktorladungs- und Strukturmatrizen der zweifaktoriellen Lösung sind im Anhang B zusammengestellt).
2. Verteilungsform. Ein wesentliches Itemselektionskriterium ist die Verteilungsform der Items. Zur adäquaten Überprüfung der Hypothese, daß monopolare Faktoren Methodenartefakte sind, die durch die unterschiedlich schiefen Verteilungen von Items gegensätzlicher Stimmungspole bedingt sind, muß der Itempool der Hauptuntersuchung Items mit unterschiedlichen Verteilungsformen aufweisen. Auch für die Analyse der Daten mit Modellen der Probabilistischen Testtheorie ist es wichtig, daß die Items unterschiedliche Schiefen aufweisen, da Items mit unterschiedlicher Schiefe in verschiedenen Bereichen der latenten Variablen differenzieren. Die Items wurden daher nach der Schiefe ihrer Items gruppiert. Für die Befindlichkeitsskala der Hauptuntersuchung wurden für jeden der ausgewählten Stimmungsbereiche Items mit unterschiedlichen Verteilungsformen ausgewählt (Anhang A enthält die Liste der Itemschwierigkeiten).
3. Umfang des Fragebogens. Anhand des Screening wurde angestrebt, für jeden Stimmungsbereich 16 Items zu extrahieren, wobei jeder Stimmungspol durch 8 Items repräsentiert werden sollte. Für den Stimmungspol "Ruhe" des Stimmungsbereichs "Nervosität/Unruhe vs. Ruhe" konnten jedoch nur fünf Items zusammengestellt werden. Zur Kennzeichnung des Stimmungsbereichs "Nervosität/Unruhe vs. Ruhe" wurden daher nur 13 Items ausgewählt. Die ausgewählten Adjektive sind in Abbildung 2 zusammengestellt.
2. Auswahlschritt. In einem zweiten Auswahlschritt wurden die Items nach verschiedenen Kriterien durch weitere Items ergänzt.
1. Gegensatzpaare. Zur Analyse der Polaritätsfrage wurden zusätzlich Adjektive aufgenommen, deren semantische Bipolarität aufgrund eines Präfix (z. B. angenehm vs. unangenehm) bzw. eines Suffix (schwungvoll vs. schwunglos) offensichtlich ist. Folgende Adjektivpaare wurden zusätzlich aufgenommen:
gehobene Stimmung - gedrückte Stimmung
schwunglos - schwungvoll
gut - schlecht
angenehm - unangenehm
Gehobene Stimmung fröhlich glücklich heiter hochgestimmt lebensfroh vergnügt wohl zufrieden |
Nervosität/Unruhe angespannt aufgeregt erregbar gereizt nervös reizbar ruhelos unruhig |
Wachheit ausgeruht beschwingt energiegeladen frisch hellwach munter übermütig wach |
gedrückte Stimmung betrübt gedrückt mißgestimmt mißmutig trübsinnig unglücklich unwohl unzufrieden |
Ruhe ausgeglichen ausgewogen entspannt gelassen ruhig |
Schläfrigkeit erledigt ermattet erschöpft müde schläfrig schlapp todmüde träge |
Abbildung 2: Benennung der drei Stimmungsbereiche und Auflistung der zugeordneten Adjektive aus der Voruntersuchung (in alphabetischer Reihenfolge).
2. Zusätzliche Items. Da der bisherige Itempool nur eine geringe Anzahl von Items zur Kennzeichnung des Stimmungsbereichs "Nervosität/Unruhe vs. Ruhe" aufweist, wurden anhand eines Synonymwörterbuchs zusätzliche Items aufgenommen. Hierbei wurde besonders darauf geachtet, daß die neu hinzugenommenen Items für den Pol "Nervosität/Unruhe" schiefe Verteilungen erwarten lassen. Ausgewählt wurden die Items "überdreht", "aufgekratzt" und "erregt". Zur Kennzeichnung des positiven Pols wurde nur das Adjektiv "gleichmütig" als weiteres Item aufgenommen.
Da es auch zur Kennzeichnung des Pols "gehobene Stimmung" an schiefverteilten Items mangelte, wurden die Items "glückselig" und "blendend" aufgenommen, da beide schiefe Verteilungen erwarten lassen.
Zusätzlich wurden einige Items aufgenommen, die für weitere Analysen aufgrund theoretischer Überlegungen von Interesse sind (ängstlich, ärgerlich), aber nicht als Stimmungsitems angesehen werden.
4. Extremformulierte Items. Da für den Fragebogen der Hauptuntersuchung ein Intensitätsrating ausgewählt wurde, wurden Items, die in ihrer semantischen Bedeutung eine Intensitätsabstufung enthalten (z. B. hellwach) aus dem ursprünglichen Itempool herausgenommen. Stattdessen wurden einige Items, die eine eindeutige Intensitätsabstufung beinhalten (z. B. hochgestimmt, himmelhoch jauchzend) zu einer eigenständigen Liste zusammengestellt und mit einer Zustimmungs- bzw. Ablehnungsskalierung versehen. Die Liste dieser Items kann dem Fragebogen entnommen werden (s. Anhang C).
1.4.3 Verteilungskennwerte und Reliabilitätsschätzwerte der Befindlichkeitssubskalen
Zur Untersuchung der Auswirkung der Antwortskalierung auf die Reliabilität der Befindlichkeitsskala wurden die Items, welche die drei relevanten Stimmungsbereiche repräsentieren (s. Abbildung 2), jeweils zu einer Skala zusammengefaßt. Die Verteilungskennwerte und Schätzwerte zur Reliabilität werden differenziert für die drei verwendeten Skalierungsmethoden in Tabelle 7 dargestellt. Die einzelnen Koeffizienten wurden mit SPSS-X berechnet.
Tabelle 7
Verteilungskennwerte der drei Stimmungsskalen differenziert nach drei Skalierungen
Skala "gehobene vs. gedrückte Stimmung" |
|||
Skalierung |
|||
Kennwert |
dichotom |
VAS |
siebenstufig |
N |
183 |
184 |
178 |
Itemanzahl |
16 |
13 |
16 |
M |
1.66 |
12.95 |
4.73 |
SD |
.28 |
3.93 |
1.38 |
pi |
.66 |
.63 |
.62 |
Schiefe |
-.58 |
-.51 |
-.56 |
rii |
.59 |
.75 |
.80 |
alpha |
.91 |
.96 |
.97 |
rtt |
.93 |
.96 |
.97 |
Skala "Nervosität/Unruhe vs. Ruhe" |
|||
Skalierung |
|||
Kennwert |
dichotom |
VAS |
siebenstufig |
N |
183 |
184 |
178 |
Itemanzahl |
16 |
13 |
16 |
M |
1.36 |
8.34 |
3.36 |
SD |
.29 |
3.12 |
1.17 |
pi |
.36 |
.39 |
.39 |
Schiefe |
.37 |
.31 |
.64 |
rii |
.53 |
.53 |
.63 |
alpha |
.86 |
.86 |
.91 |
rtt |
.87 |
.89 |
.92 |
Fortsetzung |
|||
Skala "Wachheit vs. Schläfrigkeit" |
|||
Skalierung |
|||
Kennwert |
dichotom |
VAS |
siebenstufig |
N |
183 |
184 |
178 |
Itemanzahl |
16 |
13 |
16 |
M |
1.52 |
9.50 |
3.72 |
SD |
.31 |
4.04 |
1.35 |
pi |
.52 |
.45 |
.45 |
Schiefe |
-.05 |
.28 |
.43 |
rii |
.60 |
.71 |
.72 |
alpha |
.91 |
.94 |
.95 |
rtt |
.90 |
.94 |
.93 |
Anmerkungen. Mitgeteilt werden für die drei Skalen "gehobene vs. gedrückte Stimmung", "Nervosität/Unruhe vs. Ruhe" und "Wachheit vs. Schläfrigkeit" - jeweils für die drei verwendeten Skalierungen - die Stichprobengröße (N), die Anzahl der Items, aus denen die Skala gebildet wird, der Mittelwert (M), die Standardabweichung (SD), der Schwierigkeitskoeffizient (pi), die Schiefe der Verteilung, die über Fisher-Z-Transformation gemittelte Iteminterkorrelation (rii), die interne Konsistenz nach Cronbach (alpha) und die Testhalbierungsreliabität (rtt) korrigiert nach Spearman-Brown. Die Skalenwerte werden durch Addition der entsprechenden Itemwerte und anschließender Division durch die Anzahl der Items der Skala bestimmt.
Zur Abschätzung der Reliabilitäten der drei Stimmungsskalen wurden der Alpha-Koeffizient von Cronbach und der Testhalbierungskoeffizient korrigiert nach Spearman-Brown berechnet. Auffallend sind die hohen Reliabilitätsschätzwerte (» 0.9) für alle drei Skalen bei drei Skalierungen. Diese Schätzwerte sollen im folgenden diskutiert werden.
Der Cronbach-Alpha-Koeffizient. Die Koeffizienten sind für die Skalen "gehobene vs. gedrückte Stimmung" und "Wachheit vs. Schläfrigkeit" mit » .95 sehr hoch und für die Skala "Nervosität vs. Ruhe" mit » .90 etwas geringer. Für den hier beschriebenen Datensatz werden für die mit der siebenstufigen Antwortskala erhobenen Daten - im Vergleich zu den beiden anderen Skalierungen - die höchsten Koeffizienten berechnet, dies am deutlichsten für die Skala "Nervosität vs. Ruhe". Die geringsten Koeffizienten wurden für die Daten, die mit dem dichotomen Antwortmodus erhoben wurden, bestimmt, dies am deutlichsten für die Skala "gehobene vs. gedrückte Stimmung". Nach dem Verfahren von Cronbach wird für eine Skala ein einziger Schätzwert aus den Kovarianzen der Einzelitems als untere Grenze der Reliabilität bestimmt (s. z. B. Lord & Novick, 1969; de Guijter & van der Kampen, 1984). Dies bedeutet, daß der wahre Reliabilitätswert mehr oder weniger weit vom berechneten Alpha-Koeffizienten entfernt sein kann. Deshalb kann mit dem Vergleich zweier Alpha-Koeffizienten nicht direkt auf den Vergleich der Reliabilität geschlossen werden.
Der Testhalbierungskoeffizient nach Spearman-Brown. Bei der Berechnung der Testhalbierungskoeffizienten ist zu beachten, daß dieser Koeffizient starken Schwankungen, in Abhängigkeit von der gewählten Aufteilung der einzelnen Items zu Testhälften und der Itemheterogenität, unterliegt. Je nach Anzahl der Items, aus denen die Skala zusammengesetzt ist, kann es sehr viele verschiedene split-half Koeffizienten geben. Für die hier beschriebenen Stimmungsskalen mit 16 Items gibt es 6435 verschiedene Testhälftenpaare, wenn jeder Testhälfte die gleiche Anzahl Items (8 Items) zugeordnet wird.
Zur Demonstration dieser Problematik wurde von Notz (1990) das Computer-Programm "Coefficients for All Possible Test-Halves" (CAPTH) erstellt. CAPTH ermöglicht aus den Testitems alle möglichen Testhälften zu konstruieren und hierfür unter anderem Maße der Kovariation zu berechnen.
Zur Abschätzung des Einflusses der Testhalbierung auf Koeffizienten der Antwortskalierung wurde daher folgendes Prozedere gewählt: Man nimmt diejenige Testhälftenkonstruktion, welche für die siebenstufige Antwortskala die höchste Korrelation eines Testhälftenpaares ergibt und berechnet aufgrund dieser Itemaufteilung den Testhalbierungskoeffizienten. Als nächstes wird für diese Aufteilung der Items zu den Testhälften der entsprechende Koeffizient für die Daten der anderen beiden Skalierungsmethoden berechnet. Daraufhin werden die berechneten Koeffizienten verglichen. Zum Vergleich der Reliabilität der Skalen wurde für jede Skalierungsmethode die Testhälftenaufteilung ausgewählt, welche für die jeweilige Skalierungsmethode die höchste Testhälftenkorrelation ergab. Für diese drei Testhälftenaufteilungen wurden die Testhalbierungskoeffizienten mit SPSS-X berechnet. Exemplarisch wird dies für die Skala "Wachheit vs. Schläfrigkeit" in Tabelle 8 dargestellt.
Tabelle 8
Testhalbierungsreliabilitäten nach Spearman‑Brown für unterschiedliche Testhälftenkonstruktionen der Skala Wachheit vs. Schläfrigkeit
|
Skalierung |
||
bevorzugte Skalierunga |
dichotom |
VAS |
7‑stufig |
dichotome Skalierung |
.945 |
.963 |
.952 |
visuelle Analogskala |
.937 |
.969 |
.968 |
siebenstufige Antwortskala |
.927 |
.968 |
.977 |
Anmerkung. a Genannt wird diejenige Skalierung, für welche die Itemaufteilung zu einer maximalen Testhälftenkorrelation führte.
Hierbei wird deutlich, daß zum einen für eine Skalierung unterschiedliche Koeffizienten berechnet werden und daß zum anderen je nach Aufteilung der Items zu den Testhälften einmal für die VAS und zum anderen für die 7-Punkte-Skala der höhere Testhalbierungskoeffizient berechnet wird. Insofern kann mit diesem Koeffizienten keine eindeutige Aussage über die Reliabilität dieser beiden Skalierungen gemacht werden. Allerdings werden für die Skala mit der dichotomen Antwortskalierung die geringsten Testhalbierungskoeffizienten berechnet.
1.4.4 Auswahl der Antwortskalierung anhand der Ergebnisse der Voruntersuchung
Anhand der Ergebnisse der Voruntersuchung wurde für den Befindlichkeitsfragebogen der Hauptuntersuchung ein fünfstufiger Antwortmodus ausgewählt. Für diese Entscheidung lassen sich folgende Begründungen anführen:
1. Die Ergebnisse der Dimensionsanalysen zeigen für den zwei- und siebenstufigen Antwortmodus vergleichbare Ergebnisse, während sich die dimensionale Struktur der VAS deutlich von den beiden anderen Skalierungsformen unterscheidet. Da im Falle der VAS für den Stimmungsbereich gehobene vs. gedrückte Stimmung unter allen Extraktionsbedingungen monopolare Faktoren extrahiert wurden, scheint dieses Antwortformat in besonderer Weise für Störeinflüsse anfällig zu sein, die zu artifiziellen monopolaren Faktoren führen. Da darüber hinaus im Rahmen des Projektes v. a. Modelle für kategoriale Variablen entwickelt werden sollen, wurde für den Fragebogen der Hauptuntersuchung ein kategoriales Antwortformat gewählt.
2. Die siebenstufige Antwortskala weist bezüglich der Varianzaufklärung durch die extrahierten Faktoren und der Reliabilität der Subskalen die günstigsten Kennwerte auf. Auch in Modellen der Item-Response-Theorie verbessert sich die Schätzgenauigkeit der Werte der latenten Variablen, wenn von einem dichotomen Antwortformat zu einem mehrstufigen Antwortformat übergegangen wird (s. Samejima, 1969). Daher wurde ein mehrstufiger Antwortmodus ausgewählt.
3. Erste Analysen der Befindlichkeitsskalen mit dem siebenstufigen Antwortmodus mit Modellen für kategoriale Variablen, denen als Zusammenhangsmaß die polychorischen Korrelationen zugrunde gelegt wurden, wiesen jedoch auf Probleme hin, die mit der Analyse eines siebenstufigen Antwortmodus verbunden sind. Diese liegen insbesondere darin, daß viele Zellen der 7 x 7 - Kontingenztafel unbesetzt bleiben. Dies hat negative Auswirkungen auf die Modellüberprüfung anhand von Chi-Quadrat-Statistiken. Durch eine Reduktion von sieben auf fünf Antwortkategorien wird quasi eine Halbierung der Zellenanzahl (von 49 auf 25) erreicht. Daher wurde eine fünfstufige Antwortskala ausgewählt. Dies ist auch für Anwendungen von Itemselektionsstrategien im Rahmen der Klassischen Testtheorie nicht bedeutend "schlechter", da bspw. Martin, Fruchter & Mathis (1974) zwar deutliche Unterschiede in der Ladungshöhe beim Übergang von einem zweistufigen zu einem dreistufigen Antwortformat festgestellt haben, nicht aber für Übergänge zu "höherstufigen" Antwortformaten.
2. Hauptuntersuchung
2.1 Ziele der Hauptuntersuchung
Im Projektantrag wurden zwei Projektziele formuliert:
(1) die Generaliserung von testtheoretischen Modellen für kategoriale Variablen zur simultanen Messung von States und Traits und
(2) die Erprobung dieser Modelle im Bereich der Messung emotionaler Befindlichkeiten.
Zur Erprobung der Modelle im Bereich der Befindlichkeitsmessung wurde nach den oben dargestellten Itemselektionsprinzipien eine Liste von Stimmungsadjektiven zusammengestellt. Anhand dieser Adjektivliste soll die Anwendbarkeit von Latent-State-Trait-Modellen untersucht werden. Neben der Analyse der Konsistenz und Spezifität einzelner Stimmungsitems eignen sich Latent-State-Trait-Modelle in besonderer Weise zur Analyse der Einflüsse situativer und personaler Bedingungen auf die momentane emotionale Befindlichkeit. Zur Untersuchung des Einflusses diverser situativer und personaler Bedingungen wurden zusätzliche Fragebögen vorgegeben bzw. weitere Informationen
erfragt, die im folgenden erläutert werden sollen (s. Tabelle 9). Die Auswahl der Testverfahren soll im folgenden kurz begründet werden.
Tabelle 9
Fragebögen bzw. erfragte Angaben zur Erfassung situativer und personaler Bedingungen der emotionalen Befindlichkeit
1. Situative Bedingungen
* körperliche Beschwerden:
Freiburger Beschwerdenliste (Fahrenberg, 1975) in abgeänderter Form
* Tagesereignisse:
hassles and uplifts
* Wetter:
verschiedene meteorologische Variablen
* zusätzliche Angaben:
- Schlafdauer in der vergangenen Nacht
- Alkohol- und Nikotinkonsums
- Aktivitäten in der letzen Stunde
2. Personale Bedingungen
* Persönlichkeitseigenschaften:
Freiburger Persönlichkeitsinventar (Fahrenberg, Hampel & Selg, 1984)
* überdauernde Aspekte der emotionalen Befindlichkeit :
Stimmungs-Skala (Bohner, Schwarz & Hormuth, 1989)
* Selbstaufmerksamkeit:
Fragebogen zur Erfassung dispositionaler Selbstaufmerksamkeit (Filipp & Freudenberg, 1989)
2.2 Auswahl der Testverfahren
2.2.1 Situative Bedingungen
Freiburger Beschwerdenliste. Um einen Zusammenhang von physischen Beschwerden mit der Stimmung untersuchen zu können, wurde eine Beschwerdenliste in die Hauptuntersuchung mit aufgenommen. Zur Diskussion standen der "Beschwerden-Erfassungsbogen" (BEB) von Kasielke & Hänsgen (1982), die "Beschwerdenliste" von von Zerssen & Koeller (1976), die "Freiburger Beschwerdenliste" (FBL) von Fahrenberg (1975) und der "Giessener Beschwerdebogen" (GBB) von Brähler & Scheer (1983). Der BEB wurde aufgrund der lang angesetzten Testzeit (20 Minuten) abgelehnt. Die Beschwerdenliste von von Zerssen wurde als für diese Zwecke zu undifferenzierend betrachtet, da sie lediglich eine Globalskala enthält. Der GBB wurde abgelehnt, da in diesem nur 24 von 57 Items zur Skalenbildung verwendet werden.
Die Entscheidung fiel auf eine Kurzform der Freiburger Beschwerdenliste (FBL-K). Die FBL ist ein eingeführtes Verfahren und es bestehen differenzierte Normtabellen. Sie besteht aus 78 Items, die in 10 Skalen aufgeteilt sind. Von jeder dieser Skalen werden die beiden Markieritems für die Zusammenstellung der Kurzform verwendet. Für den Einsatz in der Hauptuntersuchung wurde bis auf ein Item die FBL-K verwendet, zusätzlich wurden zwei Items aus dem Bereich sexueller Störungen von Kasielke & Hänsgen (1982) übernommen. Darüber hinaus sollte die Versuchsperson ihre momentane Beschwerden angeben. Außerdem wurde die Skalierung in eine fünfstufige Häufigkeitsskala verändert.
"Daily hassles and uplifts". Über den Einfluß alltäglicher Ereignisse auf die Stimmung berichtet z. B. Brandtstätter (1991). Um diesen Einfluß abschätzen zu können, wurde ein Fragebogen zur Erfasssung sogenannter "daily hassles" und "daily uplifts" (Lazarus & Cohen, 1978) in die Hauptuntersuchung mit aufgenommen. Ein Beispiel für ein "daily hassle" ist der berühmte Schnürsenkel, der genau dann reißt, wenn es am ungeeignetsten ist. Abzugrenzen von diesen "minor events" sind die sogenannten "major events" oder kritischen Lebensereignisse (wie z. B. der Tod einer nahestehenden Person oder der Ausbruch einer schweren Krankheit), welche nach Kanner, Coyne, Schaefer & Lazarus (1981) weniger Einfluß auf die emotionale Befindlichkeit haben sollen.
In diesem Projekt wurde ein Auszug der Daily-Hassles- und der Daily-Uplifts-Skala von Lazarus & Cohen (1978) in der Übersetzung von Filipp, Ahammer, Angleitner und Olbrich (1980) eingesetzt. Dieser deutschen Übersetzung wurden jeweils 30 von 60 Items einer Skala entnommen, um daraus einen einzigen Fragebogen durch randomisierte Aufteilung der 60 Einzelitems zu bilden.
Wetter. Eine weitere wichtige situative Einflußgröße ist das Wetter. So berichten bspw. Howarth und Hoffman (1984) signifikante Zusammenhänge zwischen verschiedenen meteorologischen Variablen und der selbstberichteten emotionalen Befindlichkeit. Zur Untersuchung von Wettereinflüssen auf die selbstberichtete emotionale Befindlichkeit wurden von der Zweigstelle Trier des Deutschen Wetterdienstes die tagesspezifischen Ausprägungen diverser Wettervariablen (z. B. Sonnenscheindauer, Luftfeuchtigkeit, Luftdruck etc.) für den gesamten Untersuchungszeitraum zur Verfügung gestellt. Diese Angaben werden durch die Werte der Ozonbelastung, die vom Meßinstitut für Immissions-, Arbeits- und Strahlenschutz zur Verfügung gestellt werden, ergänzt.
Zusätzliche Angaben. Als weitere situative Bedingungen wurde die Anzahl der geschlafenen Stunden in der letzten Nacht sowie der Alkohol- und Nikotinkonsum erfragt. Erfragt wurde sowohl das Konsumverhalten in den letzten 24 Stunden als auch der durchschnittliche wöchentliche Konsum. Zusätzlich sollten die Probanden die Aktivitäten der letzten Stunde kurz verbal beschreiben. Anhand dieser Angaben soll eine Situationsklassifikation entwickelt werden.
2.2.2 Personale Bedingungen
Das Freiburger Persönlichkeitsinventar. Für den Zusammenhang zwischen einzelnen Persönlichkeitsvariablen und der emotionalen Befindlichkeit gibt es vielfältige Belege (Morris, 1989; Schwenkmezger, 1991; Watson & Clark, 1984; Watson & Tellegen, 1985). In den Fragebogen der Hauptuntersuchung sollte daher ein Persönlichkeitsinventar aufgenommen werden, das einen breiten Bereich der Persönlichkeit erfaßt. Das Persönlichkeitsinventar sollte darüber hinaus eine Soziale Erwünschtheitsskala enthalten. Anhand der Skala zur Erfassung der sozialen Erwünschtheit soll untersucht werden, ob monopolare Stimmungsfaktoren Artefakte sind, die durch diesen Antwortstil mitbedingt sind (s. hierzu z. B. Mackay, 1980; Lorr, 1989).
Zur Erfassung eines breiten Persönlichkeitsbereichs kommen grundsätzlich der Trierer Persönlichkeitsfragebogen (TPF; Becker, 1989), der 16-Persönlichkeits-Faktoren-Test (16-PF; Schneewind, Schröder & Cattell, 1986) und das Freiburger Persönlichkeitsinvar in seiner revidierten Fassung (FPI-R; Fahrenberg, Hampel & Selg, 1984) in Frage. Da das FPI-R als einziger dieser drei Fragebogen eine Soziale Erwünschtheitsskala enthält, wurde das FPI-R ausgewählt.
Die Stimmungs-Skala. Die Stimmungs-Skala von Bohner, Schwarz und Hormuth (1989) ist die deutschsprachige Übersetzung des "Mood Survey" von Underwood und Froming (1980) und wurde zur Erfassung überdauernder Aspekte der emotionalen Befindlichkeit konstruiert. Anhand dieser Skala sollen Personen sowohl bezüglich ihrer Stimmungsschwankungen (Subskala "Reaktivität") als auch in der Häufigkeit der erlebten gehobenen bzw. gedrückten Stimmung (Subskala "überdauernde Reaktionslage") unterschieden werden. Im Rahmen der Hauptuntersuchung soll die Validität dieser Skala anhand von Latent-State-Trait-Modellen analysiert werden. Hierzu sollen vier Fragestellungen bearbeitet werden:
a) Erfaßt die Stimmungsskala zeitlich stabile Selbsteinschätzungen der Person?
b) Schwanken die (zu verschiedenen Meßzeitpunkten erhobenen) Stimmungen von Personen, die sich selbst hohe Reaktivität zuschreiben, stärker als die Stimmungen von Personen, die sich geringe Reaktivität zuschreiben?
c) Weisen Personen, die nach eigenen Angaben häufig glücklich sind, auf einem über die momentane Befindlichkeit gebildeten Trait-Maß höhere Werte auf als Personen, die sich nach eigenen Angaben selten glücklich fühlen?
d) Ist die Selbsteinschätzung überdauernder Aspekte der Befindlichkeit von der momentan erlebten Stimmung abhängig?
Fragebogen zur Erfassung dispositionaler Selbstaufmerksamkeit (SAM). Eine hohe Selbstaufmerksamkeit zeigt sich nach Fenigstein, Scheier und Buss (1975) u. a. in einer hohen Sensibilität für Gefühlszustände. Daraus läßt sich die Hypothese ableiten, daß die Variable "Selbstaufmerksamkeit" einen Einfluß auf die Wahrnehmung der Befindlichkeit und deren Veränderung hat. Um dieser Fragestellung nachgehen zu können, wurden Teile des "Fragebogens zur Erfassung dispositionaler Selbstaufmerksamkeit (SAM-Fragebogen)" von Filipp und Freudenberg (1989) in die Hauptuntersuchung mit aufgenommen.
2.3 Stichprobengewinnung
Aus den im Projektantrag angeführten Gründen wurde eine (vom Drop out bereinigte) Stichprobengröße von 500 Versuchspersonen angestrebt. Aufgrund der begrenzten Projektmittel ist eine repräsentative Stichprobenziehung nicht möglich. Um eine größere Streuung der Versuchspersonen in Bezug auf demographische Variablen mit einem möglichst geringen Organisations- und Reisekostenaufwand zu erhalten, wurden zwei Methoden zur Rekrutierung der Stichprobe ausgewählt:
a) Gruppenuntersuchung von Studierenden sowie Bürgerinnen und Bürgern in Räumen der Universität Trier;
b) kontrolliertes Schneeballverfahren.
Die beiden Methoden sollen im folgenden kurz beschrieben werden.
2.3.1 Gruppenuntersuchung
Um relativ viele Versuchspersonen zu einem Untersuchungstermin befragen zu können, bieten sich Gruppenuntersuchungen in Räumen der Universität an. Durch die Gruppenuntersuchung kann sichergestellt werden, daß die einzelnen Untersuchungen im gleichen zeitlichen Abstand stattfinden. Zusätzlich kann die Beantwortung durch die Beobachtung des Antwortverhaltens und der Motivation sowie der Registrierung von Störeinflüssen kontrolliert werden. Außerdem können Verständnisfragen der Probanden geklärt werden.
Für die Gruppenuntersuchung wurden sowohl Studierende als auch Bürgerinnen und Bürger der Stadt Trier angeworben. Da zu erwarten war, daß die Teilnahme von Studierenden aufgrund des kurzen Anfahrtswegs und der Entlohnung besonders groß sein würde, wurde die Anzahl der Studierenden auf maximal 200 Personen begrenzt. Die Anzahl der Bürgerinnen und Bürger, die sich aufgrund zweier Zeitungsankündigungen telefonisch zur Teilnahme angemeldet haben, wurde nicht limitiert. Die Probanden, die zu allen vier Meßzeitpunkten teilgenommen hatten, erhielten als Honorar DM 40,- und DM 10,- Fahrtkostenzuschuß. Da nicht die gesamte Stichprobe über die Zeitungsanwerbung gewonnen werden konnte, wurde als zweite Methode ein kontrolliertes Schneeballverfahren durchgeführt.
2.3.2 Kontrolliertes Schneeballverfahren
Als weitere Methode zur Untersuchung von Probanden, die nicht der Studierendenpopulation angehören, wurde ein kontrolliertes Schneeballverfahren angewandt. Hierbei wurden Studierende der Universität Trier angeworben, die ca. fünf bis zehn Versuchspersonen aus ihrem Bekanntenkreis für die Untersuchung anwerben und betreuen sollten. Unter dem betreuten Personenkreis durften sich höchstens zwei Studierende befinden. Die so gewonnenen Untersuchungsmitarbeiterinnen und -mitarbeiter händigten den von ihnen betreuten Probanden den Fragebogen zu einem vorher abgesprochenen Termin aus und nahmen den ausgefüllten Fragebogen wieder in Empfang. Die ausgefüllten Fragebögen wurden daraufhin den wissenschaftlichen Mitarbeitern des Projekts ausgehändigt, die den Untersuchungsmitarbeiterinnen und -mitarbeitern die Fragebögen der nächsten Erhebungswelle überreichten. Die Untersuchungsmitarbeiter erhielten nach Abschluß der Untersuchung für jede betreute Versuchsperson, die zu allen vier Meßzeitpunkten teilgenommen hatten, DM 10,-. Die Probanden bekamen ihre Teilnahme mit DM 40,- vergütet.
Während diese Methode den Vorteil hat, daß mit einem relativ geringen Organisationsaufwand vor allem nichtstudentische Versuchspersonen untersucht werden können, ist sie jedoch mit einigen Problemen behaftet. So ist bspw. nur eine geringe Kontrolle der Beantwortung des Testverfahrens gegeben, da die Versuchspersonen beim Ausfüllen der Fragebögen nicht der Kontrolle durch die Versuchsleiter unterliegen. Um möglichst viele Störeinflüsse zu eliminieren, wurden die Untersuchungsmitarbeiterinen und Mitarbeiter ausführlich in die Ziele der Untersuchung eingeführt. Zusätzlich wurde die Zahl der zu betreuenden Probanden auf maximal 20 Personen limitiert. Die Untersuchungsmitarbeiterinnen und -mitarbeiter wurden darüber hinaus sorgfältig ausgewählt. Zusätzlich wurde sowohl mit den Untersuchungsmitarbeitern als auch mit den betreuten Probanden ein Vertrag abgeschlossen, in dem die geforderte Leistung und die dafür erhaltene Gegenleistung genau festgelegt wurden. Bei Vertragsbruch wurde das Honorar nicht ausbezahlt. Zusätzlich ermöglichte eine von den Mitarbeitern zu erstellende Adressenliste eine stichprobenartige Kontrolle des Untersuchungsverlaufs.
2.4 Datenerhebung
Die Erhebung der Daten fand im Zeitraum vom April bis September 1991 statt. Die Gruppenuntersuchungen wurden in Hörsälen der Universität Tarforst durchgeführt. Für die Teilnehmer der Gruppenuntersuchung standen mehrere Termine zur Verfügung. Die einzelnen Termine waren unterschiedlich gut besucht, die Anzahl der teilnehmenden Personen streute von einem Minimum von zwei Personen bis zu einem Maximum von 76 Personen. Die Folgetermine waren alle in dreiwöchentlichem Abstand festgelegt. Um möglichst vielen Personen die Teilnahme an allen vier Meßzeitpunkten zu ermöglichen, wurden Ausweichtermine individuell vereinbart. Hierbei wurde allerdings darauf geachtet, daß sich der Termin nicht um mehr als drei Tage verschob. Mit dieser Strategie konnten von 270 Personen komplette Datensätze für alle vier Meßzeitpunkte gewonnen werden. Die Anwerbung von Mitarbeiterinnen und Mitarbeitern für das Schneeballsystem wurde am 2. und am 7. Mai 1991 durchgeführt. Es konnten insgesamt 27 Personen geworben werden, die für uns die Datenerhebung an insgesamt 241 Personen zu vier Meßzeitpunkten durchführten.
Für die Eingabe von demographischen Variablen und den Befindlichkeitsdaten wurde von Notz (1991) das Computerprogramm "Kontrollierte Eingabe von Befindlichkeitsdaten" (KEBEF) entwickelt. Durch KEBEF wird, um Fehlerquellen zu minimieren, eine kontrollierte Eingabe der Befindlichkeitsdaten ermöglicht. Erste Kontrollen über ca. 10% doppelt eingegebener Daten ergaben eine Nullfehlerquote. Die Eingabe, Kontrolle und Auswertung der restlichen Daten steht noch aus. Bisher können lediglich über einige demographische Variablen Aussagen gemacht werden. Ergebnisse dazu sind im folgenden Kapitel zu finden.
2.5 Demographische Beschreibung der Stichprobe
Von der Ausgangsstichprobe von 548 Versuchspersonen nahmen 511 Personen zu allen Meßzeitpunkten teil. Der Drop out ist mit 7% als sehr gering zu betrachten. Von diesen 511 Datensätzen mußten die Daten von sieben Personen wegen Auffälligkeiten (z. B. unvollständige Angaben, Antworttendenzen) ausgeschlossen werden. Folgende Angaben beziehen sich auf die verbliebenen 504 Personen.
Insgesamt wurden mehr Frauen (291) als Männer (212) untersucht. Das Alter in der erfaßten Stichprobe variiert von 17 bis 77 Jahren mit einer starken Häufung um das Alter von 22 Jahren, was auf die große Anzahl von studentischem Klientel (238) zurückzuführen ist. In dieser Untersuchung haben überwiegend Personen mit Hochschulreife (285) teilgenommen. Mehr als ein Drittel der Probandinnen und Probanden besitzen jedoch Hauptschulabschluß (93) und Mittlere Reife (76). In der Untersuchung überwiegen die ledigen Personen (328), weniger als ein Drittel sind verheiratet (146), der Anteil der Verwitweten und Geschiedenen ist sehr gering. Insofern konnte die anfangs angestrebte Streuung der demographischen Variablen in der Stichprobe erreicht werden.
3. Ausblick
In der verbleibenden Zeit des ersten Projektabschnitts soll die Datenaufnahme und ‑kontrolle abgeschlossen werden. Im Anschluß daran wird mit Skalenanalysen und Itemselektionen der Befindlichkeitsdaten nach klassischen Methoden begonnen. Über die weitere Planung der Analysen, insbesondere die Überprüfung der Anwendbarkeit von Latent-State-Trait-Modellen im Bereich der Befindlichkeitsmessung wird im Verlängerungsantrag berichtet.
Literatur
Abele‑Brehm, A. & Brehm, W. (1986). Zur Konzeptualisierung und Messung von Befindlichkeit. Die Entwicklung der "Befindlichkeitsskalen" (BFS). Diagnostica, 32, 209‑228.
Baumann, U. & Dittrich, A. (1972). Überprüfung der Deutschen Version eines Polaritätenprofils zur Erfassung der Befindlichkeit. Zeitschrift für Klinische Psychologie, 1, 335‑350.
Becker, P. (1988). Skalen für Verlaufsstudien der emotionalen Befindlichkeit. Zeitschrift für Experimentelle und Angewandte Psychologie, 35, 345‑369.
Becker, P. (1989). Der Trierer Persönlichkeitsfragebogen TPF. Handanweisung. Göttingen: Hogrefe.
Biehl, B., Dangel, S. & Reiser, A. (1986). Profile of Mood States. In CIPS: Internationale Skalen für Psychiatrie. Weinheim: Beltz.
Binz, W. & Wendt, G. (1986). KUSTA ‑ Kurz‑Skala Stimmung/Aktivierung. Manual. Weinheim: Beltz.
Bock, R. D., Gibbons, R. & Muraki, E. (1988). Full‑information factor analysis. Applied Psychological Measurement, 12, 261‑280.
Bohner, G., Schwarz, N. & Hormuth, S. E. (1989). Die Stimmungs‑Skala: Eine deutsche Version des "Mood Survey" von Underwood und Froming (ZUMA‑Arbeitsbericht Nr. 89/06). Mannheim: ZUMA.
Bond, A. & Lader, M. (1974). The use of analogue scales in rating subjective feelings. British Journal of Medical Psychology, 47, 211‑218.
Bottenberg, E. H. (1970). Stimmung: Dimensionierte Messung, Situations‑ und Persönlichkeitsabhängigkeit. Psychologische Praxis, 14, 18‑37.
Brähler, E. & Scheer, J. (1983). Der Gießener Beschwerdebogen. Bern: Huber.
Brandtstätter, H. (1991). Alltagsereignisse und Wohlbefinden. In A. Abele & P. Becker, Wohlbefinden: Theorie ‑ Empirie ‑ Diagnostik (S. 191‑225). Weinheim: Juventa.
Bullinger, M., Heinisch, M., Ludwig, M. & Geier, S. (1990). Skalen zur Erfassung des Wohlbefindens: Psychometrische Analysen zum "Profile of Mood States" (POMS) und zum "Psychological General Well‑being Index" (PGWI). Zeitschrift für Differentielle und Diagnostische Psychologie, 11, 53‑61.
Burkard, G., Upmeyer, H. J., Weidenhammer, W. & Schmidt, A. (1982). Selbstbeurteilungsskala unterstützt die Diagnosefindung. Das Hamburg‑Erlanger Stimmungsbarometer (HESTIBAR). Psycho, 8, 690‑696.
Carver, C. S. & Scheier, M. F. (1990). Origins and functions of positive and negative affect: A control-process view. Psychological Review, 97, 19-35.
Dann, H. D. (1974). Aggression und Leistung. Stuttgart: Klett.
de Gruijter, D. N. M. & van der Kamp, L. J. Th. (1984). Statistical models in psychological and educational testing. Lisse: Swets & Zeitlinger.
Eid, M. (1990). Deutschsprachige Verfahren zur Erfassung der Befindlichkeit ‑ ein Überblick (unveröff. Manuskript).
Eid, M., Notz, P., Steyer, R. & Schwenkmezger, P. (1991). Wirken sich Unterschiede in der Form der Antwortskalierung auf die Dimensionalität einer Befindlichkeitsskala aus? Vortrag gehalten auf der 33. Tagung experimentell arbeitender Psychologen, Gießen.
Eid, M., Mayer, A.-K., Steyer, R., Notz, P. & Schwenkmezger, P. (in Druck). Monopolar mood factors ‑ a methodological artifact? First results of a simulation study with LISCOMP. In R. Steyer, K. ‑ F. Wender & K. Widaman (Eds.), Proceedings of the 7th European Meeting of the Psychometric Society. Stuttgart: Fischer.
Fähndrich, E. & Linden, M. (1982). Zur Reliabilität und Validität der Stimmungsmessung mit der Visuellen Analog‑Skala (VAS). Pharmacopsychiatrie, 15, 90‑94.
Fahrenberg, J. (1975). Die Freiburger Beschwerdenliste FBL. Zeitschrift für Klinische Psychologie, 4, 79‑100.
Fahrenberg, J., Hampel, R. & Selg, H. (1984). Das Freiburger Persönlichkeitsinventar (FPI und FPI‑R). Handbuch (4. Aufl.). Göttingen: Hogrefe.
Fenigstein, A., Scheier, M. F. & Buss, A. H. (1975). Public and private self‑consciousness: Assessment and theory. Journal of Consulting and Clinical Psychology, 43, 522‑527.
Filipp, S. H., Ahammer, I., Angleitner, A. & Olbrich, E. (1980). Eine Untersuchung zu inter‑ und intraindividuellen Differenzen in der Wahrnehmung und Verarbeitung von subjektiv erlebten Persönlichkeitsveränderungen (Forschungsbericht Nr. 11 aus dem Projekt Entwicklungspsychologie des Erwachsenenalters). Trier: Universität, Fachbereich I - Psychologie.
Filipp, S. H. & Freudenberg, E. (1989). Fragebogen zur Erfassung dispositionaler Selbstaufmerksamkeit (SAM‑Fragebogen). Göttingen: Hogrefe.
Fisher, G. A., Heise, D. R., Bohrnstedt, G. W. & Lucke, J. I. (1985). Evidence for extending the circumplex model of personality trait language to self reported moods. Journal of Personality and Social Psychology, 49, 233‑242.
Gebert, A. (1979). Über Schwierigkeitsfaktoren bei Faktorenanalysen auf Itembasis. In L. H. Eckensberger (Hrsg.), Bericht über den 31. Kongreß der DGfPs in Mannheim 1978 (S.509-511). Göttingen: Hogrefe.
Goetze, U. (1984). Münster‑Polaritätenprofil für Depressive. Der Nervenarzt, 55, 127‑132.
Gräser, H. (1978). Überprüfung der faktoriellen Struktur einer deutschsprachigen Version des "Eight State Questionnaire" mittels Ketten‑P‑Technik (Trierer Psychologische Berichte 5). Trier: Universität, Fachbereich I ‑ Psychologie.
Hampel, R. (1971). Entwicklung einer Skala zur Selbsteinschätzung der aktuellen Stimmung. Unveröff. Diss., Universität Freiburg.
Hampel, R. (1977). Adjektiv‑Skalen zur Einschätzung der Stimmung (SES). Diagnostica, 23, 43‑60.
Hartung, J., Elpelt, B. & Klösner, K.-H. (1982). Statistik. München: Oldenbourg Verlag GmbH.
Hecheltjen, K. G. & Mertesdorf, F. (1973). Entwicklung eines mehrdimensionalen Stimmungsfragebogens (MSF). Gruppendynamik, 40, 110‑122.
Heimann, H. (1967). Essai d'objectivation éxperimentale et clinique de l'émotionalité. Schweizer Archiv für Neurologie, Neurochirurgie und Psychiatrie, 100, 475‑486.
Hobi, V. (1985). Basler Befindlichkeitsskala. Manual. Weinheim: Beltz.
Hoffmann, R. (1984). Erleben von Glück ‑ eine empirische Untersuchung. Psychologische Beiträge, 26, 516‑532.
Howarth, E. & Hoffman, M. S. (1984). A multidimensional approach to the relationship between mood and weather. British Journal of Psychology, 75, 15-23.
Janke, W. & Debus, G. (1978). Die Eigenschaftswörterliste EWL. Handanweisung. Göttingen: Hogrefe.
Jöreskog, K. G. & Sörbom, D. (1989). LISREL7. A guide to the program and applications. Chicago: Scientific Software.
Kanner, A. D., Coyne, J. C., Schaefer, C. & Lazarus, R. S. (1981). Comparison of two models of stress measurement: daily hassles and uplifts versus major life events. Journal of Behavioral Medicine, 4, 1‑39.
Kasielke, E. & Hänsgen, K. D. (1982). Beschwerden‑Erfassungsbogen (BEB). Berlin: Humboldt Universität, Psychodiagnostisches Zentrum.
Lazarus, R. S. & Cohen, J. B. (1977). Coping questionnaire. The hassles scale. The uplift scale : Unpublished paper. Berkeley: University of California.
Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading/Mass.: Addison Wesley.
Lorr, M. (1989). Models and methods for measurement of mood. In R. Plutchik & H. Kellerman (Eds.), Emotion. Theory, research, and experience, Vol. 4. The measurement of emotions (pp. 37‑53). San Diego: Academic Press.
Mackay, C. J. (1980). The measurement of mood and psychophysiological activity using self‑report techniques. In I. Martin & P. Venables (Eds.), Techniques in psychophysiology (pp. 501‑562). Chichester: Wiley.
Martin, W. S., Fruchter, B. & Mathis, W. J. (1974). An investigation of the effect of the number of scale intervals on principal components for factor analysis. Educational and Psychological Measurement, 34, 537‑545.
McCormack, H. M., Horne, D. J. & Sheater, S. (1988). Clinical applications of visual analogue scales: a critical review. Psychological Medicine, 18, 1007‑1019.
McNair, D. M., Lorr, M. & Doppleman, L. F. (1971). EITS manual for the Profile of Mood States. San Diego: Educational and industrial testing service.
McDonald, R. P. & Ahlawat, K. S. (1974). Difficulty factors in binary data. British Journal of Mathematical and Statistical Psychology, 27, 82‑99.
Meddis, R. (1972). Bipolar factors in mood adjective checklists. British Journal of Social and Clinical Psychology, 61, 178‑184.
Mislevy, R. J. (1986). Recent developments in the factor analysis of categorical variables. Journal of Educational Statistics, 11, 3‑31.
Morris, W. N. (1989). Mood ‑ the frame of mind. New York: Springer.
Muraki, E. & Engelhard, G. (1985). Full‑information item factor analysis: Applications of EAP scores. Applied Psychological Measurement, 9, 417‑430.
Muthén, B. (1988). LISCOMP. Analysis of linear structural equations with a comprehensive measurement model (2nd ed.). Mooresville: Scientific Software.
Nitsch, J. R. (1976). Die Eigenzustandsskala. Ein Verfahren zur hierarchisch‑mehrdimensionalen Befindlichkeitsskalierung. In J. Nitsch & J. Udris (Hrsg.), Beanspruchung im Sport (S. 81‑102). Bad Homburg: Limpert.
Notz, P. (1990). Psychometrische Modelle zur Analyse von Längsschnittdaten: Bewältigungsverhalten im zeitlichen Verlauf. Unveröffentl. Dipl.Arbeit, Universität Trier.
Notz, P. (1991). KEBEF. Ein Computerprogramm zur kontrollierten Eingabe von Befindlichkeitsdaten. Computerprogramm, Universität Trier
Notz, P., Steyer, R. & Eid, M. (in Druck). FAST: A PC‑program for the fast analysis of latent‑state‑trait models. In R. Steyer, H. Gräser & K. Widaman (Eds.), Consistency and specificity: Latent‑state‑trait models in psychological research. New York: Springer.
Nowlis, V. (1965). Research with the Mood Adjective Check List. In S. S. Tomkins & C. E. Izard (Eds.), Affect, cognition, and personality (pp. 352‑389). New York: Springer.
Olsson, U. (1979). On the robustness of factor analysis against crude classification of the observations. Multivariate Behavioral Research, 14, 485‑500.
Russell, I. A. (1979). Affective space is bipolar. Journal of Personality and Social Psychology, 37, 345‑356.
Samejima, F. (1969). Estimation of ability using a response pattern of graded scores. Psychometrika Monograph No. 17.
Schmitt, N. & Stults, D. M. (1985). Factors defined by negatively keyed items: The result of careless respondents? Applied Psychological Measurement, 9, 367‑374.
Schneewind, K. A., Schröder, G. & Cattell, R. B. (1986). Der 16-Persönlichkeits-Faktoren-Test (16 PF) (2. Auflage). Bern: Huber.
Schwenkmezger, P. (1991). Persönlichkeit und Wohlbefinden. In A. Abele & P. Becker (Hrsg.), Wohlbefinden: Theorie, Empirie, Diagnostik (S. 119‑137). Weinheim: Juventa.
Sjöberg, L. S., E. & Persson, L. (1979). The measurement of mood. Scandinavian Journal of Psychology, 20, 1‑18.
Supprian, U. (1976). Eppendorfer Stimmungs‑Antriebsskala (ESTA III). Weinheim: Beltz.
Svensson, E. (1977). Response format and the factor structure in mood adjective check lists. Scandinavian Journal of Psychology, 18, 71‑78.
Ullrich de Muynck, R. & Ullrich, R. (1977). Das Emotionalitätsinventar als Befindlichkeitsmaß. Testmanual EMI‑B. München: Pfeiffer.
Underwood, B. & Froming, J. (1980). The mood survey: A personality measure of happy and sad moods. Journal of Personality Assessment, 44, 404‑414.
Watson, D. & Clark, L. A. (1984). Negative affectivity: The disposition to experience aversive emotional states. Psychological Bulletin, 96, 465‑490.
Watson, D. & Tellegen, A. (1985). Toward a consensual structure of mood. Psychological Bulletin, 98, 219‑235.
Zealley, A. K. & Aitken, R. C. B. (1969). Measurement of mood. Proceedings of the Royal Society of Medicine, 62, 993‑996.
Zerssen, D. v. & Koeller, D. M. (1976a). Die Befindlichkeitsskala. Manual. Weinheim: Beltz. Zerssen, D. v. & Koeller, D. M. (1976b). Beschwerdenliste. Weinheim: Beltz.
Zielke, M. (1979). Kieler Änderungssensitive Symptomliste. Manual. Weinheim: Beltz.
Zielke, M. & Kopf‑Mehnert, C. (1978). Veränderungsfragebogen des Erlebens und Verhaltens (VEV). Manual. Weinheim: Beltz.