Home Studium Workshops / Konferenzen Videos Forschung Dienstleistungen Team
Impressum / Kontakt
deutschsprachige Version 
Besucher seit 27.02.2014:
ganze Website: 386448
aktuelle Seite: 303
Causal Effects EAM Fachgruppe Methoden und Evaluation (DGPs)

Befindlichkeitsmessung und Latent-State-Trait-Modelle

Befindlichkeitsmessung und Latent-State-Trait-Modelle

Steyer, R., Schwenkmezger, P., Eid, M. & Notz, P.

Arbeitsbericht zum DFG-Projekt "Ste 411/3-1"

Trier, im Dezember 1991


Inhaltsverzeichnis

Vorwort

1. Voruntersuchung

1.1     Ziele der Voruntersuchung
1.2     Itemauswahl
1.2.1  Zusammenstellung des Itempools
1.2.2  Auswahl von geeigneten Items aus dem Itempool
1.2.3  Auswahl der Antwortskalierung
1.3     Untersuchungsdesign
1.4     Ergebnisse der Voruntersuchung
1.4.1  Deskriptive Ergebnisse
1.4.2  Ergebnisse der Dimensionsanalysen
1.4.2.1   Auswirkungen der Unterschiede in der Form der Antwortskalierung auf die Dimen­si­onalität der Befindlichkeitsskala
1.4.2.2   Ladungsmuster der als ungeeignet eingestuften Stimmungsadjektive
1.4.2.3   Auswahl der Items anhand der Ergebnisse der Voruntersuchung
1.4.3 Verteilungskennwerte und Reliabilitätsschätzwerte der Befindlichkeitssubskalen
1.4.4 Auswahl der Antwortskalierung anhand der Ergebnisse der Voruntersuchung

2. Hauptuntersuchung

2.1     Ziele der Hauptuntersuchung
2.2     Auswahl der Testverfahren
2.2.1 Situative Bedingungen
2.2.2 Personale Bedingungen
2.3     Stichprobengewinnung
2.3.1 Gruppenuntersuchung
2.3.2 Kontrolliertes Schneeballverfahren
2.4     Datenerhebung
2.5     Erste Ergebnisse

3.  Ausblick

Literatur

Anhang


Vorwort

In diesem Arbeitsbericht beschreiben wir die Arbeiten, die im Projekt "Befindlichkeits­messung und Latent-State-Trait-Modelle" im Zeitraum vom März 1990 bis Dezember 1991 durch­ge­führt wurden.

          Im Projektantrag vom 28. Juli 1989 sind folgende zwei Zielsetzungen formuliert worden:

1.  Generalisierung von testtheoretischen Modellen für kategorielle Antwortvariablen zur simultanen Messung von States und Traits.

2.  Die Überprüfung der Anwendbarkeit von Latent-State-Trait-Modellen für kate­gorielle und kontinuierliche Variablen im Bereich der Messung emotionaler Befind­lich­keiten.

Im bisherigen Zeitraum wurden die meßtheoretischen Grundlagen eines Latent-Trait- und eines Latent-State-Modells für kategorielle Variablen entwickelt. Die Erarbeitung der meßtheoretischen Grundlagen des Latent-State-Trait-Modells soll bis zum Ende des ersten Projektabschnitts (März 1992) abgeschlossen sein. Die Dokumentation dieser Ergebnisse erfolgt nach Abschluß aller meßtheoretischen Analysen im Rahmen des Abschlußberichts. Erste Datenanalysen mit Latent-State-Trait-Modellen für kategoriale Variablen zeigten jedoch, daß die betrachteten Items nicht perfekt homogen im Sinne der Latent-State-Trait-Modelle sind, sondern auch itemspezifische Anteile erfassen. Die bisher entwickelten Modelle müssen daher zur Erfassung dieser spezifischen Anteile erweitert werden (siehe hierzu den Ver­län­ger­ungs­­antrag).

          Zur Analyse des zweiten Projektziels wurden umfangreiche Vorarbeiten durchgeführt. Im folgenden Bericht beschränken wir uns auf die Darstellung der Voruntersuchung und einiger Ergebnisse der Hauptuntersuchung. Es wird über Vorarbeiten zur Erstellung einer ersten Probeversion des Befindlichkeitsmeßinstruments berichtet und über Ana­ly­sen, die im Hinblick auf die Erstellung des Fragebogens für die Haupt­unter­suchung durch­geführt wurden. Im zweiten Teil des Berichts werden die Vorbereitungen und die Durch­führung der Hauptuntersuchung dargestellt und erste Ergebnisse präsen­tiert.

          Bisher wurden im Rahmen dieses Projekts zwei Vorträge ausgearbeitet und auf der "33. Tagung experimentell arbeitender Psychologen" in Gießen am 25. März 1991 vor­ge­tragen. Außerdem wurden zwei Poster erstellt, welche auf dem "7th European Meet­ing of the Psychometric Society" in Trier am 29. Juli 1991 präsentiert wurden. Des­weiteren wurde das Computer-Programm "Fast Analyses of Latent-State-Trait Models" (FAST) erstellt, das zur schnelleren Arbeit mit Latent-State-Trait-Modellen entwickelt wurde. FAST leistet bisher folgendes: Es erstellt optimierte Eingabedateien für Ana­lysen mit dem Programm LISREL 7 (Jöreskog & Sörbom, 1989) und berechnet Para­me­ter, die innerhalb der Latent-State-Trait-Theorie von Interesse sind. Es werden zum Beis­piel die für den Gesamt­test geschätzten Reliabilitäts-, Konsistenz- und Spezi­fi­täts­kenn­werte berechnet und in tabellarischer Form zur Verfügung gestellt.


1. Voruntersuchung

1.1 Ziele der Voruntersuchung

Mit der Voruntersuchung wurden die folgenden zwei Ziele verfolgt:

(1)    Auswahl der Items für die Hauptuntersuchung. Aus einem Pool von Items deutsch­­­spra­chi­ger Adjektivlisten zur Befind­lichkeits­beschreibung sollten anhand theore­ti­scher Kriterien und itemstatistischer Kennwerte Items für den Frage­bogen der Haupt­­unter­suchung ausgewählt werden.

(2)    Auswahl der Antwortskalierung. Aus verschiedenen Formen der Antwort­skalie­rung sollte die geeignetste anhand teststatistischer Kennwerte und der Rück­mel­dungen der Probandinnen und Probanden ausgewählt werden.

1.2 Itemauswahl

1.2.1 Zusammenstellung des Itempools

Zur Auswahl von Items für deutschsprachige Befindlichkeitsskalen lassen sich in der bisherigen Forschungspraxis grundsätzlich fünf Strategien unterscheiden:

(a)   Selektion aller zur Befindlichkeitsbeschreibung geeigneten Adjektive aus deutsch­­spra­chigen Wörterbüchern anhand rationaler Vorauslese (Hampel, 1977; Janke & Debus, 1978; Nitsch, 1976).

(b)  Selektion von Adjektiven zur Befindlichkeitsbeschreibung aus bisher ent­wic­kel­ten Ad­jek­tivlisten anhand verschiedener Kriterien (Becker, 1988; Botten­berg, 1970; Hechel­tjen & Mertesdorf, 1973).

(c)   Selektion von Adjektiven zur Befindlichkeitsbeschreibung aus bisher ent­wic­kel­ten Ad­jek­tiv­listen anhand eines theoretischen Modells (Abele-Brehm & Abele, 1986).

(d)  Übersetzungen fremdsprachiger Verfahren (Baumann & Dittrich, 1972; Biehl, Dangel & Reiser, 1986; Dann, 1974; Gräser, 1978).

(e)   Zusammenstellung von Items aufgrund klinischer Erfahrungen (Hobi, 1985; von Zerssen & Koeller, 1976).

Strategie (b) erwies sich als adäquate Itemselek­tions­strategie für die angestrebten Pro­jektziele. Die anderen Strategien waren aus folgenden Gründen ungeeignet: Da ein Ziel des Projekts in der Untersuchung der Anwendbarkeit verschiedener Item­selek­­tions­kriterien besteht, sollte ein möglichst großer Pool von Items zusammengestellt werden. Es wurde daher auf eine reine Übersetzung fremdsprachiger Verfahren [Strate­gie (d)] verzichtet. Aufgrund des begrenzten Zeitumfangs der Projektdauer schied auch Strategie (a) aus. Da sowohl die Frage nach der Struktur der selbstberichteten emoti­ona­len Befindlichkeit als auch die Frage, ob diverse Modelle zur Beschreibung der Struktur der Befindlichkeit methodische Artefakte sind (s. z. B. Lorr, 1989), sehr kontrovers disku­tiert wird, wurde auch Strategie (c) ausgeschlossen. Strategie (e) entfiel ebenso, da kein Befindlichkeitsbogen für ausschließlich klinische Zwecke konstruiert werden sollte.


    Zur Itemauswahl wurden daher verschiedene deutschsprachige Befindlichkeitsskalen zu­sam­men­­gestellt. Grundlage hierzu bildete eine Literaturrecherche anhand der Daten­bank PSYTKOM, die bei der Zentralstelle für psychologische Information und Doku­men­ta­tion (ZPID, Trier) in Auftrag gegeben wurde. Diese Literaturrecherche wurde darüber ­hinaus durch eigene Recherchen ergänzt. Zur Itemauswahl wurden nur solche Verfahren betrachtet, die als Adjek­tivlisten oder Polaritätenprofile vorliegen und in verschie­denen Anwendungs­be­rei­chen eingesetzt werden können. Ausge­schlossen wurden daher Test­verfahren, die

  • eine Zustimmung bzw. Ablehnung von Aussagensätzen erfordern (z. B. Stim­mungs-Skala, Boh­ner, Schwarz & Hormuth, 1986 und die deutsche Über­set­zung des Eight‑­State‑Questionnaires von Cattell & Gräser, 1978),
  • sich auf einen engbegrenzten Anwendungsbereich beziehen (z. B. Befind­lich­keits­­ska­la zum Erfassen von Glück, Hoffmann, 1984),
  • nur im psychiatrischen Bereich eingesetzt werden (z. B. Eppendorfer Stim­mung-An­triebsskala (ESTA), Supprian, 1976; Hamburg-Erlanger Stim­mungs­baro­meter (HES­TI­BAR), Burkard, Upmeyer, Weidenhammer & Schmidt, 1982; Kurz-Skala Stim­­mung/Ak­tivierung (KUSTA), Binz & Wendt, 1986; Münster ­Po­­laritätenprofil für Depressive, Goetze, 1984),
  • für spezifische therapeutische Anwendungsbereiche konstruiert wurden (Emo­ti­o­na­litäts­inventar (EMI), Ullrich de Muynck & Ullrich, 1977; Kieler Ände­rungs­sensitive Symptomliste (KASSL), Zielke, 1979; Veränderungsfragebogen des Erlebens und Verhaltens (VEV), Zielke & Kopf-Mehnert, 1978).

Da die Frage der Bipolarität von Stimmungsdimensionen sehr umstritten ist (s. zum Über­blick Eid, 1990; Lorr, 1989; Mackay, 1980), wurde die Befindlichkeitsskala als Adjektiv­liste konzipiert. Die Adjektive zur Kennzeichnung der entgegengesetzten Pole der Polaritätenprofile wurden daher als einzelne Adjektive in den Itempool auf­ge­nom­men. Der Itempool um­faßte die Items der in Tabelle 1 zusammengestellten deutsch­sprachigen Be­find­lich­keits­skalen.

Tabelle 1

Deutschsprachige Befindlichkeitsskalen


*     Stimmungswortinventar (SWI; Bottenberg, 1970)b

*     Polaritätenprofil zur Erfassung der Befindlichkeit (PP‑S; Baumann & Dittrich, 1972; Originalversion: Heiman, 1967)a

*     Mehrdimensionaler Stimmungsfragebogen (MSF; Hecheltjen & Mertesdorf, 1973)b

*     Stimmungs‑Adjektiv‑Checkliste (SACL; Dann, 1974; Originalversion: Multiple Adjective Check List, Nowlis, 1965)b

*     Eigenzustandsskala (EZ; Nitsch, 1976)b

*     Befindlichkeitsskala (BF‑S; von Zerssen & Koeller, 1976)a 

*     Adjektiv‑Skalen zur Einschätzung der Stimmung (SES; Hampel, 1977)b

*     Eigenschaftswörterliste (EWL; Janke & Debus, 1978)b

*     Basler Befindlichkeitsskala (BBS; Hobi, 1985)a

*     Befindlichkeitsskalen (BFS; Abele‑Brehm & Brehm, 1986)b

*     Profile of Mood States (POMS; Biehl, Dangel & Reiser, 1986; Originalversion: McNair, Lorr & Doppleman, 1970)b

*     Verlaufsskalen zur emotionalen Befindlichkeit (VEB; Becker, 1988)b



 

Anmerkungen. Die Befindlichkeitsskalen sind nach ihrem Erscheinungsjahr geordnet.

a Polaritätenprofil

b Adjektivliste


1.2.2 Auswahl von geeigneten Items aus dem Itempool

Zu Beginn jeder Testkonstruktion und Itemselektion sollte die theoretische Abgrenzung des Konstrukts bzw. die Explikation der zugrundegelegten Theorie vorgenommen werden. Die Konstruktionen deutschsprachiger Stimmungsskalen sind durch das Vor­herrschen operationa­ler Definitionen gekennzeichnet. Dies zeigt sich bspw. darin, daß bei der Hälfte der hier betrachteten Befindlichkeitsskalen der zugrundeliegende Stim­mungs­begriff weder in den Testmanualen noch in den zugänglichen Publika­tionen expli­ziert wird und eine Bestimmung des Erhebungsge­genstandes erst post hoc aufgrund der dimen­sionsanalytischen Ergebnisse vorgenommen wird (s. zum Überblick Eid, 1990).

    Die Kennzeichnung des Stimmungsbegriffs durch die fakto­renanalytisch gewonnenen Dimensionen einer Befindlichkeits­skala kann zwar ‑ von einem empirischen Standpunkt gesehen ‑ durchaus berechtigt sein, sie verdeckt jedoch die Tatsache, daß schon in die Item­­auswahl theoretische Vorüberlegungen eingeflossen sind, d. h. auch operationale Definitionen finden nicht in einem theoretischen Vakuum statt. Die Güte einer Test­kon­struk­­tion zeichnet sich u. a. dadurch aus, daß impli­zite theoretische Vorüberlegungen expli­zit formuliert werden.

    Eine Abgrenzung von anderen psychologischen Konzepten und Konstrukten legen Abele-Brehm und Brehm (1986), Bottenberg (1970), Hecheltjen und Mertesdorf (1973) sowie Hampel (1971) und Becker (1988) vor. Die Autoren kennzeichnen Stimmungen als relativ überdau­ernde emotionale Erscheinungen (Zustandscharakter), die im Gegen­satz zu Gefühlen nicht auf bestimmte Gegenstände (Perso­nen, Dinge, Ereignisse) gerich­tet sind und die den Hintergrund für andere Erlebnis­qualitäten bilden (Fi­gur­-Grund­‑Un­ter­­scheidung). Bottenberg (1970), Ham­pel (1971) sowie Hecheltjen und Mer­tes­dorf (1973) heben dar­über hinaus die Erschwerung des Bewußtwerdens von Stim­mungen und das Fehlen kognitiver Elemente hervor. Stimmungen lassen sich aufgrund der fehlenden Ziel­gerichtetheit von Motiven ab­gren­zen (Hecheltjen und Mertesdorf, 1973), involvieren die gesamte Person und weisen eine geringere Intensität als Ge­fühle auf (Hampel, 1970). Stimmungen werden nicht unbe­dingt durch einen äußeren Anlaß hervorgerufen und lassen sich von Persönlich­keits­­eigen­schaften durch die geringere zeitliche Stabilität abgrenzen (Abele-Brehm & Brehm, 1986).

    Aufbauend auf diesen Begriffsbestimmungen wurde der Itemauswahl folgende Arbeits­­­de­fi­ni­tion zugrunde gelegt:

Arbeitsdefinition. Unter Stimmungen[1]sol­len im folgenden erlebnismäßig repräsen­tierte psychophysische Zustände eines Individuums verstanden werden, die sich in Ab­gren­zung von anderen psychologischen Konzepten und Konstruk­ten wie folgt charak­teri­sieren lassen: Im Gegensatz zu beob­achtbarem Verhalten kennzeichnen Stimmungen das innere Erle­ben und Empfinden eines Individuums ("erlebnismäßig repräsen­tiert"). Stimmungen sind nicht auf spezifische Objekte (z. B. Personen, Dinge, Ereignisse, Organe) bzw. Situationen gerich­tet und sind nicht an spezifische Ursachen gebunden; sie las­sen sich anhand dieser Kriterien von Gefühlen, Einstellungen, Bedürfnissen und Organempfindungen abgrenzen. Im Gegensatz zu Moti­ven fehlt Stimmungen die Ziel­ge­rich­tetheit (Intentionali­tät), und im Vergleich zu Moti­ven und Persönlichkeitseigen­schaf­ten sind Stimmungen durch eine geringere zeitliche Sta­bilität gekennzeichnet.

    Aufbauend auf dieser Begriffseingrenzung können diejenigen Dimensio­nen nicht dem Phänomen der Stimmungen zugeordnet werden, die objektbezogene Aufmerksamkeits­zu­stände (Konzen­tra­tion, Vigi­lität), Gefühle (Schuld, Neid), kognitive Aktivitäten (Skep­tizismus), soziales Verhalten (Introvertiertheit, Extraver­tiertheit, Anteilnahme) und selbstbe­zo­ge­ne Kognitionen (Selbstsicherheit, soziale Anerkennung) kenn­zeichnen bzw. sich auf eine spezifische Ursache beziehen (Be­nommenheit). Darüber hinaus können Adjektive der Dimensionen Ängstlichkeit und Ärger nicht dem Bereich der Stimmungen zu­geordnet werden, wenn sie objektbezogene Gefühlsausprägungen und nicht ärgerliche bzw. ängstliche Stimmungen kennzeichnen (z. B. "verärgert" im Gegensatz zu "ge­reizt").

Tabelle 2

Itemselektionskriterien


1.  Bezeichnet dieses Item ausschließlich ein beobachtbares Verhalten?

            Beispiele: wortkarg, gesprächig, zappelig

2.  Bezeichnet diese Item ausschließlich eine zeitlich stabile Eigenschaft?

            Beispiel: intelligent

3.  Ist dieses Item ungeeignet zur Beschreibung eines Gefühls oder einer Stimmung?

            Beispiele: trüb, gut in Schuß

4.  Ist dieses Item zu schwer verständlich (z. B. ein Fremdwort) oder unge­bräuch­lich?

            Beispiele: apathisch, lethargisch, agil, bedeppert

5.  Wird mit diesem Item ein körperlich lokalisierbarer Zustand bezeichnet?

            Beispiel: flau

6.  Nimmt dieses Item Bezug auf einen spezifischen Anlaß/Ursache oder setzt die Beur­tei­lung dieses Items eine soziale Situation voraus?

            Beispiele: abgekapselt, beschwipst, abgearbeitet, beleidigt

7.  Ist zu erwarten, daß die Beantwortung dieses Items übergeordnete Bewer­tungs­pro­zesse in Gang setzt?

            Beispiel: minderwertig


In einem ersten Itemselektionsschritt wurden alle Adjektive des Itempools von 4 Diplom­-Psychologen und 4 Studierenden des Faches Psychologie danach bewertet, ob sie zur Erfassung der emotionalen Befindlichkeit geeignet sind. Die Beurteilung erfolgte anhand von 7 Eignungskriterien, die in Tabelle 2 zusammengestellt sind. Die Kriterien 1, 2 und 6 können unmittelbar aus der Arbeitsdefinition hergeleitet werden. Mit Krite­rium 4 sollte sichergestellt werden, daß die Beantwortung der Items nicht aufgrund eines Mangels an sprachlicher Kompetenz scheitert. Anhand von Kriterium 5 sollten Adjektive, die körperliche Beschwerden erfassen und/oder in dem Sinne mehrdeutig sind, daß sie sowohl zur Beschreibung körperlicher als auch emotionaler Befindlich­keiten geeignet sind, ausge­schlos­sen werden, um eine Erfassung von Überlagerungen körper­licher und emotionaler Befindlich­kei­ten zu vermeiden. Um eine Induktion von Stimmungs­änderungen durch die Items selbst zu minimieren, wurden ebenfalls Adjek­tive ausgeschlossen, die übergeordnete kognitive Bewertungsprozesse in dem Sinne in Gang setzen können, daß eigene Lebensbereiche in den Fokus der Aufmerk­sam­keit rük­ken, deren Bewertung die momentan erlebte emotionale Befindlichkeit beein­träch­tigen könnte (s. hierzu z. B. Carver & Scheier, 1990). Kriterium 3 diente schließlich dazu, Adjek­tive zu eliminieren, deren Ungeeignetheit aufgrund semantischer Über­le­gun­gen offen­­sichtlich ist.

    Die Adjektive aus dem Itempool sollten hinsichtlich der oben beschriebenen Kriterien ein­geschätzt werden. Um erste Einschätzungen zu den einzelnen Adjektiven zu erhalten, ohne gleichzeitig ermüdende Diskussionen führen zu müssen, wurde das Computer-Pro­gramm "Itemurteil" (ITU) erstellt. Dieses sollte von jedem Diskussions­teil­nehmer eine indi­vidu­elle Beur­teilung des Items bezüglich der oben beschriebenen Krite­rien erfassen. Auf Grund­lage der Ergebnisse dieser Prozedur sollte dann über die letzt­endliche Auf­nahme eines Items in den Fragebogen entschieden werden.

    Das PC-Programm zur Itembeurteilung (ITU) wurde so geschrieben, daß für jedes ein­zelne Kriterium alle Adjektive in randomisierter Reihenfolge sukzessive vorgegeben wurden. Die beurteilende Person mußte zu jedem Item per Tastendruck angeben, ob sie der entsprechenden Kri­te­ri­ums­frage zustimmt oder sie ablehnt (s. Abbildung 1). Um die Probanden nicht allzu­sehr zu belasten, wurden die Kriterien in zwei Blöcke und die Items in fünf Blöcke von jeweils circa 50 Items aufgeteilt.

Die codierten Beurteilungen der Probanden wurden in externe Dateien abgelegt. Die Ergeb­­nisse aller Beurteilungen wurden dann für jedes einzelne Item und für jedes der Kriterien über die beur­teilenden Personen hinweg aufaddiert. Diese Ergebnisse bildeten die Grundlage für die rationale Vorauslese der Items. Diejenigen Items, welche von allen Personen bezüglich der sieben Kriterien als geeignet beurteilt wurden, konnten ohne Diskussion in den Itempool aufgenommen werden. Für die unterschiedlich beur­teil­ten Items wurde nach Klärung der Vorbehalte über die Aufnahme bzw. Ablehnung ent­schieden. Letzt­endlich wurden somit 85 Adjektive für den Itempool der Vorun­ter­suchung zusammen­ge­stellt (s. Abbildung 1).


abgeschlafft

angenehm

angespannt

ängstlich

apathisch

ärgerlich

aufgeregt

ausgeglichen

ausgelassen

ausgelaugt

ausgeruht

ausgewogen

beschwingt

betrübt

elend

energiegeladen

energielos

entspannt

erledigt

ermattet

ernst

erregbar

erschöpft

freudlos

frisch

fröhlich

gedrückt

gedrückte Stim­mung

gehobene Stim­mung

gelassen

gereizt

gleichgültig

glücklich

grüblerisch

gut

gut gelaunt

guter Dinge

heiter

hellwach

hochgestimmt

lebensfroh

lebenslustig

leer

lustlos

matt

mißgestimmt

mißmutig

müde

munter

nachdenklich

nervös

niedergeschlagen

reizbar

ruhelos

ruhig

schläfrig

schlapp

schlecht

schlecht aufgelegt

schlecht gelaunt

schwunglos

schwungvoll

todmüde

träge

traurig

trübsinnig

übermütig

überreizt

unangenehm

unausgeglichen

unglücklich

unruhig

unternehmungslustig

unwohl

unzufrieden

vergnügt

verträumt

verwirrt

voller Energie

wach

wohl

zerfahren

zermürbt

zerschlagen

zufrieden

Abbildung 1: Itempool der durch Vorauslese bestimmten Ad­jek­tive für die Vorunter­suchung (in alphabetischer Reihenfolge).

Zusätzlich zu den oben aufgeführten Adjektiven wurden weitere zehn Items in den Pool der Voruntersuchung mit aufgenommen, um die Angemessenheit der theoretischen Prä­se­le­ktion zu überprüfen. Es handelte sich dabei um folgende als ungeeignet eingestufte Adjek­tive: aggressiv, bedauernswert, behäbig, de­pres­siv, grantig, liebesfähig, menschen­scheu, trüb, versöhnlich, zappelig. Diese Items sollten sich auch anhand empirischer Ergebnisse als ungeeignet identifizieren lassen (s. dazu Kapitel 1.4.2.2).

1.2.3 Auswahl der Antwortskalierung

Bei der Vorgabe von Adjektivlisten muß in Betracht gezogen werden, daß die Dimen­sio­­na­li­tät einer Skala durch die Wahl der Antwortskalierung beeinflußt werden kann. So zeigten Meddis (1972), Russell (1979) und Svensson (1977), daß die von Now­lis (1965) vorgeschlagene Form der Antwortskalierung, die sowohl He­cheltjen und Mertesdorf (1973) in etwas abgeänderter Form als auch Dann (1974) übernommen haben (s. Tabel­le 3), zu schiefen, bi­modalen Verteilungen der Kategorienhäufigkeiten führt. Fak­toren­ana­lytische Untersuchungen von Befindlichkeitsskalen mit Nowlis‑Antwort­format erga­ben mehrdimensionale, monopolare Lö­sungen. Dagegen zeigte sich im Rahmen der Ana­lyse derselben Skalen bei Vorgabe einer symme­trischen Antwortskala (gleiche Anzahl der Zustimmungs‑ und Ablehnungskategorien), daß die Struktur durch eine gerin­gere Anzahl bipolarer Faktoren beschrieben werden kann (s. z. B. Meddis, 1972). Im Gegensatz zu einer symmetrischen Antwortskala zeigen Korrelations­ana­lysen von Items mit Nowlis‑Antwortformat, daß letzteres zu einer Ver­minderung der Aus­präg­ung negativer Korrelationen semantisch entgegengesetzter Adjektive führt. Die Kategorie "weiß nicht" bzw. "?" ist darüber hinaus mehrdeutig, so daß eine ordinale Ordnung der Antwort­kategorien in Frage gestellt werden kann. Überträgt man die Ergebnisse dieser Studien auf die Be­wertung der Dimensionsanalysen deutschsprachiger Verfahren, so ist die von Hecheltjen und Mertesdorf (1973) sowie von Dann (1974) gewählte Antwort­ska­lier­ung als ungeeignet zu bewerten, da sie eine Überfak­tori­sierung erwarten läßt.

Tabelle 3

Ausgewählte Formen der Antwortskalierung von Befindlichkeitsskalen


                                                     Nowlis‑Antwortformat

SACL1:   ss  s  ?  nein

MSF2:     sehr stark ‑ stark ‑ mittel ‑ etwas ‑ weiß nicht ‑ bestimmt nicht

                                                Asymmetrische Likert‑Skala

EZ3:        kaum ‑ etwas ‑ einigermaßen ‑ ziemlich ‑ überwiegend ‑ völlig


Anmerkungen.

1 SACL:   Stimungs-Adjektiv-Checkliste (Dann, 1974), die Kategorien "ss" und "s" bezeichnen den Grad der Zustimmung;

2 MSF:     Mehrdimensionaler Stimmungsfragebogen (Hecheltjen & Mertesdorf, 1973);

3 EZ:       Eigenzustandsskala (Nitsch, 1976).

Bei Skalen mit einem dichotomen Antwortmodus und sehr schiefverteilten Antwort­häufig­keiten muß der möglichen Ex­traktion von Schwierigkeitsfaktoren besondere Beach­tung ge­schenkt werden (McDonald & Ahlawat, 1974). Einen dichotomen Ant­wort­modus wählen Abele‑Brehm und Brehm (1986) sowie Janke und Debus (1978). Weder Janke und Debus (1978) noch Abele‑Brehm und Brehm (1986) teilen jedoch mit, welche Art von Korrelati­onsmatrizen den Faktorenanalysen zugrundegelegt wurde. Es ist zu erwarten, daß die Faktorenanalysen in beiden Fällen auf Produkt‑­Mo­ment‑­Korre­la­tionsmatrizen basieren. Die von Janke und Debus (1978) publizierten Schwierig­keits­indizes weisen vor allem bei den "negativen" Dimensionen (Desakti­viertheit, Depri­miert­heit, Ängstlichkeit, Ärger, Erregtheit, Müdigkeit) z. T. sehr schiefe Verteilungen auf, so daß die Ex­traktion von Schwierigkeits­fak­to­ren als mögliche Erklärung der monopolar mehrdimensionalen Struktur nicht ausge­schlossen werden kann. Auch die von Abele‑Brehm und Brehm (1986) publi­zierten Mittelwerte zeigen bei einigen Items extrem schiefe Verteilungen (z. B. Subskala Ärger: 3 von 5 Items haben einen Mittel­wert M < .10), die Annahme einer bipolaren Struktur mußte jedoch nicht verworfen werden, wenn zur Faktorenextraktion der Scree-Test herangezogen wird. Diese bipolare Struktur findet auch bei Vorgabe einer fünfstufigen Antwortskala empirische Unterstüt­zung.


    Der Einfluß mehrkategorieller Antwortskalen auf die Di­mensionsstruktur ist wenig untersucht. Hampel (1971) über­prüfte alle Items auf Normalverteilung. Die Analyse ergab für alle Items anomale J‑förmige Kurven. Obwohl Hampel (1971) die Unan­ge­mes­senheit der Hauptkomponentenanalyse diskutiert, ent­scheidet er sich letztlich doch für deren Anwendung, so daß auch in diesem Fall Überfaktorisierungen zumindest nicht aus­geschlossen werden können. Dies gilt auch für die POMS‑Ska­len, bei denen vor allem Items der "negativen" Dimensionen (Niedergeschlagenheit, Mißmut) linksschiefe Verteilungen auf­weisen (Bullinger et al., 1990).

    Die Anwendung von kategorialen Antwortskalierungen wird von mehreren Autoren grundsätzlich in Frage gestellt (s. zum Überblick Mackay, 1980), da durch diese Form der Antwortskalierung ein "kontinuierliches" Phänomen artifiziell kategorisiert wird und die verbalen Kennzeichnungen der Antwortkategorien das subjektive Empfinden nicht exakt beschreiben können. Zeally und Aitken (1969), Bond und Lader (1974) u. a. plädieren daher für den Gebrauch visueller Analogskalen (VAS), deren Vor- und Nach­teile bspw. von Fähndrich und Linden (1982) sowie McCormack, Horne und Sheather (1988) diskutiert werden.

    Während die Untersuchungen von Abele-Brehm und Brehm (1986) sowie Martin, Fruch­ter und Mathis (1974) darauf hinweisen, daß sich Skalen mit dichotomem und mehr­stufigem Antwortmodus nicht in der empirisch gewonnenen Dimen­sionalität unter­scheiden, dichotome Antwortskalen jedoch eine geringere Relia­bi­li­tät aufweisen, fehlt es bisher an Vergleichsuntersuchungen, die neben dichotomen und mehr­kategorialen Ant­wortskalen auch visuelle Analogskalen einbeziehen. Der Effekt der Antwort­ska­lie­rung auf die Dimensionalität der selbstberichteten emotionalen Befindlich­keit und die Relia­bilität der Befindlichkeitsskalen sollte daher als zweites Ziel der Vorunter­su­chung analysiert werden.

    Hierzu wurden drei Skalen zusammengestellt, die jeweils die Items der Vorform des Befind­lichkeitsfragebogens in derselben Reihenfolge enthielten, jedoch mit einer der in Tabelle 4 dargestellten Formen der Antwortskalierung verbunden wurden.


Tabelle 4

Formen der Antwortskalierung


*  dichotomer Antwortmodus

                                                                      

                                                  trifft zu                    trifft nicht zu

                   wohl                          [  ]                               [  ]

*  siebenstufige Antwortskala

                                                   1       2       3        4       5       6       7

                   wohl                       [  ]     [  ]     [  ]     [  ]     [  ]     [  ]     [  ]

*  visuelle Analogskala

                                                                   wohl

                   0__________________________________________________ 100


Neben einer dichotomen Antwortskalierung wurde eine visuelle Analogskala vorgege­ben, deren Länge auf das übliche Maß von 100 mm festgelegt wurde (s. hierzu McCor­mack, Horne & Sheather, 1988). Zusätzlich wurde eine mehrstufige Antwortskala mit 7 Antwort­kate­go­rien ausgewählt.

    Im Falle des dichotomen Antwortmodus wurden die Antwortkategorien mit "trifft zu" und "trifft nicht zu" gekennzeichnet. Im Falle der siebenstufigen Antwortskala und der visu­el­len Analogskala wurde auf eine verbale Kennzeichnung der Kategorien bzw. der End­punkte der Skalen verzichtet, da die Kennzeichnung der Kategorien nach den Unter­suchungen von Sjöberg, Svensson & Persson (1979) einen Einfluß auf die Dimen­si­o­na­li­tät der Skala haben kann. Zur Intensitätsabstufung wurden die Kategorien bzw. End­punkte mit Ziffern versehen (s. Tabelle 4).

1.3 Untersuchungsdesign

Zur Untersuchung der oben dargestellten Ziele wurde 544 Studierenden der Universität Trier eine der drei Befindlichkeitsskalen in drei Gruppenuntersuchungen vorgelegt. Die Untersuchung fand vor einer Vorlesung im Fach Soziologie bzw. nach zwei Vor­le­sungen im Fach Psychologie (Messen, Testen, Skalieren bzw. Statistik I) statt. Die Ver­tei­lung der Studierenden auf die einzelnen Bedingungen ist in Tabelle 5 dargestellt.

Tabelle 5

Stichprobengröβe der Voruntersuchung vom 29. und 30.11.1990


Stichprobengröβe

a) Verteilung auf die drei Lehrveranstaltungen (Anzahl N der Probanden)

Soziologie                                           258

Messen, Testen, Skalieren                   126

Statistik I                                             160

Gesamt                                                544

b) Verteilung auf die drei Formen der Antwortskalierung (Anzahl N der Probanden)

Skala                                        dichotom                           7‑stufig                       VAS

Statistik                                          58                                     50                             52

Messen, Testen, Skalieren             47                                     34                             45

Soziologie                                     81                                     84                             93

Gesamt                                         186                                   168                           190


1.4 Ergebnisse der Voruntersuchung

1.4.1 Deskriptive Ergebnisse

Für die Daten aus der Voruntersuchung sind in Anhang A deskriptive Ergebnisse tabel­­larisch zusammengefaßt. Es werden Maßzahlen für den Mittelwert, die Standard­ab­weichung, den Schwierigkeitskoeffizienten, die Schiefe und den Exzeß dargestellt. Diese Kennwerte werden für jedes der 95 Items nach der Art der Skalierung differen­ziert. Zur Analyse wurde für die dichotome Skala der Kategorie <trifft nicht zu> der Wert 1 und der Kategorie <trifft zu> der Wert 2 zugeordnet. Die 100 mm-Analog­skala wurde nach der Empfehlung von McCormack, Horne & Sheather (1988) in 20 gleich breite Kate­gorien aufgeteilt, denen von links nach rechts die Zahlen eins bis zwanzig zugeord­net wurden. Den Kategorien der siebenstufigen Antwortskala wurden die Werte eins bis sieben zugeordnet. In Hinblick auf die Frage, ob monopolare Stimmungs­faktoren metho­dische Artefakte (Schwierigkeitsfaktoren) sind, die durch die unterschiedlichen Schiefen semantisch entgegengesetzter Adjektive bedingt sind, ist der Vergleich der Schwierig­keits­koeffizienten zwischen verschiedenen Antwortskalierungen von besonderer Rele­vanz. Zum Verg­leich der Skalierungen unterschiedlicher Kategorienanzahl sind die Schwie­rig­keits­koeffizienten geeignet, da diese Koeffizienten den Itemmittelwert jeder Skala in einen Bereich zwischen 0 und 1 transformieren.

    Der Vergleich der Schiefekoeffizienten zwischen den Skalierungen läßt deutlich erkennen, daß sich für die Daten der dichotomen Skalierung extremere Koeffizienten erge­ben als für die Daten, die mit den anderen beiden Skalierungen erhoben wurden. Zwischen den Koeffizienten, welche für die visuelle Analogskala und die sieben­stu­fi­ge Ant­wort­skala berechnet wurden, sind keine größeren Differenzen zu beobachten. Die extremsten Werte sind für solche Items zu beobachten, die der gedrückten Stimmung zuzuordnen sind. Dagegen weisen Items, die der gehobenen Stimmung zuzuordnen sind, mittlere Werte auf. Die­ses Phänomen ist aus anderen Studien bekannt (s. z. B. Janke & Debus, 1978; Abele-Brehm & Brehm, 1986; Watson & Tellegen, 1985). Die Proble­ma­tik der Schwierigkeitsfaktoren wird in den nachfolgenden Dimensionsanalysen auf­ge­grif­fen werden.

1.4.2 Ergebnisse der Dimensionsanalysen

Anhand der faktorenanalytischen Auswertung der Befindlichkeitsskalen wurden drei Fragestellungen untersucht:

(1)   Im Vergleich der faktorenanalytischen Ergebnisse der Befindlichkeits­skalen mit den drei verschiedenen Formen der Antwortskalierung sollte exploriert werden, ob sich Unterschiede in der Antwortska­lierung der Skalen auf die Dimen­sio­na­li­tät einer Befindlichkeitsskala und die Polari­tät der Dimensionen aus­wirken.

(2)   Weiterhin sollte überprüft werden, ob die Items, die auf­grund der in Abschnitt 1.2.2 formulierten Kriterien als ungeeignet eingestuft wurden, auch anhand der Fak­toren­analysen als ungeeignet identifiziert werden konnten.

(3)   Schließlich sollten die Ergebnisse der Faktorenanalysen eine Grundlage für die Item­selektion bilden.


1.4.2.1  Auswirkungen der Unterschiede in der Form der Antwortskalie­rung auf die Dimen­­sionalität der Befindlichkeitsskala


Für jede Substichprobe wurde mit dem Programm­paket SPSS‑X eine Hauptachsen­ana­lyse mit Kommunalitätenite­ration gerechnet und die Faktoren im Anschluβ oblique (ob­limin) rotiert. Zur Überprüfung des Einflusses des Extraktionskriteriums wurden drei Extraktionskriterien ausgewählt:

1) Kaiser-Guttman-Kriterium (Eigenwerte > 1);

2) Scree‑Test: erster Knick im Eigenwertverlauf;

3) Scree-Test: Hauptknick im Eigenwertverlauf.

Ergebnisse.

Das Kaiser‑Guttmann‑Kriterium legt für den dichotomen Antwortmodus die Ex­trak­­tion von 18 Faktoren, für den siebenstufigen Antwortmodus die Extraktion von 10 Fak­toren und für die visuelle Analogskala die Extraktion von 11 Faktoren nahe. Die extra­hier­ten Faktoren erklären im Falle des dichotomen Antwortmodus 62.1 %, im Falle der siebens­tufigen Antwortskala 69.7 % und bei der visuellen Analogskala 68.6 % derVa­rianz auf.

Die Varianzaufklärung ist im Falle der siebenstufigen Antwortskala am günstigsten, da mit dieser Skala im Vergleich zu den beiden anderen Antwortmodi mit der geringsten Anzahl an Faktoren die meiste Varianz aufgeklärt werden kann. In Tabelle 6 werden die extrahierten Faktoren inhaltlich bestimmt und verschiedenen Stimmungsbereichen zugeordnet. Wie dieser Tabelle entnommen werden kann, wird der Stimmungsbereich "gehobene vs. gedrückte Stimmung" bei allen drei Formen der Ant­wort­­skalierung durch monopolare Faktoren abgebildet. Der Stimmungsbereich "Nervosi­tät/Unruhe vs. Ruhe/­Gelassenheit" wird im Falle der dichotomen Antwortskala und der visu­el­len Analog­skala durch einen bipolaren und einen monopolaren Faktor abgebildet, im Falle der siebenstufigen Antwortskala werden nur monopolare Faktoren zur Kenn­zeichnung dieses Bereichs extrahiert. Der Stimmungsbereich "Wachheit vs. Schläfrig­keit" wird in allen Fällen durch einen bipolaren Faktor abgebildet. Die übrigen Faktoren kenn­zeichnen jeweils monopolare Stimmungsfaktoren.

    Nach dem Scree‑Test (Kriterium: erster Knick im Eigenwertverlauf) lassen sich bei allen drei Skalierungsformen vier Faktoren extrahieren, die 41 % (dichotom), 62 % (sie­ben­stufig) bzw. 59 % (VAS) der Varianz aufklären. Die Faktorenstruktur kann in allen drei Fällen in analoger Weise interpretiert werden. Während für den Stimmungs­bereich "geho­bene vs. gedrückte Stimmung" zwei monopolare Faktoren extrahiert werden, wer­den die Stimmungsbereiche "Nervosität/Unruhe vs. Ruhe" und "Wachheit vs. Schläf­rig­keit" jeweils durch einen bipolaren Faktor abgebildet.

Tabelle 6

Ergebnisse der Hauptachsenanalysen (Eigenwerte > 1): Ordnung der Faktoren nach Stim­mungs­bereichen


dichotom

siebenstufig

VAS


gehobene vs. gedrückte Stimmung

gedrückte Stimmung:

F3  (betrübt)

F4  (schlecht gelaunt)

F8  (unangenehm)

F11 (gedrückte Stim­mung)

F1 (unangenehm)

F1 (elend)

F7 (zermürbt)

gehobene Stimmung:

F1  (zufrieden)

F12 (lebenslustig)

F9 (gut)

F2 (ausgelassen)

Nervosität/Unruhe vs. Ruhe/Gelassenheit:

F2  (nervös vs. ruhig)

F13 (überreizt)

F2 (ruhelos)

F8 (aufgeregt)

F4 (entspannt)

F4 (ausgeglichen vs.

    unausgeglichen)

F6 (aufgeregt)

Wachheit vs. Schläfrigkeit:

F3 (hellwach vs. schläfrig)

F3 (wach vs. schläfrig)

F3 (wach vs. müde)

Tatkraft:

F9 (voller Energie)

F10 (unternehmungslustig)

F10 (schwungvoll)

F9  (schwunglos)

Nachdenklichkeit:

F6 (nachdenklich)

F5 (nachdenklich)

F8 (nachdenklich)

Gleichgültigkeit:

F7 (gleichgültig)

 

F11 (gleichgültig)

Verwirrtheit:

F15 (verwirrt)

   

Erregbarkeit:

F16 (erregbar)

   

Mißstimmung/Ärger:

F14 (mißgestimmt)

F7 (ärgerlich)

F5 (gereizt)

Verträumtheit:

F17 (verträumt)

F6 (verträumt)

 

 

Anmerkungen. F1 bis F17 kennzeichnen die extrahierten Faktoren. In Klammern sind jeweils Mar­kier­items angegeben.

Der Knick im Eigenwertverlauf ist bei allen drei Skalierungsformen vor dem vierten Faktor sehr gering. Wählt man als Extraktionskriterium den Hauptknick im Eigenwert­dia­­gramm, dann würde im Falle der dichotomen Antwortskala eine zweifaktorielle Lösung und im Falle der visuellen Analogskala eine dreifaktorielle Lösung bevorzugt werden. Im Falle der siebenstufigen Skala steigt der Eigenwertverlauf zunächst eher linear an, so daß vor dem zweiten Faktor kein eindeutiger Knick festzustellen ist. Betrachtet man die drei- und zweifaktoriellen Lösungen, so ist zwischen der dichotomen und siebenstufige Skala eine hohe Übereinstimmung feststellbar. Im zweifaktoriellen Fall wird der Raum durch die zwei Achsen "Nervosität vs. Ruhe" und "Wachheit vs. Schläf­­rigkeit" aufgespannt, wobei der Stimmungs­bereich "gehobene vs. gedrückte Stim­mung" klar als bipolarer Stimmungsbereich in den Stimmungsraum eingeordnet werden kann. Allerdings haben die Items zur Kennzeichnung des "Ruhe"-Pols, die bei der dicho­tomen Antwortskalierung nur mit dem Faktor "Nervosität/Unruhe vs. Ruhe" hoch kor­relieren, bei dem siebenstufigen Antwortmodus z. T. auch hohe Korrelationen auf dem anderen Faktor. Im Falle der dreifaktoriellen Lösung wird der Stimmungs­bereich "gehobene vs. gedrückte Stimmung" durch einen zusätzlichen bipolaren Faktor abgebil­det. Bei der visuellen Analogskala zeigt sich jedoch ein anderes Bild. Sowohl im zwei­fak­toriellen als auch im dreifaktoriellen Fall, können zwei Faktoren als monopolare Faktoren zur Kennzeichnung der gehobenen bzw. gedrückten Stimmung interpretiert werden, die nach obliquer Rotation nicht hoch miteinander korrelieren.

    Faßt man die Ergebnisse zusammen, so kann folgendes festgehalten werden:

Unterschiede in der Antwortskalierung wirken sich auf die faktorielle Struktur einer Befindlichkeitsskala aus, legt man der Auswertung der unterschied­lich skalierten Fragebogen das gleiche faktoren­analytische Modell zugrunde. Allerdings zeigen sich Unter­schie­de je nach Auswahl des Faktorextraktionskriteriums. Während nach dem Scree­‑Test (erster Knick im Eigenwertverlauf) relativ ähnliche Strukturen ge­funden wurden, unterschieden sich die drei Skalierungsfor­men vor allem bei den beiden ande­ren Extraktionskriterien. Bei dem Extrakti­onskriterium Eigenwert größer 1 wurden für die Skala mit dichotomen Antwortmodus deutlich mehr Faktoren extra­hiert als für die beiden anderen Skalierungsarten. Hingegen zeigte sich bei Anwendung des dritten Krite­riums deutli­chere Übereinstim­mungen zwischen dem dichotomen und sieben­stu­figen Ant­wort­modus, während sich beide von der VAS un­terscheiden. Im Vergleich zu den anderen beiden Antwortmodi weist die 7‑Punkte‑Skala ‑ bei gleicher Fakto­renzahl ‑ die höchste Varianzaufklärung auf. Diese ist bei der dichotomen Antwortskalierung am geringsten. Auch in bezug auf die Polarität zeigen sich Unter­schiede je nach Extrak­tions­­kriterium und Antwortskalierung. Während die Stimmungsbereiche "Ruhe vs. Un­ruhe" und "Wachheit vs. Schläfrigkeit" in den meisten Fällen durch bipolare Fak­toren reprä­sentiert werden, zeigen sich Unterschiede vor allem bei dem Stimmungsbereich "geho­bene vs. gedrückte Stim­mung". Während sich beide Bereiche als entgegengesetzte Pole in das zweifaktorielle Modell bei dichotomen und siebenstu­figen Antwortmodus einbauen lassen, weisen fast alle ande­ren Er­gebnisse auf monopolare Faktoren hin. Zur Erklärung dieses Phänomens lassen sich mehrere Hypothesen diskutie­ren, von denen zwei erwähnt werden sollen.

    Auf­grund der geringen Prävalenzrate zeigen beispiels­weise die Items zur Bezeichnung der gedrückten Stimmung sehr schiefe Verteilungen, insbesondere bei den dichotomen Items. Die Extraktion von Schwierigkeitsfaktoren als Erklä­rung der Trennnung von gehobener und gedrückter Stimmung kann zumin­dest nicht ausgeschlossen werden. Die im Falle von Schwierigkeitsfaktoren häufig empfohlene Analyse von tetracho­rischen und polychorischen Korrelationen mittels Hauptkom­ponentenanalysen kann nur bedingt zur Lösung des Problems beitragen. Im vorliegenden Fall zeigten die Analysen beider Korrelationsmatrizen den Produkt‑Moment‑Analysen vergleich­bare Eigenwertverläufe, allerdings mit z. T. deut­lich höhe­ren Eigenwerten der ersten beiden Faktoren und der La­dungs­koeffi­zien­ten (s. hierzu Eid, Notz, Steyer & Schwenkmezger, 1991). Allerdings stellt sich auch hier die Frage nach dem geeigneten Aus­wahlkriterium und der Überprü­fung der diesen Koeffizienten zugrundeliegenden Annahmen. Je nach Extraktions­kri­terium zeigen sich auch hier z. T. Unterschiede in der Polarität der Skalen.

    Auffällig ist auch, daβ bei der Analyse der VAS bei allen Extraktionskriterien gehobene und gedrückte Stimmung als monopolare Faktoren vorliegen. Eine weitere mögliche Erklärung kann darin liegen, daβ den Versuchspersonen der Wechsel der Schlüs­selrichtung der Items (100 bedeutet bei dem Item glücklich "äuβerst glücklich", bei dem Item un­glücklich "äuβerst unglücklich") besonders schwer fällt. Dies wurde auch von Versuchspersonen zurückgemeldet. Analysen von Schmitt & Stults (1985) zeigen, daβ schon 10 % von Personen, die die Schlüsselrichtung systematisch miβ­achten, ausreichen, sogenannte Polungs­fak­toren zu erzeu­gen.

    Darüber hinaus sind Hauptachsen‑ und Hauptkomponentenanalysen von Produkt‑Mo­ment‑Kor­re­lationen nicht für alle Skalierungsformen ge­eignet. Welche Struktur nun die "wahre" ist, kann anhand solcher Analysen nicht ge­klärt werden. Eine angemessenere Überprüfung der dimensionalen Struk­tur der Befindlich­keitsskalen wird dagegen erst durch die Anwendung von faktorenanalyti­schen Modellen ermöglicht, die die Eigenarten verschiedener Skalierungsformen berücksichtigen. Zu erwähnen sind hier die faktoren­ana­lyti­schen Modelle für Variablen mit gestutzten Verteilungen und die faktoren­analy­tischen Modelle für kategoriale Variablen (Mislevy, 1986; Muthén, 1988), deren Wei­terentwicklungen inzwischen auch die Analyse gröβerer Vari­ablensätze erlau­ben (Mura­ki & Engelhard, 1985; Bock, Gib­bons & Muraki, 1988) und deren Einsatz im Rah­men der Hauptuntersuchung untersucht werden soll.

    Verfügt man nicht über den hierfür benötigten groβen Stichprobenumfang, so besteht eine weitere Möglichkeit der Überprüfung in Simulationsstudien, in denen vorgegebene theo­retische Strukturen simuliert werden, und die Auswirkungen verschie­dener Formen der Ant­wort­skalierung und der Verteilungen auf verschiedene Faktorextraktions‑ und Modell­güte­kri­terien un­tersucht werden können. Zur Untersuchung der Auswirkungen der Ver­tei­lungs­formen der Items auf die Dimensionalität haben Eid, Mayer, Steyer, Notz und Schwenk­mez­ger (1991) eine Simulationsstudie durchgeführt. Basierend auf einem zwei­fak­to­ri­el­len Circumplexmodell wurden Daten erzeugt, die die typischen Vertei­lungs­formen von Befind­lichkeitsitems aufweisen. Die Ergebnisse weisen darauf hin, daß nach dem Kaiser-Guttman-Kriterium monopolare Faktoren für den Stimmungsbereich "geho­bene vs. ge­drüc­kte Stimmung" extrahiert werden, während das Kriterium Scree-Test (Haupt-Knick im Eigenwertverlauf) zu einer Struktur führt, die der theoretischen Aus­gangs­struktur in hohem Maße entspricht. Aufgrund dieser Simulationsstudie kann als Extrak­tions­kri­te­rium für den hier betrachteten Anwendungsbereich der Hauptknick im Eigen­wert­verlauf empfohlen werden.

1.4.2.2 Ladungsmuster der als ungeeignet eingestuften Stimmungsadjektive

Zur Überprüfung des Ladungsmuster der als ungeeignet eingestuften Stimmungs­ad­jek­tive wurden Hauptachsenanalysen über alle (geeigneten und ungeeigneten) Items ge­rechnet. Die Anzahl der Faktoren wurde nach dem Kaiser-Guttman-Kriterium be­stimmt. Die Korrelationen der Items mit den extrahierten Faktoren lassen sich wie folgt be­schrei­­ben: Keine substantiellen Korrelationen bzw. ein divergierendes Korre­la­tions­mus­ter über die verschiedenen Antwortskalierungen hinweg weisen die Items liebesfähig, behä­big, versöhnlich und menschenscheu auf. Die theoretische Präselektion konnte daher auch empirisch gestützt werden.

Die anderen als ungeeignet bewerteten Stimmungsitems können jedoch eindeutig einem Stimmungsfaktor zugeordnet werden. Auf dem Faktor zur Kennzeichnung der ge­drück­ten Stimmung laden die Items trüb, depressiv und bedauernswert. Auf dem Faktor zur Kennzeichnung von Nervosität/Gereiztheit laden die Items grantig, aggressiv und zap­­pelig. Diese Zuordnung zu den Faktoren kann dadurch erklärt werden, daß durch gran­tig, zappelig und aggressiv der behaviorale Aspekt einer nervösen bzw. gereizten Stim­mung beschrieben wird und daher bei einer gereizten Stimung eine hohe Auf­tritts­wahr­scheinlichkeit hat. Das Fremdwort depressiv wird dem Stimmungsbereich "ge­drück­te Stim­mung" adäquat zugeordnet. Da es sich bei der betrachteten Stichprobe um Stu­die­rende handelt, ist jedoch unklar, ob der Begriff auch in Bevölkerungsgruppen mit einer geringeren Bildung adäquat verstanden wird. Das Adjektiv trüb wurde aufgrund des dritten Kriteriums (siehe Tabelle 2), das Adjektiv bedau­erns­wert wurde aufgrund des sechsten und siebten Kriteriums als ungeeignet eingestuft. Diese beiden Adjektive werden zwar eindeutig dem Fakter "gedrückte Stimmung" zugeordnet, ihr Auschluß aus dem Itempool ist jedoch aufgrund der genannten Kriterien gerechtfertigt. Zusammen­ge­faßt kann festgehalten werden, daß die theoretische Präselektion nicht für alle Items empi­risch bestätigt werden kann.

1.4.2.3 Auswahl der Items anhand der Ergebnisse der Voruntersuchung

Das wesentliche Ziel der Voruntersuchung bestand in der Vorauswahl von Items für den Befindlichkeitsfragebogen der Hauptuntersuchung. Die Items sollten jedoch nicht nach den strengen formalen Kriterien ausgewählt werden, die bei der Endzusammenstellung einer Itemliste zu einem Fragebogen der Itemselektion zugrunde gelegt werden. Die Endzusammen­stel­lung der Items zu einer änderungssensitiven Befindlichkeitsskala soll erst anhand der Latent-State-Trait-Modelle für kategoriale Variablen im Rahmen der Hauptuntersuchung erfolgen, für deren Erprobung ein Längsschnittdesign mit einer entsprechend großen Stichprobe benötigt wird. Anhand der Ergebnisse der Vorunter­suchung sollte vielmehr ein erstes Itemscreening vorgenommen werden, wonach Items aufgrund verschiedener Kriterien, die für die Itemanalyse im Rahmen der Hauptunter­suchung von Relevanz sind, zusammen­ge­stellt werden sollten. Aus diesem Itempool können dann anhand der Analyse mittels Latent-State-Trait-Modellen geeignete (än­de­rungs­sensitive) Items ausgewählt werden. Die Itemauswahl erfolgte in zwei Auswahl­schritten.

1. Auswahlschritt. In einem ersten Auswahlschritt wurden Items nach drei relevanten Kriterien ausgewählt.

1. Repräsentation der relevanten Stimmungsbereiche. Aufgrund der oben dargelegten Ergebnisse der faktorenanalytischen Auswertung der Fragebögen wurden drei relevante Stimmungsbereiche für die weiteren Analysen ausgewählt:

(a) gehobene vs. gedrückte Stimmung;

(b) Nervosität/Unruhe vs. Ruhe;

(c) Wachheit vs. Schläfrigkeit.

Zur Auswahl von Items für diese drei Stimmungsbereiche wurde nur auf die Ergebnisse der Faktorenanalysen des dichotomen und des siebenstufigen Antwortmodus zurück­ge­grif­fen. Auf die Berücksichtigung der VAS wurde verzichtet, da diese Skala eine diver­gie­rende faktorielle Struktur aufweist und ein Projektziel die Entwicklung von Modellen für kategoriale Variablen ist. Aufgrund der Ergebnisse der Simulationsstudie wurde eine zweifaktorielle Lösung zur Itemselektion ausgewählt. Die Lokalisation der drei Stim­mungs­bereiche im zweidimensionalen Stimmungsraum wird im folgenden kurz erläutert. Im Falle des sieben­stufigen und des dichotomen Antwortmodus kann der erste Faktor als "Wachheit vs. Schläfrigkeit ­" und der zweite Faktor als "Nervosität/Unruhe vs. Ruhe" inter­pretiert werden. Die Bipolarität des letztgenannten Faktors zeigt sich jedoch deutlicher bei dem dichotomen Antwortmodus (s. Abschnitt 1.4.2). Die Items­elektion für den Stimmungs­be­reich "Ner­vo­si­tät/Unruhe vs. Ruhe" bezog sich daher vor allem auf die Ergebnisse bezüglich des dichotomen Antwortmodus. Items zur Kenn­zeichnung der gehobenen Stim­mung korre­lie­ren mit beiden Faktoren negativ, während Items zur Kenn­zeichnung der gedrückten Stimmung mit beiden Faktoren positiv korre­lieren. Zur Item­se­lektion wurden daher Items für die jeweiligen Stimmungsbereiche ausgewählt, die je nach Stim­mungs­bereich mit nur einem Faktor bzw. mit beiden Faktoren hohe Korre­la­tio­nen auf­weisen (die Fak­tor­ladungs- und Strukturmatrizen der zweifaktoriellen Lösung sind im Anhang B zusam­men­gestellt).

2. Verteilungsform. Ein wesentliches Itemselektionskriterium ist die Verteilungsform der Items. Zur adäquaten Überprüfung der Hypothese, daß monopolare Faktoren Methoden­arte­­fak­te sind, die durch die unterschiedlich schiefen Verteilungen von Items gegen­sätz­licher Stimmungspole bedingt sind, muß der Itempool der Hauptuntersuchung Items mit unter­schiedlichen Verteilungsformen aufweisen. Auch für die Analyse der Daten mit Modellen der Probabilistischen Testtheorie ist es wichtig, daß die Items unter­schied­liche Schiefen aufweisen, da Items mit unterschiedlicher Schiefe in verschiedenen Bereichen der latenten Variablen differenzieren. Die Items wurden daher nach der Schiefe ihrer Items gruppiert. Für die Befindlichkeitsskala der Hauptuntersuchung wurden für jeden der ausgewählten Stimmungsbereiche Items mit unterschiedlichen Ver­tei­lungs­formen ausgewählt (Anhang A enthält die Liste der Itemschwierigkeiten).

3. Umfang des Fragebogens. Anhand des Screening wurde angestrebt, für jeden Stim­mungs­bereich 16 Items zu extrahieren, wobei jeder Stimmungspol durch 8 Items re­prä­sen­tiert werden sollte. Für den Stimmungspol "Ruhe" des Stimmungsbereichs "Nervo­si­tät/Un­ruhe vs. Ruhe" konnten jedoch nur fünf Items zusammengestellt werden. Zur Kenn­­zeichnung des Stimmungsbereichs "Nervosität/Unruhe vs. Ruhe" wurden daher nur 13 Items ausgewählt. Die ausgewählten Adjektive sind in Abbildung 2 zusammenge­stellt.

2. Auswahlschritt. In einem zweiten Auswahlschritt wurden die Items nach ver­schie­denen Kriterien durch weitere Items ergänzt.

1. Gegensatzpaare. Zur Analyse der Polaritätsfrage wurden zusätzlich Adjektive aufge­nom­men, deren semantische Bipolarität aufgrund eines Präfix (z. B. angenehm vs. unan­ge­­nehm) bzw. eines Suffix (schwungvoll vs. schwunglos) offensichtlich ist. Folgende Adjektivpaare wurden zusätzlich aufgenommen:

gehobene Stimmung - gedrückte Stimmung

schwunglos - schwungvoll

gut - schlecht

angenehm - unangenehm

Gehobene Stimmung

fröhlich

glücklich

heiter

hochgestimmt

lebensfroh

vergnügt

wohl

zufrieden

Nervosität/Unruhe

angespannt

aufgeregt

erregbar

gereizt

nervös

reizbar

ruhelos

unruhig

Wachheit

ausgeruht

beschwingt

energiegeladen

frisch

hellwach

munter

übermütig

wach

     

gedrückte Stimmung

betrübt

gedrückt

mißgestimmt

mißmutig

trübsinnig

unglücklich

unwohl

unzufrieden

Ruhe

ausgeglichen

ausgewogen

entspannt

gelassen

ruhig

Schläfrigkeit

erledigt

ermattet

erschöpft

müde

schläfrig

schlapp

todmüde

träge

Abbildung 2: Benennung der drei Stimmungsbereiche und Auflistung der zugeordneten Adjek­tive aus der Vor­un­tersuchung (in alphabetischer Reihenfolge).

2. Zusätzliche Items. Da der bisherige Itempool nur eine geringe Anzahl von Items zur Kennzeichnung des Stimmungsbereichs "Nervosität/Unruhe vs. Ruhe" aufweist, wurden an­hand eines Synonymwörterbuchs zusätzliche Items aufgenommen. Hierbei wurde beson­­ders darauf geachtet, daß die neu hinzugenommenen Items für den Pol "Nervosi­tät/Un­ruhe" schiefe Verteilungen erwarten lassen. Ausgewählt wurden die Items "über­dreht", "aufgekratzt" und "erregt". Zur Kennzeichnung des positiven Pols wurde nur das Adjektiv "gleichmütig" als weiteres Item aufgenommen.

    Da es auch zur Kennzeichnung des Pols "gehobene Stimmung" an schiefverteilten Items mangelte, wurden die Items "glückselig" und "blendend" aufgenommen, da beide schiefe Verteilungen erwarten lassen.

    Zusätzlich wurden einige Items aufgenommen, die für weitere Analysen aufgrund the­o­retischer Überlegungen von Interesse sind (ängstlich, ärgerlich), aber nicht als Stim­mungsitems angesehen werden.

4. Extremformulierte Items. Da für den Fragebogen der Hauptuntersuchung ein Inten­si­täts­­rating ausgewählt wurde, wurden Items, die in ihrer semantischen Bedeutung eine Intensitätsabstufung enthalten (z. B. hellwach) aus dem ursprünglichen Itempool heraus­ge­nom­men. Stattdessen wurden einige Items, die eine eindeutige Intensitätsabstufung beinhalten (z. B. hochgestimmt, himmelhoch jauchzend) zu einer eigenständigen Liste zusammengestellt und mit einer Zustimmungs- bzw. Ablehnungsskalierung versehen. Die Liste dieser Items kann dem Fragebogen entnommen werden (s. Anhang C).


1.4.3  Verteilungskennwerte und Reliabilitätsschätzwerte der Befind­lich­keits­sub­­skalen


Zur Untersuchung der Auswirkung der Antwortskalierung auf die Reliabilität der Befind­lichkeitsskala wurden die Items, welche die drei relevanten Stimmungsbereiche reprä­sentieren (s. Abbildung 2), jeweils zu einer Skala zusammengefaßt. Die Vertei­lungs­kennwerte und Schätzwerte zur Reliabilität werden differenziert für die drei ver­wen­deten Skalierungsmethoden in Tabelle 7 dargestellt. Die einzelnen Koeffizienten wurden mit SPSS-X berechnet.

Tabelle 7

Verteilungskennwerte der drei Stimmungsskalen differenziert nach drei Skalierungen


 

Skala "gehobene vs. gedrückte Stimmung"

   

Skalierung

 

Kennwert

dichotom

VAS

siebenstufig

N

183

184

178

Itemanzahl

16

13

16

M

1.66

12.95

4.73

SD

.28

3.93

1.38

pi

.66

.63

.62

Schiefe

-.58

-.51

-.56

rii

.59

.75

.80

alpha

.91

.96

.97

rtt

.93

.96

.97

     
 

Skala "Nervosität/Unruhe vs. Ruhe"

   

Skalierung

 

Kennwert

dichotom

VAS

siebenstufig

N

183

184

178

Itemanzahl

16

13

16

M

1.36

8.34

3.36

SD

.29

3.12

1.17

pi

.36

.39

.39

Schiefe

.37

.31

.64

rii

.53

.53

.63

alpha

.86

.86

.91

rtt

.87

.89

.92

     

Fortsetzung

       
 

Skala "Wachheit vs. Schläfrigkeit"

   

Skalierung

 

Kennwert

dichotom

VAS

siebenstufig

N

183

184

178

Itemanzahl

16

13

16

M

1.52

9.50

3.72

SD

.31

4.04

1.35

pi

.52

.45

.45

Schiefe

-.05

.28

.43

rii

.60

.71

.72

alpha

.91

.94

.95

rtt

.90

.94

.93


Anmerkungen. Mitgeteilt werden für die drei Skalen "gehobene vs. gedrückte Stimmung", "Ner­vosi­tät/Un­ru­he vs. Ruhe" und "Wachheit vs. Schläfrigkeit" - jeweils für die drei ver­wen­de­ten Skalierungen -  die Stich­probengröße (N), die Anzahl der Items, aus denen die Skala gebildet wird, der Mit­tel­wert (M), die Stan­dardabweichung (SD), der Schwierig­­keits­koeffizient (pi), die Schiefe der Verteilung, die über Fisher-Z-Trans­formation gemittelte Item­inter­korre­la­tion (rii), die interne Konsistenz nach Cronbach (alpha) und die Test­halbierungsreliabität (rtt) korrigiert nach Spearman-Brown. Die Skalenwerte werden durch Addition der entsprechenden Itemwerte und anschließender Division durch die Anzahl der Items der Skala bestimmt.

Zur Abschätzung der Reliabilitäten der drei Stimmungsskalen wurden der Alpha-Koef­fi­zient von Cronbach und der Testhalbierungskoeffizient korrigiert nach Spearman-Brown berech­net. Auffallend sind die hohen Reliabilitätsschätzwerte (» 0.9) für alle drei Skalen bei drei Skalierungen. Diese Schätzwerte sollen im folgenden diskutiert werden.

Der Cronbach-Alpha-Koeffizient. Die Koeffizienten sind für die Skalen "gehobene vs. ge­drüc­kte Stimmung" und "Wachheit vs. Schläfrigkeit" mit » .95 sehr hoch und für die Skala "Nervosität vs. Ruhe" mit » .90 etwas geringer. Für den hier be­schrie­benen Daten­satz werden für die mit der siebenstufigen Antwortskala erhobenen Daten - im Ver­gleich zu den beiden anderen Skalierungen - die höchsten Koeffizienten berech­net, dies am deutlichsten für die Skala "Nervosität vs. Ruhe". Die geringsten Koef­fi­zienten wurden für die Daten, die mit dem dichotomen Antwort­modus erhoben wurden, be­stimmt, dies am deutlichsten für die Skala "gehobene vs. gedrückte Stimmung". Nach dem Ver­­fahren von Cronbach wird für eine Skala ein einziger Schätzwert aus den Kova­ri­an­zen der Einzelitems als untere Grenze der Reliabilität bestimmt (s. z. B. Lord & Novick, 1969; de Guijter & van der Kampen, 1984). Dies bedeutet, daß der wahre Reli­a­bi­­li­täts­wert mehr oder weniger weit vom berechneten Alpha-Koeffizienten entfernt sein kann. Deshalb kann mit dem Vergleich zweier Alpha-Koeffizienten nicht direkt auf den Ver­gleich der Reliabilität geschlossen werden.

Der Testhalbierungskoeffizient nach Spearman-Brown. Bei der Berechnung der Test­hal­bierungskoeffizienten ist zu beachten, daß dieser Koeffizient starken Schwankungen, in Abhängigkeit von der gewählten Aufteilung der einzelnen Items zu Testhälften und der Itemheterogenität, unterliegt. Je nach Anzahl der Items, aus denen die Skala zusam­men­gesetzt ist, kann es sehr viele verschiedene split-half Koeffizienten geben. Für die hier beschriebenen Stimmungsskalen mit 16 Items gibt es 6435 verschiedene Test­hälf­ten­paare, wenn jeder Testhälfte die gleiche Anzahl Items (8 Items) zugeordnet wird.

    Zur Demonstration dieser Problematik wurde von Notz (1990) das Computer-Pro­gramm "Coefficients for All Possible Test-Halves" (CAPTH) erstellt. CAPTH ermög­licht aus den Testitems alle möglichen Testhälften zu konstruieren und hierfür unter anderem Maße der Kovariation zu berechnen.

    Zur Abschätzung des Einflusses der Testhalbierung auf Koeffizienten der Ant­wort­skalierung wurde daher folgendes Prozedere gewählt: Man nimmt diejenige Test­hälften­kon­struktion, welche für die siebenstufige Antwortskala die höchste Korrelation eines Test­hälftenpaares ergibt und berechnet aufgrund dieser Itemaufteilung den Test­hal­bie­rungs­koeffizienten. Als nächstes wird für diese Aufteilung der Items zu den Test­hälften der entsprechende Koeffizient für die Daten der anderen beiden Ska­lie­rungs­methoden berechnet. Daraufhin werden die berechneten Koeffizienten verglichen. Zum Ver­gleich der Reliabilität der Skalen wurde für jede Skalierungsmethode die Test­hälf­ten­auf­teilung ausgewählt, welche für die jeweilige Skalierungsmethode die höchste Test­hälf­ten­kor­re­la­tion ergab. Für diese drei Testhälftenaufteilungen wurden die Test­hal­bie­rungs­koef­fi­zien­ten mit SPSS-X berechnet. Exemplarisch wird dies für die Skala "Wachheit vs. Sch­lä­frigkeit" in Tabelle 8 dargestellt.

Tabelle 8

Testhalbierungsreliabilitäten nach Spearman‑Brown für unterschiedliche Testhälften­kon­struk­tionen der Skala Wachheit vs. Schläfrigkeit


Skalierung

bevorzugte Skalierunga

dichotom

VAS

7‑stufig

dichotome Skalierung

.945

.963

.952

visuelle Analogskala

.937

.969

.968

siebenstufige Antwortskala

.927

.968

.977


Anmerkung. a Genannt wird diejenige Skalierung, für welche die Itemaufteilung zu einer maxi­­malen Test­hälf­tenkorrelation führte.

Hierbei wird deutlich, daß zum einen für eine Skalierung unterschiedliche Koeffizienten berechnet werden und daß zum anderen je nach Aufteilung der Items zu den Testhälften einmal für die VAS und zum anderen für die 7-Punkte-Skala der höhere Test­hal­bie­rungs­koeffizient berechnet wird. Insofern kann mit diesem Koeffizienten keine ein­deutige Aussage über die Reliabilität dieser beiden Skalierungen gemacht werden. Aller­dings werden für die Skala mit der dichotomen Antwortskalierung die geringsten Test­hal­bierungskoeffizienten berechnet.

1.4.4 Auswahl der Antwortskalierung anhand der Ergebnisse der Voruntersuchung


Anhand der Ergebnisse der Voruntersuchung wurde für den Befindlichkeitsfragebogen der Hauptuntersuchung ein fünfstufiger Antwortmodus ausgewählt. Für diese Ent­schei­dung lassen sich folgende Begründungen anführen:

1.   Die Ergebnisse der Dimensionsanalysen zeigen für den zwei- und siebenstufigen Ant­wortmodus vergleichbare Ergebnisse, während sich die dimensionale Struktur der VAS deutlich von den beiden anderen Skalierungsformen unterscheidet. Da im Falle der VAS für den Stimmungsbereich gehobene vs. gedrückte Stimmung unter allen Extrak­­ti­ons­bedingungen monopolare Faktoren extrahiert wurden, scheint dieses Ant­wort­format in besonderer Weise für Störeinflüsse anfällig zu sein, die zu artifiziellen mono­polaren Faktoren führen. Da darüber hinaus im Rahmen des Projektes v. a. Modelle für kate­go­riale Variablen entwickelt werden sollen, wurde für den Frage­bogen der Haupt­unter­suchung ein kategoriales Antwort­for­mat gewählt.

2.   Die siebenstufige Antwortskala weist bezüglich der Varianzaufklärung durch die extra­hierten Faktoren und der Reliabilität der Subskalen die günstigsten Kennwerte auf. Auch in Modellen der Item-Response-Theorie verbessert sich die Schätz­ge­nau­ig­keit der Werte der latenten Variablen, wenn von einem dichotomen Antwortformat zu einem mehr­­stufigen Antwortformat übergegangen wird (s. Samejima, 1969). Daher wurde ein mehrstufiger Antwortmodus ausgewählt.

3.   Erste Analysen der Befindlichkeitsskalen mit dem siebenstufigen Antwortmodus mit Model­len für kategoriale Variablen, denen als Zusammenhangsmaß die poly­cho­rischen Korrelationen zugrunde gelegt wurden, wiesen jedoch auf Probleme hin, die mit der Analyse eines siebenstufigen Antwortmodus verbunden sind. Diese liegen ins­besondere darin, daß viele Zellen der 7 x 7 - Kontingenztafel unbesetzt bleiben. Dies hat negative Aus­wirkungen auf die Modellüberprüfung anhand von Chi-Qua­drat-Sta­tistiken. Durch eine Reduktion von sieben auf fünf Antwortkategorien wird quasi eine Halbierung der Zellen­anzahl (von 49 auf 25) erreicht. Daher wurde eine fünf­stufige Antwortskala ausgewählt. Dies ist auch für Anwendungen von Item­se­lek­ti­onsstrategien im Rahmen der Klassischen Testtheorie nicht bedeutend "schlechter", da bspw. Martin, Fruchter & Mathis (1974) zwar deutliche Unterschiede in der La­dungs­höhe beim Übergang von einem zweistufigen zu einem dreistufigen Ant­wort­for­mat festgestellt haben, nicht aber für Übergänge zu "höherstufigen" Ant­wort­for­maten.


2. Hauptuntersuchung

2.1 Ziele der Hauptuntersuchung

Im Projektantrag wurden zwei Projektziele formuliert:

(1)   die Generaliserung von testtheoretischen Modellen für kategoriale Variablen zur simul­tanen Messung von States und Traits und

(2)   die Erprobung dieser Modelle im Bereich der Messung emotionaler Befind­lich­keiten.

Zur Erprobung der Modelle im Bereich der Befindlichkeitsmessung wurde nach den oben dargestellten Itemselektionsprinzipien eine Liste von Stimmungsadjektiven zusam­men­gestellt. Anhand dieser Adjektivliste soll die Anwendbarkeit von Latent-State-Trait-Modellen untersucht werden. Neben der Analyse der Konsistenz und Spezifität einzelner Stimmungsitems eignen sich Latent-State-Trait-Modelle in besonderer Weise zur Ana­lyse der Einflüsse situativer und personaler Bedingungen auf die momentane emotionale Befind­­lich­keit. Zur Untersuchung des Einflusses diverser situativer und personaler Bedingungen wurden zusätzliche Fragebögen vorgegeben bzw. weitere Informationen

er­fragt, die im folgenden erläutert werden sollen (s. Tabelle 9). Die Auswahl der Test­verfahren soll im folgenden kurz begründet werden.

Tabelle 9

Fragebögen bzw. erfragte Angaben zur Erfassung situativer und personaler Bedingun­gen der emotionalen Befindlichkeit

1. Situative Bedingungen

* körperliche Beschwerden:

      Freiburger Beschwerdenliste (Fahrenberg, 1975) in abgeänderter Form 

* Tagesereignisse:

      hassles and uplifts

* Wetter:

      verschiedene meteorologische Variablen

* zusätzliche Angaben:

      - Schlafdauer in der vergangenen Nacht

      - Alkohol- und Nikotinkonsums

      - Aktivitäten in der letzen Stunde

2. Personale Bedingungen

* Persönlichkeitseigenschaften:

      Freiburger Persönlichkeitsinventar (Fahrenberg, Hampel & Selg, 1984)

* überdauernde Aspekte der emotionalen Befindlichkeit :

      Stimmungs-Skala (Bohner, Schwarz & Hormuth, 1989)

* Selbstaufmerksamkeit:

      Fragebogen zur Erfassung dispositionaler Selbstaufmerksamkeit (Filipp & Freuden­berg, 1989)


2.2 Auswahl der Testverfahren

2.2.1 Situative Bedingungen

Freiburger Beschwerdenliste. Um einen Zusammenhang von physischen Be­schwer­­den mit der Stimmung untersuchen zu können, wurde eine Beschwerdenliste in die Haupt­untersuchung mit auf­ge­nom­men. Zur Diskussion standen der "Beschwerden-Erfassungs­bogen" (BEB) von Kasielke & Hänsgen (1982), die "Beschwerdenliste" von von Zers­sen & Koeller (1976), die "Frei­burger Beschwerdenliste" (FBL) von Fahrenberg (1975) und der "Gies­sener Beschwerde­bogen" (GBB) von Brähler & Scheer (1983). Der BEB wurde auf­grund der lang angesetzten Testzeit (20 Minuten) abgelehnt. Die Be­schwer­denliste von von Zerssen wurde als für diese Zwecke zu undifferenzierend betrachtet, da sie lediglich eine Globalskala enthält. Der GBB wurde abgelehnt, da in diesem nur 24 von 57 Items zur Skalenbildung verwendet werden.

    Die Entscheidung fiel auf eine Kurzform der Freiburger Beschwerdenliste (FBL-K). Die FBL ist ein eingeführtes Verfahren und es bestehen differenzierte Normtabellen. Sie besteht aus 78 Items, die in 10 Skalen aufgeteilt sind. Von jeder dieser Skalen werden die beiden Markieritems für die Zusammenstellung der Kurzform verwendet. Für den Einsatz in der Hauptuntersuchung wurde bis auf ein Item die FBL-K verwendet, zu­sätz­lich wurden zwei Items aus dem Bereich sexueller Störungen von Kasielke & Hänsgen (1982) übernommen. Darüber hinaus sollte die Versuchsperson ihre momentane Be­schwer­den angeben. Außerdem wurde die Skalierung in eine fünfstufige Häufigkeits­skala verändert.

"Daily hassles and uplifts". Über den Einfluß alltäglicher Ereignisse auf die Stimmung berich­tet z. B. Brandtstätter (1991). Um diesen Einfluß abschätzen zu können, wurde ein Fragebogen zur Erfasssung sogenannter "daily hassles" und "daily uplifts" (Lazarus & Cohen, 1978) in die Hauptuntersuchung mit aufgenommen. Ein Bei­spiel für ein "daily hassle" ist der berühmte Schnürsenkel, der genau dann reißt, wenn es am unge­eig­­netsten ist. Abzugrenzen von diesen "minor events" sind die soge­nan­nten "major events" oder kritischen Lebensereignisse (wie z. B. der Tod einer nahe­stehenden Person oder der Aus­bruch einer schweren Krankheit), welche nach Kanner, Coyne, Schaefer & Laza­rus (1981) weniger Einfluß auf die emotionale Befindlichkeit haben sollen.

    In diesem Projekt wurde ein Auszug der Daily-Hassles- und der Daily-Uplifts-Skala von Lazarus & Cohen (1978) in der Übersetzung von Filipp, Ahammer, Angleitner und Olbrich (1980) eingesetzt. Dieser deutschen Übersetzung wurden jeweils 30 von 60 Items einer Skala entnommen, um daraus einen einzigen Fragebogen durch randomisier­te Auf­­teilung der 60 Einzel­items zu bilden.

Wetter. Eine weitere wichtige situative Einflußgröße ist das Wetter. So berich­ten bspw. Howarth und Hoffman (1984) signifikante Zusammenhänge zwischen ver­schiedenen mete­orologischen Variablen und der selbstberichteten emotionalen Befind­lichkeit. Zur Unter­­su­chung von Wettereinflüssen auf die selbstberichtete emoti­o­nale Befindlichkeit wurden von der Zweigstelle Trier des Deutschen Wetter­dienstes die tages­spezifischen Aus­prä­gungen diverser Wettervariablen (z. B. Sonnenscheindauer, Luft­feuchtigkeit, Luft­druck etc.) für den gesamten Untersuchungszeitraum zur Ver­fügung gestellt. Diese Anga­ben werden durch die Werte der Ozonbelastung, die vom Meßinstitut für Immis­sions-, Arbeits- und Strahlenschutz zur Ver­fügung gestellt werden, ergänzt.

Zusätzliche Angaben. Als weitere situative Bedingungen wurde die Anzahl der ge­schla­fenen Stunden in der letzten Nacht sowie der Alkohol- und Nikotinkonsum erfragt. Erfragt wurde sowohl das Konsumverhalten in den letzten 24 Stunden als auch der durchschnittliche wöchentliche Konsum. Zusätzlich sollten die Probanden die Akti­vi­­täten der letzten Stunde kurz verbal beschreiben. Anhand dieser Angaben soll eine Situ­a­tionsklassifikation entwickelt werden.

2.2.2 Personale Bedingungen

Das Freiburger Persönlichkeitsinventar. Für den Zusammenhang zwischen ein­­zelnen Per­sön­lichkeitsvariablen und der emotionalen Befindlichkeit gibt es vielfältige Belege (Morris, 1989; Schwenkmezger, 1991; Watson & Clark, 1984; Watson & Tellegen, 1985). In den Fragebogen der Hauptuntersuchung sollte daher ein Persönlich­keits­inventar aufgenommen werden, das einen breiten Bereich der Persönlichkeit erfaßt. Das Per­sönlich­keits­inventar sollte darüber hinaus eine Soziale Erwünschtheitsskala enthalten. Anhand der Skala zur Erfassung der sozialen Erwünschtheit soll untersucht werden, ob mono­polare Stimmungsfaktoren Artefakte sind, die durch diesen Antwortstil mitbedingt sind (s. hierzu z. B. Mackay, 1980; Lorr, 1989).

    Zur Erfassung eines breiten Persönlichkeitsbereichs kommen grundsätzlich der Trierer Per­sönlichkeitsfragebogen (TPF; Becker, 1989), der 16-Persönlichkeits-Faktoren-Test (16-PF; Schneewind, Schröder & Cattell, 1986) und das Freiburger Persönlichkeitsinvar in seiner revidierten Fassung (FPI-R; Fahren­berg, Hampel & Selg, 1984) in Frage. Da das FPI-R als einziger dieser drei Frage­bogen eine Soziale Erwünschtheitsskala enthält, wurde das FPI-R ausgewählt.

Die Stimmungs-Skala. Die Stimmungs-Skala von Bohner, Schwarz und Hor­muth (1989) ist die deutschsprachige Übersetzung des "Mood Survey" von Under­wood und Fro­ming (1980) und wurde zur Erfassung überdauernder Aspekte der emotionalen Be­find­lich­keit konstruiert. Anhand dieser Skala sollen Personen sowohl bezüglich ihrer Stim­mungs­schwan­kungen (Subskala "Reaktivität") als auch in der Häufigkeit der erleb­ten gehobenen bzw. gedrückten Stimmung (Subskala "überdauernde Reaktionslage") unter­­schie­den werden. Im Rahmen der Hauptuntersuchung soll die Validität dieser Skala anhand von Latent-State-Trait-Modellen analysiert werden. Hierzu sollen vier Frage­stel­lungen bearbeitet werden:

a)  Erfaßt die Stimmungsskala zeitlich stabile Selbsteinschätzungen der Person?

b)  Schwanken die (zu verschiedenen Meßzeitpunkten erhobenen) Stimmungen von Per­­so­nen, die sich selbst hohe Reaktivität zuschreiben, stärker als die Stimmungen von Personen, die sich geringe Reaktivität zuschreiben?

c)  Weisen Personen, die nach eigenen Angaben häufig glücklich sind, auf einem über die momentane Befindlichkeit gebildeten Trait-Maß höhere Werte auf als Personen, die sich nach eigenen Angaben selten glücklich fühlen?

d)  Ist die Selbsteinschätzung überdauernder Aspekte der Befindlichkeit von der momen­tan erlebten Stimmung abhängig?

Fragebogen zur Erfassung dispositionaler Selbstaufmerksamkeit (SAM). Eine hohe Selbst­aufmerksamkeit zeigt sich nach Fenigstein, Scheier und Buss (1975) u. a. in einer hohen Sensibilität für Gefühlszustände. Daraus läßt sich die Hypothese ableiten, daß die Vari­able "Selbstaufmerksamkeit" einen Einfluß auf die Wahr­nehmung der Befindlichkeit und deren Veränderung hat. Um dieser Frage­stellung nachgehen zu können, wurden Teile des "Fragebogens zur Erfassung dispo­sitio­naler Selbstauf­merk­sam­keit (SAM-Frage­bogen)" von Filipp und Freudenberg (1989) in die Hauptuntersuchung mit auf­ge­nommen.

2.3 Stichprobengewinnung

Aus den im Projektantrag angeführten Gründen wurde eine (vom Drop out berei­nigte) Stich­probengröße von 500 Versuchspersonen angestrebt. Aufgrund der begrenzten Projekt­­­mit­tel ist eine repräsentative Stichprobenziehung nicht möglich. Um eine größere Streu­ung der Versuchspersonen in Bezug auf demographische Variablen mit einem mög­lichst geringen Organisations- und Reisekostenaufwand zu erhalten, wurden zwei Metho­­den zur Rekrutierung der Stichprobe ausgewählt:

a)  Gruppenuntersuchung von Studierenden sowie Bürgerinnen und Bürgern in Räumen der Universität Trier;

b)  kontrolliertes Schneeballverfahren.

Die beiden Methoden sollen im folgenden kurz beschrieben werden.

2.3.1 Gruppenuntersuchung

Um relativ viele Versuchspersonen zu einem Untersuchungstermin befragen zu können, bieten sich Gruppenuntersuchungen in Räumen der Universität an. Durch die Gruppen­unter­su­chung kann sichergestellt werden, daß die einzelnen Untersuchungen im gleichen zeitlichen Abstand stattfinden. Zusätzlich kann die Beantwortung durch die Beobachtung des Antwortverhaltens und der Motivation sowie der Registrierung von Störeinflüssen kontrolliert werden. Außerdem können Verständnisfragen der Probanden geklärt werden.

    Für die Gruppenuntersuchung wurden sowohl Studierende als auch Bürgerinnen und Bürger der Stadt Trier angeworben. Da zu erwarten war, daß die Teilnahme von Stu­die­ren­den aufgrund des kurzen Anfahrtswegs und der Entlohnung besonders groß sein würde, wurde die Anzahl der Studierenden auf maximal 200 Personen begrenzt. Die Anzahl der Bürgerinnen und Bürger, die sich aufgrund zweier Zeitungsankündigungen tele­fonisch zur Teilnahme angemeldet haben, wurde nicht limitiert. Die Probanden, die zu allen vier Meßzeitpunkten teilgenommen hatten, erhielten als Honorar DM 40,- und DM 10,- Fahrtkostenzuschuß. Da nicht die gesamte Stichprobe über die Zeitungs­an­wer­bung gewonnen werden konnte, wurde als zweite Methode ein kontrolliertes Schnee­ball­ver­fahren durchgeführt.

2.3.2 Kontrolliertes Schneeballverfahren

Als weitere Methode zur Untersuchung von Probanden, die nicht der Studierenden­popu­la­tion angehören, wurde ein kontrolliertes Schneeballverfahren angewandt. Hierbei wurden Studierende der Universität Trier angeworben, die ca. fünf bis zehn Versuchs­per­sonen aus ihrem Bekanntenkreis für die Untersuchung anwerben und betreuen soll­ten. Unter dem betreuten Personenkreis durften sich höchstens zwei Studierende befin­den. Die so gewonnenen Untersuchungsmitarbeiterinnen und -mitarbeiter händigten den von ihnen betreuten Probanden den Fragebogen zu einem vorher abgesprochenen Termin aus und nahmen den ausgefüllten Fragebogen wieder in Empfang. Die aus­ge­füll­ten Fragebögen wurden daraufhin den wissenschaftlichen Mitarbeitern des Projekts aus­gehändigt, die den Untersuchungsmitarbei­ter­innen und -mitarbeitern die Fragebögen der nächsten Erhebungswelle überreichten. Die Untersuchungsmitarbeiter erhielten nach Abschluß der Untersuchung für jede betreute Versuchsperson, die zu allen vier Meß­zeit­punk­ten teilgenommen hatten, DM 10,-. Die Probanden bekamen ihre Teil­nahme mit DM 40,- vergütet.

    Während diese Methode den Vorteil hat, daß mit einem relativ geringen Organi­sa­tions­­auf­wand vor allem nichtstudentische Versuchspersonen untersucht werden können, ist sie jedoch mit einigen Problemen behaftet. So ist bspw. nur eine geringe Kontrolle der Beantwortung des Testverfahrens gegeben, da die Versuchspersonen beim Ausfüllen der Fragebögen nicht der Kontrolle durch die Versuchsleiter unterliegen. Um möglichst viele Störeinflüsse zu eliminieren, wurden die Untersuchungsmitarbeiterinen und Mit­ar­bei­ter ausführlich in die Ziele der Untersuchung eingeführt. Zusätzlich wurde die Zahl der zu betreuenden Probanden auf maximal 20 Personen limitiert. Die Unter­suchungs­mit­­arbei­ter­innen und -mitarbeiter wurden darüber hinaus sorgfältig ausgewählt. Zusätz­lich wurde sowohl mit den Untersuchungs­mit­ar­bei­tern als auch mit den betreuten Pro­ban­den ein Vertrag abgeschlossen, in dem die geforderte Leistung und die dafür erhal­tene Gegenleistung genau festgelegt wurden. Bei Vertragsbruch wurde das Honorar nicht ausbezahlt. Zusätzlich ermöglichte eine von den Mitarbeitern zu erstellende Adres­sen­liste eine stichprobenartige Kontrolle des Untersuchungs­verlaufs.

2.4 Datenerhebung

Die Erhebung der Daten fand im Zeitraum vom April bis September 1991 statt. Die Grup­pen­unter­suchungen wurden in Hörsälen der Universität Tarforst durchgeführt. Für die Teil­nehmer der Gruppenuntersuchung standen mehrere Termine zur Verfügung. Die einzel­nen Termine waren unterschiedlich gut besucht, die Anzahl der teilnehmenden Personen streute von einem Minimum von zwei Personen bis zu einem Maximum von 76 Personen. Die Folgetermine waren alle in dreiwöchentlichem Abstand festgelegt. Um möglichst vielen Personen die Teilnahme an allen vier Meßzeitpunkten zu ermöglichen, wurden Ausweichtermine individuell vereinbart. Hierbei wurde allerdings darauf geachtet, daß sich der Termin nicht um mehr als drei Tage verschob. Mit dieser Strate­gie konnten von 270 Personen komplette Datensätze für alle vier Meßzeitpunkte gewonnen werden. Die Anwerbung von Mitar­bei­ter­innen und Mitarbeitern für das Schnee­ballsystem wurde am 2. und am 7. Mai 1991 durch­geführt. Es konnten ins­ge­samt 27 Personen geworben werden, die für uns die Daten­erhebung an insgesamt 241 Per­sonen zu vier Meßzeitpunkten durchführten.

    Für die Eingabe von demographischen Variablen und den Befindlichkeitsdaten wurde von Notz (1991) das Computerprogramm "Kontrollierte Eingabe von Befindlichkeits­daten" (KEBEF) entwickelt. Durch KEBEF wird, um Fehlerquellen zu minimieren, eine kontrollierte Eingabe der Befindlichkeitsdaten ermöglicht. Erste Kontrollen über ca. 10% doppelt eingegebener Daten ergaben eine Nullfehlerquote. Die Eingabe, Kontrolle und Auswertung der restlichen Daten steht noch aus. Bisher können lediglich über einige demographische Variablen Aussagen gemacht werden. Ergebnisse dazu sind im folgenden Kapitel zu finden.


2.5 Demographische Beschreibung der Stichprobe

Von der Ausgangsstichprobe von 548 Versuchspersonen nahmen 511 Personen zu allen Meß­zeitpunkten teil. Der Drop out ist mit 7% als sehr gering zu betrachten. Von diesen 511 Datensätzen mußten die Daten von sieben Personen wegen Auf­fälligkeiten (z. B. unvollständige Angaben, Antworttendenzen) ausgeschlossen wer­den. Folgende Angaben beziehen sich auf die verbliebenen 504 Personen.

Insgesamt wurden mehr Frauen (291) als Männer (212) untersucht. Das Alter in der erfaß­ten Stichprobe variiert von 17 bis 77 Jahren mit einer starken Häufung um das Alter von 22 Jahren, was auf die große Anzahl von studen­tischem Klientel (238) zurück­­­zuführen ist. In dieser Untersuchung haben überwiegend Personen mit Hochschulreife (285) teil­genommen. Mehr als ein Drittel der Probandinnen und Probanden besitzen jedoch Haupt­­­schul­ab­schluß (93) und Mittlere Reife (76). In der Untersuchung überwiegen die ledigen Personen (328), weniger als ein Drittel sind verheiratet (146), der Anteil der Verwitwe­ten und Geschiedenen ist sehr gering. Insofern konnte die anfangs ange­strebte Streuung der demographischen Variablen in der Stichprobe erreicht werden.

3. Ausblick

In der verbleibenden Zeit des ersten Projektabschnitts soll die Datenaufnahme und ‑kontrolle abgeschlossen werden. Im Anschluß daran wird mit Skalenanalysen und Item­selektionen der Befindlichkeitsdaten nach klassischen Methoden begonnen. Über die weitere Planung der Analysen, insbesondere die Überprüfung der Anwendbarkeit von Latent-State-Trait-Modellen im Bereich der Befindlichkeitsmessung wird im Ver­län­ge­rungs­antrag berichtet.


                                                               Literatur

Abele‑Brehm, A. & Brehm, W. (1986). Zur Konzeptualisierung und Messung von Befindlich­keit. Die Entwicklung der "Befindlichkeitsskalen" (BFS). Diagnostica, 32, 209‑228.

Baumann, U. & Dittrich, A. (1972). Überprüfung der Deutschen Version eines Polaritä­ten­profils zur Erfassung der Befindlichkeit. Zeitschrift für Klinische Psychologie, 1, 335‑350.

Becker, P. (1988). Skalen für Verlaufsstudien der emotionalen Befindlichkeit. Zeitschrift für Experimentelle und Angewandte Psychologie, 35, 345‑369.

Becker, P. (1989). Der Trierer Persönlichkeitsfragebogen TPF. Handanweisung. Göttin­gen: Hogrefe.

Biehl, B., Dangel, S. & Reiser, A. (1986). Profile of Mood States. In CIPS: Inter­nationale Skalen für Psychiatrie. Weinheim: Beltz.

Binz, W. & Wendt, G. (1986). KUSTA ‑ Kurz‑Skala Stimmung/Aktivierung. Manual. Wein­heim: Beltz.

Bock, R. D., Gibbons, R. & Muraki, E. (1988). Full‑information factor analysis. Applied Psychological Measurement, 12, 261‑280.

Bohner, G., Schwarz, N. & Hormuth, S. E. (1989). Die Stimmungs‑Skala: Eine deutsche Version des "Mood Survey" von Underwood und Froming (ZUMA‑Arbeitsbericht Nr. 89/06). Mannheim: ZUMA.

Bond, A. & Lader, M. (1974). The use of analogue scales in rating subjective feelings. British Journal of Medical Psychology, 47, 211‑218.

Bottenberg, E. H. (1970). Stimmung: Dimensionierte Messung, Situations‑ und Persön­lich­keitsabhängigkeit. Psychologische Praxis, 14, 18‑37.

Brähler, E. & Scheer, J. (1983). Der Gießener Beschwerdebogen. Bern: Huber.

Brandtstätter, H. (1991). Alltagsereignisse und Wohlbefinden. In A. Abele & P. Becker, Wohlbefinden: Theorie ‑ Empirie ‑ Diagnostik (S. 191‑225). Weinheim: Juventa.

Bullinger, M., Heinisch, M., Ludwig, M. & Geier, S. (1990). Skalen zur Erfassung des Wohlbefindens: Psychometrische Analysen zum "Profile of Mood States" (POMS) und zum "Psychological General Well‑being Index" (PGWI). Zeitschrift für Diffe­rentielle und Diagno­stische Psychologie, 11, 53‑61.

Burkard, G., Upmeyer, H. J., Weidenhammer, W. & Schmidt, A. (1982). Selbstbeur­teilungs­skala unterstützt die Diagnosefindung. Das Hamburg‑Erlanger Stimmungs­barometer (HESTIBAR). Psycho, 8, 690‑696.

Carver, C. S. & Scheier, M. F. (1990). Origins and functions of positive and negative affect: A control-process view. Psychological Review, 97, 19-35.

 Dann, H. D. (1974). Aggression und Leistung. Stuttgart: Klett.

 de Gruijter, D. N. M. & van der Kamp, L. J. Th. (1984). Statistical models in psycholo­gical and educational testing. Lisse: Swets & Zeitlinger.

Eid, M. (1990). Deutschsprachige Verfahren zur Erfassung der Befindlichkeit ‑ ein Überblick (unveröff. Manuskript).

Eid, M., Notz, P., Steyer, R. & Schwenkmezger, P. (1991). Wirken sich Unterschiede in der Form der Antwortskalierung auf die Dimensionalität einer Befindlichkeits­skala aus? Vortrag gehalten auf der 33. Tagung experimentell arbeitender Psycho­logen, Gießen.

Eid, M., Mayer, A.-K., Steyer, R., Notz, P. & Schwenkmezger, P. (in Druck). Monopo­lar mood factors ‑ a methodological artifact? First results of a simulation study with LIS­COMP. In R. Steyer, K. ‑ F. Wender & K. Widaman (Eds.), Proceedings of the 7th European Meeting of the Psychometric Society. Stuttgart: Fischer.

Fähndrich, E. & Linden, M. (1982). Zur Reliabilität und Validität der Stimmungs­messung mit der Visuellen Analog‑Skala (VAS). Pharmacopsychiatrie, 15, 90‑94.

Fahrenberg, J. (1975). Die Freiburger Beschwerdenliste FBL. Zeitschrift für Klinische Psychologie, 4, 79‑100.

Fahrenberg, J., Hampel, R. & Selg, H. (1984). Das Freiburger Persönlichkeitsinventar (FPI und FPI‑R). Handbuch (4. Aufl.). Göttingen: Hogrefe.

Fenigstein, A., Scheier, M. F. & Buss, A. H. (1975). Public and private self‑conscious­ness: Assessment and theory. Journal of Consulting and Clinical Psychology, 43, 522‑527.

Filipp, S. H., Ahammer, I., Angleitner, A. & Olbrich, E. (1980). Eine Untersuchung zu inter‑ und intraindividuellen Differenzen in der Wahrnehmung und Verarbeitung von subjektiv erlebten Persönlichkeitsveränderungen (Forschungsbericht Nr. 11 aus dem Projekt Entwicklungspsychologie des Erwachsenenalters). Trier: Universität, Fachbereich I - Psychologie.

Filipp, S. H. & Freudenberg, E. (1989). Fragebogen zur Erfassung dispositionaler Selbstauf­merksamkeit (SAM‑Fragebogen). Göttingen: Hogrefe.

Fisher, G. A., Heise, D. R., Bohrnstedt, G. W. & Lucke, J. I. (1985). Evidence for extending the circumplex model of personality trait language to self reported moods. Journal of Personality and Social Psychology, 49, 233‑242.

Gebert, A. (1979). Über Schwierigkeitsfaktoren bei Faktorenanalysen auf Itembasis. In L. H. Eckensberger (Hrsg.), Bericht über den 31. Kongreß der DGfPs in Mannheim 1978 (S.509-511). Göt­tin­gen: Hogrefe.

Goetze, U. (1984). Münster‑Polaritätenprofil für Depressive. Der Nervenarzt, 55, 127‑132.

Gräser, H. (1978). Überprüfung der faktoriellen Struktur einer deutschsprachigen Version des "Eight State Questionnaire" mittels Ketten‑P‑Technik (Trierer Psycho­logische Berichte 5). Trier: Universität, Fachbereich I ‑ Psychologie.

 Hampel, R. (1971). Entwicklung einer Skala zur Selbsteinschätzung der aktuellen Stimmung. Unveröff. Diss., Universität Freiburg.

Hampel, R. (1977). Adjektiv‑Skalen zur Einschätzung der Stimmung (SES). Diagnosti­ca, 23, 43‑60.

Hartung, J., Elpelt, B. & Klösner, K.-H. (1982). Statistik. München: Oldenbourg Verlag GmbH.

Hecheltjen, K. G. & Mertesdorf, F. (1973). Entwicklung eines mehrdimensionalen Stim­mungsfragebogens (MSF). Gruppendynamik, 40, 110‑122.

Heimann, H. (1967). Essai d'objectivation éxperimentale et clinique de l'émotionalité. Schweizer Archiv für Neurologie, Neurochirurgie und Psychiatrie, 100, 475‑486.

Hobi, V. (1985). Basler Befindlichkeitsskala. Manual. Weinheim: Beltz.

Hoffmann, R. (1984). Erleben von Glück ‑ eine empirische Untersuchung. Psychologi­sche Beiträge, 26, 516‑532.

Howarth, E. & Hoffman, M. S. (1984). A multidimensional approach to the relationship between mood and weather. British Journal of Psychology, 75, 15-23.

Janke, W. & Debus, G. (1978). Die Eigenschaftswörterliste EWL. Handanweisung. Göttin­gen: Hogrefe.

Jöreskog, K. G. & Sörbom, D. (1989). LISREL7. A guide to the program and applica­tions. Chicago: Scientific Software.

Kanner, A. D., Coyne, J. C., Schaefer, C. & Lazarus, R. S. (1981). Comparison of two models of stress measurement: daily hassles and uplifts versus major life events. Journal of Behavioral Medicine, 4, 1‑39.

Kasielke, E. & Hänsgen, K. D. (1982). Beschwerden‑Erfassungsbogen (BEB). Berlin: Hum­boldt Universität, Psychodiagnostisches Zentrum.

Lazarus, R. S. & Cohen, J. B. (1977). Coping questionnaire. The hassles scale. The uplift scale : Unpublished paper. Berkeley: University of California.

Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Rea­ding/­Mass.: Addison Wesley.

Lorr, M. (1989). Models and methods for measurement of mood. In R. Plutchik & H. Kellerman (Eds.), Emotion. Theory, research, and experience, Vol. 4. The measure­ment of emo­tions (pp. 37‑53). San Diego: Academic Press.

Mackay, C. J. (1980). The measurement of mood and psychophysiological activity using self‑report techniques. In I. Martin & P. Venables (Eds.), Techniques in psychophysiolo­gy (pp. 501‑562). Chichester: Wiley.

Martin, W. S., Fruchter, B. & Mathis, W. J. (1974). An investigation of the effect of the number of scale intervals on principal components for factor analysis. Educa­tional and Psychological Measurement, 34, 537‑545.

McCormack, H. M., Horne, D. J. & Sheater, S. (1988). Clinical applications of visual analogue scales: a critical review. Psychological Medicine, 18, 1007‑1019.

McNair, D. M., Lorr, M. & Doppleman, L. F. (1971). EITS manual for the Profile of Mood States. San Diego: Educational and industrial testing service.

McDonald, R. P. & Ahlawat, K. S. (1974). Difficulty factors in binary data. British Journal of Mathematical and Statistical Psychology, 27, 82‑99.

Meddis, R. (1972). Bipolar factors in mood adjective checklists. British Journal of Social and Clinical Psychology, 61, 178‑184.

Mislevy, R. J. (1986). Recent developments in the factor analysis of categorical variab­les. Journal of Educational Statistics, 11, 3‑31.

Morris, W. N. (1989). Mood ‑ the frame of mind. New York: Springer.

Muraki, E. & Engelhard, G. (1985). Full‑information item factor analysis: Applications of EAP scores. Applied Psychological Measurement, 9, 417‑430.

Muthén, B. (1988). LISCOMP. Analysis of linear structural equations with a com­prehensive measurement model (2nd ed.). Mooresville: Scientific Software.

Nitsch, J. R. (1976). Die Eigenzustandsskala. Ein Verfahren zur hierarchisch‑mehrdimensio­nalen Befindlichkeitsskalierung. In J. Nitsch & J. Udris (Hrsg.), Beanspruchung im Sport (S. 81‑102). Bad Homburg: Limpert.

Notz, P. (1990). Psychometrische Modelle zur Analyse von Längsschnittdaten: Bewältigungs­verhalten im zeitlichen Verlauf. Unveröffentl. Dipl.Arbeit, Universität Trier.

Notz, P. (1991). KEBEF. Ein Computerprogramm zur kontrollierten Eingabe von Befindlich­keitsdaten. Computerprogramm, Universität Trier

Notz, P., Steyer, R. & Eid, M. (in Druck). FAST: A PC‑program for the fast analysis of latent‑state‑trait models. In R. Steyer, H. Gräser & K. Widaman (Eds.), Consis­tency and specificity: Latent‑state‑trait models in psychological research. New York: Springer.

Nowlis, V. (1965). Research with the Mood Adjective Check List. In S. S. Tomkins & C. E. Izard (Eds.), Affect, cognition, and personality (pp. 352‑389). New York: Springer.

Olsson, U. (1979). On the robustness of factor analysis against crude classification of the observations. Multivariate Behavioral Research, 14, 485‑500.

Russell, I. A. (1979). Affective space is bipolar. Journal of Personality and Social Psycholo­gy, 37, 345‑356.

Samejima, F. (1969). Estimation of ability using a response pattern of graded scores. Psychometrika Monograph No. 17.

Schmitt, N. & Stults, D. M. (1985). Factors defined by negatively keyed items: The result of careless respondents? Applied Psychological Measurement, 9, 367‑374.

Schneewind, K. A., Schröder, G. & Cattell, R. B. (1986). Der 16-Persönlichkeits-Faktoren-Test (16 PF) (2. Auflage). Bern: Huber.

Schwenkmezger, P. (1991). Persönlichkeit und Wohlbefinden. In A. Abele & P. Becker (Hrsg.), Wohlbefinden: Theorie, Empirie, Diagnostik (S. 119‑137). Weinheim: Juventa.

Sjöberg, L. S., E. & Persson, L. (1979). The measurement of mood. Scandinavian Journal of Psychology, 20, 1‑18.

Supprian, U. (1976). Eppendorfer Stimmungs‑Antriebsskala (ESTA III). Weinheim: Beltz.

Svensson, E. (1977). Response format and the factor structure in mood adjective check lists. Scandinavian Journal of Psychology, 18, 71‑78.

Ullrich de Muynck, R. & Ullrich, R. (1977). Das Emotionalitätsinventar als Befindlichkeits­maß. Testmanual EMI‑B. München: Pfeiffer.

Underwood, B. & Froming, J. (1980). The mood survey: A personality measure of happy and sad moods. Journal of Personality Assessment, 44, 404‑414.

Watson, D. & Clark, L. A. (1984). Negative affectivity: The disposition to experience aversive emotional states. Psychological Bulletin, 96, 465‑490.

Watson, D. & Tellegen, A. (1985). Toward a consensual structure of mood. Psycholo­gical Bulletin, 98, 219‑235.

Zealley, A. K. & Aitken, R. C. B. (1969). Measurement of mood. Proceedings of the Royal Society of Medicine, 62, 993‑996.

Zerssen, D. v. & Koeller, D. M. (1976a). Die Befindlichkeitsskala. Manual. Weinheim: Beltz. Zerssen, D. v. & Koeller, D. M. (1976b). Beschwer­denliste. Weinheim: Beltz.

Zielke, M. (1979). Kieler Änderungssensitive Symptomliste. Manual. Weinheim: Beltz.

Zielke, M. & Kopf‑Mehnert, C. (1978). Veränderungsfragebogen des Erlebens und Verhal­tens (VEV). Manual. Weinheim: Beltz.



    [1]Im folgenden gebrauchen wir die Begriffe "Stimmung" und "Befindlichkeit" synonym.