Mit Inferenzanalyse zum richtigen Schluss kommen

Veröffentlicht: 2020-03-23

Wir sind alle schuldig, von Zeit zu Zeit voreilige Schlüsse zu ziehen.

Ob es darum geht, sich selbst davon zu überzeugen, dass niemand ein Ticket für die Konferenz kaufen wird, an deren Planung Sie so hart gearbeitet haben, oder dass es einfach nicht genug Zeit ist, zwei Stunden im Voraus am Flughafen anzukommen, wir haben es alle getan.

Außerhalb unseres täglichen Lebens ist es einfach, bei der Arbeit zu ungenauen Schlussfolgerungen zu gelangen, unabhängig von der Branche. Wenn wir dies tun, verallgemeinern wir im Wesentlichen, aber was wäre, wenn Sie diese Verallgemeinerungen genauer machen könnten? Dies ist möglich, wenn Sie Inferenzanalysetests ausführen.

Wenn wir in die statistische Analyse eintauchen, ist die Größe der Population, die wir analysieren möchten, oft zu groß, was es unmöglich macht, alle zu untersuchen. In diesen Fällen werden Daten anhand von Zufallsstichproben von Personen innerhalb einer bestimmten Population erhoben. Dann wird eine Inferenzanalyse der Daten verwendet, um Schlussfolgerungen über die Gesamtbevölkerung zu ziehen.

Da es oft unmöglich ist, eine ganze Bevölkerungsgruppe zu messen, stützt sich die Inferenzanalyse auf das Sammeln von Daten aus einer Stichprobe von Personen innerhalb der Bevölkerung. Im Wesentlichen wird die Inferenzanalyse verwendet, um zu versuchen, aus einer Stichprobe von Daten zu schließen , was die Bevölkerung denken oder zeigen könnte.

Dazu gibt es im Wesentlichen zwei Möglichkeiten:

  1. Schätzparameter: Entnahme einer Statistik aus einer Datenstichprobe (wie dem Stichprobenmittelwert) und deren Verwendung, um etwas über die Grundgesamtheit (den Grundgesamtheitsmittelwert) zu schließen.
  2. Hypothesentests: Die Verwendung von Datenstichproben zur Beantwortung spezifischer Forschungsfragen.

Beim Schätzen von Parametern wird die Stichprobe verwendet, um einen Wert zu schätzen, der die gesamte Grundgesamtheit beschreibt, zusätzlich zu einem Konfidenzintervall. Anschließend wird der Kostenvoranschlag erstellt.

Beim Testen von Hypothesen werden Daten verwendet, um festzustellen, ob sie stark genug sind, um eine Annahme zu unterstützen oder abzulehnen.

Deskriptive Analyse vs. Inferenzanalyse

Die zwei Hauptarten der statistischen Analyse, die am häufigsten verwendet werden, sind die deskriptive Analyse und die schlussfolgernde Analyse. Aus diesem Grund kommt es nicht selten vor, dass die beiden miteinander verwechselt werden, obwohl sie Datenanalysten unterschiedliche Einblicke in die gesammelten Daten geben.

Man kann zwar nicht das ganze Bild zeigen, aber wenn sie zusammen verwendet werden, bieten sie ein leistungsstarkes Werkzeug für die Datenvisualisierung und Vorhersageanalyse, da sie sich auf denselben Datensatz stützen.

Die deskriptive statistische Analyse liefert Informationen, die die Daten auf irgendeine Weise beschreiben. Dies geschieht manchmal mit Diagrammen und Grafiken, die mit Datenvisualisierungssoftware erstellt wurden, um zu erklären, was die Daten darstellen. Diese Methode der statistischen Analyse wird nicht verwendet, um Schlussfolgerungen zu ziehen, sondern nur, um die Informationen zusammenzufassen.

Inferenzstatistische Analyse ist die Methode, die verwendet wird, um die Schlussfolgerungen zu ziehen. Es ermöglicht Benutzern, Trends über eine größere Population basierend auf den analysierten Proben abzuleiten oder zu folgern. Grundsätzlich nimmt es Daten aus einer Stichprobe und zieht dann Schlussfolgerungen über eine größere Population oder Gruppe.

Diese Art der statistischen Analyse wird häufig verwendet, um die Beziehung zwischen Variablen innerhalb einer Stichprobe zu untersuchen und Schlussfolgerungen und Verallgemeinerungen zu ermöglichen, die die Population genau darstellen. Und im Gegensatz zur deskriptiven Analyse können Unternehmen eine Hypothese testen und aus diesen Daten verschiedene Schlussfolgerungen ziehen.

Deskriptive Analyse vs. Inferenzanalyse

Betrachten wir es so. Sie sind bei einem Baseballspiel und fragen eine Stichprobe von 100 Fans, ob sie Hotdogs mögen. Sie könnten ein Balkendiagramm mit Ja- oder Nein-Antworten erstellen, was eine deskriptive Analyse wäre. Oder Sie könnten Ihre Forschung verwenden, um zu dem Schluss zu kommen, dass 93 % der Bevölkerung (alle Baseballfans in allen Baseballstadien) Hotdogs mögen, was eine schlussfolgernde Analyse wäre.

Arten von Inferenzanalysetests

Es gibt viele Arten von schlussfolgernden Analysetests, die im Statistikbereich angesiedelt sind. Welche Sie verwenden, hängt von Ihrer Stichprobengröße, der Hypothese, die Sie lösen möchten, und der Größe der zu testenden Population ab.

Lineare Regressionsanalyse

Die lineare Regressionsanalyse wird verwendet, um die Beziehung zwischen zwei Variablen (X und Y) in einem Datensatz zu verstehen, um die unbekannte Variable zu schätzen, um zukünftige Prognosen zu Ereignissen und Zielen zu erstellen.

Das Hauptziel der Regressionsanalyse besteht darin, die Werte einer Zufallsvariablen (Z) basierend auf den Werten Ihrer bekannten (oder festen) Variablen (X und Y) zu schätzen. Dies wird normalerweise durch ein Streudiagramm wie das folgende dargestellt.

Lineare Regressionsanalyse

Ein wesentlicher Vorteil der Verwendung der Regression in Ihrer Analyse besteht darin, dass sie einen detaillierten Blick auf die Daten bietet und eine Gleichung enthält, die für prädiktive Analysen und zukünftige Datenoptimierungen verwendet werden kann.

Die Formel für die Regressionsanalyse lautet:

Y = a + b(x)

A → bezieht sich auf den y-Achsenabschnitt, den Wert von y, wenn x = 0

B → bezieht sich auf die Steigung oder den Anstieg über den Lauf

Korrelationsanalyse

Ein weiterer Inferenzanalysetest ist die Korrelationsanalyse, die verwendet wird, um zu verstehen, inwieweit zwei Variablen voneinander abhängig sind. Diese Analyse testet im Wesentlichen die Stärke der Beziehung zwischen zwei Variablen und ob ihre Korrelation stark oder schwach ist.

Die Korrelation zwischen zwei Variablen kann je nach Variablen auch negativ oder positiv sein. Variablen gelten als „unkorreliert“, wenn eine Änderung der einen die andere nicht beeinflusst.

Ein Beispiel hierfür wäre Preis und Nachfrage. Dies liegt daran, dass eine Erhöhung der Nachfrage zu einer entsprechenden Erhöhung des Preises führt. Der Preis würde steigen, weil mehr Verbraucher etwas wollen und bereit sind, mehr dafür zu zahlen.

Insgesamt besteht das Ziel der Korrelationsanalyse darin, den numerischen Wert zu finden, der die Beziehung zwischen den beiden Variablen zeigt und wie sie sich zusammen bewegen. Wie bei der Regression erfolgt dies normalerweise durch die Verwendung von Datenvisualisierungssoftware zur Erstellung eines Diagramms.

Korrelationsanalyse

Verwandte Themen: Erfahren Sie mehr über die Vor- und Nachteile von Korrelationen und Regression, einschließlich der Unterschiede und welche Methode Ihr Unternehmen verwenden sollte.

Varianzanalyse

Die statistische Methode der Varianzanalyse (ANOVA) wird verwendet, um die Unterschiede zwischen zwei oder mehr Mittelwerten aus einem Datensatz zu testen und zu analysieren. Dies erfolgt durch Untersuchen des Variationsbetrags zwischen den Proben.

Einfach ausgedrückt bietet ANOVA einen statistischen Test, ob zwei oder mehr Populationsmittelwerte gleich sind, zusätzlich zur Verallgemeinerung des t-Tests zwischen zwei Mittelwerten.

Mehr erfahren: Ein t-Test wird verwendet, um zu zeigen, wie signifikant die Unterschiede zwischen zwei Gruppen sind. Im Wesentlichen ermöglicht es das Verständnis, ob Unterschiede (gemessen in Mittelwerten/Durchschnitten) zufällig entstanden sein könnten.

Diese Methode ermöglicht das Testen von Gruppen, um festzustellen, ob es einen Unterschied zwischen ihnen gibt. Beispielsweise können Sie Schüler an zwei verschiedenen High Schools testen, die dieselbe Prüfung ablegen, um zu sehen, ob eine High School besser abschneidet als die andere.

ANOVA kann auch in zwei Typen unterteilt werden:

  • Einweg : Nur eine unabhängige Variable mit zwei Ebenen. Ein Beispiel wäre eine Marke von Erdnussbutter.
  • Zweiweg: Zwei unabhängige Variablen, die mehrere Ebenen haben können. Ein Beispiel wäre eine Marke von Erdnussbutter und die Kalorien.

Eine Ebene sind einfach die verschiedenen Gruppen innerhalb der Variablen. Unter Verwendung des gleichen Beispiels wie oben könnten die Ebenen der Erdnussbuttermarken also Jif, Skippy oder Peter Pan sein. Die Ebenen für Kalorien können glatt, cremig oder organisch sein.

Analyse der Kovarianz

Die Kovarianzanalyse (ANCOVA) ist eine einzigartige Mischung aus Varianzanalyse (ANOVA) und Regression. ANCOVA kann zeigen, welche zusätzlichen Informationen verfügbar sind, wenn jeweils eine unabhängige Variable oder ein unabhängiger Faktor betrachtet wird, ohne andere zu beeinflussen.

Es wird oft verwendet:

  • Für eine Erweiterung der multiplen Regression, um mehrere Regressionslinien zu vergleichen
  • Um Kovariaten (andere Variablen) zu kontrollieren, die nicht im Mittelpunkt Ihrer Studie stehen
  • Zur Erweiterung der Varianzanalyse
  • Um Kombinationen anderer interessierender Variablen zu untersuchen
  • Um Faktoren zu kontrollieren, die nicht randomisiert, aber gemessen werden können

ANCOVA kann auch verwendet werden, um eine Analyse vor- oder nachzutesten, wenn die Regression auf den Mittelwert Ihre Posttest-Messung der Statistik beeinflusst.

Nehmen wir als Beispiel an, Ihr Unternehmen stellt neue Arzneimittel für die Öffentlichkeit her, die den Blutdruck senken. Sie können eine Studie durchführen, die vier Behandlungsgruppen und eine Kontrollgruppe überwacht.

Wenn Sie ANOVA verwenden, können Sie feststellen, ob die Behandlung tatsächlich den Blutdruck senkt. Wenn Sie ANCOVA einbeziehen, können Sie andere Faktoren kontrollieren, die das Ergebnis beeinflussen könnten, wie Familienleben, Beruf oder anderer Konsum verschreibungspflichtiger Medikamente.

Konfidenzintervall

Ein Konfidenzintervall ist ein Werkzeug, das in der Inferenzanalyse verwendet wird, die einen Parameter, normalerweise den Mittelwert, einer gesamten Population schätzt. Im Wesentlichen geht es darum, wie viel Unsicherheit es bei einer bestimmten Statistik gibt, und sie wird normalerweise mit einer Fehlerspanne verwendet.

Das Konfidenzintervall wird durch eine Zahl ausgedrückt, die widerspiegelt, wie sicher Sie sind, dass die Ergebnisse der Umfrage oder Umfrage Ihren Erwartungen entsprechen, wenn es möglich wäre, die gesamte Bevölkerung zu befragen.

Wenn beispielsweise die Ergebnisse einer Umfrage oder Umfrage ein Konfidenzintervall von 98 % aufweisen, dann definiert dies den Wertebereich, bei dem Sie mit 98 %iger Sicherheit den Mittelwert der Grundgesamtheit enthalten. Um zu dieser Schlussfolgerung zu gelangen, sind drei Informationen erforderlich:

  1. Konfidenzniveau : Beschreibt die mit einem Stichprobenverfahren verbundene Unsicherheit
  2. Statistik: Daten, die aus der Umfrage oder Umfrage gesammelt wurden
  3. Fehlermarge : Um wie viel Prozentpunkte werden Ihre Ergebnisse vom tatsächlichen Populationswert abweichen

Chi-Quadrat-Test

Ein Chi-Quadrat-Test, auch bekannt als x2-Test, wird verwendet, um den Unterschied zwischen Gruppen zu identifizieren, wenn alle Variablen nominal sind (auch bekannt als eine Variable mit Werten, die keinen numerischen Wert haben), wie Geschlecht, Gehaltsunterschied, politische Zugehörigkeit und so weiter.

Diese Tests werden normalerweise mit spezifischen Kontingenztabellen verwendet, die Beobachtungen basierend auf gemeinsamen Merkmalen gruppieren.

Fragen, die der Chi-Quadrat-Test beantworten könnte, könnten sein:

  • Sind Bildungsniveau und Familienstand für alle Menschen in den Vereinigten Staaten miteinander verbunden?
  • Gibt es einen Zusammenhang zwischen der Wahlabsicht und der Mitgliedschaft in einer politischen Partei?
  • Beeinflusst das Geschlecht, welche Feiertage die Leute bevorzugen?

Normalerweise werden diese Tests mit der statistischen Analysemethode durchgeführt, die als einfache Zufallsstichprobe bezeichnet wird, um Daten aus einer bestimmten Stichprobe zu sammeln, um möglicherweise zu einer genauen Schlussfolgerung zu gelangen. Wenn wir die erste oben aufgeführte Frage verwenden, können die Daten wie folgt aussehen:

Name Status Ausbildung
1 Melissa Geschieden PhD oder höher
2 Casey Verheiratet Bachelorabschluss
3 Angela Verheiratet GED
4 Alyssa Verwitwet Bachelorabschluss
5 Jenna Nie verheiratet GED

Diese Kontingenztabellen werden als Ausgangspunkt verwendet, um die durch einfache Zufallsstichproben gesammelten Daten zu organisieren.

Vorteile der Inferenzanalyse

Die Verwendung der Inferenzanalyse hat viele Vorteile, vor allem, dass sie einen Überschuss an detaillierten Informationen liefert – viel mehr, als Sie nach der Durchführung eines deskriptiven Analysetests hätten.

Diese Informationen bieten Forschern und Analysten umfassende Einblicke in die Beziehungen zwischen zwei Variablen. Es kann auch das Bewusstsein für Ursache und Wirkung und Vorhersagen zu Trends und Mustern in allen Branchen zeigen.

Da es sowohl in der Geschäftswelt als auch in der Wissenschaft so weit verbreitet ist, ist es außerdem eine allgemein akzeptierte Methode der statistischen Analyse.

Grenzen der Inferenzanalyse

Wenn es um Inferenzstatistiken geht, gibt es zwei Haupteinschränkungen.

Die erste Einschränkung ergibt sich aus der Tatsache, dass Datenanalysten nie zu 100 % sicher sein können, dass die berechneten Statistiken korrekt sind, da die analysierten Daten von einer Population stammen, die nicht vollständig gemessen wurde. Da die Inferenzanalyse auf dem Prozess der Verwendung von in einer Stichprobe gemessenen Werten basiert, um auf die Werte zu schließen, die von der Gesamtpopulation gemessen würden, wird es immer ein gewisses Maß an Unsicherheit in Bezug auf die Ergebnisse geben.

Die zweite Einschränkung besteht darin, dass einige Inferenztests erfordern, dass der Analyst oder Forscher eine fundierte Vermutung auf der Grundlage von Theorien anstellt, um die Tests durchzuführen. Ähnlich wie bei der ersten Einschränkung wird es bei diesen Vermutungen Unsicherheiten geben, was auch einige Auswirkungen auf die Zuverlässigkeit der Ergebnisse einiger statistischer Tests haben wird.

Ziehen Sie keine voreiligen Schlüsse

Bevor Sie zu einer potenziell ungenauen Schlussfolgerung in Bezug auf Daten kommen, stellen Sie sicher, dass Sie die Informationen nutzen, die in einem Inferenzanalysetest auf Sie warten.

Unabhängig von der Art der Schlussfolgerung, zu der Sie gelangen möchten, oder von der Hypothese, mit der Sie beginnen, werden Sie möglicherweise von den Ergebnissen überrascht sein, die ein Inferenzanalysetest bringen kann.

Suchen Sie nach einer statistischen Analysesoftware , um alle Ihre Datensätze besser zu interpretieren? Oder vielleicht ein Tool, das selbst die komplexesten statistischen Analysen einfach und aussagekräftig macht? Schauen Sie sich unsere Liste unvoreingenommener Bewertungen zu G2 an!