Stochastik 4.2 - Spam-Mail
Ein Nutzer von E-Mail-Kommunikation stellt fest, dass der Anteil von unerwünschten Werbe-E-Mails (Spam-Mails) an seinen Posteingang über einen längeren Zeitraum konstant
beträgt.
Angenommen wird dabei, dass die Spam-Mails zufällig und unabhängig voneinander eingehen.
der Spam-Mails taucht das Schlüsselwort „sale“ auf, in den E-Mails, die keine Spam-Mails sind, jedoch nur
der Fälle.
der Spam-Mails ist das Schlüsselwort „season“ enthalten und wird ebenfalls mit dem Spam-Filter erkannt.
Spam-Mails im E-Mail-Eingang mit einem Signifikanztest auf dem Niveau
für eine Stichprobe von
zufällig ausgewählten E-Mails untersuchen.
Dafür werden folgende Hypothesen festgelegt.
Der Anteil der Spam-Mails an den eingegangenen E-Mails beträgt
Der Anteil der Spam-Mails an den eingegangenen E-Mails hat sich verändert.
Die Zufallsgröße
sei die Anzahl der Spam-Mails.
Dargestellt sind die Werte
Gerundet auf vier Nachkommastellen, weggelassen ist
alle freien Plätze und alle nicht dargestellten Zeilen enthalten
bzw.
Wird die Tabelle "von unten" gelesen
ist der richtige Wert
(abgelesener Wert).
Angenommen wird dabei, dass die Spam-Mails zufällig und unabhängig voneinander eingehen.
a)
Berechne die Wahrscheinlichkeit für folgende Ereignisse.
A: „Von fünf eingegangenen E-Mails ist keine eine Spam-Mail.“
B: „Von fünf eingegangenen E-Mails ist nur genau die letzte eine Spam-Mail.“
B: „Von fünf eingegangenen E-Mails ist nur genau die letzte eine Spam-Mail.“
(3 BE)
b)
In einer Woche befinden sich
Mails im Posteingang.
Ermittle die Wahrscheinlichkeit dafür, dass die Anzahl der Spam-Mails in dieser Woche um mehr als
über dem Erwartungswert liegt.
Die Spam-Mails enthalten Schlüsselwörter, an denen man sie sehr gut erkennt und durch die der Spam-Filter sie aussortiert. In Ermittle die Wahrscheinlichkeit dafür, dass die Anzahl der Spam-Mails in dieser Woche um mehr als
(3 BE)
c)
Stelle diesen Sachverhalt in einer Vierfeldertafel dar.
(4 BE)
d)
Ermittle die Wahrscheinlichkeit dafür, dass eine vom Spam-Filter durch das Wort „sale“ aussortierte E-Mail keine Spam-Mail ist.
In
(2 BE)
e)
Paul behauptet, dass der Anteil der E-Mails, die durch die Worte „sale“ oder „season“ als Spam erkannt werden, an allen E-Mails
beträgt.
Begründe ohne Rechnung, dass diese Behauptung im Allgemeinen falsch ist.
Begründe ohne Rechnung, dass diese Behauptung im Allgemeinen falsch ist.
(2 BE)
f)
Der Anteil der Spam-Mails, die durch die Worte „sale“ oder „season“ als Spam erkannt werden, beträgt
Berechne den Anteil der Spam-Mails, in denen beide Worte vorkommen.
Nach einem Jahr wird in einer Fachzeitschrift behauptet, dass sich der Anteil der Spam-Mails an den eingehenden E-Mails verändert hat. Jemand will das für den Anteil von ursprünglich Berechne den Anteil der Spam-Mails, in denen beide Worte vorkommen.
(3 BE)
g)
Entscheide, welche Art von Entscheidungsregel geeignet ist und begründe deine Entscheidung:
Entscheidungsregel 1: Wenn
gilt, dann wird
abgelehnt.
Entscheidungsregel 2: Wenn
gilt, dann wird
nicht abgelehnt.
Der Nutzer behauptet nun, dass sich der Anteil der E-Mails, die Spam-Mails sind, in seinem E-Mail-Eingang vergrößert hat.
Entscheidungsregel 2: Wenn
(3 BE)
h)
Berechne unter Annahme der Binomialverteilung, in welchem Bereich die Anzahl der Spam-Mails in einer Stichprobe von
E-Mails sein muss, um die Vermutung des Nutzers auf einem Signifikanzniveau von
zu stützen.
(5 BE)
(25 BE)
Anlage
Summierte Binomialverteilung füralle freien Plätze und alle nicht dargestellten Zeilen enthalten
Wird die Tabelle "von unten" gelesen
A | B | C | D | E | F | G | H | I | J | K | L | M | N | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1
|
||||||||||||||
2
|
n | p | ||||||||||||
3
|
k | 0,05 | 0,10 | 1/6 | 0,20 | 0,25 | 0,30 | 1/3 | 0,40 | 0,45 | 0,50 | |||
4
|
50 | 0 | 0,0769 | 0,0052 | 0,0001 | 0,0000 | 49 | |||||||
5
|
1 | 0,2794 | 0,0338 | 0,0012 | 0,0002 | 0,0000 | 48 | |||||||
6
|
2 | 0,5405 | 0,1117 | 0,0066 | 0,0013 | 0,0001 | 47 | |||||||
7
|
3 | 0,7604 | 0,2503 | 0,0238 | 0,0057 | 0,0005 | 0,0000 | 46 | ||||||
8
|
4 | 0,8964 | 0,4312 | 0,0643 | 0,0185 | 0,0021 | 0,0002 | 0,0000 | 45 | |||||
9
|
5 | 0,9622 | 0,6161 | 0,1388 | 0,0480 | 0,0071 | 0,0007 | 0,0001 | 44 | |||||
10
|
6 | 0,9882 | 0,7702 | 0,2506 | 0,1034 | 0,0194 | 0,0025 | 0,0005 | 0,0000 | 43 | ||||
11
|
7 | 0,9968 | 0,8779 | 0,3911 | 0,1904 | 0,0453 | 0,0073 | 0,0017 | 0,0001 | 42 | ||||
12
|
8 | 0,9992 | 0,9421 | 0,5421 | 0,3073 | 0,0916 | 0,0183 | 0,0050 | 0,0002 | 0,0000 | 41 | |||
13
|
9 | 0,9998 | 0,9755 | 0,6830 | 0,4437 | 0,1637 | 0,0402 | 0,0127 | 0,0008 | 0,0001 | 40 | |||
14
|
10 | 0,9907 | 0,7986 | 0,5836 | 0,2622 | 0,0789 | 0,0284 | 0,0022 | 0,0002 | 0,0000 | 39 | |||
15
|
11 | 0,9968 | 0,8827 | 0,7107 | 0,3816 | 0,1390 | 0,0571 | 0,0057 | 0,0006 | 0,0001 | 38 | |||
16
|
12 | 0,9990 | 0,9373 | 0,8139 | 0,5110 | 0,2229 | 0,1035 | 0,0133 | 0,0018 | 0,0002 | 37 | |||
17
|
13 | 0,9997 | 0,9693 | 0,8894 | 0,6370 | 0,3279 | 0,1715 | 0,0280 | 0,0045 | 0,0005 | 36 | |||
18
|
14 | 0,9999 | 0,9862 | 0,9393 | 0,7481 | 0,4468 | 0,2612 | 0,0540 | 0,0104 | 0,0013 | 35 | |||
19
|
15 | 0,9943 | 0,9692 | 0,8369 | 0,5692 | 0,3690 | 0,0955 | 0,0220 | 0,0033 | 34 | ||||
20
|
16 | 0,9978 | 0,9856 | 0,9017 | 0,6839 | 0,4868 | 0,1561 | 0,0427 | 0,0077 | 33 | ||||
21
|
17 | 0,9992 | 0,9937 | 0,9449 | 0,7822 | 0,6046 | 0,2369 | 0,0765 | 0,0164 | 32 | ||||
22
|
18 | 0,9998 | 0,9975 | 0,9713 | 0,8594 | 0,7126 | 0,3356 | 0,1274 | 0,0325 | 31 | ||||
23
|
19 | 0,9999 | 0,9991 | 0,9861 | 0,9152 | 0,8036 | 0,4465 | 0,1974 | 0,0595 | 30 | ||||
24
|
20 | 0,9997 | 0,9937 | 0,9522 | 0,8741 | 0,5610 | 0,2862 | 0,1013 | 29 | |||||
25
|
21 | 0,9999 | 0,9974 | 0,9749 | 0,9244 | 0,6701 | 0,3900 | 0,1611 | 28 | |||||
26
|
22 | 0,9990 | 0,9877 | 0,9576 | 0,7660 | 0,5019 | 0,2399 | 27 | ||||||
27
|
23 | 0,9996 | 0,9944 | 0,9778 | 0,8438 | 0,6134 | 0,3359 | 26 | ||||||
28
|
24 | 0,9999 | 0,9976 | 0,9892 | 0,9022 | 0,7160 | 0,4439 | 25 | ||||||
29
|
25 | 0,9991 | 0,9951 | 0,9427 | 0,8034 | 0,5561 | 24 | |||||||
30
|
26 | 0,9997 | 0,9979 | 0,9686 | 0,8721 | 0,6641 | 23 | |||||||
31
|
27 | 0,9999 | 0,9992 | 0,9840 | 0,9220 | 0,7601 | 22 | |||||||
32
|
28 | 0,9997 | 0,9924 | 0,9556 | 0,8389 | 21 | ||||||||
33
|
29 | 0,9999 | 0,9966 | 0,9765 | 0,8987 | 20 | ||||||||
34
|
30 | 0,9986 | 0,9884 | 0,9405 | 19 | |||||||||
35
|
31 | 0,9995 | 0,9947 | 0,9676 | 18 | |||||||||
36
|
32 | 0,9998 | 0,9978 | 0,9836 | 17 | |||||||||
37
|
33 | 0,9999 | 0,9991 | 0,9923 | 16 | |||||||||
38
|
34 | 0,9997 | 0,9967 | 15 | ||||||||||
39
|
35 | 0,9999 | 0,9987 | 14 | ||||||||||
40
|
36 | 0,9995 | 13 | |||||||||||
41
|
37 | 0,9999 | 12 | |||||||||||
42
|
0,95 | 0,90 | 5/6 | 0,80 | 0,75 | 5/7 | 2/3 | 0,60 | 5/9 | 0,50 | k | |||
43
|
p |
a)
Wahrscheinlichkeit für das Ereignis
berechnen:
Die Wahrscheinlichkeit für das Ereignis
beträgt
.
Wahrscheinlichkeit für das Ereignis
berechnen:
Die Wahrscheinlichkeit für das Ereignis
beträgt
.
b)
Wahrscheinlichkeit berechnen:
Definiere eine Zufallsvariable
.
: Anzahl der Spam-Mails in dieser Woche
ist binomialverteilt mit
(
und
).
Der Erwartungswert von
wird berechnet durch
.
über
:
Die Wahrscheinlichkeit, dass die Anzahl der Spam-Mails in dieser Woche um mehr als
über dem Erwartungswert liegt, beträgt
.
Definiere eine Zufallsvariable
Der Erwartungswert von
c)
Sachverhalt in Vierfeldertafel darstellen:
Spam | kein Spam | Gesamt | |
---|---|---|---|
"sale" | |||
kein "sale" | |||
Gesamt |
d)
Wahrscheinlichkeit berechnen:
Die Wahrscheinlichkeit, dass eine vom Spam-Filter durch das Wort "sale" aussortierte E-Mail keine Spam-Mail ist, beträgt
.
e)
Behauptung überprüfen:
Pauls Behauptung ist nicht wahr, da es nicht ausgeschlossen ist, dass beide Schlüsselwörter zusammen in einer E-Mail vorkommen.
Pauls Behauptung ist nicht wahr, da es nicht ausgeschlossen ist, dass beide Schlüsselwörter zusammen in einer E-Mail vorkommen.
f)
Anteil berechnen:
Der Anteil der Spam-Mails, in denen beide Worte vorkommen, beträgt
.
Der Anteil der Spam-Mails, in denen beide Worte vorkommen, beträgt
g)
Entscheidungsregel
: Wenn
gilt, dann wird
abgelehnt.
Entscheidungsregel
: Wenn
gilt, dann wird
nicht abgelehnt.
Entscheidungsregel auswählen und begründen:
Die Untersuchung benötigt einen zweiseitigen Signifikanztest, da sich der Anteil der Spam-Mail vergrößert oder verkleinert haben kann. Daraus folgt, dass die Entscheidungsregel
geeignet ist.
Entscheidungsregel
: Wenn
gilt, dann wird
nicht abgelehnt.
Entscheidungsregel
Die Untersuchung benötigt einen zweiseitigen Signifikanztest, da sich der Anteil der Spam-Mail vergrößert oder verkleinert haben kann. Daraus folgt, dass die Entscheidungsregel
Entscheidungsregel
h)
Rechtsseitigen Signifikanztest durchführen:
Gesucht ist der kleinste Wert
mit:
.
Für
gilt:
.
Für
gilt:
.
Ablehnungsbereich:
{
}
Falls das Stichprobenereignis im Ablehnungsbereich liegt, wird die Nullhypothese verworfen.
Die Anzahl der Spam-Mails muss in der Stichprobe mindestens
sein, um die Vermutung des Nutzers zu stützen.
Gesucht ist der kleinste Wert
Für
Ablehnungsbereich:
Falls das Stichprobenereignis im Ablehnungsbereich liegt, wird die Nullhypothese verworfen.
Die Anzahl der Spam-Mails muss in der Stichprobe mindestens