Siehe den vorherigen Beitrag hier .
Proben und Populationen
In der Statistik haben die Begriffe „Stichprobe“ und „Bevölkerung“ eine besondere Bedeutung. Eine Bevölkerung oder allgemeine Bevölkerung ist eine Reihe von Objekten, die ein Forscher verstehen möchte oder über die er Schlussfolgerungen ziehen kann. Zum Beispiel hat der Begründer der Genetik, Gregor Johan Mendel, in der zweiten Hälfte des 19. Jahrhunderts Beobachtungen über Erbsenpflanzen aufgezeichnet. Trotz der Tatsache, dass er unter Laborbedingungen sehr spezifische Pflanzensorten untersuchte, bestand seine Aufgabe darin, die grundlegenden Mechanismen zu verstehen, die der Vererbung absolut aller möglichen Erbsensorten zugrunde liegen.
In der Statistik wird eine Gruppe von Objekten, aus denen eine Stichprobe gezogen wird, als Population bezeichnet, unabhängig davon, ob es sich bei den untersuchten Objekten um Lebewesen handelt oder nicht.
Da die Population groß oder unendlich sein kann, wie im Fall von Mendels Erbsenpflanzen, müssen wir repräsentative Proben untersuchen und Schlussfolgerungen über die gesamte Population ziehen. Um eine klare Unterscheidung zwischen messbaren Attributen von Stichproben und nicht verfügbaren Attributen einer Population zu treffen, verwenden wir den Begriff Statistik in Bezug auf Stichprobenattribute und sprechen über Parameter in Bezug auf Populationsattribute .
Statistiken sind Attribute, die wir anhand von Stichproben messen können. Parameter sind Attribute einer Population, die wir statistisch ableiten möchten.
In der Realität unterscheiden sich Statistiken und Parameter aufgrund der Verwendung unterschiedlicher Symbole in mathematischen Formeln:
Messen |
|
|
|
|
n |
N |
|
x̅ |
μx |
|
Sx |
σx |
|
Sx̅ |
|
, , Sx, σx. — , , . , , , n ≥ 30.
. , , , 1 :
def ex_2_8():
'''
'''
may_1 = '2015-05-01'
df = with_parsed_date( load_data('dwell-times.tsv') )
filtered = df.set_index( ['date'] )[may_1]
se = standard_error( filtered['dwell-time'] )
print(' :', se)
: 3.627340273094217
, — 3.6 . 3.7 . , , , , .
, , , , — , , , . , , .
« » « », , .
. «confidence» , . (trust), . . -
, , . , , , . .
95% — 95% , . , 5%- , .
, 95% -1.96 1.96 . , , 1.96 95%- . z-.
z- , z-. , z- — .
1.96 , . , , scipy stats.norm.ppf
. confidence_interval
p 0 1. 95%- 0.95. 2 (2.5% 95%):
def confidence_interval(p, xs):
''' '''
mu = xs.mean()
se = standard_error(xs)
z_crit = stats.norm.ppf(1 - (1-p) / 2)
return [mu - z_crit * se, mu + z_crit * se]
def ex_2_9():
'''
'''
may_1 = '2015-05-01'
df = with_parsed_date( load_data('dwell-times.tsv') )
filtered = df.set_index( ['date'] )[may_1]
ci = confidence_interval(0.95, filtered['dwell-time'])
print(' : ', ci)
: [83.53415272762004, 97.753065317492741]
, 95% , 83.53 97.75 . , , , .
- AcmeContent - . , -. .
, , , , :
def ex_2_10():
''' ,
'''
ts = load_data('campaign-sample.tsv')['dwell-time']
print('n: ', ts.count())
print(': ', ts.mean())
print(': ', ts.median())
print(' : ', ts.std())
print(' : ', standard_error(ts))
ex_2_10()
n: 300
: 130.22
: 84.0
: 136.13370714388034
: 7.846572839994115
, , — 130 . 90 . , , 2 , , . , 95%- , confidence_interval, :
def ex_2_11():
''' ,
'''
ts = load_data('campaign-sample.tsv')['dwell-time']
print(' :', confidence_interval(0.95, ts))
: [114.84099983154137, 145.59900016845864]
95%- 114.8 145.6 . 90 . , - , . , .
, , , .
, , . , , , ( ) .
, « » (Literary Digest) 1936 . - : 2.4 . . — - . . 57% . , 62% .
. « » , . , , , , . — , . , .
, - . , . « » , , .
campaign_sample.tsv, , 6 2015 . , pandas:
''' '''
d = pd.to_datetime('2015 6 6')
d.weekday() in [5,6]
True
, . , , , — — , .
— :
def ex_2_12():
'''
, '''
df = load_data('dwell-times.tsv')
means = mean_dwell_times_by_date(df)['dwell-time']
means.hist(bins=20)
plt.xlabel(' , .')
plt.ylabel('')
plt.show()
:
. , . , , .
. , , , , . , , .
. , . :
def ex_2_13():
''' ,
'''
df = with_parsed_date( load_data('dwell-times.tsv') )
df.index = df['date']
df = df[df['date'].index.dayofweek > 4] # -
weekend_times = df['dwell-time']
print('n: ', weekend_times.count())
print(': ', weekend_times.mean())
print(': ', weekend_times.median())
print(' : ', weekend_times.std())
print(' : ', standard_error(weekend_times))
n: 5860
: 117.78686006825939
: 81.0
: 120.65234077179436
: 1.5759770362547678
( 6- ) 117.8 . 95%- . , 130 . , , .
( - ), . , . , .
, №3.