《生物統(tǒng)計(jì)學(xué)》PPT課件.ppt
本門課程的學(xué)習(xí)要求,掌握生物統(tǒng)計(jì)學(xué)的基本原理和基本概念; 掌握科學(xué)地收集、整理和分析數(shù)據(jù)資料的基本知識(shí)與技能; 初步掌握設(shè)計(jì)實(shí)驗(yàn)的基本方法,培養(yǎng)從事教學(xué)和科研工作的能力。,通過本課程的學(xué)習(xí),緒論,一、生物統(tǒng)計(jì)學(xué)的概念 二、生物統(tǒng)計(jì)學(xué)的產(chǎn)生和發(fā)展 三、在生物學(xué)科研工作中的作用 四、學(xué)習(xí)生物統(tǒng)計(jì)學(xué)的方法,主要內(nèi)容,無處不在的統(tǒng)計(jì),1980年6月,首屆國際紅樓夢研討會(huì)在美國召開,威斯康星華裔學(xué)者陳炳藻獨(dú)樹一幟,宣讀了題為從詞匯上的統(tǒng)計(jì)論紅樓夢作者的問題的博士論文。他從字、詞出現(xiàn)頻率入手,通過計(jì)算機(jī)進(jìn)行統(tǒng)計(jì)、處理、分析,對(duì)紅樓夢后40回系高鶚?biāo)鬟@一流行看法提出異議,認(rèn)為120回均系曹雪芹所作。 精確到小數(shù)點(diǎn)的愛情-統(tǒng)計(jì)學(xué)博士的求婚信,統(tǒng)計(jì)數(shù)字,大仲馬的作品多曲折感人,而大仲馬又多私生子,所以,取笑譏諷他的人,往往把他的 作品比作他的私生子。 最使他頭痛的是巴黎統(tǒng)計(jì)學(xué)會(huì)的秘書長李昂納,這人是大仲馬的朋友,每次舉統(tǒng)計(jì)數(shù)字的例子,總是說大仲馬的情婦和私生子有多少。 有一年該統(tǒng)計(jì)學(xué)會(huì)開年會(huì),大仲馬估計(jì),李昂納又要大放厥詞,說他的壞話了。于是他請(qǐng)求參加年會(huì),獲得了批準(zhǔn),果然不出大仲馬所料,李昂納又舉他的情婦和私生子的例子。 李昂納報(bào)告完畢,請(qǐng)大仲馬致詞。一向不愿在大庭廣眾之下發(fā)表演講的大仲馬,這次卻破例登臺(tái)說:“所有統(tǒng)計(jì)數(shù)字都是撒謊的,包括有關(guān)本人的數(shù)字在內(nèi)。”聽眾哄堂大笑。,數(shù)學(xué)家的幽默,統(tǒng)計(jì)學(xué)家調(diào)侃數(shù)學(xué)家:你們不是說若且,則嗎!那么想必你若喜歡一個(gè)女孩,那么這個(gè)女孩喜歡的男生你也喜歡吧? 數(shù)學(xué)家反問道:那么你把左手放到一鍋一百度的開水中,右手放到一鍋零度的冰水里想來也沒事吧!因?yàn)樗鼈兤骄贿^是五十度而已!”,由上可知,統(tǒng)計(jì)與數(shù)量有關(guān),同時(shí)它已經(jīng)滲透到社會(huì)經(jīng)濟(jì)活動(dòng)和科學(xué)研究的方方面面,統(tǒng)計(jì)無處不在。,案例,在一個(gè)水庫中養(yǎng)著許多魚,管理人員希望了解魚的大致數(shù)量,這就是一個(gè)實(shí)踐中的統(tǒng)計(jì)學(xué)問題。,由于魚不聽從指揮,會(huì)在各處自由游動(dòng)的,因此,在進(jìn)行統(tǒng)計(jì)時(shí),必須創(chuàng)造性地提出解決方案。,一種解決方法,先從水庫的不同位置一共捕上來1000條魚,在每條魚的尾部作上一個(gè)標(biāo)記,應(yīng)當(dāng)保證標(biāo)記不會(huì)影響魚的自由游動(dòng)。然后,將魚全部放回水庫。幾天后,從水庫中再捕上來1000條魚,檢查其中尾巴上有標(biāo)記的魚的數(shù)量。假定在第二次捕上來的1000條魚中,有20條尾巴上做了標(biāo)記,則可以推斷,水庫中魚的總數(shù)大致為:,1000(201000)5萬條。,統(tǒng)計(jì)(Statistics)的涵義,統(tǒng)計(jì)是人們認(rèn)識(shí)客觀世界總體數(shù)量變動(dòng)關(guān)系和變動(dòng)規(guī)律的活動(dòng)的總稱,是認(rèn)識(shí)客觀世界的有力工具。 統(tǒng)計(jì)的研究對(duì)象的特點(diǎn): (一)數(shù)量性。統(tǒng)計(jì)數(shù)據(jù)是客觀事物量的反映。 (二)總體性。統(tǒng)計(jì)的數(shù)量研究是對(duì)現(xiàn)象總體中各單位普遍存在的事實(shí)進(jìn)行大量觀察和綜合分析。 (三)變異性??傮w各單位的特征表現(xiàn)存在著差異,而且這些差異并不是事先可以預(yù)知的。,概念:生物統(tǒng)計(jì)學(xué)是應(yīng)用概率論和數(shù)理統(tǒng)計(jì)原理來研究生物界數(shù)量變異規(guī)律的一門科學(xué)。,實(shí)質(zhì):生物統(tǒng)計(jì)學(xué)從研究思路上看,它是以樣本來推斷總體的一門學(xué)科。,特點(diǎn):1、概率性:研究手段是概率論以及建立在概率論基礎(chǔ)上的數(shù)理統(tǒng)計(jì)方法,更主要的是其結(jié)論是不確切的。 2、歸納性:生物統(tǒng)計(jì)學(xué)由樣本來推斷總體的研究思路是由特殊到一般的歸納過程。3、實(shí)踐性,生物統(tǒng)計(jì)學(xué)的概念,1894年,發(fā)表了一系列生物統(tǒng)計(jì)學(xué)的論文,奠定生物統(tǒng)計(jì)學(xué)的基礎(chǔ)(英國畢爾生)。 哥爾頓(Galton)在十九世紀(jì)末葉,應(yīng)用統(tǒng)計(jì)方法研究人種特征與遺傳,創(chuàng)立了生物統(tǒng)計(jì)學(xué)。,生物統(tǒng)計(jì)學(xué)的產(chǎn)生和發(fā)展,英國人達(dá)爾文的侄子弗朗西斯哥爾頓直到1883年才發(fā)明出“優(yōu)生學(xué)”這個(gè)詞。一開始,高爾頓的提議沒有博得積極的反應(yīng)。很多人對(duì)他的人工控制生育的思想感到震驚。 人們對(duì)高爾頓的遺傳觀點(diǎn)也非常懷疑。再者,因?yàn)槌錾砻T的孩子通常能比普通人受到更好的教育,所以怎么肯定他們的能力就是天生的呢?,生物統(tǒng)計(jì)學(xué)的產(chǎn)生和發(fā)展,后來,哥爾頓花了很多的精力,提出一種生物學(xué)上的統(tǒng)計(jì)技術(shù),以直接回應(yīng)最初出現(xiàn)的懷疑態(tài)度(Cowan, 1972b)。他更加詳細(xì)地表明,遺傳控制了人口的性質(zhì)。他將統(tǒng)計(jì)學(xué)方法應(yīng)用于變異的研究,這也為生物統(tǒng)計(jì)學(xué)派的研究道路奠定了基礎(chǔ)。,生物統(tǒng)計(jì)學(xué)的產(chǎn)生和發(fā)展,后來,他的學(xué)生卡爾皮爾遜(KPearson)利用生物統(tǒng)計(jì)學(xué)來捍衛(wèi)達(dá)爾文主義??梢哉J(rèn)為,皮爾遜定量技術(shù)的真實(shí)結(jié)構(gòu)反映出他想為優(yōu)生學(xué)政策提供明確科學(xué)證據(jù)的欲望(Mack enzie, 1982)。在皮爾遜的學(xué)生RA費(fèi)舍爾那里也發(fā)現(xiàn)同樣的觀點(diǎn)(Bennett, 1983; No rton, 1983)。,生物統(tǒng)計(jì)學(xué)的產(chǎn)生和發(fā)展,1820年法國人Laplace及同時(shí)代的Gauss發(fā)現(xiàn)正態(tài)分布,卡爾皮爾遜在1906年繼續(xù)主持哥爾頓試驗(yàn)室,他所提出的卡方(2)測驗(yàn)在遺傳學(xué)上研究性狀分離時(shí)被廣泛應(yīng)用。他的學(xué)生WSGosset所提出的值測驗(yàn)法已成為當(dāng)代生物統(tǒng)計(jì)工作的基本工具之一。,生物統(tǒng)計(jì)學(xué)的產(chǎn)生和發(fā)展,我國在二十世紀(jì)三十年代就出版有實(shí)用生物統(tǒng)計(jì)學(xué)(王綬,1937年),并且成為必修課,在許多方面加以應(yīng)用。,生物統(tǒng)計(jì)學(xué)的產(chǎn)生和發(fā)展,生物統(tǒng)計(jì)學(xué)近年來發(fā)展甚速,從中又分支為生物統(tǒng)計(jì)遺傳學(xué)、生態(tài)統(tǒng)計(jì)學(xué)、毒理統(tǒng)計(jì)學(xué)等等。當(dāng)前,由于電子計(jì)算機(jī)的普及,使運(yùn)算技術(shù)出現(xiàn)新的躍進(jìn),原來十分繁瑣的計(jì)算變得十分簡單、迅速,而且更加精確。應(yīng)用統(tǒng)計(jì)方法以及先進(jìn)的試驗(yàn)設(shè)計(jì)來進(jìn)行分析、研究,在生物學(xué)的研究中將越來越顯得重要。,生物統(tǒng)計(jì)學(xué)的產(chǎn)生和發(fā)展,在生物學(xué)科研工作中的作用,生物學(xué)是一門實(shí)驗(yàn)科學(xué)。不管你從事的是生物學(xué)的哪一個(gè)分枝,都不可能完全脫離實(shí)驗(yàn),只進(jìn)行邏輯推理。而實(shí)驗(yàn)所得到的結(jié)果幾乎無例外地都帶有或多或少的不確定性,即實(shí)驗(yàn)誤差。在這種情況下不用統(tǒng)計(jì)學(xué)要想得到正確的結(jié)論是不可能的。,在生物學(xué)科研工作中的作用,可以毫不夸張地說,作為一個(gè)實(shí)驗(yàn)科學(xué)工作者,離開了統(tǒng)計(jì)學(xué)就寸步難行。希望大家通過這門課程的學(xué)習(xí),能夠掌握常用的統(tǒng)計(jì)方法,尤其是它們的條件,適用范圍、優(yōu)缺點(diǎn)等,從而能夠應(yīng)用它們?nèi)ソ鉀Q實(shí)踐中遇到的問題。,生物統(tǒng)計(jì)學(xué)是運(yùn)用數(shù)理統(tǒng)計(jì)的的原理和方法來分析和解釋生物界各種現(xiàn)象和試驗(yàn)調(diào)查資料的一門科學(xué)。隨著生物學(xué)的不斷發(fā)展,生物統(tǒng)計(jì)學(xué)在水產(chǎn)養(yǎng)殖、水生生物、漁業(yè)資源及捕撈等水產(chǎn)學(xué)科領(lǐng)域已有廣泛應(yīng)用。,在生物學(xué)科研工作中的作用,生物統(tǒng)計(jì)學(xué)在設(shè)計(jì)、質(zhì)控、數(shù)據(jù)管理、統(tǒng)計(jì)分析、結(jié)果評(píng)價(jià)等各個(gè)環(huán)節(jié)均發(fā)揮了重要作用。,統(tǒng)計(jì)研究的基本環(huán)節(jié),統(tǒng)計(jì)設(shè)計(jì),收集數(shù)據(jù),整理與分析,資料積累 開發(fā)應(yīng)用,統(tǒng)計(jì)學(xué)理論與相關(guān)實(shí)質(zhì)性學(xué)科理論,描述統(tǒng)計(jì) 推斷統(tǒng)計(jì),統(tǒng)計(jì)調(diào)查、實(shí)驗(yàn),統(tǒng)計(jì)研究的全過程包括以下基本環(huán)節(jié):,(一)統(tǒng)計(jì)設(shè)計(jì) 根據(jù)所要研究問題的性質(zhì),在有關(guān)學(xué)科理論的指導(dǎo)下,制定統(tǒng)計(jì)指標(biāo)、指標(biāo)體系和統(tǒng)計(jì)分類,給出統(tǒng)一的定義、標(biāo)準(zhǔn)。同時(shí)提出收集、整理和分析數(shù)據(jù)的方案和工作進(jìn)度等。搞好統(tǒng)計(jì)設(shè)計(jì)不僅要有統(tǒng)計(jì)學(xué)的一般理論和方法為指導(dǎo),而且還要求設(shè)計(jì)者對(duì)所要研究的問題本身具有深刻的認(rèn)識(shí)和相關(guān)的學(xué)科知識(shí)。 (二)收集數(shù)據(jù) 統(tǒng)計(jì)數(shù)據(jù)的收集有兩種基本方法。對(duì)于大多數(shù)自然科學(xué)和工程技術(shù)研究來說,有可能通過有控制的科學(xué)實(shí)驗(yàn)去取得數(shù)據(jù),這時(shí)可以采用實(shí)驗(yàn)法。對(duì)于社會(huì)經(jīng)濟(jì)現(xiàn)象來說,一般無法進(jìn)行重復(fù)實(shí)驗(yàn),要取得有關(guān)數(shù)據(jù)就必須進(jìn)行調(diào)查觀察。,(三)整理與分析 描述統(tǒng)計(jì)是指對(duì)采集的數(shù)據(jù)進(jìn)行登記、審核、整理、歸類,在此基礎(chǔ)上進(jìn)一步計(jì)算出各種能反映總體數(shù)量特征的綜合指標(biāo),并用圖表的形式表示經(jīng)過歸納分析而得到的各種有用的統(tǒng)計(jì)信息。 推斷統(tǒng)計(jì)是在對(duì)樣本數(shù)據(jù)進(jìn)行描述的基礎(chǔ)上,利用一定的方法根據(jù)樣本數(shù)據(jù)去估計(jì)或檢驗(yàn)總體的數(shù)量特征。推斷統(tǒng)計(jì)是現(xiàn)代統(tǒng)計(jì)學(xué)的主要內(nèi)容。 (四)統(tǒng)計(jì)資料的積累、開發(fā)與應(yīng)用 對(duì)于已經(jīng)公布的統(tǒng)計(jì)資料需要加以積累,同時(shí)還可以進(jìn)行進(jìn)一步的加工,結(jié)合相關(guān)的實(shí)質(zhì)性學(xué)科的理論知識(shí)去進(jìn)行分析和利用。如何更好地將統(tǒng)計(jì)數(shù)據(jù)和統(tǒng)計(jì)方法應(yīng)用于各自的研究領(lǐng)域是應(yīng)用統(tǒng)計(jì)學(xué)研究的一個(gè)重要方面。,理解 統(tǒng)計(jì)思想,掌握 統(tǒng)計(jì)術(shù)語,熟悉 統(tǒng)計(jì)符號(hào),記住 統(tǒng)計(jì)公式,使用 統(tǒng)計(jì)工具,學(xué)習(xí)生物統(tǒng)計(jì)學(xué)的方法,常用統(tǒng)計(jì)工具,計(jì)算器,統(tǒng)計(jì)數(shù)表,如二項(xiàng)分布表、泊松分布表、 標(biāo)準(zhǔn)正態(tài)分布表、 t分布表等,能完成函數(shù)功能(對(duì)數(shù)計(jì)算、乘高次方、開高次方等)和統(tǒng)計(jì)功能(計(jì)算平均數(shù)、標(biāo)準(zhǔn)差、變量值平方和等),統(tǒng)計(jì)軟件,如Excel、 SPSS、 SAS、TSP( 時(shí)間序列數(shù)據(jù)軟件 )等,第一章 統(tǒng)計(jì)資料的收集與整理,1.1 總體與樣本 1.2 數(shù)據(jù)類型及頻數(shù)(率)分布 1.3 樣本的幾個(gè)特征數(shù),總體(集合)和個(gè)體(構(gòu)成集合的元素),根據(jù)研究目的確定的、符合指定條件的全部觀察對(duì)象稱為總體。一般用希臘字母表示總體數(shù)值,如,等。 注意:,(2)總體具有同質(zhì)性:每個(gè)個(gè)體具有共同的觀察特征,而與其它總體相區(qū)別;,(1)按組成總體個(gè)體的多寡分為:有限總體和無限總體;,注意,統(tǒng)計(jì)總體的種類,指所包含的單位數(shù)目有限的總體,指所包含的單位數(shù)目無限的總體,樣本和樣本容量,總體中抽出若干個(gè)個(gè)體組成的集體稱為樣本。一般用拉丁字母表示樣本數(shù)值,如、等。 樣本中包含的個(gè)體的個(gè)數(shù)稱為樣本的容量,又稱為樣本的大小。通常用表示。一般以樣本含量少于30者為小樣本,大于30者為大樣本。 注意:抽樣是按隨機(jī)原則選取的,即總體中每個(gè)個(gè)體有同樣的機(jī)會(huì)被選入樣本。,樣本與總體之間的關(guān)系,樣本是總體的一部分,是對(duì)總體隨機(jī)抽樣后得到的集合。 對(duì)觀察者而言,總體是不了解的,了解的只是樣本的具體情況。我們所要做的就是通過對(duì)這些具體樣本的情況的研究,來推知整個(gè)總體的情況。,Xn+1,Xn,X1,Xn+1,Xn,X1,樣本,總體,總體單位,調(diào)查單位,統(tǒng)計(jì)調(diào)查的組織方式,總體單位,調(diào)查單位,普 查,統(tǒng)計(jì)調(diào)查的組織方式,對(duì)全部單位進(jìn)行調(diào)查,總體單位,調(diào)查單位,重點(diǎn)調(diào)查,只調(diào)查重點(diǎn)單位(單位數(shù)不多但其標(biāo)志量占標(biāo)志總量比重較大的單位),統(tǒng)計(jì)調(diào)查的組織方式,總體單位,調(diào)查單位,抽樣調(diào)查,按隨機(jī)原則選擇調(diào)查單位,各單位被選中的機(jī)會(huì)相同。,統(tǒng)計(jì)調(diào)查的組織方式,總體單位,調(diào)查單位,典型調(diào)查,對(duì)典型單位進(jìn)行調(diào)查,典型單位的選擇并不一定按規(guī)模,統(tǒng)計(jì)調(diào)查的組織方式,按照 隨機(jī)原則 從調(diào)查對(duì)象中抽取一部分樣本單位進(jìn)行調(diào)查,再用樣本資料推斷把握總體的數(shù)量特征的一種非全面調(diào)查組織方式,抽樣,指樣本單位的抽取不受主觀因素及其他系統(tǒng)性因素的影響,每個(gè)總體單位都有均等的被抽中機(jī)會(huì),特 點(diǎn),優(yōu) 點(diǎn),1.2 數(shù)據(jù)類型及頻數(shù)(率)分布,一、資料類型 二、資料搜集與整理 三、頻數(shù)(率)分布常用統(tǒng)計(jì)圖(表),資料的分類,正確地進(jìn)行資料的分類是資料整理、分析的前提。通過試驗(yàn)或調(diào)查所獲得的資料一般可以分為三大類:,一、數(shù)量性狀資料 (data of quantitative characteristics) 二、質(zhì)量性狀資料 (data of qualitative characteristics) 三、半定量(等級(jí))資料 (semi-quantitative or ranked data),資料的分類,一、數(shù)量性狀資料,(一)概念 數(shù)量性狀是指能夠以測量、稱量或計(jì)數(shù)的方法表示其特征的性狀。 觀察測定數(shù)量性狀而獲得的數(shù)據(jù)就是數(shù)量性狀資料。,(二)分類 數(shù)量性狀資料的記載有量測和計(jì)數(shù)兩種方式,因而數(shù)量性狀又分為計(jì)量資料和計(jì)數(shù)資料兩種。,一、數(shù)量性狀資料,(二)分類 1.計(jì)量資料:指用量測手段得到的數(shù)量資料。 這種資料的各個(gè)觀察值不一定是整數(shù),兩個(gè)相鄰的整數(shù)間可以有帶小數(shù)的任何數(shù)值出現(xiàn),其小數(shù)值的多少由度量工具的精度而定,它們之間的變異是連續(xù)性的。因此亦稱為連續(xù)性變異資料。 例如身高、產(chǎn)奶量、綿羊剪毛量、血液的生理生化指標(biāo)等屬于連續(xù)性數(shù)量性狀資料。,一、數(shù)量性狀資料,連續(xù)型資料,在一個(gè)區(qū)間內(nèi)可以連續(xù)不斷取值的資料,人的身高、牲畜產(chǎn)奶量、綿羊剪毛量、血液的生理生化指標(biāo)等,需要使用度量工具取值,身高的例子:,(二)分類 2計(jì)數(shù)資料:指用計(jì)數(shù)方式得到的數(shù)量資料。 它的各個(gè)觀察值只能以整數(shù)表示,兩個(gè)相鄰整數(shù)不得有任何帶小數(shù)的數(shù)值出現(xiàn)。因此,該類資料也稱不連續(xù)性變異資料或間斷(離散)性變異資料。 如豬的產(chǎn)仔數(shù)、雞的產(chǎn)蛋數(shù)、魚的尾數(shù)、寄生蟲蟲卵數(shù)等。,一、數(shù)量性狀資料,離散型資料,其一切可能取值都以整數(shù)形式出現(xiàn),并可以一一列舉的資料,特定范圍的人口數(shù)、林木株數(shù)、畜禽數(shù)量等等,取值不需要用工具度量,用計(jì)數(shù)的方式即可,二、質(zhì)量性狀資料,(一)概念和特點(diǎn) 質(zhì)量性狀是指只能觀察而不能測量的性狀。 這類性狀本身不能直接用數(shù)值表示,要獲得這類性狀的數(shù)據(jù)資料,須對(duì)其觀察結(jié)果作數(shù)量化處理。,(二)質(zhì)量性狀數(shù)量化的方法 1、統(tǒng)計(jì)次數(shù)法 質(zhì)量性狀數(shù)量化常采用統(tǒng)計(jì)次數(shù)法,所謂統(tǒng)計(jì)次數(shù)法是指在一定的總體或樣本中,根據(jù)某一質(zhì)量性狀的類別統(tǒng)計(jì)其個(gè)體數(shù)。這種由質(zhì)量性狀數(shù)量化得來的資料又叫次數(shù)資料。,二、質(zhì)量性狀資料,(二)質(zhì)量性狀數(shù)量化的方法 . 評(píng)分法:對(duì)某一質(zhì)量性狀,因其類別不同分別給予評(píng)分以便統(tǒng)計(jì)分析。例如研究綿羊的油汗色澤遺傳時(shí),可將種油汗色澤分別給予不同的分?jǐn)?shù):深黃分、黃色分、淺黃分、乳白分、白色分。,二、質(zhì)量性狀資料,三、半定量(等級(jí))資料,(一)概念 半定量或等級(jí)資料是指將觀察單位按所考察的性狀或指標(biāo)的等級(jí)順序分組(三組以上),然后清點(diǎn)各組觀察單位的次數(shù)而得的資料。,(二)特點(diǎn) 這類資料既有次數(shù)資料的特點(diǎn),又有程度或量的不同。 如糞便潛血試驗(yàn)的陽性反應(yīng)是在涂有糞便的棉簽上加試劑后觀察顏色出現(xiàn)的快慢及深淺程度分為六個(gè)等級(jí);又如用某種藥物治療畜禽的某種疾病,療效分為“無效”、“好轉(zhuǎn)”、“顯效”和“控制”四個(gè)級(jí)別;然后統(tǒng)計(jì)各級(jí)別的供試畜禽數(shù)。半定量資料在獸醫(yī)研究中是常見的。,三、半定量(等級(jí))資料,資料搜集與整理,統(tǒng)計(jì)工作一般分為三個(gè)步驟:收集資料、整理資料和分析資料。 搜集資料(數(shù)據(jù))是進(jìn)行統(tǒng)計(jì)工作的第一步也是最重要的一步。如果搜集數(shù)據(jù)的計(jì)劃不周密,原始記錄不正確,往往會(huì)造成整理、分析的困難,甚至得出錯(cuò)誤的結(jié)論,而這些缺點(diǎn)難以在以后的兩個(gè)步驟中補(bǔ)救的。,在搜集資料時(shí),應(yīng)注意如下幾點(diǎn):,. 要有目的性 . 要有代表性 . 樣本含量要恰當(dāng),資料整理的內(nèi)容,在調(diào)查或試驗(yàn)中所得到的大量數(shù)據(jù)是分散的數(shù)據(jù)。要了解事物總的特征和發(fā)展情況,必須對(duì)這些數(shù)據(jù)進(jìn)行科學(xué)的分組歸納,使數(shù)據(jù)系統(tǒng)化,便于進(jìn)一步統(tǒng)計(jì)分析以及反映被研究事物的規(guī)律性,這個(gè)過程稱為數(shù)據(jù)的整理。,通常我們用X表示變量,原始資料的檢查與核對(duì) 資料的整理 依次表(小樣本) 計(jì)數(shù)資料的整理與分組 (采用樣本數(shù)據(jù)的自然值進(jìn)行分組 ) 計(jì)量資料的整理與分組 (組距式分組法 ) 質(zhì)量性狀資料、半定量(等級(jí))資料的整理,資料整理的內(nèi)容,獲得的資料在未整理之前,稱為原始資料。對(duì)原始資料可從以下兩個(gè)方面進(jìn)行檢查: 1資料的完整性 原始記錄有無遺漏或重復(fù) 2資料的正確性 原始數(shù)據(jù)是否正確、合理,有無矛盾,特別注意特大或特小數(shù)據(jù)及異常數(shù)據(jù)。,一、資料的檢查與核對(duì),二、資料的整理,(一)計(jì)數(shù)資料的整理 (二)計(jì)量資料的整理 (三)質(zhì)量性狀資料、半定量(等級(jí))資料)的整理,對(duì)原始資料進(jìn)行檢查核對(duì)后,根據(jù)資料中觀察值的多少確定是否分組。 1.當(dāng)觀察值不多,變異范圍不大時(shí),不必分組,直接進(jìn)行統(tǒng)計(jì)分析。(依次表) 2.當(dāng)觀察值較多,變異范圍較大時(shí),須將觀察值分成若干組,以便統(tǒng)計(jì)分析。 將觀察值分組歸類制成次數(shù)分布表(“唱票式”) 看出資料的集中和變異情況。,(一)計(jì)數(shù)資料的整理,依次表、分組,當(dāng)數(shù)據(jù)不多時(shí)可不必分組,這時(shí)可將變數(shù)按數(shù)值大小依次排列起來,形成一個(gè)由小到大的數(shù)字表,稱為“依次表” 。 當(dāng)數(shù)據(jù)較多時(shí),如30個(gè)變數(shù)以上的大樣本,制成“依次表”則較麻煩,這時(shí)需要將數(shù)據(jù)分成若干組,以便統(tǒng)計(jì)分析。,表1-1 10只大白鼠的繁殖力 單位:只,例如,表1-1為10只大白鼠繁殖力的記錄,在未加整理以前只是一堆數(shù)字,看不出資料的任何意義。,依次表,如將表1-1整理成依次表(表1-2),可以看出10只大白鼠中繁殖力變異的情況,即產(chǎn)仔數(shù)最高為8只,最低為3只,變異范圍為3-8只。,依次表,大白鼠編號(hào),產(chǎn) 仔 數(shù),8 3 5 10 1 4 7 2 9 6,3 4 5 5 6 6 6 7 7 8,表1-2 10只大白鼠的繁殖力依次表 單位:只,表1-3 50只小雞的出殼天數(shù),從上表可以看出,小雞出殼天數(shù)在19-24之間變動(dòng),用觀察值各個(gè)不同值進(jìn)行分組。,表1-4 50只小雞出殼天數(shù)的次數(shù)分布表,(二)計(jì)量資料的整理 -組距式分組法,求全距 全距是數(shù)據(jù)內(nèi)變量最大值與最小值之差,它是整個(gè)樣本的變異幅度。 確定組數(shù) 組數(shù)的決定可用經(jīng)驗(yàn)分組法,它與樣本的個(gè)體數(shù)有關(guān)。 確定組距 每一組內(nèi)變量的范圍跨度稱為組距。組距=全距/組數(shù) 確定組中值及組限 數(shù)據(jù)歸組(以唱票的方式),表1-5 按樣本含量決定組數(shù),返回,組距式分組將要使用的相關(guān)概念,總的變異范圍。簡稱全距(或極差),用R 來表示。,變異全距,變異全距的計(jì)算公式:,相關(guān)概念,“以上”組距數(shù)列的上限值“以下”組距數(shù)列的下限值。,假定上限假定下限,開口式組距數(shù)列組中值的計(jì)算:,首組假定下限首組上限相鄰組組距 末組假定上限末組下限相鄰組組距,先計(jì)算開口組的假定上、下限:,因此有:,以某純系蛋雞200枚蛋重資料為例說明其整理的基本步驟和方法: 1、求全距R。 資料中,最大值為62.1g,最小值為45.3g, 則全距為62.1-45.3=16.8g 2、確定組數(shù)K。組數(shù)要適當(dāng),一般以達(dá)到既簡化資料又不影響反映資料的規(guī)律性為原則。具體可參照表1-5.本例n=200,初步確定組數(shù)為11組。,某純系蛋雞200枚蛋重 單位:g,3、確定組距i。每組最大值與最小值之差稱為組距,記為i。 本例 4、確定組限及組中值。各組的最大值與最小值稱為組限,最小值為下限,最大值為上限。組中值是該組的代表值。 第一組的組中值以接近或等于資料中的最小值為好。本例第一組的組中值取45.0(最小值45.3),則第一組的下限,第一組上限為:44.25+1.5=45.75 (第二組下限) 第二組上限為:45.75+1.5=47.25 (第三組下限) 依次類推,第三組47.25; 第四組48.75;依次分組下去,直到資料中的最大值歸入最后一組為止。 但為了避免個(gè)別數(shù)據(jù)歸組的兩面性(假如資料中有一枚重為47.25g,是將其歸入第二組,還是歸入第三組呢?),通常將每組的上限略去不寫。如第一組44.25,第二組45.75,第三組47.25 ,。 5、歸組劃線計(jì)數(shù),作次數(shù)分布表(“唱票式”)和次數(shù)分布圖。,表1-6 某純系蛋雞200枚蛋重的次數(shù)分布表,孟德爾在研究分離規(guī)律時(shí)用純種圓滑和純種皺縮的豌豆的雜交子一代進(jìn)行自交試驗(yàn),他記錄了10個(gè)植株所結(jié)種子的形態(tài),在原始記錄中,種子有兩種類型:圓滑、皺縮。 將原始記錄(443粒)按種子類型進(jìn)行分組,(三)質(zhì)量性狀資料、半定量 (等級(jí))資料的整理,表1-7 10株子一代自交后分離情況,表1-8 10株子一代自交后分離情況,表1-9 10株子一代自交后分離情況,(三)質(zhì)量性狀資料、半定量 (等級(jí))資料的整理,可按性狀或等級(jí)進(jìn)行分組,分別統(tǒng)計(jì)各組的次數(shù),然后制成次數(shù)分布表。 表1-10 子二代豬毛色分離情況,累計(jì)次數(shù)(頻率),從變量值低的組開始,將各組次數(shù)(頻率)逐次向變量值高的組累計(jì),說明某一組上限以下各組的累計(jì)次數(shù)(頻率)。,從變量值高的組開始,將各組次數(shù)(頻率)逐次向變量值低的組累計(jì),說明某一組下限以上各組的累計(jì)次數(shù)(頻率)。,某地區(qū)50個(gè)百貨商店月銷售額情況,某地區(qū)50個(gè)百貨商店月銷售額情況,某地區(qū)50個(gè)百貨商店月銷售額情況,常用統(tǒng)計(jì)表與統(tǒng)計(jì)圖,統(tǒng)計(jì)表是用表格形式來表示數(shù)量關(guān)系,使數(shù)據(jù)條理化、系統(tǒng)化,便于理解、分析和比較。 統(tǒng)計(jì)圖是用幾何圖形來表示數(shù)量關(guān)系,不同形狀的幾何圖形,可以將研究對(duì)象的特征、內(nèi)部構(gòu)成、相互關(guān)系等形象直觀地表達(dá)出來,便于分析比較。,統(tǒng)計(jì)表,(一)統(tǒng)計(jì)表的結(jié)構(gòu)和要求 統(tǒng)計(jì)表由標(biāo)題、橫標(biāo)目、縱標(biāo)目、線條、數(shù)字及合計(jì)構(gòu)成。 (二)統(tǒng)計(jì)表的種類 1. 簡單表 由一組橫標(biāo)目和一組縱標(biāo)目組成,縱橫標(biāo)目都未分組。 2. 復(fù)合表 由兩組或兩組以上的橫標(biāo)目與縱標(biāo)目結(jié)合而成, 或一組橫標(biāo)目與兩組或兩組以上的縱標(biāo)目結(jié)合而成,或兩組或組以上的橫、縱標(biāo)目結(jié)合而成。,表1-11 北京某點(diǎn)取暖期SO2濃度次數(shù)分布表,標(biāo)題,橫標(biāo)目,縱標(biāo)目,數(shù)字,合計(jì),Example,表1-4 50只小雞出殼天數(shù)的次數(shù)分布表,Example,標(biāo)題,縱標(biāo)目,數(shù)字,合計(jì),出殼天數(shù) 劃線計(jì)數(shù) 次數(shù),19 20 21 22 23 24,表1-4 50只小雞出殼天數(shù)的次數(shù)分布表,合計(jì),橫標(biāo)目,一個(gè)圖只用來顯示一種現(xiàn)象的數(shù)量特征,統(tǒng)計(jì)圖,(一)統(tǒng)計(jì)圖繪制的基本要求 (二)常用統(tǒng)計(jì)圖及其繪制方法 1.條形圖 2.直方圖 3.圓形圖 4.線圖(折線圖) 5.散點(diǎn)圖 (特別是隨著計(jì)算機(jī)技術(shù)的發(fā)展,統(tǒng)計(jì)圖的種類越來越豐富),幾種常用的統(tǒng)計(jì)圖,幾種常用的統(tǒng)計(jì)圖,一、平均數(shù)(主要介紹算術(shù)平均數(shù)Arithmetic Mean) 二、標(biāo)準(zhǔn)差(Standard Deviation) 三、變異系數(shù) (Coefficient of Variability),1.3 樣本的幾個(gè)特征數(shù),次數(shù)分布表和次數(shù)分布圖,可以形象、直觀地表示出資料的兩個(gè)特征集中性和離散性。為了更簡單、精確地描述資料的特征,本節(jié)介紹三個(gè)統(tǒng)計(jì)量:平均數(shù)、標(biāo)準(zhǔn)差和變異系數(shù)。 平均數(shù)反應(yīng)資料的集中性,標(biāo)準(zhǔn)差和變異系數(shù)反應(yīng)資料的離散性。,平均數(shù)(Mean),平均數(shù)的意義: 平均數(shù)用來描述資料的集中性,即指出資料中數(shù)據(jù)集中較多的中心位置。,平均數(shù)的作用: 平均數(shù)是資料的代表數(shù); 常用于同類性質(zhì)資料間的相互比較。 平均數(shù)的種類:其中應(yīng)用最為普遍的是算術(shù)平均數(shù),此外還有幾何平均數(shù)、中數(shù)、眾數(shù)和調(diào)和平均數(shù) 。,平均數(shù)(Mean),算術(shù)平均數(shù) (Arithmetic Mean),(一)算術(shù)平均數(shù)的定義 資料中各觀察值的總和除以觀察值的個(gè)數(shù)所得的商,稱為算術(shù)平均數(shù)。在統(tǒng)計(jì)學(xué)中,簡稱為平均數(shù)或均數(shù)。用符號(hào) 表示。,算術(shù)平均數(shù) (Arithmetic Mean),(二)計(jì)算方法 1、直接法 對(duì)樣本含量較小,未分組的資料適用。,其中,(Sigma)為總和符號(hào), 表示從第一個(gè)觀察值 x1 累加到第n個(gè)觀察值 xn ,若在意義上已明確時(shí),簡記為 。,算術(shù)平均數(shù) (Arithmetic Mean),關(guān)于總和符號(hào)的幾個(gè)性質(zhì),常數(shù)的總和等于該常數(shù)的n倍,即 代數(shù)和的總和等于總和的代數(shù)和,即 總和符號(hào)內(nèi)的常數(shù)因子可以提取到總和符號(hào)之外,即,其中C為常數(shù);注意:在后面一些章節(jié)經(jīng)常會(huì)遇到C代表一個(gè)為常量的式子,(a為常數(shù)),2、加權(quán)法,適用于已分組的資料,各組的次數(shù) fi 是權(quán)衡各組中值 xi 在資料中所占比重大小的數(shù)量,因此f被稱為是x的“權(quán)”(right),加權(quán)法也由此而得名。,xi 各組組中值; fi 各組次數(shù); k 分組數(shù)。,(三)平均數(shù)的基本性質(zhì),1、樣本各個(gè)觀察值與平均數(shù)之差的和為零,即離均差之和為零; 2、樣本各觀察值與平均數(shù)之差的平方和為最小,即離均差的平方和最小。,3、統(tǒng)計(jì)學(xué)已證明,樣本平均數(shù) 是總體平均數(shù) 的無偏估計(jì)值。 對(duì)總體而言,用 表示平均數(shù)。 無偏估計(jì):當(dāng)一個(gè)統(tǒng)計(jì)量的數(shù)學(xué)期望值等于等于相應(yīng)總體參數(shù)時(shí),稱該統(tǒng)計(jì)量為其總體參數(shù)的無偏估計(jì)。,(三)平均數(shù)的基本性質(zhì),幾何平均數(shù) (Geometric Mean),(一)定義 指n個(gè)觀察值乘積的n次方根。即,幾何平均數(shù) (Geometric Mean),(二)適用條件 主要應(yīng)用于數(shù)據(jù)呈倍數(shù)關(guān)系或不對(duì)稱分布的資料,算術(shù)平均數(shù)對(duì)這類資料的代表性差。如抗體效價(jià)(1:10,1:100,1:1000,1:10000)、增長率或生長率、動(dòng)態(tài)發(fā)展速度等。,1、應(yīng)用公式計(jì)算(實(shí)際應(yīng)用時(shí)常取對(duì)數(shù)),例如,海蝦養(yǎng)殖試驗(yàn),各旬的生長速度3.0,1.5 1.3,1.2,1.2,1.1,1.1,求海蝦的旬平均生長速度。 ,即海蝦旬平均生長速度為1.38。,幾何平均數(shù) (Geometric Mean),2、當(dāng)資料編成次數(shù)分布表時(shí),,各組組中值; 各組次數(shù);,幾何平均數(shù) (Geometric Mean),xi,fi,標(biāo)準(zhǔn)差(Standard Deviation),平均數(shù)是資料的代表數(shù),其代表性強(qiáng)弱受資料中各觀察值變異程度的影響。僅利用平均數(shù)對(duì)一個(gè)資料的統(tǒng)計(jì)特征作全面描述是不夠的,還應(yīng)引入一個(gè)能說明資料各觀察值變異程度大小的統(tǒng)計(jì)量。,用來表示資料變異程度的指標(biāo)較多,常用的有極差、標(biāo)準(zhǔn)差、變異系數(shù)、方差等,其中以方差與標(biāo)準(zhǔn)差應(yīng)用最為廣泛。,標(biāo)準(zhǔn)差(Standard Deviation),一、標(biāo)準(zhǔn)差的引入 全距(極差):只利用了資料中最大值和最小值,不能準(zhǔn)確表達(dá)資料中各個(gè)觀察值的變異程度。,標(biāo)準(zhǔn)差(Standard Deviation),一、標(biāo)準(zhǔn)差的引入 離均差 可表達(dá)觀察值偏離平均數(shù)的程度和性質(zhì),但由于離均差之和為零,因此它不能表示整個(gè)資料中所有觀察值的總偏離程度。 若用 ,使用起來又不方便,在統(tǒng)計(jì)學(xué)中未被采用。,標(biāo)準(zhǔn)差(Standard Deviation),為消除離均差的負(fù)號(hào),先將各離均差平方 ;再求離均差的平方之和(簡稱平方和,記為 SS) ,為消除樣本含量的影響以離均差的平方和除以自由度n-1。 則統(tǒng)計(jì)量 稱為均方(縮寫為MS),又稱為樣本方差,記為S2 ,即:,標(biāo)準(zhǔn)差(Standard Deviation),它不能表示整個(gè)資料中所有觀察值的總偏離程度,使用不方便,在統(tǒng)計(jì)學(xué)中未被采用,消除離均差的負(fù)號(hào),離均差的平方之和(簡稱平方和,記為SS),稱為均方(縮寫為MS),又稱為樣本方差,記為S2,標(biāo)準(zhǔn)差,相應(yīng)總體參數(shù)叫總體方差,記為2 由于樣本方差帶有原度量單位的平方單位,為將單位還原,即求樣本方差的平方根。在統(tǒng)計(jì)學(xué)上,樣本方差S2的平方根叫做標(biāo)準(zhǔn)差,記為S。 相應(yīng)總體參數(shù)叫總體標(biāo)準(zhǔn)差(),對(duì)于有限總體,,(一)直接法,(二)加權(quán)法,標(biāo)準(zhǔn)差(Standard Deviation),二、標(biāo)準(zhǔn)差的計(jì)算,變異系數(shù) (Coefficient of Variation),一、變異系數(shù)的引入 變異系數(shù)是標(biāo)準(zhǔn)差相對(duì)于平均數(shù)的百分?jǐn)?shù),記為CV。 變異系數(shù)同標(biāo)準(zhǔn)差一樣是衡量資料變異程度的統(tǒng)計(jì)量。變異系數(shù)消除了不同單位和平均數(shù)的影響,可以用來比較不同資料的相對(duì)變異程度。,變異系數(shù) (Coefficient of Variation),二、計(jì)算公式,三、特點(diǎn)和作用 (一)變異系數(shù)是一個(gè)無單位的相對(duì)數(shù),用表示; (二)變異系數(shù)同時(shí)受到平均數(shù)和標(biāo)準(zhǔn)差的影響,因此,在利用變異系數(shù)來表示資料的變異程度時(shí),最好將平均數(shù)和標(biāo)準(zhǔn)差也列出。,變異系數(shù) (Coefficient of Variation),三、特點(diǎn)和作用 (三)變異系數(shù)不受單位不同或平均數(shù)不同的影響,對(duì)于單位不同和平均數(shù)不同的資料,都可以用變異系數(shù)來比較其變異程度。,變異系數(shù) (Coefficient of Variation),三匹馬的體重:200 Kg、201 Kg、202 Kg 三只螞蟻的體重:500 mg、1000 mg、1500 mg,案例,S1=0.816 Kg S2=0.40825 g,變異系數(shù) (Coefficient of Variation), S1 S2 馬的體重的離散程度(變異程度)大于螞蟻的體重變異?,不能。其實(shí)三匹馬的體重相差不大;而螞蟻之間體重是有很大差別的。原因在于基數(shù)不同,這時(shí)不能直接用S比較。,變異系數(shù) (Coefficient of Variation),上例:,=0.816/201=0.0041,=408.25/1000=0.40825,CV1CV2 螞蟻的體重變異程度大于馬的體重的變異程度,變異系數(shù) (Coefficient of Variation),作業(yè)17/9,p18 1.2 1.12,計(jì)數(shù)資料的整理與分組基本是采用樣本變數(shù)的自然值進(jìn)行分組,每組均用一個(gè)變數(shù)值來表示。分組時(shí)可將資料中每個(gè)變數(shù)分別歸入相應(yīng)的組內(nèi),然后制成次數(shù)分布表。 例如,40只大白鼠的產(chǎn)仔數(shù)如下表所示,計(jì)數(shù)資料的整理與分組,分組,計(jì)數(shù)資料的整理與分組,分組,表1-12 40只大白鼠的產(chǎn)仔數(shù) 單位:只,產(chǎn) 仔 數(shù),3 4 5 6 7 8,表1-13 40只大白鼠繁殖力的次數(shù)分布表 單位:只,大白鼠數(shù),5 3 9 11 9 3,合計(jì),40,計(jì)量資料的整理與分組,計(jì)量資料的整理與分組是采用組距式分組法。在分組前先確定全距、組數(shù)、組距、組中值、組限等,然后將各變數(shù)的值分別歸入相應(yīng)的組內(nèi)。,分組,表1-14 100株橡膠樹膠乳產(chǎn)量表 (單位:毫升/株次),26,133,2、確定組數(shù),編制步驟:,【解】,1、求全距,取K= 10組,樣本個(gè)體數(shù)是100,查表1-5,可分為10組,本例中,k=10,則有,3、確定組距I:,確定組中值及組限,I=R/K=107/10=10.7,為分組方便起見,可以11作為組距,第一組的下限不能大于資料的最小值,而末一組的上限不能小于資料的最大值,編制次數(shù)表,數(shù)據(jù)歸組,編制次數(shù)表,數(shù)據(jù)歸組,編制次數(shù)表,數(shù)據(jù)歸組,表1-15 100株橡膠樹膠乳產(chǎn)量次數(shù)分布表 (單位:毫升/株次),第一節(jié) 概率的基本概念,一、隨機(jī)現(xiàn)象與隨機(jī)事件 二、概率的統(tǒng)計(jì)定義 三、概率的古典定義 四、概率的一般運(yùn)算,第二章 概率和概率分布,一、隨機(jī)現(xiàn)象與隨機(jī)事件,隨機(jī)現(xiàn)象與必然現(xiàn)象 事件 事件間的關(guān)系 事件的運(yùn)算,隨機(jī)事件,在客觀世界中,不斷地出現(xiàn)和發(fā)生一些事物和現(xiàn)象。這些事物和現(xiàn)象可以統(tǒng)稱為事件。時(shí)間的發(fā)生有一定的條件。 經(jīng)分析,就因果關(guān)系來看,有一類事件是在一定的條件下必然發(fā)生的(如水到0會(huì)結(jié)冰,一年會(huì)有四個(gè)季節(jié))。這種在一定的條件下必然發(fā)生的事件稱為必然事件。 另有一類事件在一定的條件下是必然不發(fā)生的(如石頭不能孵化成小雞,太陽不會(huì)從西邊出來)。這種在一定的條件下必然不發(fā)生的事件稱為不可能事件。,隨機(jī)事件,必然事件或不可能事件雖然不同,但又具有共性,即在因果關(guān)系上都具有確定性。 除了必然事件和不可能事件以外,在客觀世界中還有另外一類事件,這類事件發(fā)生的條件和事件的發(fā)生與否之間沒有確定的因果關(guān)系。這種發(fā)生的條件和發(fā)生與否之間沒有確定的因果關(guān)系的事件稱為隨機(jī)事件。,隨機(jī)事件,在長期的實(shí)踐中人們發(fā)現(xiàn),雖然對(duì)隨機(jī)事件作一兩次或少數(shù)幾次觀察,隨機(jī)事件的發(fā)生與否沒有什么規(guī)律,但如果進(jìn)行大量的觀察或試驗(yàn),又可以發(fā)現(xiàn)隨機(jī)事件具有一定的規(guī)律性。,隨機(jī)事件,比如一枚硬幣,投擲一次或幾次的時(shí)候看不出什么規(guī)律,但是在同樣的條件下反復(fù)多次進(jìn)行試驗(yàn),把硬幣投擲成千上萬次,就會(huì)發(fā)現(xiàn)硬幣落地時(shí)正面朝上和反面朝上的次數(shù)大致是相等的。,隨機(jī)現(xiàn)象與必然現(xiàn)象,所謂隨機(jī)現(xiàn)象,就是在基本條件不變的情況下,各次實(shí)驗(yàn)或觀察會(huì)得到不同的結(jié)果的現(xiàn)象,而且這一結(jié)果是不能準(zhǔn)確預(yù)料的。 例:血球計(jì)數(shù),昆蟲密度調(diào)查,某一時(shí)刻車間中開動(dòng)的車床數(shù),優(yōu)秀選手射擊彈著分布,抽樣時(shí)某一樣品合格與否等等。,隨機(jī)現(xiàn)象與必然現(xiàn)象,必然現(xiàn)象則是指在一定條件下必然會(huì)發(fā)生的現(xiàn)象。 例:早晨太陽從東方升起,水向低處流,萬有引力,標(biāo)準(zhǔn)大氣壓,純水100沸騰等等。,事件,隨機(jī)事件 樣本空間(定義:在一組固定的條件下所進(jìn)行的試驗(yàn)或觀察, 其可能出現(xiàn)的結(jié)果稱為樣本點(diǎn),一般用表示。全體樣本點(diǎn)的所構(gòu)成的集合稱為樣本空間,一般用表示。 ) 基本事件 必然事件 不可能事件,例:有10只小白鼠,其中雌雄各半?,F(xiàn)從中抽取兩只(放回式抽樣):則有,事件,是雄性的情況:,0只,1只,2只,基本事件,基本事件,基本事件,事件,至少1只雄性的情況:,1只,2只,基本事件,基本事件,事件,例:有10只小白鼠,其中雌雄各半?,F(xiàn)從中抽取兩只(放回式抽樣):則有,事件,包括02只雄性的情況:,必然事件,包括3只雄性的情況:,不可能事件,事件間關(guān)系,設(shè)A、B均為事件,則它們可能有以下關(guān)系: 包含事件:若A發(fā)生,則B必然發(fā)生,此時(shí)稱A包含于B,或B包含A。記為:A B,或B A。 例:正正 兩幣相同 相等事件:若A B,且B A,則稱A與B相等,記為A=B。 例:反反=正面不出現(xiàn) 對(duì)立事件:由所有不包含在A中的樣本點(diǎn)所組成的事件稱為A的逆事件,或A的對(duì)立事件,記為 。(也可稱為“非A”) 例: =正反,反正=兩幣不同,Venn圖:用圖解的方法表示集合間的關(guān)系。如:,A,B,相離 相交 包含,事件間關(guān)系,事件的運(yùn)算,事件的和 事件的交 互不相容事件,已知事件A,B,我們可以通過它們構(gòu)成一些新的事件: 交:同時(shí)屬于A及B的樣本點(diǎn)的集合。記為:AB或AB,此時(shí)A與B同時(shí)發(fā)生。 和(并):至少屬于A或B中一個(gè)的全體樣本點(diǎn)的集合,記為AB。此時(shí)可能A,B都發(fā)生,也可能只發(fā)生一個(gè)。 互不相容:若AB=,則稱A與B互不相容。樣本點(diǎn)一定是互不相容的。,事件的運(yùn)算,事件的運(yùn)算,運(yùn)算規(guī)律: (1)交換律:AB=BA,AB=BA (2)結(jié)合律: (AB)C=A(BC) (AB)C=A(BC) (3)分配律: (AB)C=(AC)(BC) (AB)C=(AC)(BC),事件的運(yùn)算,例:A、B、C是三個(gè)事件,請(qǐng)用運(yùn)算式表示下列事件: (1)A發(fā)生,B與C不發(fā)生: (2)A與B都發(fā)生而C不發(fā)生: (3)至少發(fā)生一個(gè): (4)恰好發(fā)生一個(gè): (5)恰好發(fā)生二個(gè):,事件的運(yùn)算,例:A、B、C是三個(gè)事件,請(qǐng)用運(yùn)算式表示下列事件: (1) (2) (3)A B C (4) (5),事件的運(yùn)算,概率,在數(shù)學(xué)中有兩個(gè)分支,即概率論和數(shù)理統(tǒng)計(jì)。研究隨機(jī)事件統(tǒng)計(jì)規(guī)律的學(xué)科稱為概率論。由隨機(jī)現(xiàn)象的一部分實(shí)測資料研究和推求隨機(jī)事件全體的規(guī)律的學(xué)科稱為數(shù)理統(tǒng)計(jì)。 概率是表示統(tǒng)計(jì)規(guī)律的方式。用概率可以表示和度量在一定條件下隨機(jī)事件出現(xiàn)或發(fā)生的可能性。 針對(duì)不同的情況,概率有不同的定義。 按照數(shù)理統(tǒng)計(jì)的觀點(diǎn),事物和現(xiàn)象都可以看為是試驗(yàn)的結(jié)果。,二、概率的統(tǒng)計(jì)定義,概率的統(tǒng)計(jì)定義如下:在一組不變的條件下,重復(fù)作k次試驗(yàn),記l是事件A發(fā)生的次數(shù),當(dāng)試驗(yàn)次數(shù)很大時(shí),如果頻率l/k穩(wěn)定地在某一數(shù)值p的附近擺動(dòng),而且一般說來隨著試驗(yàn)次數(shù)的增多,這種擺動(dòng)的幅度愈變愈小,則稱A為隨機(jī)事件,并稱數(shù)值p為隨機(jī)事件A的概率,記作P(A)= p,二、概率的統(tǒng)計(jì)定義,1、不恒定性:k, l, 2、穩(wěn)定性:P= 概率 3、性質(zhì):p23,三、概率的古典定義,從17世紀(jì)中葉,人們就開始研究隨機(jī)現(xiàn)象,當(dāng)時(shí)這種興趣或需要主要是由賭博引起的,因此人們首先注意的是這樣一類隨機(jī)事件:它們只有有限個(gè)可能的結(jié)果,即只有有限個(gè)樣本點(diǎn),同時(shí)這些樣本點(diǎn)出現(xiàn)的可能性相等。這樣的概率空間稱為古典概型。由于樣本點(diǎn)是等可能的,很自然地,人們就把事件A的概率定義為A所包含的樣本點(diǎn)數(shù)與樣本點(diǎn)總數(shù)的比值,即,例:五個(gè)身高不同的人,隨機(jī)站成一排,問恰好是按身高順序排列的可能性有多大?,三、概率的古典定義,解:五個(gè)人隨機(jī)排列,則排法共有5!種。有利場合則為從高到矮,或從矮到高,共兩種。因此所求概率為:,例:有一組小白鼠共20只,其中8只雄,12雌?,F(xiàn)從中任取5只,問其中有2只是雄,3只是雌的概率是多少?,四、概率的一般運(yùn)算,解:,四、概率的一般運(yùn)算,概率加法 條件概率 乘法公式 獨(dú)立事件 貝葉斯(Bayes)公式(或稱逆概公式),四、概率的一般運(yùn)算,概率加法 定理:對(duì)任意事件A、B, P(AUB)= P(A)+P(B)P(AB),四、概率的一般運(yùn)算,概率加法 例:在人口調(diào)查中發(fā)現(xiàn),10歲以下人口(A1)占該地區(qū)人口的30%,1120歲(A2)占20%;2130歲(A3)占20%; 3140歲(A4)占10%;4150歲(A5)占10%;51歲以上(A6)占10%。問任意抽取1人,他是20歲以下的概率是多少?,解:事件A1A6是互不相容事件,故 P(A1A2)= P(A1)+P(A2) =0.30+0.20=0.50,四、概率的一般運(yùn)算,條件概率 定義:若A,B為兩個(gè)事件, 且P(B)0,則記,稱為事件B發(fā)生的條件下事件A發(fā)生的概率。,四、概率的一般運(yùn)算,條件概率 假定男女孩出生率相同,設(shè)A為二個(gè)孩子家庭有一男孩一女孩這一事件,求P(A)。,解:顯然=(男男),(男女),(女男),(女女) ,四、概率的一般運(yùn)算,條件概率 這里要特別注意的是不能認(rèn)為樣本空間只有如下三個(gè)樣本點(diǎn):(兩男),(兩女),(一男一女)。上述三個(gè)樣本點(diǎn)不是等可能的。這是因?yàn)閷?duì)(兩男)與(兩女)來說,沒有順序問題,交換順序后仍是兩男或兩女;但對(duì)一男一女來說就不同了,它實(shí)際上是由兄妹與姐弟兩個(gè)樣本點(diǎn)組成。因此只有采用(兄弟),(兄妹),(姐弟),(姐妹)四個(gè)樣本點(diǎn)才能構(gòu)成古典概型的樣本空間,只有這樣才能保證等可能性,而等可能性正是古典概型計(jì)算公式的基礎(chǔ)。,四、概率的一般運(yùn)算,條件概率 若已知該家庭至少有一女孩,則有一男一女的概率為多大?,解:設(shè)B為至少有一女孩,當(dāng)B發(fā)生時(shí),樣本點(diǎn)只剩三個(gè):(男女),(女男),(女女)。,四、概率的一般運(yùn)算,乘法公式 乘法定理:,四、概率的一般運(yùn)算,乘法公式 例:從一副撲克牌中連續(xù)抽取2張,問2張都是紅方塊的概率是多少?,事件B為第二張是紅方塊,P(B/A)= =,=,四、概率的一般運(yùn)算,獨(dú)立事件 對(duì)任意事件A和B,若P(AB)=P(A)P(B), 則稱A,B是獨(dú)立的。 B的發(fā)生對(duì)A沒有任何影響,也沒有提供任何消息,反之也一樣。,四、概率的一般運(yùn)算,獨(dú)立事件 例:在某地區(qū)中學(xué)生中,女生占40%,患近視眼的占5%。從該地區(qū)學(xué)生中任取一人,則求其既是女生又是患近視眼的P。,解:A女生;B近視;A、B是獨(dú)立事件 P(AB)=P(A)P(B)=0.40.05=0.02,5)貝葉斯公式,設(shè)A1,A2,An是兩兩互斥的事件,且P(Ai)0,i=1,2,n, 另有一事件B,它總是與A1,A2,An 之一同時(shí)發(fā)生,則,貝葉斯,Thomas Bayes,該公式于1763年由貝葉斯(Bayes)給出. 它是在觀察到事件B已發(fā)生的條件下,尋找導(dǎo)致B發(fā)生的每個(gè)原因的概率.,貝葉斯公式有著十分廣泛的用途,它之所以被稱為逆概公式,是因?yàn)樗鼘?shí)際是在知道結(jié)果的情況下來推斷原因:A1,A2,An,是可能導(dǎo)致B出現(xiàn)的原因。P(Ai)是各種原因出現(xiàn)的可能性大小,一般是過去經(jīng)驗(yàn)的總結(jié),稱為先驗(yàn)概率。若現(xiàn)在已知B出現(xiàn)了,我們要求它是由哪個(gè)原因引起的概率,這就是 ,稱為后驗(yàn)概率。它反映了試驗(yàn)之后對(duì)原因發(fā)生可能性大小的新知識(shí)。例如醫(yī)生診斷病人所患何?。ˋ1,A2,An,中的某一個(gè)),他確定某種癥狀B(如體溫,某種化驗(yàn)指標(biāo)等等)出現(xiàn),現(xiàn)在實(shí)際就是求 ,通過比較它們的大小就可對(duì)疾病作出診斷。此時(shí)貝葉斯公式顯然是很有用的。,貝葉斯公式在實(shí)際中有很多應(yīng)用,它可以幫助人們確定某結(jié)果(事件 B)發(fā)生的最可能原因.,例 某一地區(qū)患有癌癥的人占0.005,患者對(duì)一種試驗(yàn)反應(yīng)是陽性的概率為0.95,正常人對(duì)這種試驗(yàn)反應(yīng)是陽性的概率為0.04,現(xiàn)抽查了一個(gè)人,試驗(yàn)反應(yīng)是陽性,問此人是癌癥患者的概率有多大?,則 表示“抽查的人不患癌癥”.,求解如下:,設(shè) A=抽查的人患有癌癥, B=試驗(yàn)結(jié)果是陽性,,求P(A|B).,已知 P(A)=0.005,P( )=0.995, P(B|A)=0.95, P(B| )=0.04,現(xiàn)在來分析一下結(jié)果的意義.,由貝葉斯公式,可得,代入數(shù)據(jù)計(jì)算得: P(A|B)= 0.1066,2. 檢出陽性是否一定患有癌癥?,1. 這種試驗(yàn)對(duì)于診斷一個(gè)人是否患有癌癥 有無意義?,如果不做試驗(yàn),抽查一人,他是患者的概率 P(A)=0.005,患者陽性反應(yīng)的概率是0.95,若試驗(yàn)后得陽性反應(yīng),則根據(jù)試驗(yàn)得來的信息,此人是患者的概率為 P(AB)= 0.1066,說明這種試驗(yàn)對(duì)于診斷一個(gè)人是否患有癌癥有意義.,從0.005增加到0.1066,將近增加約21倍.,1. 這種試驗(yàn)對(duì)于診斷一個(gè)人是否患有癌癥 有無意義?,2. 檢出陽性是否一定患有癌癥?,試驗(yàn)結(jié)果為陽性,此人確患癌癥的概率為 P(AB)=0.1066,即使你檢出陽性,尚可不必過早下結(jié)論你有癌癥,這種可能性只有10.66% (平均來說,1000個(gè)人中大約只有107人確患癌癥),此時(shí)醫(yī)生常要通過再試驗(yàn)來確認(rèn).,下面我們?cè)倩剡^頭來看一下貝葉斯公式,貝葉斯公式,在貝葉斯公式中,P(Ai)和P(Ai |B)分別稱為 原因的先驗(yàn)概率和后驗(yàn)概率.,P(Ai)(i=1,2,n)是在沒有進(jìn)一步信息(不知道事件B是否發(fā)生)的情況下,人們對(duì)諸事件發(fā)生可能性大小的認(rèn)識(shí).,當(dāng)有了新的信息(知道B發(fā)生),人們對(duì)諸事件發(fā)生可能性大小P(Ai | B)有了新的估計(jì).,例 某醫(yī)院對(duì)某種疾病有一種看起來很有效的檢驗(yàn)方法,97%的患者檢驗(yàn)結(jié)果為陽性,95%的未患病者檢驗(yàn)結(jié)果為陰性,設(shè)該病的發(fā)病率為0.4%現(xiàn)有某人的檢驗(yàn)結(jié)果為陽性,問他確實(shí)患病的概率是多少?,得到,由貝葉斯公式得,解 記B為檢驗(yàn)結(jié)果是陽性,則 為檢驗(yàn)結(jié)果是陰性,A表示患有該病,則 為未患該病由題意,(1) 條件概率,全概率公式,貝葉斯公式,小結(jié),乘法定理,第二節(jié) 概率分布,2.2.1 隨機(jī)變量 2.2.2 離散型概率分布 2.2.3 連續(xù)型概率分布 2.2.4 概率分布與頻數(shù)分布的關(guān)系,概率分布及其特征,具有多種可能結(jié)果的現(xiàn)象稱為隨機(jī)現(xiàn)象,隨機(jī)現(xiàn)象的每一可能結(jié)果即是一個(gè)隨機(jī)事件,換句話說,隨機(jī)變量的每一可能取值都是一個(gè)隨機(jī)事件。 概率是度量隨機(jī)事件出現(xiàn)或發(fā)生的可能性大小的一種尺度。 概率分布由隨機(jī)變量的取值(x)及其相應(yīng)的P(x)概率構(gòu)成。,2.2.1 隨機(jī)變量,根據(jù)概率不同而取不同數(shù)值的變量稱為隨機(jī)變量(Random Variable)。 注意: (1)一個(gè)隨機(jī)變量具有下列特性:RV可以取許多不同的數(shù)值,取這些數(shù)值的概率為p,p滿足:0p1。 (2)隨機(jī)變量以一定的概率取到各種可能值,按其取值情況隨機(jī)變量可分為兩類:離散型隨機(jī)變量和連續(xù)型隨機(jī)變量。離散型隨機(jī)變量的取值最多可列多個(gè);連續(xù)型隨機(jī)變量的取值充滿整個(gè)數(shù)軸或者某個(gè)區(qū)間。 (3)本書中,隨機(jī)變量用x、y、等符號(hào)表示,直觀上看,所謂隨機(jī)變量,就是我們?cè)陔S機(jī)實(shí)驗(yàn)中測定的量。例如觀察10只新生動(dòng)物的性別,并計(jì)算其中雄性動(dòng)物的數(shù)量X,顯然X可能取值為0,1,10;但究竟取值為幾,只能在實(shí)驗(yàn)結(jié)束時(shí)才知道。象這樣在實(shí)驗(yàn)中所得到的取值有隨機(jī)性的量,就稱為隨機(jī)變量。隨機(jī)變量的特點(diǎn)就是當(dāng)實(shí)驗(yàn)條件一定時(shí),實(shí)驗(yàn)結(jié)果仍不確定。,2.2.1 隨機(jī)變量,上面所舉的例子是離散型的隨機(jī)變量,因?yàn)樗挥杏邢迋€(gè)或可列個(gè)可能的取值。另外還有一大類隨機(jī)變量,它們的取值是在某個(gè)區(qū)間中連續(xù)變化的,例如人的身高,體重,胸圍象這樣的隨機(jī)變量稱為連續(xù)型隨機(jī)變量。,2.2.1 隨機(jī)變量,離散型隨機(jī)變量與連續(xù)型隨機(jī)變量,10 20 30 40 50,1.0,概率,概率,x,x,1.0,離散型隨機(jī)變量,連續(xù)型隨機(jī)變量,隨機(jī)變量的取值是有隨機(jī)性的,我們事先無法知道,但它的取值也是有規(guī)律性可循的,這種規(guī)律性就表現(xiàn)在各個(gè)值出現(xiàn)的頻率上。,隨機(jī)變量函數(shù)的概念和分布,P(X=x)=p(x); P稱為概率函數(shù) 顯然概率函數(shù)應(yīng)滿足:對(duì)任意可能結(jié)果x,有 p(x)0, 且,對(duì)于連續(xù)型隨機(jī)變量來說,它的可能取值是不可列的,實(shí)際上它取到某一個(gè)確定值的可能性都為0,稱f(x)為隨機(jī)變量X的密度函數(shù),顯然應(yīng)有f(x)0,,隨機(jī)變量函數(shù)的概念和分布,隨機(jī)變量函數(shù)的概念和分布,按隨機(jī)變量取值的特點(diǎn),概率分布可分為離散型隨機(jī)變量的概率分布和連續(xù)型隨機(jī)變量的概率分布。,設(shè)X為一隨機(jī)變量,稱函數(shù) F(x) = P(Xx) (-x+)為X的分布函數(shù)。 這個(gè)定義適用于離散型隨機(jī)變量,也適用于連續(xù)型隨機(jī)變量。 連續(xù)型分布函數(shù)也可表示為密度函數(shù)的積分:,顯然有:,隨機(jī)變量函數(shù)的概念和分布,2.2.2 離散型概率分布,P(X=xi) = p(xi), i=1,2,3, p(xi), i=1,2,3,稱為隨機(jī)變量X的概率分布,通常用下面的形式表示離散型隨機(jī)變量X的概率分布:,分布函數(shù)為: F(x)=P(Xx)=,2.2.3 連續(xù)型概率分布,連續(xù)型隨機(jī)變量X可取某個(gè)區(qū)間c, d或(,)中的一切值,且存在可積函數(shù)f (x),使 , f(x) 稱為X的密度函數(shù),F(xiàn)(x) 稱為X的分布函數(shù)。顯然,頻率與概率都是一個(gè)居于0和1之間的數(shù)。 頻率是相對(duì)于樣本而言,而概率則是相對(duì)于總體而言。因此可以說概率是頻率的理論值,頻率是概率的試驗(yàn)值或估計(jì)值。 頻率分布是一種觀察分布,而概率分布則是一種理論分布。,2.2.4 概率分布與頻數(shù)分布的關(guān)系,2.2.4 概率分布與頻數(shù)分布的關(guān)系,設(shè)(x1,x2,xn)為一組樣本觀察值,函數(shù)f( x1,x2,xn )若不含有未知參數(shù),則稱為統(tǒng)計(jì)量。 統(tǒng)計(jì)量一般是連續(xù)函數(shù)。由于樣本是隨機(jī)變量,因而它的函數(shù)也是隨機(jī)變量,所以,統(tǒng)計(jì)量也是隨機(jī)變量。 統(tǒng)計(jì)量一般用它來提取或壓榨由樣本帶來的總體信息。,2.2.4 概率分布與頻數(shù)分布的關(guān)系,總體的數(shù)字特征是一個(gè)固定不變的數(shù),稱為參數(shù); 樣本的數(shù)字特征是隨抽樣而變化的數(shù),是一個(gè)隨機(jī)變量,稱為統(tǒng)計(jì)量。,第三節(jié) 總體特征數(shù),一、數(shù)學(xué)期望 二、方差 三、數(shù)學(xué)期望與方差的圖示,研究數(shù)字特征的必要性 兩個(gè)最重要的數(shù)字特征 (1)數(shù)學(xué)期望 (2)方差,一、數(shù)學(xué)期望,研究數(shù)字特征的必要性,總體就是一個(gè)隨機(jī)變量。對(duì)總體的描述就是對(duì)隨機(jī)變量的描述。隨機(jī)變量的分布就是對(duì)隨機(jī)變量最完整的描述。但是, (1)求出總體的分布往往不是一件容易的事情; (2)而且,在很多情況下,我們并不需要全面考察隨機(jī)變量的變化情況,只需要了解總體的一些綜合指標(biāo)。一般說來,常常需要了解總體的一般水平和它的離散程度; (3)如果了解總體的一般水平和離散程度,就已經(jīng)對(duì)總體有了粗略的了解了; (4)在很多情況下,了解這兩個(gè)數(shù)字特征還是深入求出總體分布的基礎(chǔ)和關(guān)鍵。 由此看來,研究隨機(jī)變量的數(shù)字特征是十分必要的。,數(shù)學(xué)期望的定義,定義2.1離散型隨機(jī)變量數(shù)學(xué)期望的定義 假定有一個(gè)離散型隨機(jī)變量X有n個(gè)不同的可能取值x1,x2,xn,而p1,p2,pn是X取這些值相應(yīng)的概率,則這個(gè)隨機(jī)變量X的數(shù)學(xué)期望定義如下: 數(shù)學(xué)期望描述的是隨機(jī)變量(總體)的一般水平。 定義2.2連續(xù)型隨機(jī)變量數(shù)學(xué)期望的定義,女兒期待父親釣多少魚回家?,數(shù)學(xué)期望是最容易發(fā)生的,因而是可以期待的。它反映數(shù)據(jù)集中的趨勢。,數(shù)學(xué)期望的性質(zhì),(1)如果a、b為常數(shù),則 E(aX+b)=aE(X)+b (2)如果X、Y為兩個(gè)隨機(jī)變量,則 E(X+Y)=E(X)+E(Y) (3)如果g(x)和f(x)分別為X的兩個(gè)函數(shù),則 Eg(X)+f(X)=Eg(X)+Ef(X) (4)如果X、Y是兩個(gè)獨(dú)立的隨機(jī)變量,則 E(X.Y)=E(X).E(Y),求離散型隨機(jī)變量數(shù)學(xué)期望舉例,
收藏
- 資源描述:
-
本門課程的學(xué)習(xí)要求,掌握生物統(tǒng)計(jì)學(xué)的基本原理和基本概念; 掌握科學(xué)地收集、整理和分析數(shù)據(jù)資料的基本知識(shí)與技能; 初步掌握設(shè)計(jì)實(shí)驗(yàn)的基本方法,培養(yǎng)從事教學(xué)和科研工作的能力。,通過本課程的學(xué)習(xí),緒論,一、生物統(tǒng)計(jì)學(xué)的概念 二、生物統(tǒng)計(jì)學(xué)的產(chǎn)生和發(fā)展 三、在生物學(xué)科研工作中的作用 四、學(xué)習(xí)生物統(tǒng)計(jì)學(xué)的方法,主要內(nèi)容,無處不在的統(tǒng)計(jì),1980年6月,首屆國際紅樓夢研討會(huì)在美國召開,威斯康星華裔學(xué)者陳炳藻獨(dú)樹一幟,宣讀了題為從詞匯上的統(tǒng)計(jì)論紅樓夢作者的問題的博士論文。他從字、詞出現(xiàn)頻率入手,通過計(jì)算機(jī)進(jìn)行統(tǒng)計(jì)、處理、分析,對(duì)紅樓夢后40回系高鶚?biāo)鬟@一流行看法提出異議,認(rèn)為120回均系曹雪芹所作。 精確到小數(shù)點(diǎn)的愛情-統(tǒng)計(jì)學(xué)博士的求婚信,統(tǒng)計(jì)數(shù)字,大仲馬的作品多曲折感人,而大仲馬又多私生子,所以,取笑譏諷他的人,往往把他的 作品比作他的私生子。 最使他頭痛的是巴黎統(tǒng)計(jì)學(xué)會(huì)的秘書長李昂納,這人是大仲馬的朋友,每次舉統(tǒng)計(jì)數(shù)字的例子,總是說大仲馬的情婦和私生子有多少。 有一年該統(tǒng)計(jì)學(xué)會(huì)開年會(huì),大仲馬估計(jì),李昂納又要大放厥詞,說他的壞話了。于是他請(qǐng)求參加年會(huì),獲得了批準(zhǔn),果然不出大仲馬所料,李昂納又舉他的情婦和私生子的例子。 李昂納報(bào)告完畢,請(qǐng)大仲馬致詞。一向不愿在大庭廣眾之下發(fā)表演講的大仲馬,這次卻破例登臺(tái)說:“所有統(tǒng)計(jì)數(shù)字都是撒謊的,包括有關(guān)本人的數(shù)字在內(nèi)?!甭牨姾逄么笮?。,數(shù)學(xué)家的幽默,統(tǒng)計(jì)學(xué)家調(diào)侃數(shù)學(xué)家:你們不是說若且,則嗎!那么想必你若喜歡一個(gè)女孩,那么這個(gè)女孩喜歡的男生你也喜歡吧? 數(shù)學(xué)家反問道:那么你把左手放到一鍋一百度的開水中,右手放到一鍋零度的冰水里想來也沒事吧!因?yàn)樗鼈兤骄贿^是五十度而已!”,由上可知,統(tǒng)計(jì)與數(shù)量有關(guān),同時(shí)它已經(jīng)滲透到社會(huì)經(jīng)濟(jì)活動(dòng)和科學(xué)研究的方方面面,統(tǒng)計(jì)無處不在。,案例,在一個(gè)水庫中養(yǎng)著許多魚,管理人員希望了解魚的大致數(shù)量,這就是一個(gè)實(shí)踐中的統(tǒng)計(jì)學(xué)問題。,由于魚不聽從指揮,會(huì)在各處自由游動(dòng)的,因此,在進(jìn)行統(tǒng)計(jì)時(shí),必須創(chuàng)造性地提出解決方案。,一種解決方法,先從水庫的不同位置一共捕上來1000條魚,在每條魚的尾部作上一個(gè)標(biāo)記,應(yīng)當(dāng)保證標(biāo)記不會(huì)影響魚的自由游動(dòng)。然后,將魚全部放回水庫。幾天后,從水庫中再捕上來1000條魚,檢查其中尾巴上有標(biāo)記的魚的數(shù)量。假定在第二次捕上來的1000條魚中,有20條尾巴上做了標(biāo)記,則可以推斷,水庫中魚的總數(shù)大致為:,1000(201000)5萬條。,統(tǒng)計(jì)(Statistics)的涵義,統(tǒng)計(jì)是人們認(rèn)識(shí)客觀世界總體數(shù)量變動(dòng)關(guān)系和變動(dòng)規(guī)律的活動(dòng)的總稱,是認(rèn)識(shí)客觀世界的有力工具。 統(tǒng)計(jì)的研究對(duì)象的特點(diǎn): (一)數(shù)量性。統(tǒng)計(jì)數(shù)據(jù)是客觀事物量的反映。 (二)總體性。統(tǒng)計(jì)的數(shù)量研究是對(duì)現(xiàn)象總體中各單位普遍存在的事實(shí)進(jìn)行大量觀察和綜合分析。 (三)變異性??傮w各單位的特征表現(xiàn)存在著差異,而且這些差異并不是事先可以預(yù)知的。,概念:生物統(tǒng)計(jì)學(xué)是應(yīng)用概率論和數(shù)理統(tǒng)計(jì)原理來研究生物界數(shù)量變異規(guī)律的一門科學(xué)。,實(shí)質(zhì):生物統(tǒng)計(jì)學(xué)從研究思路上看,它是以樣本來推斷總體的一門學(xué)科。,特點(diǎn):1、概率性:研究手段是概率論以及建立在概率論基礎(chǔ)上的數(shù)理統(tǒng)計(jì)方法,更主要的是其結(jié)論是不確切的。 2、歸納性:生物統(tǒng)計(jì)學(xué)由樣本來推斷總體的研究思路是由特殊到一般的歸納過程。3、實(shí)踐性,生物統(tǒng)計(jì)學(xué)的概念,1894年,發(fā)表了一系列生物統(tǒng)計(jì)學(xué)的論文,奠定生物統(tǒng)計(jì)學(xué)的基礎(chǔ)(英國畢爾生)。 哥爾頓(Galton)在十九世紀(jì)末葉,應(yīng)用統(tǒng)計(jì)方法研究人種特征與遺傳,創(chuàng)立了生物統(tǒng)計(jì)學(xué)。,生物統(tǒng)計(jì)學(xué)的產(chǎn)生和發(fā)展,英國人達(dá)爾文的侄子弗朗西斯哥爾頓直到1883年才發(fā)明出“優(yōu)生學(xué)”這個(gè)詞。一開始,高爾頓的提議沒有博得積極的反應(yīng)。很多人對(duì)他的人工控制生育的思想感到震驚。 人們對(duì)高爾頓的遺傳觀點(diǎn)也非常懷疑。再者,因?yàn)槌錾砻T的孩子通常能比普通人受到更好的教育,所以怎么肯定他們的能力就是天生的呢?,生物統(tǒng)計(jì)學(xué)的產(chǎn)生和發(fā)展,后來,哥爾頓花了很多的精力,提出一種生物學(xué)上的統(tǒng)計(jì)技術(shù),以直接回應(yīng)最初出現(xiàn)的懷疑態(tài)度(Cowan, 1972b)。他更加詳細(xì)地表明,遺傳控制了人口的性質(zhì)。他將統(tǒng)計(jì)學(xué)方法應(yīng)用于變異的研究,這也為生物統(tǒng)計(jì)學(xué)派的研究道路奠定了基礎(chǔ)。,生物統(tǒng)計(jì)學(xué)的產(chǎn)生和發(fā)展,后來,他的學(xué)生卡爾皮爾遜(KPearson)利用生物統(tǒng)計(jì)學(xué)來捍衛(wèi)達(dá)爾文主義??梢哉J(rèn)為,皮爾遜定量技術(shù)的真實(shí)結(jié)構(gòu)反映出他想為優(yōu)生學(xué)政策提供明確科學(xué)證據(jù)的欲望(Mack enzie, 1982)。在皮爾遜的學(xué)生RA費(fèi)舍爾那里也發(fā)現(xiàn)同樣的觀點(diǎn)(Bennett, 1983; No rton, 1983)。,生物統(tǒng)計(jì)學(xué)的產(chǎn)生和發(fā)展,1820年法國人Laplace及同時(shí)代的Gauss發(fā)現(xiàn)正態(tài)分布,卡爾皮爾遜在1906年繼續(xù)主持哥爾頓試驗(yàn)室,他所提出的卡方(2)測驗(yàn)在遺傳學(xué)上研究性狀分離時(shí)被廣泛應(yīng)用。他的學(xué)生WSGosset所提出的值測驗(yàn)法已成為當(dāng)代生物統(tǒng)計(jì)工作的基本工具之一。,生物統(tǒng)計(jì)學(xué)的產(chǎn)生和發(fā)展,我國在二十世紀(jì)三十年代就出版有實(shí)用生物統(tǒng)計(jì)學(xué)(王綬,1937年),并且成為必修課,在許多方面加以應(yīng)用。,生物統(tǒng)計(jì)學(xué)的產(chǎn)生和發(fā)展,生物統(tǒng)計(jì)學(xué)近年來發(fā)展甚速,從中又分支為生物統(tǒng)計(jì)遺傳學(xué)、生態(tài)統(tǒng)計(jì)學(xué)、毒理統(tǒng)計(jì)學(xué)等等。當(dāng)前,由于電子計(jì)算機(jī)的普及,使運(yùn)算技術(shù)出現(xiàn)新的躍進(jìn),原來十分繁瑣的計(jì)算變得十分簡單、迅速,而且更加精確。應(yīng)用統(tǒng)計(jì)方法以及先進(jìn)的試驗(yàn)設(shè)計(jì)來進(jìn)行分析、研究,在生物學(xué)的研究中將越來越顯得重要。,生物統(tǒng)計(jì)學(xué)的產(chǎn)生和發(fā)展,在生物學(xué)科研工作中的作用,生物學(xué)是一門實(shí)驗(yàn)科學(xué)。不管你從事的是生物學(xué)的哪一個(gè)分枝,都不可能完全脫離實(shí)驗(yàn),只進(jìn)行邏輯推理。而實(shí)驗(yàn)所得到的結(jié)果幾乎無例外地都帶有或多或少的不確定性,即實(shí)驗(yàn)誤差。在這種情況下不用統(tǒng)計(jì)學(xué)要想得到正確的結(jié)論是不可能的。,在生物學(xué)科研工作中的作用,可以毫不夸張地說,作為一個(gè)實(shí)驗(yàn)科學(xué)工作者,離開了統(tǒng)計(jì)學(xué)就寸步難行。希望大家通過這門課程的學(xué)習(xí),能夠掌握常用的統(tǒng)計(jì)方法,尤其是它們的條件,適用范圍、優(yōu)缺點(diǎn)等,從而能夠應(yīng)用它們?nèi)ソ鉀Q實(shí)踐中遇到的問題。,生物統(tǒng)計(jì)學(xué)是運(yùn)用數(shù)理統(tǒng)計(jì)的的原理和方法來分析和解釋生物界各種現(xiàn)象和試驗(yàn)調(diào)查資料的一門科學(xué)。隨著生物學(xué)的不斷發(fā)展,生物統(tǒng)計(jì)學(xué)在水產(chǎn)養(yǎng)殖、水生生物、漁業(yè)資源及捕撈等水產(chǎn)學(xué)科領(lǐng)域已有廣泛應(yīng)用。,在生物學(xué)科研工作中的作用,生物統(tǒng)計(jì)學(xué)在設(shè)計(jì)、質(zhì)控、數(shù)據(jù)管理、統(tǒng)計(jì)分析、結(jié)果評(píng)價(jià)等各個(gè)環(huán)節(jié)均發(fā)揮了重要作用。,統(tǒng)計(jì)研究的基本環(huán)節(jié),統(tǒng)計(jì)設(shè)計(jì),收集數(shù)據(jù),整理與分析,資料積累 開發(fā)應(yīng)用,統(tǒng)計(jì)學(xué)理論與相關(guān)實(shí)質(zhì)性學(xué)科理論,描述統(tǒng)計(jì) 推斷統(tǒng)計(jì),統(tǒng)計(jì)調(diào)查、實(shí)驗(yàn),統(tǒng)計(jì)研究的全過程包括以下基本環(huán)節(jié):,(一)統(tǒng)計(jì)設(shè)計(jì) 根據(jù)所要研究問題的性質(zhì),在有關(guān)學(xué)科理論的指導(dǎo)下,制定統(tǒng)計(jì)指標(biāo)、指標(biāo)體系和統(tǒng)計(jì)分類,給出統(tǒng)一的定義、標(biāo)準(zhǔn)。同時(shí)提出收集、整理和分析數(shù)據(jù)的方案和工作進(jìn)度等。搞好統(tǒng)計(jì)設(shè)計(jì)不僅要有統(tǒng)計(jì)學(xué)的一般理論和方法為指導(dǎo),而且還要求設(shè)計(jì)者對(duì)所要研究的問題本身具有深刻的認(rèn)識(shí)和相關(guān)的學(xué)科知識(shí)。 (二)收集數(shù)據(jù) 統(tǒng)計(jì)數(shù)據(jù)的收集有兩種基本方法。對(duì)于大多數(shù)自然科學(xué)和工程技術(shù)研究來說,有可能通過有控制的科學(xué)實(shí)驗(yàn)去取得數(shù)據(jù),這時(shí)可以采用實(shí)驗(yàn)法。對(duì)于社會(huì)經(jīng)濟(jì)現(xiàn)象來說,一般無法進(jìn)行重復(fù)實(shí)驗(yàn),要取得有關(guān)數(shù)據(jù)就必須進(jìn)行調(diào)查觀察。,(三)整理與分析 描述統(tǒng)計(jì)是指對(duì)采集的數(shù)據(jù)進(jìn)行登記、審核、整理、歸類,在此基礎(chǔ)上進(jìn)一步計(jì)算出各種能反映總體數(shù)量特征的綜合指標(biāo),并用圖表的形式表示經(jīng)過歸納分析而得到的各種有用的統(tǒng)計(jì)信息。 推斷統(tǒng)計(jì)是在對(duì)樣本數(shù)據(jù)進(jìn)行描述的基礎(chǔ)上,利用一定的方法根據(jù)樣本數(shù)據(jù)去估計(jì)或檢驗(yàn)總體的數(shù)量特征。推斷統(tǒng)計(jì)是現(xiàn)代統(tǒng)計(jì)學(xué)的主要內(nèi)容。 (四)統(tǒng)計(jì)資料的積累、開發(fā)與應(yīng)用 對(duì)于已經(jīng)公布的統(tǒng)計(jì)資料需要加以積累,同時(shí)還可以進(jìn)行進(jìn)一步的加工,結(jié)合相關(guān)的實(shí)質(zhì)性學(xué)科的理論知識(shí)去進(jìn)行分析和利用。如何更好地將統(tǒng)計(jì)數(shù)據(jù)和統(tǒng)計(jì)方法應(yīng)用于各自的研究領(lǐng)域是應(yīng)用統(tǒng)計(jì)學(xué)研究的一個(gè)重要方面。,理解 統(tǒng)計(jì)思想,掌握 統(tǒng)計(jì)術(shù)語,熟悉 統(tǒng)計(jì)符號(hào),記住 統(tǒng)計(jì)公式,使用 統(tǒng)計(jì)工具,學(xué)習(xí)生物統(tǒng)計(jì)學(xué)的方法,常用統(tǒng)計(jì)工具,計(jì)算器,統(tǒng)計(jì)數(shù)表,如二項(xiàng)分布表、泊松分布表、 標(biāo)準(zhǔn)正態(tài)分布表、 t分布表等,能完成函數(shù)功能(對(duì)數(shù)計(jì)算、乘高次方、開高次方等)和統(tǒng)計(jì)功能(計(jì)算平均數(shù)、標(biāo)準(zhǔn)差、變量值平方和等),統(tǒng)計(jì)軟件,如Excel、 SPSS、 SAS、TSP( 時(shí)間序列數(shù)據(jù)軟件 )等,第一章 統(tǒng)計(jì)資料的收集與整理,1.1 總體與樣本 1.2 數(shù)據(jù)類型及頻數(shù)(率)分布 1.3 樣本的幾個(gè)特征數(shù),總體(集合)和個(gè)體(構(gòu)成集合的元素),根據(jù)研究目的確定的、符合指定條件的全部觀察對(duì)象稱為總體。一般用希臘字母表示總體數(shù)值,如,等。 注意:,(2)總體具有同質(zhì)性:每個(gè)個(gè)體具有共同的觀察特征,而與其它總體相區(qū)別;,(1)按組成總體個(gè)體的多寡分為:有限總體和無限總體;,注意,統(tǒng)計(jì)總體的種類,指所包含的單位數(shù)目有限的總體,指所包含的單位數(shù)目無限的總體,樣本和樣本容量,總體中抽出若干個(gè)個(gè)體組成的集體稱為樣本。一般用拉丁字母表示樣本數(shù)值,如、等。 樣本中包含的個(gè)體的個(gè)數(shù)稱為樣本的容量,又稱為樣本的大小。通常用表示。一般以樣本含量少于30者為小樣本,大于30者為大樣本。 注意:抽樣是按隨機(jī)原則選取的,即總體中每個(gè)個(gè)體有同樣的機(jī)會(huì)被選入樣本。,樣本與總體之間的關(guān)系,樣本是總體的一部分,是對(duì)總體隨機(jī)抽樣后得到的集合。 對(duì)觀察者而言,總體是不了解的,了解的只是樣本的具體情況。我們所要做的就是通過對(duì)這些具體樣本的情況的研究,來推知整個(gè)總體的情況。,Xn+1,Xn,X1,Xn+1,Xn,X1,樣本,總體,總體單位,調(diào)查單位,統(tǒng)計(jì)調(diào)查的組織方式,總體單位,調(diào)查單位,普 查,統(tǒng)計(jì)調(diào)查的組織方式,對(duì)全部單位進(jìn)行調(diào)查,總體單位,調(diào)查單位,重點(diǎn)調(diào)查,只調(diào)查重點(diǎn)單位(單位數(shù)不多但其標(biāo)志量占標(biāo)志總量比重較大的單位),統(tǒng)計(jì)調(diào)查的組織方式,總體單位,調(diào)查單位,抽樣調(diào)查,按隨機(jī)原則選擇調(diào)查單位,各單位被選中的機(jī)會(huì)相同。,統(tǒng)計(jì)調(diào)查的組織方式,總體單位,調(diào)查單位,典型調(diào)查,對(duì)典型單位進(jìn)行調(diào)查,典型單位的選擇并不一定按規(guī)模,統(tǒng)計(jì)調(diào)查的組織方式,按照 隨機(jī)原則 從調(diào)查對(duì)象中抽取一部分樣本單位進(jìn)行調(diào)查,再用樣本資料推斷把握總體的數(shù)量特征的一種非全面調(diào)查組織方式,抽樣,指樣本單位的抽取不受主觀因素及其他系統(tǒng)性因素的影響,每個(gè)總體單位都有均等的被抽中機(jī)會(huì),特 點(diǎn),優(yōu) 點(diǎn),1.2 數(shù)據(jù)類型及頻數(shù)(率)分布,一、資料類型 二、資料搜集與整理 三、頻數(shù)(率)分布常用統(tǒng)計(jì)圖(表),資料的分類,正確地進(jìn)行資料的分類是資料整理、分析的前提。通過試驗(yàn)或調(diào)查所獲得的資料一般可以分為三大類:,一、數(shù)量性狀資料 (data of quantitative characteristics) 二、質(zhì)量性狀資料 (data of qualitative characteristics) 三、半定量(等級(jí))資料 (semi-quantitative or ranked data),資料的分類,一、數(shù)量性狀資料,(一)概念 數(shù)量性狀是指能夠以測量、稱量或計(jì)數(shù)的方法表示其特征的性狀。 觀察測定數(shù)量性狀而獲得的數(shù)據(jù)就是數(shù)量性狀資料。,(二)分類 數(shù)量性狀資料的記載有量測和計(jì)數(shù)兩種方式,因而數(shù)量性狀又分為計(jì)量資料和計(jì)數(shù)資料兩種。,一、數(shù)量性狀資料,(二)分類 1.計(jì)量資料:指用量測手段得到的數(shù)量資料。 這種資料的各個(gè)觀察值不一定是整數(shù),兩個(gè)相鄰的整數(shù)間可以有帶小數(shù)的任何數(shù)值出現(xiàn),其小數(shù)值的多少由度量工具的精度而定,它們之間的變異是連續(xù)性的。因此亦稱為連續(xù)性變異資料。 例如身高、產(chǎn)奶量、綿羊剪毛量、血液的生理生化指標(biāo)等屬于連續(xù)性數(shù)量性狀資料。,一、數(shù)量性狀資料,連續(xù)型資料,在一個(gè)區(qū)間內(nèi)可以連續(xù)不斷取值的資料,人的身高、牲畜產(chǎn)奶量、綿羊剪毛量、血液的生理生化指標(biāo)等,需要使用度量工具取值,身高的例子:,(二)分類 2計(jì)數(shù)資料:指用計(jì)數(shù)方式得到的數(shù)量資料。 它的各個(gè)觀察值只能以整數(shù)表示,兩個(gè)相鄰整數(shù)不得有任何帶小數(shù)的數(shù)值出現(xiàn)。因此,該類資料也稱不連續(xù)性變異資料或間斷(離散)性變異資料。 如豬的產(chǎn)仔數(shù)、雞的產(chǎn)蛋數(shù)、魚的尾數(shù)、寄生蟲蟲卵數(shù)等。,一、數(shù)量性狀資料,離散型資料,其一切可能取值都以整數(shù)形式出現(xiàn),并可以一一列舉的資料,特定范圍的人口數(shù)、林木株數(shù)、畜禽數(shù)量等等,取值不需要用工具度量,用計(jì)數(shù)的方式即可,二、質(zhì)量性狀資料,(一)概念和特點(diǎn) 質(zhì)量性狀是指只能觀察而不能測量的性狀。 這類性狀本身不能直接用數(shù)值表示,要獲得這類性狀的數(shù)據(jù)資料,須對(duì)其觀察結(jié)果作數(shù)量化處理。,(二)質(zhì)量性狀數(shù)量化的方法 1、統(tǒng)計(jì)次數(shù)法 質(zhì)量性狀數(shù)量化常采用統(tǒng)計(jì)次數(shù)法,所謂統(tǒng)計(jì)次數(shù)法是指在一定的總體或樣本中,根據(jù)某一質(zhì)量性狀的類別統(tǒng)計(jì)其個(gè)體數(shù)。這種由質(zhì)量性狀數(shù)量化得來的資料又叫次數(shù)資料。,二、質(zhì)量性狀資料,(二)質(zhì)量性狀數(shù)量化的方法 . 評(píng)分法:對(duì)某一質(zhì)量性狀,因其類別不同分別給予評(píng)分以便統(tǒng)計(jì)分析。例如研究綿羊的油汗色澤遺傳時(shí),可將種油汗色澤分別給予不同的分?jǐn)?shù):深黃分、黃色分、淺黃分、乳白分、白色分。,二、質(zhì)量性狀資料,三、半定量(等級(jí))資料,(一)概念 半定量或等級(jí)資料是指將觀察單位按所考察的性狀或指標(biāo)的等級(jí)順序分組(三組以上),然后清點(diǎn)各組觀察單位的次數(shù)而得的資料。,(二)特點(diǎn) 這類資料既有次數(shù)資料的特點(diǎn),又有程度或量的不同。 如糞便潛血試驗(yàn)的陽性反應(yīng)是在涂有糞便的棉簽上加試劑后觀察顏色出現(xiàn)的快慢及深淺程度分為六個(gè)等級(jí);又如用某種藥物治療畜禽的某種疾病,療效分為“無效”、“好轉(zhuǎn)”、“顯效”和“控制”四個(gè)級(jí)別;然后統(tǒng)計(jì)各級(jí)別的供試畜禽數(shù)。半定量資料在獸醫(yī)研究中是常見的。,三、半定量(等級(jí))資料,資料搜集與整理,統(tǒng)計(jì)工作一般分為三個(gè)步驟:收集資料、整理資料和分析資料。 搜集資料(數(shù)據(jù))是進(jìn)行統(tǒng)計(jì)工作的第一步也是最重要的一步。如果搜集數(shù)據(jù)的計(jì)劃不周密,原始記錄不正確,往往會(huì)造成整理、分析的困難,甚至得出錯(cuò)誤的結(jié)論,而這些缺點(diǎn)難以在以后的兩個(gè)步驟中補(bǔ)救的。,在搜集資料時(shí),應(yīng)注意如下幾點(diǎn):,. 要有目的性 . 要有代表性 . 樣本含量要恰當(dāng),資料整理的內(nèi)容,在調(diào)查或試驗(yàn)中所得到的大量數(shù)據(jù)是分散的數(shù)據(jù)。要了解事物總的特征和發(fā)展情況,必須對(duì)這些數(shù)據(jù)進(jìn)行科學(xué)的分組歸納,使數(shù)據(jù)系統(tǒng)化,便于進(jìn)一步統(tǒng)計(jì)分析以及反映被研究事物的規(guī)律性,這個(gè)過程稱為數(shù)據(jù)的整理。,通常我們用X表示變量,原始資料的檢查與核對(duì) 資料的整理 依次表(小樣本) 計(jì)數(shù)資料的整理與分組 (采用樣本數(shù)據(jù)的自然值進(jìn)行分組 ) 計(jì)量資料的整理與分組 (組距式分組法 ) 質(zhì)量性狀資料、半定量(等級(jí))資料的整理,資料整理的內(nèi)容,獲得的資料在未整理之前,稱為原始資料。對(duì)原始資料可從以下兩個(gè)方面進(jìn)行檢查: 1資料的完整性 原始記錄有無遺漏或重復(fù) 2資料的正確性 原始數(shù)據(jù)是否正確、合理,有無矛盾,特別注意特大或特小數(shù)據(jù)及異常數(shù)據(jù)。,一、資料的檢查與核對(duì),二、資料的整理,(一)計(jì)數(shù)資料的整理 (二)計(jì)量資料的整理 (三)質(zhì)量性狀資料、半定量(等級(jí))資料)的整理,對(duì)原始資料進(jìn)行檢查核對(duì)后,根據(jù)資料中觀察值的多少確定是否分組。 1.當(dāng)觀察值不多,變異范圍不大時(shí),不必分組,直接進(jìn)行統(tǒng)計(jì)分析。(依次表) 2.當(dāng)觀察值較多,變異范圍較大時(shí),須將觀察值分成若干組,以便統(tǒng)計(jì)分析。 將觀察值分組歸類制成次數(shù)分布表(“唱票式”) 看出資料的集中和變異情況。,(一)計(jì)數(shù)資料的整理,依次表、分組,當(dāng)數(shù)據(jù)不多時(shí)可不必分組,這時(shí)可將變數(shù)按數(shù)值大小依次排列起來,形成一個(gè)由小到大的數(shù)字表,稱為“依次表” 。 當(dāng)數(shù)據(jù)較多時(shí),如30個(gè)變數(shù)以上的大樣本,制成“依次表”則較麻煩,這時(shí)需要將數(shù)據(jù)分成若干組,以便統(tǒng)計(jì)分析。,表1-1 10只大白鼠的繁殖力 單位:只,例如,表1-1為10只大白鼠繁殖力的記錄,在未加整理以前只是一堆數(shù)字,看不出資料的任何意義。,依次表,如將表1-1整理成依次表(表1-2),可以看出10只大白鼠中繁殖力變異的情況,即產(chǎn)仔數(shù)最高為8只,最低為3只,變異范圍為3-8只。,依次表,大白鼠編號(hào),產(chǎn) 仔 數(shù),8 3 5 10 1 4 7 2 9 6,3 4 5 5 6 6 6 7 7 8,表1-2 10只大白鼠的繁殖力依次表 單位:只,表1-3 50只小雞的出殼天數(shù),從上表可以看出,小雞出殼天數(shù)在19-24之間變動(dòng),用觀察值各個(gè)不同值進(jìn)行分組。,表1-4 50只小雞出殼天數(shù)的次數(shù)分布表,(二)計(jì)量資料的整理 -組距式分組法,求全距 全距是數(shù)據(jù)內(nèi)變量最大值與最小值之差,它是整個(gè)樣本的變異幅度。 確定組數(shù) 組數(shù)的決定可用經(jīng)驗(yàn)分組法,它與樣本的個(gè)體數(shù)有關(guān)。 確定組距 每一組內(nèi)變量的范圍跨度稱為組距。組距=全距/組數(shù) 確定組中值及組限 數(shù)據(jù)歸組(以唱票的方式),表1-5 按樣本含量決定組數(shù),返回,組距式分組將要使用的相關(guān)概念,總的變異范圍。簡稱全距(或極差),用R 來表示。,變異全距,變異全距的計(jì)算公式:,相關(guān)概念,“以上”組距數(shù)列的上限值“以下”組距數(shù)列的下限值。,假定上限假定下限,開口式組距數(shù)列組中值的計(jì)算:,首組假定下限首組上限相鄰組組距 末組假定上限末組下限相鄰組組距,先計(jì)算開口組的假定上、下限:,因此有:,以某純系蛋雞200枚蛋重資料為例說明其整理的基本步驟和方法: 1、求全距R。 資料中,最大值為62.1g,最小值為45.3g, 則全距為62.1-45.3=16.8g 2、確定組數(shù)K。組數(shù)要適當(dāng),一般以達(dá)到既簡化資料又不影響反映資料的規(guī)律性為原則。具體可參照表1-5.本例n=200,初步確定組數(shù)為11組。,某純系蛋雞200枚蛋重 單位:g,3、確定組距i。每組最大值與最小值之差稱為組距,記為i。 本例 4、確定組限及組中值。各組的最大值與最小值稱為組限,最小值為下限,最大值為上限。組中值是該組的代表值。 第一組的組中值以接近或等于資料中的最小值為好。本例第一組的組中值取45.0(最小值45.3),則第一組的下限,第一組上限為:44.25+1.5=45.75 (第二組下限) 第二組上限為:45.75+1.5=47.25 (第三組下限) 依次類推,第三組47.25; 第四組48.75;依次分組下去,直到資料中的最大值歸入最后一組為止。 但為了避免個(gè)別數(shù)據(jù)歸組的兩面性(假如資料中有一枚重為47.25g,是將其歸入第二組,還是歸入第三組呢?),通常將每組的上限略去不寫。如第一組44.25,第二組45.75,第三組47.25 ,。 5、歸組劃線計(jì)數(shù),作次數(shù)分布表(“唱票式”)和次數(shù)分布圖。,表1-6 某純系蛋雞200枚蛋重的次數(shù)分布表,孟德爾在研究分離規(guī)律時(shí)用純種圓滑和純種皺縮的豌豆的雜交子一代進(jìn)行自交試驗(yàn),他記錄了10個(gè)植株所結(jié)種子的形態(tài),在原始記錄中,種子有兩種類型:圓滑、皺縮。 將原始記錄(443粒)按種子類型進(jìn)行分組,(三)質(zhì)量性狀資料、半定量 (等級(jí))資料的整理,表1-7 10株子一代自交后分離情況,表1-8 10株子一代自交后分離情況,表1-9 10株子一代自交后分離情況,(三)質(zhì)量性狀資料、半定量 (等級(jí))資料的整理,可按性狀或等級(jí)進(jìn)行分組,分別統(tǒng)計(jì)各組的次數(shù),然后制成次數(shù)分布表。 表1-10 子二代豬毛色分離情況,累計(jì)次數(shù)(頻率),從變量值低的組開始,將各組次數(shù)(頻率)逐次向變量值高的組累計(jì),說明某一組上限以下各組的累計(jì)次數(shù)(頻率)。,從變量值高的組開始,將各組次數(shù)(頻率)逐次向變量值低的組累計(jì),說明某一組下限以上各組的累計(jì)次數(shù)(頻率)。,某地區(qū)50個(gè)百貨商店月銷售額情況,某地區(qū)50個(gè)百貨商店月銷售額情況,某地區(qū)50個(gè)百貨商店月銷售額情況,常用統(tǒng)計(jì)表與統(tǒng)計(jì)圖,統(tǒng)計(jì)表是用表格形式來表示數(shù)量關(guān)系,使數(shù)據(jù)條理化、系統(tǒng)化,便于理解、分析和比較。 統(tǒng)計(jì)圖是用幾何圖形來表示數(shù)量關(guān)系,不同形狀的幾何圖形,可以將研究對(duì)象的特征、內(nèi)部構(gòu)成、相互關(guān)系等形象直觀地表達(dá)出來,便于分析比較。,統(tǒng)計(jì)表,(一)統(tǒng)計(jì)表的結(jié)構(gòu)和要求 統(tǒng)計(jì)表由標(biāo)題、橫標(biāo)目、縱標(biāo)目、線條、數(shù)字及合計(jì)構(gòu)成。 (二)統(tǒng)計(jì)表的種類 1. 簡單表 由一組橫標(biāo)目和一組縱標(biāo)目組成,縱橫標(biāo)目都未分組。 2. 復(fù)合表 由兩組或兩組以上的橫標(biāo)目與縱標(biāo)目結(jié)合而成, 或一組橫標(biāo)目與兩組或兩組以上的縱標(biāo)目結(jié)合而成,或兩組或組以上的橫、縱標(biāo)目結(jié)合而成。,表1-11 北京某點(diǎn)取暖期SO2濃度次數(shù)分布表,標(biāo)題,橫標(biāo)目,縱標(biāo)目,數(shù)字,合計(jì),Example,表1-4 50只小雞出殼天數(shù)的次數(shù)分布表,Example,標(biāo)題,縱標(biāo)目,數(shù)字,合計(jì),出殼天數(shù) 劃線計(jì)數(shù) 次數(shù),19 20 21 22 23 24,表1-4 50只小雞出殼天數(shù)的次數(shù)分布表,合計(jì),橫標(biāo)目,一個(gè)圖只用來顯示一種現(xiàn)象的數(shù)量特征,統(tǒng)計(jì)圖,(一)統(tǒng)計(jì)圖繪制的基本要求 (二)常用統(tǒng)計(jì)圖及其繪制方法 1.條形圖 2.直方圖 3.圓形圖 4.線圖(折線圖) 5.散點(diǎn)圖 (特別是隨著計(jì)算機(jī)技術(shù)的發(fā)展,統(tǒng)計(jì)圖的種類越來越豐富),幾種常用的統(tǒng)計(jì)圖,幾種常用的統(tǒng)計(jì)圖,一、平均數(shù)(主要介紹算術(shù)平均數(shù)Arithmetic Mean) 二、標(biāo)準(zhǔn)差(Standard Deviation) 三、變異系數(shù) (Coefficient of Variability),1.3 樣本的幾個(gè)特征數(shù),次數(shù)分布表和次數(shù)分布圖,可以形象、直觀地表示出資料的兩個(gè)特征集中性和離散性。為了更簡單、精確地描述資料的特征,本節(jié)介紹三個(gè)統(tǒng)計(jì)量:平均數(shù)、標(biāo)準(zhǔn)差和變異系數(shù)。 平均數(shù)反應(yīng)資料的集中性,標(biāo)準(zhǔn)差和變異系數(shù)反應(yīng)資料的離散性。,平均數(shù)(Mean),平均數(shù)的意義: 平均數(shù)用來描述資料的集中性,即指出資料中數(shù)據(jù)集中較多的中心位置。,平均數(shù)的作用: 平均數(shù)是資料的代表數(shù); 常用于同類性質(zhì)資料間的相互比較。 平均數(shù)的種類:其中應(yīng)用最為普遍的是算術(shù)平均數(shù),此外還有幾何平均數(shù)、中數(shù)、眾數(shù)和調(diào)和平均數(shù) 。,平均數(shù)(Mean),算術(shù)平均數(shù) (Arithmetic Mean),(一)算術(shù)平均數(shù)的定義 資料中各觀察值的總和除以觀察值的個(gè)數(shù)所得的商,稱為算術(shù)平均數(shù)。在統(tǒng)計(jì)學(xué)中,簡稱為平均數(shù)或均數(shù)。用符號(hào) 表示。,算術(shù)平均數(shù) (Arithmetic Mean),(二)計(jì)算方法 1、直接法 對(duì)樣本含量較小,未分組的資料適用。,其中,(Sigma)為總和符號(hào), 表示從第一個(gè)觀察值 x1 累加到第n個(gè)觀察值 xn ,若在意義上已明確時(shí),簡記為 。,算術(shù)平均數(shù) (Arithmetic Mean),關(guān)于總和符號(hào)的幾個(gè)性質(zhì),常數(shù)的總和等于該常數(shù)的n倍,即 代數(shù)和的總和等于總和的代數(shù)和,即 總和符號(hào)內(nèi)的常數(shù)因子可以提取到總和符號(hào)之外,即,其中C為常數(shù);注意:在后面一些章節(jié)經(jīng)常會(huì)遇到C代表一個(gè)為常量的式子,(a為常數(shù)),2、加權(quán)法,適用于已分組的資料,各組的次數(shù) fi 是權(quán)衡各組中值 xi 在資料中所占比重大小的數(shù)量,因此f被稱為是x的“權(quán)”(right),加權(quán)法也由此而得名。,xi 各組組中值; fi 各組次數(shù); k 分組數(shù)。,(三)平均數(shù)的基本性質(zhì),1、樣本各個(gè)觀察值與平均數(shù)之差的和為零,即離均差之和為零; 2、樣本各觀察值與平均數(shù)之差的平方和為最小,即離均差的平方和最小。,3、統(tǒng)計(jì)學(xué)已證明,樣本平均數(shù) 是總體平均數(shù) 的無偏估計(jì)值。 對(duì)總體而言,用 表示平均數(shù)。 無偏估計(jì):當(dāng)一個(gè)統(tǒng)計(jì)量的數(shù)學(xué)期望值等于等于相應(yīng)總體參數(shù)時(shí),稱該統(tǒng)計(jì)量為其總體參數(shù)的無偏估計(jì)。,(三)平均數(shù)的基本性質(zhì),幾何平均數(shù) (Geometric Mean),(一)定義 指n個(gè)觀察值乘積的n次方根。即,幾何平均數(shù) (Geometric Mean),(二)適用條件 主要應(yīng)用于數(shù)據(jù)呈倍數(shù)關(guān)系或不對(duì)稱分布的資料,算術(shù)平均數(shù)對(duì)這類資料的代表性差。如抗體效價(jià)(1:10,1:100,1:1000,1:10000)、增長率或生長率、動(dòng)態(tài)發(fā)展速度等。,1、應(yīng)用公式計(jì)算(實(shí)際應(yīng)用時(shí)常取對(duì)數(shù)),例如,海蝦養(yǎng)殖試驗(yàn),各旬的生長速度3.0,1.5 1.3,1.2,1.2,1.1,1.1,求海蝦的旬平均生長速度。 ,即海蝦旬平均生長速度為1.38。,幾何平均數(shù) (Geometric Mean),2、當(dāng)資料編成次數(shù)分布表時(shí),,各組組中值; 各組次數(shù);,幾何平均數(shù) (Geometric Mean),xi,fi,標(biāo)準(zhǔn)差(Standard Deviation),平均數(shù)是資料的代表數(shù),其代表性強(qiáng)弱受資料中各觀察值變異程度的影響。僅利用平均數(shù)對(duì)一個(gè)資料的統(tǒng)計(jì)特征作全面描述是不夠的,還應(yīng)引入一個(gè)能說明資料各觀察值變異程度大小的統(tǒng)計(jì)量。,用來表示資料變異程度的指標(biāo)較多,常用的有極差、標(biāo)準(zhǔn)差、變異系數(shù)、方差等,其中以方差與標(biāo)準(zhǔn)差應(yīng)用最為廣泛。,標(biāo)準(zhǔn)差(Standard Deviation),一、標(biāo)準(zhǔn)差的引入 全距(極差):只利用了資料中最大值和最小值,不能準(zhǔn)確表達(dá)資料中各個(gè)觀察值的變異程度。,標(biāo)準(zhǔn)差(Standard Deviation),一、標(biāo)準(zhǔn)差的引入 離均差 可表達(dá)觀察值偏離平均數(shù)的程度和性質(zhì),但由于離均差之和為零,因此它不能表示整個(gè)資料中所有觀察值的總偏離程度。 若用 ,使用起來又不方便,在統(tǒng)計(jì)學(xué)中未被采用。,標(biāo)準(zhǔn)差(Standard Deviation),為消除離均差的負(fù)號(hào),先將各離均差平方 ;再求離均差的平方之和(簡稱平方和,記為 SS) ,為消除樣本含量的影響以離均差的平方和除以自由度n-1。 則統(tǒng)計(jì)量 稱為均方(縮寫為MS),又稱為樣本方差,記為S2 ,即:,標(biāo)準(zhǔn)差(Standard Deviation),它不能表示整個(gè)資料中所有觀察值的總偏離程度,使用不方便,在統(tǒng)計(jì)學(xué)中未被采用,消除離均差的負(fù)號(hào),離均差的平方之和(簡稱平方和,記為SS),稱為均方(縮寫為MS),又稱為樣本方差,記為S2,標(biāo)準(zhǔn)差,相應(yīng)總體參數(shù)叫總體方差,記為2 由于樣本方差帶有原度量單位的平方單位,為將單位還原,即求樣本方差的平方根。在統(tǒng)計(jì)學(xué)上,樣本方差S2的平方根叫做標(biāo)準(zhǔn)差,記為S。 相應(yīng)總體參數(shù)叫總體標(biāo)準(zhǔn)差(),對(duì)于有限總體,,(一)直接法,(二)加權(quán)法,標(biāo)準(zhǔn)差(Standard Deviation),二、標(biāo)準(zhǔn)差的計(jì)算,變異系數(shù) (Coefficient of Variation),一、變異系數(shù)的引入 變異系數(shù)是標(biāo)準(zhǔn)差相對(duì)于平均數(shù)的百分?jǐn)?shù),記為CV。 變異系數(shù)同標(biāo)準(zhǔn)差一樣是衡量資料變異程度的統(tǒng)計(jì)量。變異系數(shù)消除了不同單位和平均數(shù)的影響,可以用來比較不同資料的相對(duì)變異程度。,變異系數(shù) (Coefficient of Variation),二、計(jì)算公式,三、特點(diǎn)和作用 (一)變異系數(shù)是一個(gè)無單位的相對(duì)數(shù),用表示; (二)變異系數(shù)同時(shí)受到平均數(shù)和標(biāo)準(zhǔn)差的影響,因此,在利用變異系數(shù)來表示資料的變異程度時(shí),最好將平均數(shù)和標(biāo)準(zhǔn)差也列出。,變異系數(shù) (Coefficient of Variation),三、特點(diǎn)和作用 (三)變異系數(shù)不受單位不同或平均數(shù)不同的影響,對(duì)于單位不同和平均數(shù)不同的資料,都可以用變異系數(shù)來比較其變異程度。,變異系數(shù) (Coefficient of Variation),三匹馬的體重:200 Kg、201 Kg、202 Kg 三只螞蟻的體重:500 mg、1000 mg、1500 mg,案例,S1=0.816 Kg S2=0.40825 g,變異系數(shù) (Coefficient of Variation), S1 S2 馬的體重的離散程度(變異程度)大于螞蟻的體重變異?,不能。其實(shí)三匹馬的體重相差不大;而螞蟻之間體重是有很大差別的。原因在于基數(shù)不同,這時(shí)不能直接用S比較。,變異系數(shù) (Coefficient of Variation),上例:,=0.816/201=0.0041,=408.25/1000=0.40825,CV1CV2 螞蟻的體重變異程度大于馬的體重的變異程度,變異系數(shù) (Coefficient of Variation),作業(yè)17/9,p18 1.2 1.12,計(jì)數(shù)資料的整理與分組基本是采用樣本變數(shù)的自然值進(jìn)行分組,每組均用一個(gè)變數(shù)值來表示。分組時(shí)可將資料中每個(gè)變數(shù)分別歸入相應(yīng)的組內(nèi),然后制成次數(shù)分布表。 例如,40只大白鼠的產(chǎn)仔數(shù)如下表所示,計(jì)數(shù)資料的整理與分組,分組,計(jì)數(shù)資料的整理與分組,分組,表1-12 40只大白鼠的產(chǎn)仔數(shù) 單位:只,產(chǎn) 仔 數(shù),3 4 5 6 7 8,表1-13 40只大白鼠繁殖力的次數(shù)分布表 單位:只,大白鼠數(shù),5 3 9 11 9 3,合計(jì),40,計(jì)量資料的整理與分組,計(jì)量資料的整理與分組是采用組距式分組法。在分組前先確定全距、組數(shù)、組距、組中值、組限等,然后將各變數(shù)的值分別歸入相應(yīng)的組內(nèi)。,分組,表1-14 100株橡膠樹膠乳產(chǎn)量表 (單位:毫升/株次),26,133,2、確定組數(shù),編制步驟:,【解】,1、求全距,取K= 10組,樣本個(gè)體數(shù)是100,查表1-5,可分為10組,本例中,k=10,則有,3、確定組距I:,確定組中值及組限,I=R/K=107/10=10.7,為分組方便起見,可以11作為組距,第一組的下限不能大于資料的最小值,而末一組的上限不能小于資料的最大值,編制次數(shù)表,數(shù)據(jù)歸組,編制次數(shù)表,數(shù)據(jù)歸組,編制次數(shù)表,數(shù)據(jù)歸組,表1-15 100株橡膠樹膠乳產(chǎn)量次數(shù)分布表 (單位:毫升/株次),第一節(jié) 概率的基本概念,一、隨機(jī)現(xiàn)象與隨機(jī)事件 二、概率的統(tǒng)計(jì)定義 三、概率的古典定義 四、概率的一般運(yùn)算,第二章 概率和概率分布,一、隨機(jī)現(xiàn)象與隨機(jī)事件,隨機(jī)現(xiàn)象與必然現(xiàn)象 事件 事件間的關(guān)系 事件的運(yùn)算,隨機(jī)事件,在客觀世界中,不斷地出現(xiàn)和發(fā)生一些事物和現(xiàn)象。這些事物和現(xiàn)象可以統(tǒng)稱為事件。時(shí)間的發(fā)生有一定的條件。 經(jīng)分析,就因果關(guān)系來看,有一類事件是在一定的條件下必然發(fā)生的(如水到0會(huì)結(jié)冰,一年會(huì)有四個(gè)季節(jié))。這種在一定的條件下必然發(fā)生的事件稱為必然事件。 另有一類事件在一定的條件下是必然不發(fā)生的(如石頭不能孵化成小雞,太陽不會(huì)從西邊出來)。這種在一定的條件下必然不發(fā)生的事件稱為不可能事件。,隨機(jī)事件,必然事件或不可能事件雖然不同,但又具有共性,即在因果關(guān)系上都具有確定性。 除了必然事件和不可能事件以外,在客觀世界中還有另外一類事件,這類事件發(fā)生的條件和事件的發(fā)生與否之間沒有確定的因果關(guān)系。這種發(fā)生的條件和發(fā)生與否之間沒有確定的因果關(guān)系的事件稱為隨機(jī)事件。,隨機(jī)事件,在長期的實(shí)踐中人們發(fā)現(xiàn),雖然對(duì)隨機(jī)事件作一兩次或少數(shù)幾次觀察,隨機(jī)事件的發(fā)生與否沒有什么規(guī)律,但如果進(jìn)行大量的觀察或試驗(yàn),又可以發(fā)現(xiàn)隨機(jī)事件具有一定的規(guī)律性。,隨機(jī)事件,比如一枚硬幣,投擲一次或幾次的時(shí)候看不出什么規(guī)律,但是在同樣的條件下反復(fù)多次進(jìn)行試驗(yàn),把硬幣投擲成千上萬次,就會(huì)發(fā)現(xiàn)硬幣落地時(shí)正面朝上和反面朝上的次數(shù)大致是相等的。,隨機(jī)現(xiàn)象與必然現(xiàn)象,所謂隨機(jī)現(xiàn)象,就是在基本條件不變的情況下,各次實(shí)驗(yàn)或觀察會(huì)得到不同的結(jié)果的現(xiàn)象,而且這一結(jié)果是不能準(zhǔn)確預(yù)料的。 例:血球計(jì)數(shù),昆蟲密度調(diào)查,某一時(shí)刻車間中開動(dòng)的車床數(shù),優(yōu)秀選手射擊彈著分布,抽樣時(shí)某一樣品合格與否等等。,隨機(jī)現(xiàn)象與必然現(xiàn)象,必然現(xiàn)象則是指在一定條件下必然會(huì)發(fā)生的現(xiàn)象。 例:早晨太陽從東方升起,水向低處流,萬有引力,標(biāo)準(zhǔn)大氣壓,純水100沸騰等等。,事件,隨機(jī)事件 樣本空間(定義:在一組固定的條件下所進(jìn)行的試驗(yàn)或觀察, 其可能出現(xiàn)的結(jié)果稱為樣本點(diǎn),一般用表示。全體樣本點(diǎn)的所構(gòu)成的集合稱為樣本空間,一般用表示。 ) 基本事件 必然事件 不可能事件,例:有10只小白鼠,其中雌雄各半。現(xiàn)從中抽取兩只(放回式抽樣):則有,事件,是雄性的情況:,0只,1只,2只,基本事件,基本事件,基本事件,事件,至少1只雄性的情況:,1只,2只,基本事件,基本事件,事件,例:有10只小白鼠,其中雌雄各半?,F(xiàn)從中抽取兩只(放回式抽樣):則有,事件,包括02只雄性的情況:,必然事件,包括3只雄性的情況:,不可能事件,事件間關(guān)系,設(shè)A、B均為事件,則它們可能有以下關(guān)系: 包含事件:若A發(fā)生,則B必然發(fā)生,此時(shí)稱A包含于B,或B包含A。記為:A B,或B A。 例:正正 兩幣相同 相等事件:若A B,且B A,則稱A與B相等,記為A=B。 例:反反=正面不出現(xiàn) 對(duì)立事件:由所有不包含在A中的樣本點(diǎn)所組成的事件稱為A的逆事件,或A的對(duì)立事件,記為 。(也可稱為“非A”) 例: =正反,反正=兩幣不同,Venn圖:用圖解的方法表示集合間的關(guān)系。如:,A,B,相離 相交 包含,事件間關(guān)系,事件的運(yùn)算,事件的和 事件的交 互不相容事件,已知事件A,B,我們可以通過它們構(gòu)成一些新的事件: 交:同時(shí)屬于A及B的樣本點(diǎn)的集合。記為:AB或AB,此時(shí)A與B同時(shí)發(fā)生。 和(并):至少屬于A或B中一個(gè)的全體樣本點(diǎn)的集合,記為AB。此時(shí)可能A,B都發(fā)生,也可能只發(fā)生一個(gè)。 互不相容:若AB=,則稱A與B互不相容。樣本點(diǎn)一定是互不相容的。,事件的運(yùn)算,事件的運(yùn)算,運(yùn)算規(guī)律: (1)交換律:AB=BA,AB=BA (2)結(jié)合律: (AB)C=A(BC) (AB)C=A(BC) (3)分配律: (AB)C=(AC)(BC) (AB)C=(AC)(BC),事件的運(yùn)算,例:A、B、C是三個(gè)事件,請(qǐng)用運(yùn)算式表示下列事件: (1)A發(fā)生,B與C不發(fā)生: (2)A與B都發(fā)生而C不發(fā)生: (3)至少發(fā)生一個(gè): (4)恰好發(fā)生一個(gè): (5)恰好發(fā)生二個(gè):,事件的運(yùn)算,例:A、B、C是三個(gè)事件,請(qǐng)用運(yùn)算式表示下列事件: (1) (2) (3)A B C (4) (5),事件的運(yùn)算,概率,在數(shù)學(xué)中有兩個(gè)分支,即概率論和數(shù)理統(tǒng)計(jì)。研究隨機(jī)事件統(tǒng)計(jì)規(guī)律的學(xué)科稱為概率論。由隨機(jī)現(xiàn)象的一部分實(shí)測資料研究和推求隨機(jī)事件全體的規(guī)律的學(xué)科稱為數(shù)理統(tǒng)計(jì)。 概率是表示統(tǒng)計(jì)規(guī)律的方式。用概率可以表示和度量在一定條件下隨機(jī)事件出現(xiàn)或發(fā)生的可能性。 針對(duì)不同的情況,概率有不同的定義。 按照數(shù)理統(tǒng)計(jì)的觀點(diǎn),事物和現(xiàn)象都可以看為是試驗(yàn)的結(jié)果。,二、概率的統(tǒng)計(jì)定義,概率的統(tǒng)計(jì)定義如下:在一組不變的條件下,重復(fù)作k次試驗(yàn),記l是事件A發(fā)生的次數(shù),當(dāng)試驗(yàn)次數(shù)很大時(shí),如果頻率l/k穩(wěn)定地在某一數(shù)值p的附近擺動(dòng),而且一般說來隨著試驗(yàn)次數(shù)的增多,這種擺動(dòng)的幅度愈變愈小,則稱A為隨機(jī)事件,并稱數(shù)值p為隨機(jī)事件A的概率,記作P(A)= p,二、概率的統(tǒng)計(jì)定義,1、不恒定性:k, l, 2、穩(wěn)定性:P= 概率 3、性質(zhì):p23,三、概率的古典定義,從17世紀(jì)中葉,人們就開始研究隨機(jī)現(xiàn)象,當(dāng)時(shí)這種興趣或需要主要是由賭博引起的,因此人們首先注意的是這樣一類隨機(jī)事件:它們只有有限個(gè)可能的結(jié)果,即只有有限個(gè)樣本點(diǎn),同時(shí)這些樣本點(diǎn)出現(xiàn)的可能性相等。這樣的概率空間稱為古典概型。由于樣本點(diǎn)是等可能的,很自然地,人們就把事件A的概率定義為A所包含的樣本點(diǎn)數(shù)與樣本點(diǎn)總數(shù)的比值,即,例:五個(gè)身高不同的人,隨機(jī)站成一排,問恰好是按身高順序排列的可能性有多大?,三、概率的古典定義,解:五個(gè)人隨機(jī)排列,則排法共有5!種。有利場合則為從高到矮,或從矮到高,共兩種。因此所求概率為:,例:有一組小白鼠共20只,其中8只雄,12雌。現(xiàn)從中任取5只,問其中有2只是雄,3只是雌的概率是多少?,四、概率的一般運(yùn)算,解:,四、概率的一般運(yùn)算,概率加法 條件概率 乘法公式 獨(dú)立事件 貝葉斯(Bayes)公式(或稱逆概公式),四、概率的一般運(yùn)算,概率加法 定理:對(duì)任意事件A、B, P(AUB)= P(A)+P(B)P(AB),四、概率的一般運(yùn)算,概率加法 例:在人口調(diào)查中發(fā)現(xiàn),10歲以下人口(A1)占該地區(qū)人口的30%,1120歲(A2)占20%;2130歲(A3)占20%; 3140歲(A4)占10%;4150歲(A5)占10%;51歲以上(A6)占10%。問任意抽取1人,他是20歲以下的概率是多少?,解:事件A1A6是互不相容事件,故 P(A1A2)= P(A1)+P(A2) =0.30+0.20=0.50,四、概率的一般運(yùn)算,條件概率 定義:若A,B為兩個(gè)事件, 且P(B)0,則記,稱為事件B發(fā)生的條件下事件A發(fā)生的概率。,四、概率的一般運(yùn)算,條件概率 假定男女孩出生率相同,設(shè)A為二個(gè)孩子家庭有一男孩一女孩這一事件,求P(A)。,解:顯然=(男男),(男女),(女男),(女女) ,四、概率的一般運(yùn)算,條件概率 這里要特別注意的是不能認(rèn)為樣本空間只有如下三個(gè)樣本點(diǎn):(兩男),(兩女),(一男一女)。上述三個(gè)樣本點(diǎn)不是等可能的。這是因?yàn)閷?duì)(兩男)與(兩女)來說,沒有順序問題,交換順序后仍是兩男或兩女;但對(duì)一男一女來說就不同了,它實(shí)際上是由兄妹與姐弟兩個(gè)樣本點(diǎn)組成。因此只有采用(兄弟),(兄妹),(姐弟),(姐妹)四個(gè)樣本點(diǎn)才能構(gòu)成古典概型的樣本空間,只有這樣才能保證等可能性,而等可能性正是古典概型計(jì)算公式的基礎(chǔ)。,四、概率的一般運(yùn)算,條件概率 若已知該家庭至少有一女孩,則有一男一女的概率為多大?,解:設(shè)B為至少有一女孩,當(dāng)B發(fā)生時(shí),樣本點(diǎn)只剩三個(gè):(男女),(女男),(女女)。,四、概率的一般運(yùn)算,乘法公式 乘法定理:,四、概率的一般運(yùn)算,乘法公式 例:從一副撲克牌中連續(xù)抽取2張,問2張都是紅方塊的概率是多少?,事件B為第二張是紅方塊,P(B/A)= =,=,四、概率的一般運(yùn)算,獨(dú)立事件 對(duì)任意事件A和B,若P(AB)=P(A)P(B), 則稱A,B是獨(dú)立的。 B的發(fā)生對(duì)A沒有任何影響,也沒有提供任何消息,反之也一樣。,四、概率的一般運(yùn)算,獨(dú)立事件 例:在某地區(qū)中學(xué)生中,女生占40%,患近視眼的占5%。從該地區(qū)學(xué)生中任取一人,則求其既是女生又是患近視眼的P。,解:A女生;B近視;A、B是獨(dú)立事件 P(AB)=P(A)P(B)=0.40.05=0.02,5)貝葉斯公式,設(shè)A1,A2,An是兩兩互斥的事件,且P(Ai)0,i=1,2,n, 另有一事件B,它總是與A1,A2,An 之一同時(shí)發(fā)生,則,貝葉斯,Thomas Bayes,該公式于1763年由貝葉斯(Bayes)給出. 它是在觀察到事件B已發(fā)生的條件下,尋找導(dǎo)致B發(fā)生的每個(gè)原因的概率.,貝葉斯公式有著十分廣泛的用途,它之所以被稱為逆概公式,是因?yàn)樗鼘?shí)際是在知道結(jié)果的情況下來推斷原因:A1,A2,An,是可能導(dǎo)致B出現(xiàn)的原因。P(Ai)是各種原因出現(xiàn)的可能性大小,一般是過去經(jīng)驗(yàn)的總結(jié),稱為先驗(yàn)概率。若現(xiàn)在已知B出現(xiàn)了,我們要求它是由哪個(gè)原因引起的概率,這就是 ,稱為后驗(yàn)概率。它反映了試驗(yàn)之后對(duì)原因發(fā)生可能性大小的新知識(shí)。例如醫(yī)生診斷病人所患何?。ˋ1,A2,An,中的某一個(gè)),他確定某種癥狀B(如體溫,某種化驗(yàn)指標(biāo)等等)出現(xiàn),現(xiàn)在實(shí)際就是求 ,通過比較它們的大小就可對(duì)疾病作出診斷。此時(shí)貝葉斯公式顯然是很有用的。,貝葉斯公式在實(shí)際中有很多應(yīng)用,它可以幫助人們確定某結(jié)果(事件 B)發(fā)生的最可能原因.,例 某一地區(qū)患有癌癥的人占0.005,患者對(duì)一種試驗(yàn)反應(yīng)是陽性的概率為0.95,正常人對(duì)這種試驗(yàn)反應(yīng)是陽性的概率為0.04,現(xiàn)抽查了一個(gè)人,試驗(yàn)反應(yīng)是陽性,問此人是癌癥患者的概率有多大?,則 表示“抽查的人不患癌癥”.,求解如下:,設(shè) A=抽查的人患有癌癥, B=試驗(yàn)結(jié)果是陽性,,求P(A|B).,已知 P(A)=0.005,P( )=0.995, P(B|A)=0.95, P(B| )=0.04,現(xiàn)在來分析一下結(jié)果的意義.,由貝葉斯公式,可得,代入數(shù)據(jù)計(jì)算得: P(A|B)= 0.1066,2. 檢出陽性是否一定患有癌癥?,1. 這種試驗(yàn)對(duì)于診斷一個(gè)人是否患有癌癥 有無意義?,如果不做試驗(yàn),抽查一人,他是患者的概率 P(A)=0.005,患者陽性反應(yīng)的概率是0.95,若試驗(yàn)后得陽性反應(yīng),則根據(jù)試驗(yàn)得來的信息,此人是患者的概率為 P(AB)= 0.1066,說明這種試驗(yàn)對(duì)于診斷一個(gè)人是否患有癌癥有意義.,從0.005增加到0.1066,將近增加約21倍.,1. 這種試驗(yàn)對(duì)于診斷一個(gè)人是否患有癌癥 有無意義?,2. 檢出陽性是否一定患有癌癥?,試驗(yàn)結(jié)果為陽性,此人確患癌癥的概率為 P(AB)=0.1066,即使你檢出陽性,尚可不必過早下結(jié)論你有癌癥,這種可能性只有10.66% (平均來說,1000個(gè)人中大約只有107人確患癌癥),此時(shí)醫(yī)生常要通過再試驗(yàn)來確認(rèn).,下面我們?cè)倩剡^頭來看一下貝葉斯公式,貝葉斯公式,在貝葉斯公式中,P(Ai)和P(Ai |B)分別稱為 原因的先驗(yàn)概率和后驗(yàn)概率.,P(Ai)(i=1,2,n)是在沒有進(jìn)一步信息(不知道事件B是否發(fā)生)的情況下,人們對(duì)諸事件發(fā)生可能性大小的認(rèn)識(shí).,當(dāng)有了新的信息(知道B發(fā)生),人們對(duì)諸事件發(fā)生可能性大小P(Ai | B)有了新的估計(jì).,例 某醫(yī)院對(duì)某種疾病有一種看起來很有效的檢驗(yàn)方法,97%的患者檢驗(yàn)結(jié)果為陽性,95%的未患病者檢驗(yàn)結(jié)果為陰性,設(shè)該病的發(fā)病率為0.4%現(xiàn)有某人的檢驗(yàn)結(jié)果為陽性,問他確實(shí)患病的概率是多少?,得到,由貝葉斯公式得,解 記B為檢驗(yàn)結(jié)果是陽性,則 為檢驗(yàn)結(jié)果是陰性,A表示患有該病,則 為未患該病由題意,(1) 條件概率,全概率公式,貝葉斯公式,小結(jié),乘法定理,第二節(jié) 概率分布,2.2.1 隨機(jī)變量 2.2.2 離散型概率分布 2.2.3 連續(xù)型概率分布 2.2.4 概率分布與頻數(shù)分布的關(guān)系,概率分布及其特征,具有多種可能結(jié)果的現(xiàn)象稱為隨機(jī)現(xiàn)象,隨機(jī)現(xiàn)象的每一可能結(jié)果即是一個(gè)隨機(jī)事件,換句話說,隨機(jī)變量的每一可能取值都是一個(gè)隨機(jī)事件。 概率是度量隨機(jī)事件出現(xiàn)或發(fā)生的可能性大小的一種尺度。 概率分布由隨機(jī)變量的取值(x)及其相應(yīng)的P(x)概率構(gòu)成。,2.2.1 隨機(jī)變量,根據(jù)概率不同而取不同數(shù)值的變量稱為隨機(jī)變量(Random Variable)。 注意: (1)一個(gè)隨機(jī)變量具有下列特性:RV可以取許多不同的數(shù)值,取這些數(shù)值的概率為p,p滿足:0p1。 (2)隨機(jī)變量以一定的概率取到各種可能值,按其取值情況隨機(jī)變量可分為兩類:離散型隨機(jī)變量和連續(xù)型隨機(jī)變量。離散型隨機(jī)變量的取值最多可列多個(gè);連續(xù)型隨機(jī)變量的取值充滿整個(gè)數(shù)軸或者某個(gè)區(qū)間。 (3)本書中,隨機(jī)變量用x、y、等符號(hào)表示,直觀上看,所謂隨機(jī)變量,就是我們?cè)陔S機(jī)實(shí)驗(yàn)中測定的量。例如觀察10只新生動(dòng)物的性別,并計(jì)算其中雄性動(dòng)物的數(shù)量X,顯然X可能取值為0,1,10;但究竟取值為幾,只能在實(shí)驗(yàn)結(jié)束時(shí)才知道。象這樣在實(shí)驗(yàn)中所得到的取值有隨機(jī)性的量,就稱為隨機(jī)變量。隨機(jī)變量的特點(diǎn)就是當(dāng)實(shí)驗(yàn)條件一定時(shí),實(shí)驗(yàn)結(jié)果仍不確定。,2.2.1 隨機(jī)變量,上面所舉的例子是離散型的隨機(jī)變量,因?yàn)樗挥杏邢迋€(gè)或可列個(gè)可能的取值。另外還有一大類隨機(jī)變量,它們的取值是在某個(gè)區(qū)間中連續(xù)變化的,例如人的身高,體重,胸圍象這樣的隨機(jī)變量稱為連續(xù)型隨機(jī)變量。,2.2.1 隨機(jī)變量,離散型隨機(jī)變量與連續(xù)型隨機(jī)變量,10 20 30 40 50,1.0,概率,概率,x,x,1.0,離散型隨機(jī)變量,連續(xù)型隨機(jī)變量,隨機(jī)變量的取值是有隨機(jī)性的,我們事先無法知道,但它的取值也是有規(guī)律性可循的,這種規(guī)律性就表現(xiàn)在各個(gè)值出現(xiàn)的頻率上。,隨機(jī)變量函數(shù)的概念和分布,P(X=x)=p(x); P稱為概率函數(shù) 顯然概率函數(shù)應(yīng)滿足:對(duì)任意可能結(jié)果x,有 p(x)0, 且,對(duì)于連續(xù)型隨機(jī)變量來說,它的可能取值是不可列的,實(shí)際上它取到某一個(gè)確定值的可能性都為0,稱f(x)為隨機(jī)變量X的密度函數(shù),顯然應(yīng)有f(x)0,,隨機(jī)變量函數(shù)的概念和分布,隨機(jī)變量函數(shù)的概念和分布,按隨機(jī)變量取值的特點(diǎn),概率分布可分為離散型隨機(jī)變量的概率分布和連續(xù)型隨機(jī)變量的概率分布。,設(shè)X為一隨機(jī)變量,稱函數(shù) F(x) = P(Xx) (-x+)為X的分布函數(shù)。 這個(gè)定義適用于離散型隨機(jī)變量,也適用于連續(xù)型隨機(jī)變量。 連續(xù)型分布函數(shù)也可表示為密度函數(shù)的積分:,顯然有:,隨機(jī)變量函數(shù)的概念和分布,2.2.2 離散型概率分布,P(X=xi) = p(xi), i=1,2,3, p(xi), i=1,2,3,稱為隨機(jī)變量X的概率分布,通常用下面的形式表示離散型隨機(jī)變量X的概率分布:,分布函數(shù)為: F(x)=P(Xx)=,2.2.3 連續(xù)型概率分布,連續(xù)型隨機(jī)變量X可取某個(gè)區(qū)間c, d或(,)中的一切值,且存在可積函數(shù)f (x),使 , f(x) 稱為X的密度函數(shù),F(xiàn)(x) 稱為X的分布函數(shù)。顯然,頻率與概率都是一個(gè)居于0和1之間的數(shù)。 頻率是相對(duì)于樣本而言,而概率則是相對(duì)于總體而言。因此可以說概率是頻率的理論值,頻率是概率的試驗(yàn)值或估計(jì)值。 頻率分布是一種觀察分布,而概率分布則是一種理論分布。,2.2.4 概率分布與頻數(shù)分布的關(guān)系,2.2.4 概率分布與頻數(shù)分布的關(guān)系,設(shè)(x1,x2,xn)為一組樣本觀察值,函數(shù)f( x1,x2,xn )若不含有未知參數(shù),則稱為統(tǒng)計(jì)量。 統(tǒng)計(jì)量一般是連續(xù)函數(shù)。由于樣本是隨機(jī)變量,因而它的函數(shù)也是隨機(jī)變量,所以,統(tǒng)計(jì)量也是隨機(jī)變量。 統(tǒng)計(jì)量一般用它來提取或壓榨由樣本帶來的總體信息。,2.2.4 概率分布與頻數(shù)分布的關(guān)系,總體的數(shù)字特征是一個(gè)固定不變的數(shù),稱為參數(shù); 樣本的數(shù)字特征是隨抽樣而變化的數(shù),是一個(gè)隨機(jī)變量,稱為統(tǒng)計(jì)量。,第三節(jié) 總體特征數(shù),一、數(shù)學(xué)期望 二、方差 三、數(shù)學(xué)期望與方差的圖示,研究數(shù)字特征的必要性 兩個(gè)最重要的數(shù)字特征 (1)數(shù)學(xué)期望 (2)方差,一、數(shù)學(xué)期望,研究數(shù)字特征的必要性,總體就是一個(gè)隨機(jī)變量。對(duì)總體的描述就是對(duì)隨機(jī)變量的描述。隨機(jī)變量的分布就是對(duì)隨機(jī)變量最完整的描述。但是, (1)求出總體的分布往往不是一件容易的事情; (2)而且,在很多情況下,我們并不需要全面考察隨機(jī)變量的變化情況,只需要了解總體的一些綜合指標(biāo)。一般說來,常常需要了解總體的一般水平和它的離散程度; (3)如果了解總體的一般水平和離散程度,就已經(jīng)對(duì)總體有了粗略的了解了; (4)在很多情況下,了解這兩個(gè)數(shù)字特征還是深入求出總體分布的基礎(chǔ)和關(guān)鍵。 由此看來,研究隨機(jī)變量的數(shù)字特征是十分必要的。,數(shù)學(xué)期望的定義,定義2.1離散型隨機(jī)變量數(shù)學(xué)期望的定義 假定有一個(gè)離散型隨機(jī)變量X有n個(gè)不同的可能取值x1,x2,xn,而p1,p2,pn是X取這些值相應(yīng)的概率,則這個(gè)隨機(jī)變量X的數(shù)學(xué)期望定義如下: 數(shù)學(xué)期望描述的是隨機(jī)變量(總體)的一般水平。 定義2.2連續(xù)型隨機(jī)變量數(shù)學(xué)期望的定義,女兒期待父親釣多少魚回家?,數(shù)學(xué)期望是最容易發(fā)生的,因而是可以期待的。它反映數(shù)據(jù)集中的趨勢。,數(shù)學(xué)期望的性質(zhì),(1)如果a、b為常數(shù),則 E(aX+b)=aE(X)+b (2)如果X、Y為兩個(gè)隨機(jī)變量,則 E(X+Y)=E(X)+E(Y) (3)如果g(x)和f(x)分別為X的兩個(gè)函數(shù),則 Eg(X)+f(X)=Eg(X)+Ef(X) (4)如果X、Y是兩個(gè)獨(dú)立的隨機(jī)變量,則 E(X.Y)=E(X).E(Y),求離散型隨機(jī)變量數(shù)學(xué)期望舉例,
展開閱讀全文