數(shù)學(xué):第三章《統(tǒng)計(jì)案例》教案(1)(新人教A版選修2-3)
《數(shù)學(xué):第三章《統(tǒng)計(jì)案例》教案(1)(新人教A版選修2-3)》由會員分享,可在線閱讀,更多相關(guān)《數(shù)學(xué):第三章《統(tǒng)計(jì)案例》教案(1)(新人教A版選修2-3)(22頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
第三章 統(tǒng)計(jì)案例 3.1回歸分析的基本思想及其初步應(yīng)用 (共計(jì)4課時(shí)) 授課類型:新授課 一、教學(xué)內(nèi)容與教學(xué)對象分析 學(xué)生將在必修課程學(xué)習(xí)統(tǒng)計(jì)的基礎(chǔ)上,通過對典型案例的討論,了解和使用一些常用的統(tǒng)計(jì)方法,進(jìn)一步體會運(yùn)用統(tǒng)計(jì)方法解決實(shí)際問題的基本思想,認(rèn)識統(tǒng)計(jì)方法在決策中的作用。 二、學(xué)習(xí)目標(biāo) 1、知識與技能 通過本節(jié)的學(xué)習(xí),了解回歸分析的基本思想,會對兩個(gè)變量進(jìn)行回歸分析,明確建立回歸模型的基本步驟,并對具體問題進(jìn)行回歸分析,解決實(shí)際應(yīng)用問題。 2、過程與方法 本節(jié)的學(xué)習(xí),應(yīng)該讓學(xué)生通過實(shí)際問題去理解回歸分析的必要性,明確回歸分析的基本思想,從散點(diǎn)圖中點(diǎn)的分布上我們發(fā)現(xiàn)直接求回歸直線方程存在明顯的不足,從中引導(dǎo)學(xué)生去發(fā)現(xiàn)解決問題的新思路—進(jìn)行回歸分析,進(jìn)而介紹殘差分析的方法和利用R的平方來表示解釋變量對于預(yù)報(bào)變量變化的貢獻(xiàn)率,從中選擇較為合理的回歸方程,最后是建立回歸模型基本步驟。 3、情感、態(tài)度與價(jià)值觀 通過本節(jié)課的學(xué)習(xí),首先讓顯示了解回歸分析的必要性和回歸分析的基本思想,明確回歸分析的基本方法和基本步驟,培養(yǎng)我們利用整體的觀點(diǎn)和互相聯(lián)系的觀點(diǎn),來分析問題,進(jìn)一步加強(qiáng)數(shù)學(xué)的應(yīng)用意識,培養(yǎng)學(xué)生學(xué)好數(shù)學(xué)、用好數(shù)學(xué)的信心。加強(qiáng)與現(xiàn)實(shí)生活的聯(lián)系,以科學(xué)的態(tài)度評價(jià)兩個(gè)變量的相關(guān)系。教學(xué)中適當(dāng)?shù)卦黾訉W(xué)生合作與交流的機(jī)會,多從實(shí)際生活中找出例子,使學(xué)生在學(xué)習(xí)的同時(shí)。體會與他人合作的重要性,理解處理問題的方法與結(jié)論的聯(lián)系,形成實(shí)事求是的嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度和鍥而不舍的求學(xué)精神。培養(yǎng)學(xué)生運(yùn)用所學(xué)知識,解決實(shí)際問題的能力。 三、教學(xué)重點(diǎn)、難點(diǎn) 教學(xué)重點(diǎn):熟練掌握回歸分析的步驟;各相關(guān)指數(shù)、建立回歸模型的步驟;通過探究使學(xué)生體會有些非線性模型通過變換可以轉(zhuǎn)化為線性回歸模型,了解在解決實(shí)際問題的過程中尋找更好的模型的方法。 教學(xué)難點(diǎn):求回歸系數(shù) a , b ;相關(guān)指數(shù)的計(jì)算、殘差分析;了解常用函數(shù)的圖象特點(diǎn),選擇不同的模型建模,并通過比較相關(guān)指數(shù)對不同的模型進(jìn)行比較。 四、教學(xué)策略: 教學(xué)方法:誘思探究教學(xué)法 學(xué)習(xí)方法:自主探究、觀察發(fā)現(xiàn)、合作交流、歸納總結(jié)。 教學(xué)手段:多媒體輔助教學(xué) 五、教學(xué)過程: (一)、復(fù)習(xí)引入:回歸分析是對具有相關(guān)關(guān)系的兩個(gè)變量進(jìn)行統(tǒng)計(jì)分析的一種常用方法。 (二)、新課: 探究:對于一組具有線性相關(guān)關(guān)系的數(shù)據(jù): () , () ,…, (), 我們知道其回歸方程的截距和斜率的最小二乘估計(jì)公式分別為: (1) (2) 其中,()成為樣本點(diǎn)的中心. 注:回歸直線過樣本中心. 你能推導(dǎo)出這兩個(gè)計(jì)算公式嗎? 從我們已經(jīng)學(xué)過的知識知道,截距和斜率分別是使 取到最小值時(shí)的值. 由于 注意到 . 在上式中,后兩項(xiàng)和無關(guān),而前兩項(xiàng)為非負(fù)數(shù),因此要使Q取得最小值,當(dāng)且僅當(dāng)前兩項(xiàng)的值均為0,即有 這正是我們所要推導(dǎo)的公式. 下面我們從另一個(gè)角度來推導(dǎo)的公式. 人教A版選修2-2P37習(xí)題1.4A組第4題: 用測量工具測量某物體的長度,由于工具的精度以及測量技術(shù)的原因,測得n個(gè)數(shù)據(jù) . 證明:用這個(gè)數(shù)據(jù)的平均值 表示這個(gè)物體的長度,能使這n個(gè)數(shù)據(jù)的方差 最?。? 思考:這個(gè)結(jié)果說明了什么?通過這個(gè)問題,你能說明最小二乘法的基本原理嗎? 證明:由于,所以 , 令, 得。 可以得到, 是函數(shù)的極小值點(diǎn),也是最小值點(diǎn). 這個(gè)結(jié)果說明,用n個(gè)數(shù)據(jù)的平均值表示這個(gè)物體的長度是合理的,這就是最小二乘法的基本原理. 由最小二乘法的基本原理即得 定理 設(shè),,則 (*) 當(dāng)且僅當(dāng)時(shí)取等號. (*)式說明, 是任何一個(gè)實(shí)數(shù)與的差的平方的平均數(shù)中最小的數(shù).從而說明了方差具有最小性,也即定義標(biāo)準(zhǔn)差的合理性. 下面借助(*)式求的最小值. , 由(*)式知, 當(dāng)且僅當(dāng),且時(shí), 達(dá)到最小值 . 由此得到,其中是回歸直線的斜率,是截距. 借助和配方法,我們給出了人教A版必修3的第二章統(tǒng)計(jì)第三節(jié)變量間的相關(guān)關(guān)系中回歸直線方程的一個(gè)合理的解釋 1、回歸分析的基本步驟: (1) 畫出兩個(gè)變量的散點(diǎn)圖. (2) 求回歸直線方程. (3) 用回歸直線方程進(jìn)行預(yù)報(bào). 下面我們通過案例,進(jìn)一步學(xué)習(xí)回歸分析的基本思想及其應(yīng)用 2、舉例: 例1. 從某大學(xué)中隨機(jī)選取 8 名女大學(xué)生,其身高和體重?cái)?shù)據(jù)如表 編號 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 體重/kg 48 57 50 54 64 61 43 59 求根據(jù)女大學(xué)生的身高預(yù)報(bào)體重的回歸方程,并預(yù)報(bào)一名身高為 172 cm 的女大學(xué)生的體重. 解:由于問題中要求根據(jù)身高預(yù)報(bào)體重,因此選取身高為自變量 x ,體重為因變量 y . 作散點(diǎn)圖(圖3 . 1 一 1) 從圖3. 1一1 中可以看出,樣本點(diǎn)呈條狀分布,身高和體重有比較好的線性相關(guān)關(guān)系,因此可以用線性回歸方程來近似刻畫它們之間的關(guān)系 根據(jù)探究中的公式(1)和(2 ) ,可以得到. 于是得到回歸方程 . 因此,對于身高172 cm 的女大學(xué)生,由回歸方程可以預(yù)報(bào)其體重為 ( kg ) . 是斜率的估計(jì)值,說明身高 x 每增加1個(gè)單位時(shí),體重y就增加0.849 位,這表明體重與身高具有正的線性相關(guān)關(guān)系.如何描述它們之間線性相關(guān)關(guān)系的強(qiáng)弱? 在必修 3 中,我們介紹了用相關(guān)系數(shù);來衡量兩個(gè)變量之間線性相關(guān)關(guān)系的方法本相關(guān)系數(shù)的具體計(jì)算公式為 當(dāng)r>0時(shí),表明兩個(gè)變量正相關(guān);當(dāng)r<0時(shí),表明兩個(gè)變量負(fù)相關(guān).r的絕對值越接近1,表明兩個(gè)變量的線性相關(guān)性越強(qiáng);r的絕對值接近于0時(shí),表明兩個(gè)變量之間幾乎不存在線性相關(guān)關(guān)系.通常,當(dāng)r的絕對值大于0. 75 時(shí)認(rèn)為兩個(gè)變量有很強(qiáng)的線性相關(guān)關(guān)系 在本例中,可以計(jì)算出r =0. 798.這表明體重與身高有很強(qiáng)的線性相關(guān)關(guān)系,從而也表明我們建立的回歸模型是有意義的 顯然,身高172cm 的女大學(xué)生的體重不一定是60. 316 kg,但一般可以認(rèn)為她的體重接近于60 . 316 kg .圖3 . 1 一 2 中的樣本點(diǎn)和回歸直線的相互位置說明了這一點(diǎn) 由于所有的樣本點(diǎn)不共線,而只是散布在某一條直線的附近,所以身高和體重的關(guān)系可用下面的線性回歸模型來表示: , ( 3 ) 這里 a 和 b 為模型的未知參數(shù),e是 y 與之間的誤差.通常e為隨機(jī)變量,稱為隨機(jī)誤差,它的均值 E (e)=0,方差D(e)=>0 .這樣線性回歸模型的完整表達(dá)式為: (4) 在線性回歸模型(4)中,隨機(jī)誤差e的方差護(hù)越小,通過回歸直線 (5) 預(yù)報(bào)真實(shí)值y的精度越高.隨機(jī)誤差是引起預(yù)報(bào)值與真實(shí)值 y 之間的誤差的原因之一,大小取決于隨機(jī)誤差的方差. 另一方面,由于公式(1)和(2)中 和為截距和斜率的估計(jì)值,它們與真實(shí)值a和b之間也存在誤差,這種誤差是引起預(yù)報(bào)值與真實(shí)值y之間誤差的另一個(gè)原因. 思考:產(chǎn)生隨機(jī)誤差項(xiàng)e的原因是什么? 一個(gè)人的體重值除了受身高的影響外,還受許多其他因素的影響.例如飲食習(xí)慣、是否喜歡運(yùn)動、度量誤差等.事實(shí)上,我們無法知道身高和體重之間的確切關(guān)系是什么,這里只是利用線性回歸方程來近似這種關(guān)系.這種近似以及上面提到的影響因素都是產(chǎn)生隨機(jī)誤差 e 的原因. 因?yàn)殡S機(jī)誤差是隨機(jī)變量,所以可以通過這個(gè)隨機(jī)變量的數(shù)字特征來刻畫它的一些總體特征.均值是反映隨機(jī)變量取值平均水平的數(shù)字特征,方差是反映隨機(jī)變量集中于均值程度的數(shù)字特征,而隨機(jī)誤差的均值為0,因此可以用方差來衡量隨機(jī)誤差的大小. 為了衡量預(yù)報(bào)的精度,需要估計(jì)護(hù)的值.一個(gè)自然的想法是通過樣本方差來估計(jì)總體方差.如何得到隨機(jī)變量的樣本呢?由于模型(3)或(4)中的隱含在預(yù)報(bào)變量 y 中,我們無法精確地把它從 y 中分離出來,因此也就無法得到隨機(jī)變量的樣本. 解決問題的途徑是通過樣本的估計(jì)值來估計(jì).根據(jù)截距和斜率的估計(jì)公式(1)和(2 ) , 可以建立回歸方程 , 因此是(5)中的估計(jì)量.由于隨機(jī)誤差,所以是的估計(jì)量.對于樣本點(diǎn)() , () ,…, () 而言,相應(yīng)于它們的隨機(jī)誤差為 , 其估計(jì)值為 , 稱為相應(yīng)于點(diǎn)的殘差(residual ).類比樣本方差估計(jì)總體方差的思想,可以用 作為的估計(jì)量, 其中和由公式(1) (2)給出,Q( ,)稱為殘差平方和(residual sum of squares ).可以用衡量回歸方程的預(yù)報(bào)精度.通常,越小,預(yù)報(bào)精度越高. 在研究兩個(gè)變量間的關(guān)系時(shí),首先要根據(jù)散點(diǎn)圖來粗略判斷它們是否線性相關(guān),是否可以用線性回歸模型來擬合數(shù)據(jù)然后,可以通過殘差 來判斷模型擬合的效果,判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù).這方面的分析工作稱為殘差分析.表3一 2 列出了女大學(xué)生身高和體重的原始數(shù)據(jù)以及相應(yīng)的殘差數(shù)據(jù)。 編號 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 體重/kg 48 57 50 54 64 61 43 59 殘差 -6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382 我們可以利用圖形來分析殘差特性作圖時(shí)縱坐標(biāo)為殘差,橫坐標(biāo)可以選為樣本編號,或身高數(shù)據(jù),或體重的估計(jì)值等,這樣作出的圖形稱為殘差圖.圖 3 . 1 一 3 是以樣本編號為橫坐標(biāo)的殘差圖。 從圖3 . 1 一 3 中可以看出,第 1 個(gè)樣本點(diǎn)和第 6 個(gè)樣本點(diǎn)的殘差比較大,需要確認(rèn)在采集這兩個(gè)樣本點(diǎn)的過程中是否有人為的錯(cuò)誤.如果數(shù)據(jù)采集有錯(cuò)誤,就予以糾正,然后再重新利用線性回歸模型擬合數(shù)據(jù);如果數(shù)據(jù)采集沒有錯(cuò)誤,則需要尋找其他的原因.另外,殘差點(diǎn)比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型比較合適.這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預(yù)報(bào)精度越高.另外,我們還可以用相關(guān)指數(shù)來刻畫回歸的效果,其計(jì)算公式是: 顯然,取值越大,意味著殘差平方和越小,也就是說模型的擬合效果越好.在線性回歸模型中,表示解釋變量對于預(yù)報(bào)變量變化的貢獻(xiàn)率. 越接近于1,表示回歸的效果越好(因?yàn)樵浇咏?,表示解釋變量和預(yù)報(bào)變量的線性相關(guān)性越強(qiáng)).如果對某組數(shù)據(jù)可能采取幾種不同的回歸方程進(jìn)行回歸分析,也可以通過比較幾個(gè),選擇大的模型作為這組數(shù)據(jù)的模型。 在例 1 中,=0. 64 ,表明“女大學(xué)生的身高解釋了64 %的體重變化”,或者說“女大學(xué)生的體重差異有 64 %是由身高引起的” 用身高預(yù)報(bào)體重時(shí),需要注意下列問題: 1.回歸方程只適用于我們所研究的樣本的總體.例如,不能用女大學(xué)生的身高和體重之間的回歸方程,描述女運(yùn)動員的身高和體重之間的關(guān)系.同樣,不能用生長在南方多雨地區(qū)的樹木的高與直徑之間的回歸方程,描述北方干旱地區(qū)的樹木的高與直徑之間的關(guān)系。 2.我們所建立的回歸方程一般都有時(shí)間性.例如,不能用 20 世紀(jì) 80 年代的身高體重?cái)?shù)據(jù)所建立的回歸方程,描述現(xiàn)在的身高和體重之間的關(guān)系。 3.樣本取值的范圍會影響回歸方程的適用范圍.例如,我們的回歸方程是由女大學(xué)生身高和體重?cái)?shù)據(jù)建立的,那么用它來描述一個(gè)人幼兒時(shí)期的身高和體重之間的關(guān)系就不恰當(dāng)(即在回歸方程中,解釋變量 x 的樣本的取值范圍為[155cm,170cm〕 ,而用這個(gè)方程計(jì)算 x-70cm 時(shí)的y值,顯然不合適。) 4.不能期望回歸方程得到的預(yù)報(bào)值就是預(yù)報(bào)變量的精確值.事實(shí)上,它是預(yù)報(bào)變量的可能取值的平均值. 一般地,建立回歸模型的基本步驟為: (1)確定研究對象,明確哪個(gè)變量是解釋變量,哪個(gè)變量是預(yù)報(bào)變量; (2)畫出確定好的解釋變量和預(yù)報(bào)變量的散點(diǎn)圖,觀察它們之間的關(guān)系(如是否存在線性關(guān)系等) (3)由經(jīng)驗(yàn)確定回歸方程的類型(如我們觀察到數(shù)據(jù)呈線性關(guān)系,則選用線性回歸方程 y=bx+a ) (4)按一定規(guī)則估計(jì)回歸方程中的參數(shù)(如最小二乘法); (5)得出結(jié)果后分析殘差圖是否有異常(個(gè)別數(shù)據(jù)對應(yīng)殘差過大,或殘差呈現(xiàn)不隨機(jī)的規(guī)律性等等),若存在異常,則檢查數(shù)據(jù)是否有誤,或模型是否合適等 例2.現(xiàn)收集了一只紅鈴蟲的產(chǎn)卵數(shù)y和溫度x之間的7組觀測數(shù)據(jù)列于下表: 溫度xoC 21 23 25 27 29 32 35 產(chǎn)卵數(shù)y/個(gè) 7 11 21 24 66 115 325 (1)試建立y與x之間的回歸方程;并預(yù)測溫度為28oC時(shí)產(chǎn)卵數(shù)目。 (2)你所建立的模型中溫度在多大程度上解釋了產(chǎn)卵數(shù)的變化? 探究: 方案1(學(xué)生實(shí)施): (1)選擇變量,畫散點(diǎn)圖。 (2)通過計(jì)算器求得線性回歸方程:=19.87x-463.73 (3)進(jìn)行回歸分析和預(yù)測: R2=r2≈0.8642=0.7464 預(yù)測當(dāng)氣溫為28 時(shí),產(chǎn)卵數(shù)為92個(gè)。這個(gè)線性回歸模型中溫度解釋了74.64%產(chǎn)卵數(shù)的變化。 困惑:隨著自變量的增加,因變量也隨之增加,氣溫為28 時(shí),估計(jì)產(chǎn)卵數(shù)應(yīng)該低于66個(gè),但是從推算的結(jié)果來看92個(gè)比66個(gè)卻多了26個(gè),是什么原因造成的呢? 方案2: (1)找到變量t=x 2,將y=bx2+a轉(zhuǎn)化成y=bt+a; (2)利用計(jì)算器計(jì)算出y和t的線性回歸方程:y=0.367t-202.54 (3)轉(zhuǎn)換回y和x的模型: (4)y=0.367x2 -202.54 (5)計(jì)算相關(guān)指數(shù)R2≈0.802這個(gè)回歸模型中溫度解釋了80.2%產(chǎn)卵數(shù)的變化。 預(yù)測:當(dāng)氣溫為28 時(shí),產(chǎn)卵數(shù)為85個(gè)。 困惑:比66還多19個(gè),是否還有更適合的模型呢? 方案3: (1)作變換z=lgy,將轉(zhuǎn)化成z=c2x+lgc1(線性模型)。 (2)利用計(jì)算器計(jì)算出z和x的線性回歸方程: z=0.118x-1.672 (3)轉(zhuǎn)換回y和x的模型: (4)計(jì)算相關(guān)指數(shù)R2≈0.985這個(gè)回歸模型中溫度解釋了98.5%產(chǎn)卵數(shù)的變化。 預(yù)測:當(dāng)氣溫為28 時(shí),產(chǎn)卵數(shù)為4 2個(gè)。 解:根據(jù)收集的數(shù)據(jù)作散點(diǎn)圖(圖3. 1一4 ) . 在散點(diǎn)圖中,樣本點(diǎn)并沒有分布在某個(gè)帶狀區(qū)域內(nèi),因此兩個(gè)變量不呈線性相關(guān)關(guān)系,所以不能直接利用線性回歸方程來建立兩個(gè)變量之間的關(guān)系.根據(jù)已有的函數(shù)知識,可以發(fā)現(xiàn)樣本點(diǎn)分布在某一條指數(shù)函數(shù)曲線的周圍,其中和是待定參數(shù).現(xiàn)在,問題變?yōu)槿绾喂烙?jì)待定參數(shù)和.我們可以通過對數(shù)變換把指數(shù)關(guān)系變?yōu)榫€性關(guān)系.令,則變換后樣本點(diǎn)應(yīng)該分布在直線的周圍.這樣,就可以利用線性回歸模型來建立 y 和 x 之間的非線性回歸方程了. 由表3一3 的數(shù)據(jù)可以得到變換后的樣本數(shù)據(jù)表 3一4 ,圖3.1一5 給出了表 3 一 4 中數(shù)據(jù)的散點(diǎn)圖.從圖3.1一5 中可以看出,變換后的樣本點(diǎn)分布在一條直線的附近,因此可以用線性回歸方程來擬合. x 21 23 25 27 29 32 35 z 1.946 3.398 3.045 3.178 4.190 4.745 5.784 由表 3 一 4 中的數(shù)據(jù)得到線性回歸方程 . 因此紅鈴蟲的產(chǎn)卵數(shù)對溫度的非線性回歸方程為 . ( 6 ) 另一方面,可以認(rèn)為圖3. 1一4 中樣本點(diǎn)集中在某二次曲線的附近,其中和為待定參數(shù).因此可以對溫度變量做變換,即令,然后建立y與t之間的線性回歸方程,從而得到y(tǒng)與x之間的非線性回歸方程.表3一5 是紅鈴蟲的產(chǎn)卵數(shù)和對應(yīng)的溫度的平方,圖3 . 1一6 是相應(yīng)的散點(diǎn)圖. t 441 529 625 729 841 1024 1225 x 7 11 21 24 66 115 325 從圖3.1一6 中可以看出,y與t的散點(diǎn)圖并不分布在一條直線的周圍,因此不宜用線性回歸方程來擬合它,即不宜用二次曲線來擬合 y 和 x 之間的關(guān)系.這個(gè)結(jié)論還可以通過殘差分析得到,下面介紹具體方法. 為比較兩個(gè)不同模型的殘差,需要建立兩個(gè)相應(yīng)的回歸方程.前面我們已經(jīng)建立了y 關(guān)于x 的指數(shù)回歸方程,下面建立y關(guān)于x的二次回歸方程.用線性回歸模型擬合表 3 一 5 中的數(shù)據(jù),得到 y 關(guān)于 t 的線性回歸方程 , 即 y 關(guān)于 x 的二次回歸方程為 . ( 7 ) 可以通過殘差來比較兩個(gè)回歸方程( 6 )和( 7 )的擬合效果.用 xi表示表3一3 中第 1 行第 i 列的數(shù)據(jù),則回歸方程( 6 )和( 7 )的殘差計(jì)算公式分別為 ; . 表3一6 給出了原始數(shù)據(jù)及相應(yīng)的兩個(gè)回歸方程的殘差.從表中的數(shù)據(jù)可以看出模型 ( 6 )的殘差的絕對值顯然比模型( 7 )的殘差的絕對值小,因此模型( 6 )的擬合效果比模型( 7 ) 的擬合效果好. x 21 23 25 27 29 32 35 y 7 11 21 24 66 115 325 0.557 -0.101 1.875 -8.950 9.230 -13.381 34.675 47.696 19.400 -5.832 -41.000 -40.1.4 -58.265 77.968 在一般情況下,比較兩個(gè)模型的殘差比較困難.原因是在某些樣本點(diǎn)上一個(gè)模型的殘差的絕對值比另一個(gè)模型的小,而另一些樣本點(diǎn)的情況則相反.這時(shí)可以通過比較兩個(gè)模型的殘差平方和的大小來判斷模型的擬合效果.殘差平方和越小的模型,擬合的效果越好.由表 3 一 6 容易算出模型( 6 )和( 7 )的殘差平方和分別為 . 因此模型(6)的擬合效果遠(yuǎn)遠(yuǎn)優(yōu)于模型(7). 類似地,還可以用尸來比較兩個(gè)模型的擬合效果,R2越大,擬合的效果越好.由表 3 一 6 容易算出模型(6)和(7)的R2分別約為 0 . 98 和 0 . 80 ,因此模型( 6 )的效果好于模型(7) 的效果. 對于給定的樣本點(diǎn)() , () ,…, (),兩個(gè)含有未知參數(shù)的模型 和, 其中 a 和 b 都是未知參數(shù).可以按如下的步驟來比較它們的擬合效果: (1)分別建立對應(yīng)于兩個(gè)模型的回歸方程與, ,其中和分別是參數(shù)a和b的估計(jì)值; (2)分別計(jì)算兩個(gè)回歸方程的殘差平方和與; ( s )若,則的效果比的好;反之,的效果不如的好. 例2:(提示后做練習(xí)、作業(yè))研究某灌溉渠道水的流速y與水深x之間的關(guān)系,測得一組數(shù)據(jù)如下: 水深xm 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10 流速ym/s 1.70 1.79 1.88 1.95 2.03 2.10 2.16 2.21 (1)求y對x的回歸直線方程; (2)預(yù)測水深為1。95m 時(shí)水的流速是多少? 解:依題意,把溫度作為解釋變量x ,產(chǎn)卵個(gè)數(shù)y作為預(yù)報(bào)變量 , 作散點(diǎn)圖,由觀察知兩個(gè)變量不呈線性相關(guān)關(guān)系。但樣本點(diǎn)分布在某一條指數(shù)函數(shù) y=c1ec2 x 周圍. 令 z=lny , a=lnc1 , b=c2 則 z=bx+a 此時(shí)可用線性回歸來擬合 z=0.272x-3.843 因此紅鈴蟲的產(chǎn)卵數(shù)對溫度的非線性回歸方程為 Y=e0.272x-3.843. 3、從上節(jié)課的例1提出的問題引入線性回歸模型: Y=bx+a+e 解釋變量x 預(yù)報(bào)變量y 隨機(jī)誤差 e 4、(1) 相關(guān)指數(shù): 相關(guān)系數(shù) r (公式) , r>0 正相關(guān). R<0 負(fù)相關(guān) R絕對值接近于1相關(guān)性強(qiáng)接 r絕對值 近于0 相關(guān)性幾乎無 5、回憶建立模型的基本步驟 ① 例2 問題背景分析 畫散點(diǎn)圖。 ② 觀察散點(diǎn)圖,分析解釋變量與預(yù)報(bào)變量更可能是什么函數(shù)關(guān)系。 ③ 學(xué)生討論后建立自己的模型 ④ 引導(dǎo)學(xué)生探究如果不是線性回歸模型如何估計(jì)參數(shù)。能否利用回歸模型 通過探究體會有些不是線性的模型通過變換可以轉(zhuǎn)化為線性模型 ⑤ 對數(shù)據(jù)進(jìn)行變換后,對數(shù)據(jù)(新)建立線性模型 ⑥ 轉(zhuǎn)化為原來的變量模型,并通過計(jì)算相關(guān)指數(shù)比較幾個(gè)不同模型的擬合效果 ⑦ 總結(jié)建模的思想。鼓勵(lì)學(xué)生大膽創(chuàng)新。 ⑧ 布置課后作業(yè): 習(xí)題1.1 1、 6、復(fù)習(xí)與鞏固:練習(xí)1:某班5名學(xué)生的數(shù)學(xué)和化學(xué)成績?nèi)缦卤硭?,對x與y進(jìn)行回歸分析,并預(yù)報(bào)某學(xué)生數(shù)學(xué)成績?yōu)?5分時(shí),他的化學(xué)成績。 A B C D E 數(shù)學(xué)x 88 76 73 66 63 化學(xué)y 78 65 71 64 61 解略。 練習(xí)2:某醫(yī)院用光電比色計(jì)檢驗(yàn)?zāi)蚬瘯r(shí),得尿汞含量 (mg/l) 與消光系數(shù)的結(jié)果如下: 尿汞含量x 2 4 6 8 10 消光系數(shù)y 64 138 205 285 360 (1)求回歸方程。(2)求相關(guān)指數(shù)R2。 解:略。 (三) 課堂小結(jié) 1.知識梳理: 2規(guī)律小結(jié):(1)回歸直線方程;(2)樣本相關(guān)系數(shù);(3)樣本殘差分析;(4)樣本指數(shù); (5)建立回歸模型的基本步驟。 (四) 作業(yè): (五) 課后反思: 本節(jié)內(nèi)容對回歸分析的探討過程很精彩,學(xué)生討論很熱烈,激發(fā)了學(xué)生的學(xué)習(xí)熱情。但對殘差分析學(xué)生只能欣賞它的過程,計(jì)算量太大,思維的跳躍性太強(qiáng)! 3.2 獨(dú)立性檢驗(yàn)的基本思想及其初步應(yīng)用 (共計(jì)3課時(shí)) 授課類型:新授課 一、教學(xué)內(nèi)容與教學(xué)對象分析 通過典型案例,學(xué)習(xí)下列一些常用的統(tǒng)計(jì)方法,并能初步應(yīng)用這些方法解決一些實(shí)際問題。 ① 通過對典型案例(如“患肺癌與吸煙有關(guān)嗎”等)的探究。了解獨(dú)立性檢驗(yàn)(只要求2×2列聯(lián)表)的基本思想、方法及初步應(yīng)用。 ② 通過對典型案例(如“人的體重與身高的關(guān)系”等)的探究,了解回歸的基本思想、 方法及其初步應(yīng)用。 二. 學(xué)習(xí)目標(biāo) 1、知識與技能 通過本節(jié)知識的學(xué)習(xí),了解獨(dú)立性檢驗(yàn)的基本思想和初步應(yīng)用,能對兩個(gè)分類變量是否有關(guān)做出明確的判斷。明確對兩個(gè)分類變量的獨(dú)立性檢驗(yàn)的基本思想具體步驟,會對具體問題作出獨(dú)立性檢驗(yàn)。 2、過程與方法 在本節(jié)知識的學(xué)習(xí)中,應(yīng)使學(xué)生從具體問題中認(rèn)識進(jìn)行獨(dú)立性檢驗(yàn)的作用及必要性,樹立學(xué)好本節(jié)知識的信心,在此基礎(chǔ)上學(xué)習(xí)三維柱形圖和二維柱形圖,并認(rèn)識它們的基本作用和存在的不足,從而為學(xué)習(xí)下面作好鋪墊,進(jìn)而介紹K的平方的計(jì)算公式和K的平方的觀測值R的求法,以及它們的實(shí)際意義。從中得出判斷“X與Y有關(guān)系”的一般步驟及利用獨(dú)立性檢驗(yàn)來考察兩個(gè)分類變量是否有關(guān)系,并能較準(zhǔn)確地給出這種判斷的可靠程度的具體做法和可信程度的大小。最后介紹了獨(dú)立性檢驗(yàn)思想的綜合運(yùn)用。 3、情感、態(tài)度與價(jià)值觀 通過本節(jié)知識的學(xué)習(xí),首先讓學(xué)生了解對兩個(gè)分類博變量進(jìn)行獨(dú)立性檢驗(yàn)的必要性和作用,并引導(dǎo)學(xué)生注意比較與觀測值之間的聯(lián)系與區(qū)別,從而引導(dǎo)學(xué)生去探索新知識,培養(yǎng)學(xué)生全面的觀點(diǎn)和辨證地分析問題,不為假想所迷惑,尋求問題的內(nèi)在聯(lián)系,培養(yǎng)學(xué)生學(xué)習(xí)數(shù)學(xué)、應(yīng)用數(shù)學(xué)的良好的數(shù)學(xué)品質(zhì)。加強(qiáng)與現(xiàn)實(shí)生活相聯(lián)系,從對實(shí)際問題的分析中學(xué)會利用圖形分析、解決問題及用具體的數(shù)量來衡量兩個(gè)變量之間的聯(lián)系,學(xué)習(xí)用圖形、數(shù)據(jù)來正確描述兩個(gè)變量的關(guān)系。明確數(shù)學(xué)在現(xiàn)實(shí)生活中的重要作用和實(shí)際價(jià)值。教學(xué)中,應(yīng)多給學(xué)生提供自主學(xué)習(xí)、獨(dú)立探究、合作交流的機(jī)會。養(yǎng)成嚴(yán)謹(jǐn)?shù)膶W(xué)習(xí)態(tài)度及實(shí)事求是的分析問題、解決問題的科學(xué)世界觀,并會用所學(xué)到的知識來解決實(shí)際問題。 三.教學(xué)重點(diǎn)、難點(diǎn) 教學(xué)重點(diǎn):理解獨(dú)立性檢驗(yàn)的基本思想;獨(dú)立性檢驗(yàn)的步驟。 教學(xué)難點(diǎn);1、理解獨(dú)立性檢驗(yàn)的基本思想; 2、了解隨機(jī)變量K2的含義; 3、獨(dú)立性檢驗(yàn)的步驟。 四、教學(xué)策略 教學(xué)方法:誘思探究教學(xué)法 學(xué)習(xí)方法:自主探究、觀察發(fā)現(xiàn)、合作交流、歸納總結(jié)。 教學(xué)手段:多媒體輔助教學(xué) 五、教學(xué)過程: 對于性別變量,其取值為男和女兩種.這種變量的不同“值”表示個(gè)體所屬的不同類別,像這類變量稱為分類變量.在現(xiàn)實(shí)生活中,分類變量是大量存在的,例如是否吸煙,宗教信仰,國籍,等等.在日常生活中,我們常常關(guān)心兩個(gè)分類變量之間是否有關(guān)系.例如,吸煙與患肺癌是否有關(guān)系?性別對于是否喜歡數(shù)學(xué)課程有影響?等等. 為調(diào)查吸煙是否對肺癌有影響,某腫瘤研究所隨機(jī)地調(diào)查了9965人,得到如下結(jié)果(單位:人) 表3-7 吸煙與肺癌列聯(lián)表 不患肺癌 患肺癌 總計(jì) 不吸煙 7775 42 7817 吸煙 2099 49 2148 總計(jì) 9874 91 9965 那么吸煙是否對患肺癌有影響嗎? 像表3一7 這樣列出的兩個(gè)分類變量的頻數(shù)表,稱為列聯(lián)表.由吸煙情況和患肺癌情況的列聯(lián)表可以粗略估計(jì)出:在不吸煙者中,有0.54 %患有肺癌;在吸煙者中,有2.28%患有肺癌.因此,直觀上可以得到結(jié)論:吸煙者和不吸煙者患肺癌的可能性存在差異. 與表格相比,三維柱形圖和二維條形圖能更直觀地反映出相關(guān)數(shù)據(jù)的總體狀況.圖3. 2 一1 是列聯(lián)表的三維柱形圖,從中能清晰地看出各個(gè)頻數(shù)的相對大?。? 圖3.2一2 是疊在一起的二維條形圖,其中淺色條高表示不患肺癌的人數(shù),深色條高表示患肺癌的人數(shù).從圖中可以看出,吸煙者中患肺癌的比例高于不吸煙者中患肺癌的比例. 為了更清晰地表達(dá)這個(gè)特征,我們還可用如下的等高條形圖表示兩種情況下患肺癌的比例.如圖3.2一3 所示,在等高條形圖中,淺色的條高表示不患肺癌的百分比;深色的條高表示患肺癌的百分比. 通過分析數(shù)據(jù)和圖形,我們得到的直觀印象是“吸煙和患肺癌有關(guān)”.那么我們是否能夠以一定的把握認(rèn)為“吸煙與患肺癌有關(guān)”呢? 為了回答上述問題,我們先假設(shè) H0:吸煙與患肺癌沒有關(guān)系.用A表示不吸煙, B表示不患肺癌,則“吸煙與患肺癌沒有關(guān)系”獨(dú)立”,即假設(shè) H0等價(jià)于 PAB)=P(A)+P(B) . 把表3一7中的數(shù)字用字母代替,得到如下用字母表示的列聯(lián)表: 表3-8 吸煙與肺癌列聯(lián)表 不患肺癌 患肺癌 總計(jì) 不吸煙 a b a+b 吸煙 c d c+d 總計(jì) a+c b+d a+b+c+d 在表3一8中,a恰好為事件AB發(fā)生的頻數(shù);a+b 和a+c恰好分別為事件A和B發(fā)生的頻數(shù).由于頻率近似于概率,所以在H0成立的條件下應(yīng)該有 , 其中為樣本容量, (a+b+c+d)≈(a+b)(a+c) , 即ad≈bc. 因此,|ad-bc|越小,說明吸煙與患肺癌之間關(guān)系越弱;|ad -bc|越大,說明吸煙與患肺癌之間關(guān)系越強(qiáng). 為了使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評判標(biāo)準(zhǔn),基于上面的分析,我們構(gòu)造一個(gè)隨機(jī)變量 (1) 其中為樣本容量. 若 H0 成立,即“吸煙與患肺癌沒有關(guān)系”,則 K “應(yīng)該很?。鶕?jù)表3一7中的數(shù)據(jù),利用公式(1)計(jì)算得到 K “的觀測值為 , 這個(gè)值到底能告訴我們什么呢? 統(tǒng)計(jì)學(xué)家經(jīng)過研究后發(fā)現(xiàn),在 H0成立的情況下, . (2) (2)式說明,在H0成立的情況下,的觀測值超過 6. 635 的概率非常小,近似為0 . 01,是一個(gè)小概率事件.現(xiàn)在的觀測值≈56.632 ,遠(yuǎn)遠(yuǎn)大于6. 635,所以有理由斷定H0不成立,即認(rèn)為“吸煙與患肺癌有關(guān)系”.但這種判斷會犯錯(cuò)誤,犯錯(cuò)誤的概率不會超過0.01,即我們有99%的把握認(rèn)為“吸煙與患肺癌有關(guān)系” 在上述過程中,實(shí)際上是借助于隨機(jī)變量的觀測值建立了一個(gè)判斷H0是否成立的規(guī)則: 如果≥6. 635,就判斷H0不成立,即認(rèn)為吸煙與患肺癌有關(guān)系;否則,就判斷H0成立,即認(rèn)為吸煙與患肺癌沒有關(guān)系 在該規(guī)則下,把結(jié)論“H0 成立”錯(cuò)判成“H0 不成立”的概率不會超過 , 即有99%的把握認(rèn)為從不成立. 上面解決問題的想法類似于反證法.要確認(rèn)是否能以給定的可信程度認(rèn)為“兩個(gè)分類變量有關(guān)系”,首先假設(shè)該結(jié)論不成立,即 H0:“兩個(gè)分類變量沒有關(guān)系” 成立.在該假設(shè)下我們所構(gòu)造的隨機(jī)變量應(yīng)該很?。绻捎^測數(shù)據(jù)計(jì)算得到的的觀測值k很大,則在一定可信程度上說明H0不成立,即在一定可信程度上認(rèn)為“兩個(gè)分類變量有關(guān)系”;如果k的值很小,則說明由樣本觀測數(shù)據(jù)沒有發(fā)現(xiàn)反對H0 的充分證據(jù) 怎樣判斷的觀測值 k 是大還是小呢?這僅需確定一個(gè)正數(shù),當(dāng)時(shí)就認(rèn)為 的觀測值k大.此時(shí)相應(yīng)于的判斷規(guī)則為: 如果,就認(rèn)為“兩個(gè)分類變量之間有關(guān)系”;否則就認(rèn)為“兩個(gè)分類變量之間沒有關(guān)系”. 我們稱這樣的為一個(gè)判斷規(guī)則的臨界值.按照上述規(guī)則,把“兩個(gè)分類變量之間沒有關(guān)系”錯(cuò)誤地判斷為“兩個(gè)分類變量之間有關(guān)系”的概率為. 在實(shí)際應(yīng)用中,我們把解釋為有的把握認(rèn)為“兩個(gè)分類變量之間有關(guān)系”;把解釋為不能以的把握認(rèn)為“兩個(gè)分類變量之間有關(guān)系”,或者樣本觀測數(shù)據(jù)沒有提供“兩個(gè)分類變量之間有關(guān)系”的充分證據(jù).上面這種利用隨機(jī)變量來確定是否能以一定把握認(rèn)為“兩個(gè)分類變量有關(guān)系”的方法,稱為兩個(gè)分類變量的獨(dú)立性檢驗(yàn) 利用上面結(jié)論,你能從列表的三維柱形圖中看出兩個(gè)變量是否相關(guān)嗎? 一般地,假設(shè)有兩個(gè)分類變量X和Y,它們的可能取值分別為{}和{}, 其樣本頻數(shù)列聯(lián)表(稱為2×2列聯(lián)表)為: 表3一 9 2×2列聯(lián)表 總計(jì) 總計(jì) 若要推斷的論述為 Hl:X與Y有關(guān)系, 可以按如下步驟判斷結(jié)論Hl 成立的可能性: 1.通過三維柱形圖和二維條形圖,可以粗略地判斷兩個(gè)分類變量是否有關(guān)系,但是這種判斷無法精確地給出所得結(jié)論的可靠程度. ① 在三維柱形圖中,主對角線上兩個(gè)柱形高度的乘積ad 與副對角線上的兩個(gè)柱形高度的乘積bc相差越大,H1成立的可能性就越大. ② 在二維條形圖中,可以估計(jì)滿足條件X=的個(gè)體中具有Y=的個(gè)體所占的比例,也可以估計(jì)滿足條件X=的個(gè)體中具有Y=,的個(gè)體所占的比例.“兩個(gè)比例的值相差越大,Hl 成立的可能性就越大. 2.可以利用獨(dú)立性檢驗(yàn)來考察兩個(gè)分類變量是否有關(guān)系,并且能較精確地給出這種判斷的可靠程度.具體做法是: ① 根據(jù)實(shí)際問題需要的可信程度確定臨界值; ② 利用公式( 1 ) ,由觀測數(shù)據(jù)計(jì)算得到隨機(jī)變量的觀測值; ③ 如果,就以的把握認(rèn)為“X與Y有關(guān)系”;否則就說樣本觀測數(shù)據(jù)沒有提供“X與Y有關(guān)系”的充分證據(jù). 在實(shí)際應(yīng)用中,要在獲取樣本數(shù)據(jù)之前通過下表確定臨界值: 表3一10 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 0.455 0.708 1.323 2.072 1.323 2.706 3.841 5.024 6.635 10.828 (四)、舉例: 例1.在某醫(yī)院,因?yàn)榛夹呐K病而住院的 665 名男性病人中,有 214 人禿頂,而另外 772 名不是因?yàn)榛夹呐K病而住院的男性病人中有 175 人禿頂. (1)利用圖形判斷禿頂與患心臟病是否有關(guān)系. (2)能夠以 99 %的把握認(rèn)為禿頂與患心臟病有關(guān)系嗎?為什么? 解:根據(jù)題目所給數(shù)據(jù)得到如下列聯(lián)表: (1)相應(yīng)的三維柱形圖如圖3.2一4所示.比較來說,底面副對角線上兩個(gè)柱體高度的乘積要大一些,可以在某種程度上認(rèn)為“禿頂與患心臟病有關(guān)”. (2)根據(jù)列聯(lián)表3一11中的數(shù)據(jù),得到 ≈16.373>6 . 因此有 99 %的把握認(rèn)為“禿頂與患心臟病有關(guān)” . 例2.為考察高中生的性別與是否喜歡數(shù)學(xué)課程之間的關(guān)系,在某城市的某校高中生中隨機(jī)抽取300名學(xué)生,得到如下列聯(lián)表: 表3一12 性別與喜歡數(shù)學(xué)課程列聯(lián)表 喜歡數(shù)學(xué)課程 不喜歡數(shù)學(xué)課程 總計(jì) 男 37 85 122 女 35 143 178 總計(jì) 72 228 300 由表中數(shù)據(jù)計(jì)算得的觀測值.能夠以95%的把握認(rèn)為高中生的性別與是否喜歡數(shù)學(xué)課程之間有關(guān)系嗎?請?jiān)敿?xì)闡明得出結(jié)論的依據(jù). 解:可以有約95%以上的把握認(rèn)為“性別與喜歡數(shù)學(xué)課之間有關(guān)系”.作出這種判斷的依據(jù)是獨(dú)立性檢驗(yàn)的基本思想,具體過程如下: 分別用a , b , c , d 表示樣本中喜歡數(shù)學(xué)課的男生人數(shù)、不喜歡數(shù)學(xué)課的男生人數(shù)、喜歡數(shù)學(xué)課的女生人數(shù)、不喜歡數(shù)學(xué)課的女生人數(shù).如果性別與是否喜歡數(shù)學(xué)課有關(guān)系,則男生中喜歡數(shù)學(xué)課的比例與女生中喜歡數(shù)學(xué)課的人數(shù)比例應(yīng)該相差很多,即 應(yīng)很大. 將上式等號右邊的式子乘以常數(shù)因子 , 然后平方得 , 其中.因此越大,“性別與喜歡數(shù)學(xué)課之間有關(guān)系”成立的可能性越大. 另一方面,在假設(shè)“性別與喜歡數(shù)學(xué)課之間沒有關(guān)系”的前提下,事件A ={≥3. 841}的概率為P (≥3. 841) ≈0.05, 因此事件 A 是一個(gè)小概率事件.而由樣本數(shù)據(jù)計(jì)算得的觀測值k=4.514,即小概率事件 A發(fā)生.因此應(yīng)該斷定“性別與喜歡數(shù)學(xué)課之間有關(guān)系”成立,并且這種判斷結(jié)果出錯(cuò)的可能性約為5 %.所以,約有95 %的把握認(rèn)為“性別與喜歡數(shù)學(xué)課之間有關(guān)系”. 補(bǔ)充例題1:打鼾不僅影響別人休息,而且可能與患某種疾病有關(guān),下表是一次調(diào)查所得的數(shù)據(jù),試問:每一晚都打鼾與患心臟病有關(guān)嗎? 患心臟病 未患心臟病 合計(jì) 每一晚都打鼾 30 224 254 不打鼾 24 1355 1379 合計(jì) 54 1579 1633 解:略。 補(bǔ)充例題2: 對196個(gè)接受心臟搭橋手術(shù)的病人和196個(gè)接受血管清障手術(shù)的病人進(jìn)行3年跟蹤研究,調(diào)查他們是否又發(fā)作過心臟病,調(diào)查結(jié)果如下表所示: 又發(fā)作過心臟病 未發(fā)作過心臟病 合計(jì) 心臟搭橋手術(shù) 39 157 196 血管清障手術(shù) 29 167 196 合計(jì) 68 324 392 試根據(jù)上述數(shù)據(jù)比較兩種手術(shù)對病人又發(fā)作心臟病的影響有沒有差別。 解略 (四) 課堂小結(jié) 1.知識梳理 2.規(guī)律小結(jié) (1)三維柱形圖與二維條形圖 (2)獨(dú)立性檢驗(yàn)的基本思想 (3)獨(dú)立性檢驗(yàn)的一般方法 (五) 作業(yè) 五 課后反思: 本節(jié)內(nèi)容對獨(dú)立性檢驗(yàn)的探討過程學(xué)生基本沒什么困難,還有學(xué)生提出了新的探討路徑和思想,學(xué)生思維活潑!對獨(dú)立性檢驗(yàn)的作用,本節(jié)課也作了系統(tǒng)總結(jié)比較。 - 22 -- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
20 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 統(tǒng)計(jì)案例 數(shù)學(xué) 第三 統(tǒng)計(jì) 案例 教案 新人 選修
鏈接地址:http://m.szxfmmzy.com/p-1381537.html