很開心歡迎你的到來,目前已發布1.0版本,感謝支持。
匯集你所喜歡的社群動態
試著將你喜愛的動態加入關注吧...
相關推薦 : 熱門關注
晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地) :: 痞客邦 ::
頻道 : RSS頻道
類別 : 不設分類
瀏覽人次 : 131
add收藏
一個討論統計的好地方
前往 RSS 詳細瀏覽
你是此專頁頻道維運人員,不希望被收錄動態,請告知我們 取消收錄
預測模型的新指標-IDI與NRI(第2篇,共2篇)~~晨晰統計林星帆顧問整理 在前兩篇文章中,我們介紹了曲線下面積(Area under the curve, AUC)與integrated discrimination improvement(IDI)的定義以及使用上的限制。為了回答此問題:「A這個生物標記或預測模型,所增加的預測能力若使用在臨床上,究竟是否可以改變治療決策?」,Pencina(2008)首次提出net reclassification improvement(NRI)這個指標以及展示它的統計檢定1。
在使用NRI之前,必須有個很重要的前提,亦即關於該事件的預測機率已有明確的風險分組。例如根據Third Adult Treatment Panel(ATP III)將10年冠心病的風險(10-year risk of coronary heart disease)明確分為3組:0%–6%、6%–20%及>20%,針對不同風險分組會有不同的治療決策,例如0-6%只要保持定期追蹤,6%–20%則是改變生活方式與藥物治療,而>20%則可能要接受更積極的監測與治療。
在Pencina(2008)的論文中,使用以下公式來說明NRI的組成。方程式4的pup,events表示分母為實際發生事件者,分子為新模式(相較於舊模式)正確增加發生事件者的預測機率,而且是提升了風險分組,例如從0-6%(舊模式)提升到6%–20%或>20%(新模式)都是屬於此類。方程式5的pdown,events表示分母為實際發生事件者,分子為新模式(相較於舊模式)錯誤減少發生事件者的預測機率,而且是降低了風險分組,例如6%–20%或>20%(舊模式)反而變成0-6%(新模式)都是屬於此類。我們當然希望pup,events越高越好(最大值是100%),而pdown,events越低越好(最小值是0%)。
方程式6的pup,nonevents表示分母為實際沒有發生事件者,分子為新模式(相較於舊模式)錯誤增加沒有發生事件者的預測機率,而且是上升了風險分組,例如0-6%(舊模式)變成6%–20%或>20%(新模式)都是屬於此類。方程式7的pdown,nonevents表示分母為實際沒有發生事件者,分子為新模式(相較於舊模式)正確減少沒有發生事件者的預測機率,而且是降低了風險分組,例如6%–20%或>20%(舊模式)變成0-6%(新模式)都是屬於此類。我們當然希望pdown,nonevents越高越好(最大值是100%),而pup,nonevents越低越好(最小值是0%)。
  (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
預測模型的新指標-IDI與NRI(第1篇,共2篇)~~晨晰統計林星帆顧問整理 在之前文章中,我們提到了在以下幾種情況,過去常以Receiver Operating Characteristic(ROC)的曲線下面積(Area under the curve, AUC)作為主要的統計方法以及其限制1-2。
假設已知有個表現良好的生物標記B(或是一組危險因子,例如Framingham Risk Score),此時我們提議(proposed)的生物標記或預測模型(或一組危險因子)為A,可能會有以下幾種的比較。
A的表現比已知的生物標記B更好(head to head comparison)
A+B的綜合表現比B單獨更好(nested model)
A加上baseline risk score之後,預測有增值效果(incremental value)
A加上baseline risk score比B加上baseline risk score(head to head comparison)
因此Nancy Cook博士於2007年提出風險重新分組(Clinical Risk Reclassification)的概念2,而Michael Pencina於2008年在醫學統計指標性期刊「Statistics in Medicine」正式提出另外兩種重要的指標,分別為net reclassification improvement(NRI)以及integrated discrimination improvement(IDI)3,且正式提出這兩個指標的統計檢定。
首先我們先介紹IDI,在Pencina(2008)論文中,使用以下公式來代表IDI的涵義。pnew,events指的是實際發生事件者在新模式的預測成為事件者機率(predicted ...
另開連結前往 RSS 網站
分享社群:
論文整理WORD小技巧-標題格式篇 在進行論文文字的撰寫時,可以先將固定會用到的格式先製訂出來,以免去要一直使用複製格式的功能,而且未來若需要修改某一個標題的樣式時,相同樣式的標題會同步修改,不用再逐一尋找,另外在進行目錄的編輯上也會變得簡單許多,之後會再與大家分享,以下先教大家如何增加樣式。
1、筆者的習慣,當打開WORD檔時,都會先到『常用』的à『樣式』欄位中,點選右下角的小圖示。
2、呼叫出來樣式的清單,可以知道目前這份WORD檔裡設定哪幾種格式,不過一份新的WORD檔,應該都和此畫面是相同的。
3、先在WORD檔中,打上自己可能用到的標題作為樣本,比較容易確認完成的樣子是否為自己需要的樣式。
  (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
2018實證醫學學會參與心得         8月舉辦於嘉義長庚醫院的實證醫學年會,主題探討大數據、人工智慧對醫學研究與實證醫學的影響。會中由李友專院長淺談人工智慧的發展沿革,以及目前在醫學領域應用較為廣泛的人工智慧型態,例如:圖像判讀或分組、決策樹(decision tree)、人工神經網路(artificial neural network, ANN)、深度學習(deep learning)、機器學習(machine learning, ML)等。李院長的演講作為導言,以輕鬆詼諧的方式,簡單讓與會者像聽歷史故事一般接觸人工智慧的發展史,並從中帶出人工智慧在過去遭遇的挫折與困境 (例如硬體設備的計算效率不佳)。隨著科技時代的進步,電腦硬體與時俱進,形成現今人工智慧發展的優勢環境,足以支援更複雜演算法與更大量的資料點。
        李院長精彩的演說引人入勝,讓筆者會後更為好奇,人工智慧目前在醫學研究方面是如何被應用與執行的?以及人工智慧的基本概念有些什麼?故筆者搜尋了一些介紹人工智慧的網站,以及一些運用或探討人工智慧的醫學論文。
        以下先提供兩個基礎介紹的網站
GCP專門家 (https://blog.gcp.expert/ml-1-ai-ml-deep-learning-intro/)
STOCKFEEL 股感知識庫 (https://www.stockfeel.com.tw/%E4%BA%BA%E5%B7%A5%E6%99%BA%E6%85%A7%E7%9A%84%E9%BB%83%E9%87%91%E5%B9%B4%E4%BB%A3%EF%BC%9A%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92/)
上述兩個網站都有概念式的基本介紹,以及應用於生活的豐富舉例,網站中也有系列文章可供進一步閱讀。
目前醫學較常見的應用為圖像判斷,以及利用不同演算法(algorithm)建構模型進行預測。利用機器學習建構模型所作的預測,會受到資料萃取方式與資料本身特性的影響,如同上述網站介紹中所言,它無法回答未知的事情。 (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
預測模型使用AUC的限制~~晨晰統計林星帆顧問整理 在臨床醫學研究中,常常會提出一個生物標記(Biomarker)可以預測特定事件的假設,例如以neutrophil gelatinase-associated lipocalin(NGAL)預測急性腎損傷(acute kidney injury, AKI),或是以B-type natriuretic peptide(BNP)預測心衰竭病人的再住院率。
通常此時會有比較的基準,假設已知有個表現良好的生物標記B(或是一組危險因子,例如Framingham Risk Score),此時我們提議(proposed)的生物標記或預測模型(或一組危險因子)為A,可能會有以下幾種的比較。
A的表現比已知的生物標記B更好(head to head comparison)
A+B的綜合表現比B單獨更好(nested model)
A加上baseline risk score之後,預測有增值效果(incremental value)
A加上baseline risk score比B加上baseline risk score(head to head comparison)
而在過去的醫學文獻當中,在回答以上四個問題時,常常以Receiver Operating Characteristic(ROC)的曲線下面積(Area under the curve, AUC)作為主要的統計方法。例如A與B的AUC分別是88%跟85%,此時可以使用DeLong test檢定兩個曲線下面積的差異是否達統計顯著,倘若A的面積顯著大於B(P < 0.05),那麼作者則宣稱A的預測表現優於B。
然而讀者需要先瞭解到何謂AUC(又稱為C-index ...
另開連結前往 RSS 網站
分享社群:
論文整理WORD小技巧-表格篇(四) 陸、框線及網底
41、表格一般呈現的APA格式,基本上不太會有直線,最基本的三條橫線,上下兩端的橫線,以及標題列的分隔線。
42、不過通常剛完成的表格,表格中的每一條直橫線都應該存在這,此時利用框線及網底來調整。
43、選取整張表格並反白,或與步驟16相同。
44、在上方工具列選擇『設計』,找到『框線』裡的『框線及網底』。PS.在WORD 2007版時,將儲存格反白後點選右鍵,就可以看到『框線及網底』。 (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
論文整理WORD小技巧-表格篇(三) 肆、檢視格線
32、如果想在WORD檔中,想對文字進行對齊的工作,其實表格是一種輔助整理的很好的方式,只需要將格線隱藏起來,就看不來是用表格整理的了。以下圖為例,上方的文字是用表格對齊,而下方的文字則是插入空白進行對齊。
 
  (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
傾向分數配對後的相依統計方法~晨晰統計林星帆顧問整理 在觀察型研究當中,傾向分數分析(propensity score analysis)的使用,特別是傾向分數配對(propensity score matching)已經是非常普遍,這個部分可參見筆者在之前寫的文章(https://reurl.cc/qd8xg 以及  https://reurl.cc/V6Xr5)。關於傾向分數配對的技術與介紹,網路上已經有非常多資源(可參見筆者同事撰寫的一系列文章(https://reurl.cc/E7z3R、https://reurl.cc/WdL5D以及https://reurl.cc/O1qlv),但目前比較少人討論在傾向分數配對後的統計方法。
理論上,在同一個配對組合(matched pair)之下的實驗組與對照組(或暴露組與非暴露組),由於他們有很接近的傾向分數(成為實驗組/暴露組的機率),因此他們在用來計算傾向分數的基本屬性上(例如年齡、性別、共病等)也會比較相近,因此此時的實驗組與對照組不再是「獨立樣本」,而是具有相依性的配對樣本(paired sample)1。
傾向分數領域的大師Peter Austin於2011年發表的模擬研究1,以二元結果變項為例(dichotomous outcomes),模擬的結果指出使用配對統計方法的偏差會比較小,包括治療的選擇性偏差(treatment selection bias)或是混淆效果(confounding)。
以下表格是筆者整理的針對配對樣本(相依樣本),在各種條件之下的適用統計分析方法。
  (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
設計絕佳Power BI企業績效儀表版(Performance Dashboard)—實作篇 筆者曾於另文中介紹一個企業績效儀表版的範例,適合業務銷售部門,進行績效管理。為了讓讀者可以嘗試自行製作,特別挑出其中兩個圖塊,成長趨勢(Trends)、城市亮點(City Highlights),介紹製作方法。
企業績效儀表版(註1)
Source:Enterprise DNA
  (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
論文整理WORD小技巧-表格篇(二) 貳、調整表格
15、想將設定為『自動調整成內容大小』的表格換成『自動調整成視窗大小』。
16、用滑鼠選取整張表格,或直接點圖上紅色框線的十字圖示即可選取。
17、點選右鍵,選擇『自動調整』à『自動調整成視窗大小』。
18、表格格式即可變更。 (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
論文整理WORD小技巧-表格篇(一) 接下來一系列文章想和大家分享平常進行統計數據整理時,在WORD中所使用的小技巧,首先是針對表格的部分,目前筆者使用的Office版本為2013版,因為不同版本會造成部分選項位置的不同,如果有遇到此問題的話,可能要另外google一下,或是在文章下方留下您所遇到的問題。
壹、插入表格
本系列文章屬於WORD表格的小技巧,那就先從教大家插入表格開始,有些使用者是會將統計報表數據整理到Excel再貼到WORD上,不過筆者的習慣是先在WORD檔中建立好表格再把數據填入,因此表格就需要先重新建立。
1、點選『插入』à『表格』,當表格格式在10×8以下,可以直接拉出表格,但筆者的習慣是會確認直欄數,橫列數有無確定都沒關係,就算橫列數不確定,下方說明如何增加;雖然說直欄數也可以之後增加,但因為受限於版面,之後調整直欄數時勢必會造成格式走樣,所以習慣上都會先把直欄數先確定。
2、畫面為10×8的儲存格。 (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
設計絕佳Power BI企業績效儀表版(Performance Dashboard)—功能篇 這是一個企業績效儀表版的範例,從整個色調上來看,以深藍色為基底,給人一種穩定、智慧、可信賴的感覺,在企業績效這種高專業內涵的資訊上,特別合適。
 
企業績效儀表版(註)
Source:Enterprise DNA (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
區別效度(Discriminant validity)之AMOS操作 區別效度分析旨在驗證不同兩個構面相關在統計上是否存在差異,在不同構面的題目應該不具有高度相關,如有高度相關,就表示這些題目是衡量同一件事,同常這會發生在構面的定義有過度重疊的時候(張偉豪,2011)。
最常用來驗證區別效度的方法,應該算是平均變異數萃取法(如下表),因為在進行驗證性因素分析(confirmatory factor analysis, CFA)的同時,即可透過所得到因素間的相關係數,以及透過報告收歛效度(convergent validity)時所得到的平均變異萃取量(average variance extracted, AVE)就能完成下列表格,至於判斷的標準,就是該因素的AVE開根號值要高於所有與該因素的相關係數,以下圖因素B為例,AVE開根號為.78,要高於所有與因素B的相關係數.42至.72,則代表有區別效度。
 
  (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
Power BI處理google表單的時間戳記 google表單是很多人拿來製作線上問卷的最佳工具之一,功能齊全又方便。如果你仔細察看下載的回應資料檔,第1欄通常叫作「時間戳記」,記錄每一份問卷提送時間,它的內容包括年月日及時間,是最標準的日期+時間格式。
當你想要統計每天或每週的回應數趨勢,或者想看週一至週日,那一天回收情形較好,「時間戳記」就可以派上用場。
 
  (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
健保資料庫資料年代太舊了,很難被高分雜誌社接受,真的嗎?~晨晰統計林星帆顧問整理 目前欲作健保資料庫有三種管道,第一種是以國衛院時代的攜出健保資料庫,其資料只到2013年就停止更新了;第二種是衛生福利資料科學中心,俗稱加值中心,資料更新約延遲1.5~2年左右;第三種是全民健康保險保險人資訊整合應用服務中心,資料更新約延遲1年。最近常聽到一種聲音,就是知名雜誌越來越不願意接受國衛院的攜出健保資料庫,但筆者的實際經驗似乎相左。
因此筆者使用國立成功大學健康資料加值應用研究中心的健保資料庫搜尋網站(https://visualizinghealthdata.idv.tw/?route=article/thesis),搜尋方式為「限定impact factor > 5」(以2016 JCR的分數),結果有743篇(更新時間 : 2018-06-27),其中43篇為於2018年發表,筆者由摘要中找尋「追蹤截止日期」的相關資訊。
期刊分佈如表一,其中已經被SCI除名的Oncotarget有13篇,去除掉之後還有30篇。
 
(繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
探索性因素分析EFA vs 驗證性因素分析CFA 因素分析是在做量表型研究時,最常用來進行效度分析的統計方法,而因素分析又分為探索性因素分析(Exploratory Factor Analysis, EFA)與驗證性因素分析(Confirmatory Factor Analysis, CFA),因此有兩個常被問到的問題,兩者的差別在哪,以及兩者的使用時機為何,兩者的差異在張偉豪與鄭時宜(2012)一書中有清楚的介紹與彙整,因此本篇也截錄一些重點與大家方享。
探索性因素分析被提出的時間早於驗證性因素分析,主要的目的是在探索一組觀察變項中有多少的潛在因素,其流程是先設定一群觀察變項會受到同一個共同因素的影響,計算其共變程度,再來排除掉共變程度後,再尋找下一個可以解釋剩下共變關係的因素,直到所有變異量被解釋完為止(如下圖左半部),此時所萃取因素的個數剛好就是等於觀察變項的總題數,不過由於多數因素能解釋共變的程度不高,因此就會有許多方式來決定因素個數,譬如說下圖右半部採取特徵值大於一的方式來決定,或是用陡坡圖來決定適合的因素個數。
 
  (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
地政事務所[滿意度調查網頁]申請站-完全免費  
晨晰統計累積多年在滿意度調查上的工作經驗,今年針對全國各地政事務所員工經常舉辦的民眾洽公滿意度,把最常見的題目,整理出二個版本(A版、B版),並把題目內容放上網路,免費提供大家申請使用。
只要提出申請,立即獲得可用的調查網頁,同時附後台連結權限,隨時下載填答檔案。對辦理調查的同仁來說,可大幅減少了蒐集題目、網頁設計與問卷建檔的時間,大約可節省20小時以上工作時間,相當方便。
這二版題目集合各地政所洽公服務滿意度的精華,所有題目皆已千錘百鍊,多次使用證明有效性,歡迎使用。
申請網址:https://goo.gl/TtQjPb (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
Power BI資料視覺化系列6-矩陣和資料表(Tables and matrixes)續篇 在Power BI資料視覺化系列5中,介紹了資料表(Tables)的功能,這裏進一步介紹矩陣(Matrixes)。
矩陣與資料表最大的不同,打個比喻:資料表類似原始資料表,每一直欄為一個屬性(或變項),橫列數即為資料筆數,它其實像是原始資料的呈現視窗。而矩陣則類似交叉表,它是某二變項的交叉,細格中呈現的是個數或平均數。
以下圖為例,這是一個展覽活動的遊客資料。左邊為資料表,展示每每個人前來的次數及交通工具,這時你看到的是每一筆原始資料;右邊則是矩陣,它是頻率與交通工具的交叉表,表中的數字是人數,這時你可以看到坐火車前來的225人中,有123人是第1次來。
 
 
進一步,如果您想看到各項百分比,透過改變上圖value之ID的顯示方式,矩陣(或稱交叉表)中的人數統計也可以改為百分比,包括直欄、橫列、總和的百分比。
 
(繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
Power BI資料視覺化系列5-矩陣和資料表(Tables and matrixes) 資料視覺化原始目的是把成千上萬筆的資料,彙整、計算後呈現在一張圖中,讓我們可以快速看出大小或趨勢關係,獲得資料結果。但是如果我們也想讓使用者同時深入每一筆資料中,細看個案情形,那我們就需要用到矩陣和資料表功能(Tables and matrixes)。
下面是資料表(Tables)的示意圖,我們可以從資料表中細看每一製造商的每一種產品營收,最下方會顯示總和。它有幾個特點:
1.     您可以按一下資料行的標題,切換為遞增或遞減順序,來手動排序每個資料行。è因此可以快速的找到較低或較高的資料。
2.     如果資料行的寬度不足以顯示所有內容,請按一下並左右拖曳標題將它展開。è讓畫面完整呈現,尤其是在投影簡報或多人討論時,特別有用。
3.    如果筆數太多,資料表可以從右方的捲軸,來展示視窗外資料。
 
 
資料表(Tables)的製作方式也很簡單,只要選擇[視覺效果]下的圖示,再依使用者需要,把變項填入[值]區中,欄位順序會決定這些欄位在資料表中的顯示順序。
 
(繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
簡介配對的應用與SAS內建的配對程序PSMATCH -3   延續上一章節,本篇將持續透過官方範例檔與示範程式(如下圖所示),簡介程序實際操作之後產出的報表,以及報表中各項目的涵義。  
  執行完上段程序後,首先產出的報表會描述進行傾向分數配對的變數細節(如下圖所示)。
 
 
(繼續閱讀...)
另開連結前往 RSS 網站
分享社群:

瀏覽更多


載入中....