很開心歡迎你的到來,目前已發布1.0版本,感謝支持。
匯集你所喜歡的社群動態
試著將你喜愛的動態加入關注吧...
相關推薦 : 熱門關注
晨晰統計部落格新站(統計、SPSS、BIG DATA討論園地) :: 痞客邦 ::
頻道 : RSS頻道
類別 : 不設分類
瀏覽人次 : 19
add收藏
一個討論統計的好地方
前往 RSS 詳細瀏覽
你是此專頁頻道維運人員,不希望被收錄動態,請告知我們 取消收錄
地政事務所[滿意度調查網頁]申請站-完全免費  
晨晰統計累積多年在滿意度調查上的工作經驗,今年針對全國各地政事務所員工經常舉辦的民眾洽公滿意度,把最常見的題目,整理出二個版本(A版、B版),並把題目內容放上網路,免費提供大家申請使用。
只要提出申請,立即獲得可用的調查網頁,同時附後台連結權限,隨時下載填答檔案。對辦理調查的同仁來說,可大幅減少了蒐集題目、網頁設計與問卷建檔的時間,大約可節省20小時以上工作時間,相當方便。
這二版題目集合各地政所洽公服務滿意度的精華,所有題目皆已千錘百鍊,多次使用證明有效性,歡迎使用。
申請網址:https://goo.gl/TtQjPb (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
Power BI資料視覺化系列6-矩陣和資料表(Tables and matrixes)續篇 在Power BI資料視覺化系列5中,介紹了資料表(Tables)的功能,這裏進一步介紹矩陣(Matrixes)。
矩陣與資料表最大的不同,打個比喻:資料表類似原始資料表,每一直欄為一個屬性(或變項),橫列數即為資料筆數,它其實像是原始資料的呈現視窗。而矩陣則類似交叉表,它是某二變項的交叉,細格中呈現的是個數或平均數。
以下圖為例,這是一個展覽活動的遊客資料。左邊為資料表,展示每每個人前來的次數及交通工具,這時你看到的是每一筆原始資料;右邊則是矩陣,它是頻率與交通工具的交叉表,表中的數字是人數,這時你可以看到坐火車前來的225人中,有123人是第1次來。
 
 
進一步,如果您想看到各項百分比,透過改變上圖value之ID的顯示方式,矩陣(或稱交叉表)中的人數統計也可以改為百分比,包括直欄、橫列、總和的百分比。
 
(繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
Power BI資料視覺化系列5-矩陣和資料表(Tables and matrixes) 資料視覺化原始目的是把成千上萬筆的資料,彙整、計算後呈現在一張圖中,讓我們可以快速看出大小或趨勢關係,獲得資料結果。但是如果我們也想讓使用者同時深入每一筆資料中,細看個案情形,那我們就需要用到矩陣和資料表功能(Tables and matrixes)。
下面是資料表(Tables)的示意圖,我們可以從資料表中細看每一製造商的每一種產品營收,最下方會顯示總和。它有幾個特點:
1.     您可以按一下資料行的標題,切換為遞增或遞減順序,來手動排序每個資料行。è因此可以快速的找到較低或較高的資料。
2.     如果資料行的寬度不足以顯示所有內容,請按一下並左右拖曳標題將它展開。è讓畫面完整呈現,尤其是在投影簡報或多人討論時,特別有用。
3.    如果筆數太多,資料表可以從右方的捲軸,來展示視窗外資料。
 
 
資料表(Tables)的製作方式也很簡單,只要選擇[視覺效果]下的圖示,再依使用者需要,把變項填入[值]區中,欄位順序會決定這些欄位在資料表中的顯示順序。
 
(繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
簡介配對的應用與SAS內建的配對程序PSMATCH -3   延續上一章節,本篇將持續透過官方範例檔與示範程式(如下圖所示),簡介程序實際操作之後產出的報表,以及報表中各項目的涵義。  
  執行完上段程序後,首先產出的報表會描述進行傾向分數配對的變數細節(如下圖所示)。
 
 
(繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
只要作這二件事,你的google表單就會自動跑到Power BI 大家好,如果你是數據話的忠實觀眾,本集(數據話第十七集)我們改變一個方式,看看別人怎麼說。
有位Youtober 叫Curbal(訂閱數8596 at 2018/4/3),錄了一段視頻,標題是「How to connect Google Sheet with Power BI」(如合連結google表單與Power BI) https://www.youtube.com/watch?v=2hFCeduIP6k ,時間不長才5分鐘,請先看完。
 
簡單講,如果你經常使用google表單作網路問卷,那麼你一定非常熟悉下面這個畫面,問卷填答資料表。雖然你下載後,可以在excel上製作各種精美統計圖表。但是如果客戶或老闆希望在調查期間,隨時可以查閱資料,而且是以圖表方式呈現,你怎麼辦呢?總不能隨時stand by製作圖表吧?
  (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
存活偏誤(Survival bias)對觀察型研究設計與存活分析的影響-2   呈上個章節簡單介紹觀察型研究中的存活偏誤(Survival bias),本章節導讀文獻中提出的常見的5種研究設計方法,前2種會受到存活偏誤(Survival bias)影響,導致研究結果產生傾向於某一方有優勢,後3種為控制存活偏誤(Survival bias)的研究設計方法,以下將逐一介紹。
 
方法1:簡單分組(Simple grouping)
  以AMI出院後90天內用藥情況分為Statin跟Non-statin組,兩組人都以AMI出院日期做為觀察起始時間,追蹤AMI出院之後發生再次住院或死亡的風險。此種設計是以未來的暴露(出院後90天)定義藥物暴露組,在計算未來事件發生率時,由於Statin組在出院後到首次使用Statin之前的這段觀察時間為無事件(event-free)觀察人年,因此只會貢獻發生率的分母(觀察人年),而不會對分子(研究觀察的事件, event)有貢獻,造成計算Statin組的發生率時,發生率的分母被膨脹,因此發生率被低估,導致在與Non-statin組比較發生風險時,形成人為操作之下對Statin組有較小的發生率比(Rate ratio)。
  (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
存活偏誤(Survival bias)對觀察型研究設計與存活分析的影響-1   觀察型研究中,由於介入/治療行為並非由研究者施予及分組,非受試者與受試者在受到其他許多背景、環境等因素操弄之下,而形成他們在研究中被觀察到的組別或治療型態。而醫學研究中,常見的觀察性研究資料類型多數為病歷回顧或是資料庫形式。當研究者從現有的資料集中萃取研究個案將其分組,並觀察追蹤期間的結果時,會因為【分組】這個動作而產生存活偏誤(Survival bias),或是不死的時間偏誤(Immortal time bias)。舉例來說,研究者從現有資料庫中篩選出一群急性心肌梗塞(AMI)的病人,看病人出院後90天內的Statin藥物使用狀況,將病人分成Statin組跟Non-statin組,並觀察病人從AMI出院之後發生AMI再住院或死亡的風險。這看似順風順水的研究設計,潛藏著一個干擾觀察結果的偏誤(bias),出院後90天內因為有使用Statin而被分到Statin組的人,從病人出院到使用Statin的這段時間是保證存活(意即活著的人才有機會被開Statin),因為死亡而來不及使用Statin的人就會被分到Non-statin組。在比較Statin與Non-statin組在AMI出院之後的AMI再住院與死亡時,就可能會發現Non-statin組死亡率比較高且AMI再住院率比較低,這是因為死亡而來不及用藥的人都在Non-statin組,而死亡的人也比較不容易被觀察到AMI的再住院,這個現象就稱為不死的時間偏誤(Immortal time bias)。
  流行病學研究設計中,有幾種處理不死的時間偏誤(Immortal time bias)的方式,以下援引American Journal of Epidemiology於2005年介紹的5種研究設計方式,其中方法1跟方法2都是會強烈受到偏誤(bias)影響研究結果,而方法3~5則是控制偏誤(bias)的方式,下一章節將逐一導讀介紹文獻中的5種研究設計方法,以及這5種研究設計之下對結果產生的影響。
 
圖1、不同研究設計的方法與相對應的分析方式 (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
Power BI學習心得分享二 接續「Power BI學習心得分享一」,本篇介紹資料表關聯。
在Power BI有所謂的建立資料模型(Modeling),乍看不知何意,其實就是建立資料表之間的關聯性。因為實務上,資料表可能來自不同來源,比如訂單資料來自業務部,人事資料來自人事部,廠商資料來自採購部,各自維護更新,當需要分析時再串連一起。又如同樣是紀錄廠商資料,會計部重點在統編、銀行帳戶、匯款紀錄、發票地址等,而採購部重點在產品型號、價格、數量等,平常各自為政,當需要串連時,就要用到資料表關聯。
在串連資料時,不需要把資料壓平合併成一份大資料表,只要事先定義它們之間的關聯性,就可以同時使用多份資料表。再者,您可以建立自訂計算式,創造出新量值,並在視覺效果中使用,以利建立模型。
舉例在北風資料庫中,將客戶、訂單、訂單詳細資料、員工、產品等五張資料表同時匯入PBI,雖然它會自動識別資料表中的關聯,但不一定正確,而且不一定完整,所以我們仍須手動。
  (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
簡介配對的應用與SAS內建的配對程序PSMATCH -2   延續上一章節,本篇將透過官方範例檔,簡介程序實際操作的狀況,以及程序指令代表的意思。
  首先,下圖列出範例檔案的前10筆觀察值。StudentID為收案編號;Music在此作為研究組別,分為Yes跟No兩組,在此Yes組視為治療組(Treated),No組視為對照組(Control);Gender為類別型共變數;Absence為連續型共變數。
 
  (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
Power BI學習心得分享一 今(2018)年3月上旬參加數位時代所舉辦的「PowerBI圖像式資料分析」,雖然只有短短一天的課程,但對於在資料視覺化領域鑽研一段時間的人來說,仍可以有相當大的幫助。
話說微軟因應大數據分析需求,從Excel 2010開始,逐步增加各種增益集,像Power Pivot、Power View、Power Query、Power Map等四大天王,給予使用者自助式商業智慧功能。到了Excel 2016,這些功能變為內建,使用更為方便(後二者更名為「新查詢」、「3D地圖」)。
不過這些功能都建立在Excel上,為加速推廣應用,微軟在2014年推出Power BI線上服務,並提供免費的Power BI Desktop程式,讓使用者可以不用到Excel情況下,使用商業智慧功能。
為區別二大走向,我將前者稱為Excel Power BI(工具為Excel與增益集),後者則稱為Microsoft Power BI(工具主要為Power BI Desktop)。對初學者而言,從Excel入門會比較快,等熟悉後,再來學習Power BI Desktop會比較容易。二者其實有一半以上的功能是雷同的,但最終目的不太一樣。如果你只要單機操作、運算、展示,那Excel Power BI就可以了;但如果你想把結果放上雲端,多人異地同時查詢,那麼Microsoft Power BI就是你的選擇。本文在舉例上將偏重在Power BI Desktop(以下簡稱PBI Desktop)。
  (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
簡介配對的應用與SAS內建的配對程序PSMATCH~1   近幾年已有越來越多醫學研究的研究設計採用配對法比較試驗組與對照組的差異,在眾多配對方式中,本篇文章簡單分享筆者較為常用的配對方式。
  在觀察型研究中,為了提升試驗組與對照組之間的可比較性(Comparability),將兩組的背景干擾變項(例如:年齡、性別、共病等)作配對,使兩組在試驗介入以外的其他變項達到均衡。配對後的兩組便能在假設無其他因素干擾之下,比較試驗介入本身對觀察結果的影響。當然,此項假設是理想的假設情境,實際上,配對只能考慮研究者有納入配對的變項,因此配對後的兩組只會在有配對的變項上達到平衡,研究者沒有考慮到的因素可能還是分佈不均衡的。
  舉例來說,筆者之前協助分析的案子中,有一項研究是將肝炎病毒感染者分為治療組跟非治療組,配對年齡、性別跟共病,比較存活結果。投稿審查過程中,審查委員認為社會經濟差異會影響病人成為治療組或是非治療組,且社會經濟地位也會影響病人的存活,因此建議需將兩組的社會經濟地位納入配對項目中。而實際上,該研究最初只有配對年齡、性別與共病時,配對後的樣本確實存在社會經濟地位的差異。
  從上述案例可知,為何觀察型研究無論用何種配對分析方式,皆無法完全取代設計良好的隨機分派臨床試驗(randomized clinical trial, RCT)的原因,配對跟統計法只能盡可能的趨近隨機分派的狀態,將偏差(bias)盡力的降低。
  而在筆者實務操作中,比較常使用的配對方式為採用貪婪配對的最鄰近配對法(Greedy nearest neighbor),以往操作方面是引用Lori S. Parsons刊登於SUGI 29的OneToManyMTCH巨集(macro)。SAS / STAT 14.2版開始有PSMATCH程序可進行多種不同的配對方式,並且能輸出配對品質評估的相關報表數據及圖表。下一章將透過官方範例檔,簡介程序實際操作的狀況。 (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
傾向分數分析介紹(第2篇,共2篇)- 晨晰統計林星帆顧問整理 完成對處置變項的羅吉斯迴歸之後,根據每個個案的基本特性(年齡、性別與共病狀況)會得到預測機率,即此人成為治療組的機率。在接著往下進行傾向分數的分析之前,要先評估治療組與控制組在傾向分數的分布情形。可以使用兩種方法來判斷,第一種是畫圖,第二種是看C-statistics(即C-index或AUROC)。C-statistics代表的是預測變項對處置變項(1=treated, 0=untreated)整體的區別力,0.5為完全無法區別,1代表完美區別。
下圖列出傾向分數可以非常有效區分治療組與控制組的結果,兩組在傾向分數的分布截然不同,而且重疊區域很少(中間灰色底的common support),這種狀況是很難進行後續的傾向分數分析的,不管進行任何一種傾向分數分析,都無法有效降低混淆因子的效果。當出現這種情形時,檢查是否有對處置變項的強烈預測變項,例如「有洗腎的病人一定不會開Metformin」或是存在工具變數。
 
資料來源:Kim等人(2016)的圖2A (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
傾向分數分析介紹(第1篇,共2篇)- 晨晰統計林星帆顧問整理 在現今的醫學研究中,傾向分數分析(propensity score analysis, PSA)儼然扮演非常重要的角色。下圖為筆者在Pubmed以關鍵字「propensity score」搜尋得到的文獻筆數,由結果可知,以傾向分數作為研究方法的文獻呈現非線性的增加,到了2017年,單年度超過3千篇文獻使用傾向分數,可見傾向分數已為醫學研究當中的顯學。
 
  (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
結構方程SEM模式配適度指標(Model Fit)之介紹(3) 本篇文章將介紹針對結構方程常用的配適度指標作介紹,除了整理各指標的判斷標準及參考文獻之外,亦針對一些特殊的情況進行說明。
九、比較性配適指標(Comparative fit index, CFI)
CFI類似於NFI,但對樣本數有加以懲罰,因此CFI與RMSEA一樣較不受到樣本數大小的影響(Fan, Thompson, & Wang, 1999),即使在小樣本之下,CFI對模式配適度的估計表現仍相當好(Bentler, 1995)。CFI介於0~1之間,CFI指數越接近1代表模型契合度越理想,表示能夠有效改善中央性的程度。傳統上認為CFI在0.9以上為良好配適(李茂能,2006;陳正昌、程炳林、陳新豐與劉子鍵,2003;張偉豪,2011)。而有學者認為要以大於.95為通過門檻,用來評估模式適配度才夠穩定(Bentler, 1995; Hu & Bentler, 1999; 邱皓政,2011),但1不代表是完美配適,只代表模型卡方值小於假設模型的自由度。CFI在巢型結構中也是個常用的指標,巢型結構模型中CFI差異的大小決定模型是否不同(Cheung & Rensvold, 2002)。
Fan, X., Thompson, B., & Wang, L. (1999). Effects of sample size, estimation method, and model specification on structural equation ...
另開連結前往 RSS 網站
分享社群:
結構方程SEM模式配適度指標(Model Fit)之介紹(2) 本篇文章將介紹針對結構方程常用的配適度指標作介紹,除了整理各指標的判斷標準及參考文獻之外,亦針對一些特殊的情況進行說明。
 
五、標準配適度指標(normed-fit index, NFI)
NFI是CFI的另一種選擇,數值介於0~1之間,通常採用NFI值大於0.9為標準(Bnetler & Bonett, 1980; 邱皓政,2011),而Schumacker and Lomax(2004)認為NFI要大於0.95,0.9~0.95為可接受。但Ullman(2001)指出,由於NFI在樣本數小的時候會被低估,因此建議在此情形下,放寬到0.8的標準。另外,NFI無法對模式精簡加以反應,因此估計參數愈多,亦即模型愈複雜,NFI就愈高,因此學者通常偏愛NNFI。
 
Bentler, P. M. & Bonett, D. G. (1980). Significance tests and goodness-of –fit in the analysis of covariance structures. Psychological Bulletin, 88, 588-606. (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
結構方程SEM模式配適度指標(Model Fit)之介紹(1) 本篇文章將介紹針對結構方程常用的配適度指標作介紹,除了整理各指標的判斷標準及參考文獻之外,亦針對一些特殊的情況進行說明。
一、卡方檢定(Chi square test)
卡方值是SEM最原始的指標,因為它直接從ML估計法的函數【(N-1)FML】計算而得。卡方值是愈小愈好,但也沒有一定的標準,因為卡方值不但會受到樣本數的影響,也會受到模型複雜度的影響,幾乎所有的模式都可能被拒絕(Bnetler & Bonett, 1980; Marsh & Hocevar, 1985; Marsh, Balla, & McDonald., 1988),算不上是實用的指標,因此顯少採用,但它是許多配適度指標的計算基礎,所以在SEM分析中需要呈現。
Bentler, P. M. & Bonett, D. G. (1980). Significance tests and goodness-of –fit in the analysis of covariance structures. Psychological Bulletin, 88, 588-606.
...
另開連結前往 RSS 網站
分享社群:
SAS 9.4 Freq 增強新功能 SAS 2017/7/28出版的文件【SAS 9.4 新功能】中,介紹許多SAS 9.4M1到SAS 9.4M4的增強功能及調整。其中,在Proc Freq程序中,增強估計勝算比 (odds ratio, OR)的信賴區間。以下將透過簡單的範例玩玩這個功能。
首先,先以proc logistic的程序估計勝算比及勝算比的信賴區間,程式碼如下所示(Mortality=1為死亡):
 
proc logistic data=a.ex descending ;
class Gender(ref="1") ; (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
多變項迴歸分析的呈現方式(共2篇,下)~~晨晰統計林星帆顧問整理 (二)Points system
如上所述,nomogram不適用於解釋變項太多的情況(例如>10),當我們的多變項分析同時包括10個甚至15個變項時,此時則可以考慮以points system來呈現多變項模式的結果。
points system會先找一個連續變項作為參考變項(reference variable),以本例中就是adenoid(介於0-100%),並且對於此連續變項作「有臨床意義的分組」,例如將Adenoid以每20%分成一組,這個動作等於將迴歸係數四捨五入。
假設我們將Adenoid分成<20%, 21-40%, 41-60%, 61-80%, >80%共五組,先找出每個組別的中點(Midpoint),分別是10%、30%、50%、70%、90%,此時>80%比上<20%就是90%比10%,80乘以迴歸係數0.025等於2。假使我們給予Adenoid>80%為8分(比上<20%),於是我們得知「2單位的迴歸係數等同於8分」,那麼由於Breathing pause的迴歸係數是1單位,所以Breathing pause=1會被指派4分,若有其餘變項的話,也是以此類推。
關於points system的詳細計算,包括羅吉斯迴歸與Cox模型,可參見Sullivan 2004的文章說明1。 (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
多變項迴歸分析的呈現方式(共2篇,上)~~晨晰統計林星帆顧問整理 多變項迴歸分析(Multivariable or multi-predictor regression analysis)指的是迴歸方程式中,同時有2個或2個以上的解釋變項,反應變項(Response variable, Y)則可能是各種尺度的變項,常見的有線性(連續變項)、二元、計數與存活資料等,分別適用線性迴歸(Linear regression)、羅吉斯迴歸(Logistic regression)、卜瓦松迴歸(Poisson regression)及Cox比例危險模型(Cox proportional hazard model)等。
呈現多變項分析結果最常見的方式就是列表,列出迴歸係數、勝算比或危險比的值、信賴區間以及顯著性,如下表所示。方程式除了列解釋變項的迴歸係數(或勝算比、危險比)之外,也列出截距項(Intercept or constant)的數值,以利讀者可以帶入特定值,以計算出預測的結果變項的數值,例如50歲男性且Creatinine是0.8,此人的預測Y值是多少。預測Y值在線性迴歸跟卜瓦松迴歸代表的是平均值,在羅吉斯迴歸與Cox模型則是代表發生事件的機率。
 
以上表格易於看出哪些解釋變項是跟結果變項有關,但對於轉換為「絕對風險」(Absolute risks)則是較為不直觀,因為讀者必須自行帶入截距項或是基線危險值(Baseline hazard)計算出Y的預測值。另外一方面,表格提供的資訊並不容易比較各個解釋變項的預測效果之強弱,以上表為例,由於age跟creatinine的單位不同,並無法直接從迴歸係數或風險比直接比較兩者的效果。 (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:
Power BI資料視覺化系列4-散佈圖視覺效果(Scatter Charts)               當我們要看二個連續變項的相關度(例如照護品質與健康人數),最常用的視覺效果是散佈圖。就像下圖點出XY軸二變數的位置,如果散佈點往右上的話,那是正相關,代表照護品質愈好,健康人數愈多;反之,右下是負相關。此外,如果加上圈圈大小,還可以表示第3連續變項,例如圈圈愈大,所得愈高。而且顏色也可以變化,同一顏色代表同一區域等。所以說散佈圖可以表達的資訊其實也可以很豐富。
 
 
                  在Power BI上如果來作散佈圖(Scatter Charts)呢?我們繼續使用在視覺化系列1中的保險資料集(https://support.spatialkey.com/spatialkey-sample-csv-data/,資料集Sample insurance portfolio)。在視覺效果選擇下圖紅圈處(在PBI Desktop上滑鼠滑過時的名稱為”散佈圖”),將X軸設為tiv_2012(保險金額),Y軸設為hu_site_deductible(自負額)。結果將如下圖所示,橫軸為房屋保險的投保金額,縱軸則為損失的自負額,這時你可以看到每張保單的分布。看起來有往右上分布的正趨勢,或許眼見為憑,你會想把趨勢線秀出來,這點PBI可以作到! (繼續閱讀...)
另開連結前往 RSS 網站
分享社群:

瀏覽更多


載入中....