初步檢視 Data.gov.tw

在本年度的全球開放資料調查中,台灣大躍進到第一名,在網路上有幾篇探討檢視台灣政府公開資料的相關文章,也探討了今年新加入的評比因子對於全球開放資料的影響。

基於進一步了解台灣政府開放資料的情況,於是初步檢視台灣政府開放資料平臺上的資料格式。依照國發會於平臺初建立時的資訊,將該平臺上的資訊分為:

原始資料類,包括:CSV、JSON、TXT、XML。 系統介接程式類,包括了: DEMDSM、 RSS 、WEB QUERY、WEB SERVICES。

於是藉由朋友在準備教學資料的同時,也協助取得了政府開放資料平臺上的相關格式資料,先分析由各部會所提供的資料,先取取得資料格式的種類、計算筆數及百分比後,得到以下的結果:

檔案格式 計數 百分比
CSV 7,209 34.98%
XML 6,850 33.24%
PDF 2,092 10.15%
JSON 1,582 7.68%
MS Office格式 (doc, docx, xls, xlsx) 1,489 7.23%
TXT 452 1.29%
Open Office 格式 (odf, ods, odt) 274 1.33%
WebService 265 1.29%
RSS 113 0.55%
SHP 82 0.40%
壓縮檔案 (zip, rar) 59 0.29%
KML 51 0.25%
WMS 31 0.15%
RDF 18 0.09%
WebPage (html) 16 0.08%
KMZ 9 0.04%
WMTS 7 0.30%
圖片檔案 (gif, png) 4 0.02%
Others 2 0.01%
ASMX 1 0.00%
DEMDSM 1 0.00%
總數 20,607 100%

需要說明的是,在平台中有所謂的RAR、ZIP的壓縮資料,都歸屬至壓縮檔案內,如果一個檔案的標式有PDF、XML、Word等多重檔案格式,我們會整併到PDF裡,會在以下說明原因。

在第一波的開放資料是先以筆數為優先考量,再加上政府平時公務處理就須依照「政府資料公開法」、「無障礙網頁開發規範」,會在公開的網站欄位裡提供兩種以上的檔案格式,如PDF、Word檔,所以在第一波的開放基礎是以「政府公開資料」為基礎,於是會看到各部會提供PDF、Word、Excel等格式的檔案存在於這個平臺上。由於平臺上的資料是連結至各單位的資料下載位址,所以有些單位是提供頁面連結,讓使用者回到自己單位網站上找尋資料。

PDF、HTML、MS Office格式的資料在全球開放資料普查中都屬於「不開放」的資料,這目前平臺上有這多種此格式的資料,也可能顯示:

平時的文件處理都是以MS Office格式的軟體在處理,儘管國發會在網站上幾乎都是以.odt、.ods等格式的檔案居多,但以目前公務電腦的軟體格式及使用習慣,還是以MS Office的軟體在處理。 人力無法支援。如果需要另外處理檔案格式,可能需要改變平時的行政流程。行政流程的改變與重整需要很長的時間、大量的心力進行流程規劃與重整,但若是要在短期內追求績效與亮點,或是為了避免得罪體系內同仁,只能轉移方向及模糊注意焦點,如「改變資料處理的方式」,把資料交給其他人處理,或是讓不少願意投入協助政府改革的有志之士白白浪費時間、精神與力氣,陪著繁複的行政流程虛度光陰,是目前看到大問題之一。 資料提供者在填寫時的錯誤,可能是一時誤填、也可能是不清楚資料格式,所以會造成資料統計時的錯誤。 對資料分析與處理人員的工作負荷量來說,清理PDF、Word、HTML較處理Excel檔案是更耗費心力,在整個工作過程裡,多數的時間都耗費在清理、分類、找出資料的統一性,以便提供機器讀取,在短時間分析資料。從檔案格式來看,在平臺上的XML佔了33.24%,但這些檔案真的是可以機器讀取的XML檔案或只是透過檔案轉換而取得的XML?若是後者,可能也會降低資料處理的效率。實際處理資料轉換與清理的朋友談提供了這樣的經驗與提供資料格式的建議:

資料進入Excel本身就需要整理成表格,所以「入excel」這件事情就已經有整理資料的概念。資料品質容易肉眼檢查。,但避免使用巨集、公式。XML的好處是schema有彈性,如果資料的格式少量多樣的話xml是比較合適,xml也可以表達結構關係,但是XML沒有方便的編輯器,還需要其他工具轉換。如果原始資料來源本來就是Excel就直接給excel吧。轉換過程其實有很多風險,尤其是中文編碼陷阱,如果遇到態度隨便的工程師轉出來的XML也等於是廢物。所以要避免轉換格式之類的額外程序。恰當地使用XML,沒有必要的話不要用。 -Iap

該平臺上也有一些資料是透過「資料轉換」的步驟改變檔案格式以符合開放格式的檔案,資料提供者是否會再進一步檢視資料的正確性?而在資料轉換的過程裡,可能也要負擔資料遺失的風險,更可能會造成統計結果的誤差,更進而發生判斷錯誤的結果。

就應用面來看,目前平臺上所提供的活化應用展示共有48筆,是由民眾在活化應用單元推薦、經過民間的評分後,取分數較高者展示於「活化應用展示」。下載了這48筆應用的介紹,依照應用程式的敘述將這些分類並統計(資料):

類別 人身安全 公益相關 文化教育 交通資訊 災害防治 政治參與 食品安全 旅遊資訊 健康醫療照護 商業應用 環境資訊
3 1 4 1 2 1 1 1 10 18 4 3

從上面的資訊可以看出「健康醫療照護」與「旅遊資訊」還是目前開發者在運用這些政府開放資料所開發的領域。

先簡單的自台灣政府一直在鼓勵開發者使用政府開放資料來開發APP、創業的政策來看,自APP Annie於2015年12月16日的統計裡,Android平臺裡,註冊國家為台灣的醫療類(不含健身與塑身類)的免費與付費APP至少各有500筆,其中也包含了台灣政府部門所開發的APP。

這些所差異顯示出的問題是:

開發者是否知道該平臺的存在?可以自由取用政府開放資料? 對開發者來說,向政府單位購買的資料是否更優於平臺上的資料? 平臺上資料的質與量是否滿足開發者的需求? 在找尋資料時,在使用上的直覺可能還是會先到相關的部會網站找尋資料,而不是先想到政府開放資料平臺找尋。

政府開放資料的另一個目的是希望能藉此提高民眾的參與及監督,就目前網站上相關的應用只有1筆,民間由其他社團所開發的應用或其他專案則不列在其中。

從預算、會計資訊來看,有許多單位所提供的會計資訊可能是逐月的資料再整併壓縮至一個RAR或是ZIP或是任何一種壓縮格式的檔案,或是為了追求刊登筆數而將不同月份的資料視作一筆。前者可能對於「批量(Bulk)」字義的誤解,認為將大量不同筆數的資料壓縮在一個檔案內就是提供了大量的資料。但若是月份的更新,其實可以整併在一筆資料內,依月、依年的不同提供資訊。

在整理資料的過程裡,也注意到某些地方政府自己並未建置開放資料平臺,而是利用這個平臺提供資料,相較於其他自己有開放資料平臺的地方政府來說,其實算是充份利用政府資源的案例。

台灣政府所謂「政府開放資料」離「開放政府」、「民眾參與及監督」距離很遙遠;在不同領域的開發應用上好像也是模糊不清、缺少一把解密的鑰匙,就檔案資料格式看起來,雖然有不少看起來是可以直接使用的資料,但也必須再進一步檢視資料的品質、資料格式是否如頁面描述一樣(如有些資料是*.odt,但卻選擇CSV格式)。從全球開放資料評比過程裡,台灣在今年就評比的資料項目取得第1名,但真正要透過這些政府開放資料平臺上的資料改善人民的生活,或是藉帶來改變產業結構或符合政策目標的大躍進,似乎還是有一段相當遙遠的距離,也極為需要更多商業智慧的投入,協助改善與增加應用。


作者:YZ

資料分析:劉佳欣 Rafe C.H. Liu

意見提供:Iap