會議中有委員提到「政府應推動各產業打造數據中心,以利用數據來提供智慧化服務」,這讓我想到去年在歐洲資料論壇聽到的計畫,Industrial Data Space,是一個藉由資料的數位治理(Digital sovereignty),也是一個由資料為基底來提供智慧化服務的計畫,這個計畫認為在工業的數位轉型中很重要的一個項目是在於資料和服務在公司間交換,藉由資料交換,以及與開放資料的整合來串聯公司,可以在新產品和智慧服務中產生附加價值,也就是說這樣新的數位商業模式是有機會應用在傳統工業的公司上。
Industry Data Space就是一個執行工業4.0的計畫,並大量使用資料治理的方法來達到以資料為底蘊的智慧化服務和產品,其中有一個重要的部份是在於一個「參照架構模型」(Reference Architecture Model),其實這就是前面提到的資料基礎設施的一環,如果各位有空去看看內容會發現,這之中有語彙、又有鏈結資料(Linked Data),所以是不是各位可以更理解,為日本在喊IT最先進國宣言,花了功夫在共通語彙基盤上呢?
資料趨動的轉型是數位治理的基礎
以資料趨動的轉型是一個硬功夫,確實要花很多心血和頭腦,但綜觀許多國際案例,資料基礎設施是一個資料趨動轉型的重要支柱,是數位治理的依據。我們的ICT環境比日本先進嗎? 為什麼我們要忽略這一塊? 有德國Industrial Data Space的案例,做為數位政策的 DIGI+ 有意識到資料在產業轉型的重要性? 會議中有另一位委員提到一段令人贊同的話,「在談產業的數位轉型之前,政府可否先做到數位轉型成功後,再來輔導產業」,所以目前DIGI+的計畫書內容真的有辦法帶給台灣政府數位轉型,以帶動產業嗎? 我存疑。台灣的資訊國力會因為這個DIGI+的計畫推動而提昇嗎? 我也存疑。
LOD in Agriculture Workshop 做為G20 農業首席科學家會議(MACS)之一,聚集農業科技上的科學共同討論農業資料之標準化、結構化、鏈結化、及應用上的問題,這個會議是由GODAN ( Global Open Data for Agriculture & Nutrition)、 德國農業部(BMEL)、和德國農業科技與建立協會(KTBL)等三個單位來共同舉辦。
會議開場是由德國農業科技與建立協會(KTBL)的 Daniel Martini 主持。首先,由德國農業部(BMEL)官員致詞,說明會議舉辦的背景,是由於德國今年於漢堡(Hamburg)舉辦G20會議,並因此在波茲坦(Potsdam)舉辦G20中首席農業科學家會議(MACS),而去年的G20會議在中國時,就強調資通訊科技在農業上的應用與發展,延續這個議題,有鑑於歐盟近5年來在鏈結資料上的發展,德國今年則嘗試以鏈結資料在農業上的討論為主來承續中國在去年開啟的議題。而他也說明,雖然這是G20的會議之一,但這個會議其實不侷限於G20的成員參與,而是著重於農業和食物科學議題討論,而開放資料的策略提供更多在農業議題脈絡中創新的機會,有助於解決當前全球共同面對的農業和食物問題。
如何透過開放資料建立更好的農業和糧食資料的利用,進而解決問題,是GODAN計畫在尋找的解決方案,全球各地許多科研單位和科學家加入。他也強調,在剛結束不久的科研資料聯盟(Research Data Alliance, RDA)第10次會議於加拿大蒙特婁(Montréal)舉辦,其中有許多議題都和鏈結資料有關,而鏈結資料的技術與方法在農業和糧食問題的研究發展方興未艾,本次的會議就是想更深入去探討農業上的鏈結資料。
會議主辦方邀請Elsevier的Paul Groth博士,以 「The Roots: Linked Data and the Foundations of successful agriculture data」為題進行專題演講。Groth博士先自我揭露說,他的科學背景是電腦科學,著重於開放資料和鏈結資料,而非農業領域,但家鄉是荷蘭,是非常重視農業科技的國家,也算是和農業扯上邊。
他先以三個問題來揭開專題演講,這些問題也是整演講的脈絡。
鏈結開放資料如何能讓農業不同以往? (How can Linked Open Data make a difference in agriculture? )
什麼樣的技術門檻阻礙了這個發展? (What technical obstacles stand in the way?)
什麼樣的政策需要配合? (What policies are needed to achieve the potential?)
而研究科學資料在很早以前就開始討論資料開始的議題,在國際科學理事會(ICSU)帶領下,國際科學與技術資料委員會(CODATA)及研究資料聯盟(RDA)的會議中不斷地探討科學資料開放的議題,也使得投入科學資料開放的研究者愈來愈多,Groth博士以他為共同作者的Scientific Data期刊文章「The FAIR Guiding Principles for scientific data management and stewardship」為例,引導了科學資料中倡議開放資料的FAIR 原則,即是Findable, Accessible, Interoperable, 和Reusable,其節細內容如圖2,而達到FAIR原則所導向是成功的資料,而達成成功資料的最佳途徑就是鏈結資料。
圖2: FAIR原則 (來源: Wilkinson et al., M.D. 2016, The FAIR Guiding Principles for scientific data management and stewardship, Scientific Data 3, 160018)
The paradigm shift of the ImageNet thinking is that while a lot of people are paying attention to models, let’s pay attention to data. … Data will redefine how we think about models.
Groth博士進一步地以FAIR Data的概念來說明資料供應的標準和語彙如何強化資料的品質,在多資料來源和多使用者的平台上更加顯得重要,他就以全球變遷資料庫「The Global Change Information System」來說明如何利用W3C PROV (Provenance Vocabulary) 來幫助平台的資料品質。
由於網路科技的發展,資料在網路中持續地快速增長,如何有效去蕪存菁,找出資料有用的知識,以解決問題,成為一項挑戰,知識發掘與資料探勘(Knowledge Discovery and Data Mining, KDD)即是一個跨領域的科學,著重於利用各種方法由資料中擷取出有用的知識,這些方法包含統計學、資料庫、圖形辨識、機器學習、資料視覺化、最適化分析、和高效能運算等研究。傳統的地理資料處理方法不足應付當今巨量且多樣化地理資料,知識發掘與資料探勘在地理資訊科學逐漸被重視,近年來常被應用於了解複雜的地理現象,例如,人與環境交互影響和社會經濟動態,同時也著重在於真實世界的危急問題,例如全球氣候變遷和流行性疾病散播(Mennis and Guo, 2009)。
自願性地理資訊其實就是一種群眾外包(Crowdsourcing)[1]的地理資料,在群眾集體協同合作的完成工作,在同儕相互檢視與競爭下,在生產的資料中產生集體智慧。 由群眾參與的製圖而成的開放街圖,縱然在一些區域的完整度和正確性仍有不足,但讓人驚艷的地方是,有許多地區已經達到商用水準,如西歐、美國、和日本,且與專業的地理資訊的品質亦相去不遠(Haklay, 2010),而包含於開放街圖中的知識,常成為補充專業性地理資訊不足的資源,以香港大學為主的研究團隊,他們利用開放街圖資料擷取土地坵塊的特性與類別,以便進行都市規劃(Liu and Long, 2015),而芬蘭國家土地測量局的一項研究也利用開放街圖擷取自行車道的資料,進而分析自行車道受歡迎的程度(Bergman and Oksanen, 2016)。
文字訊息是社群媒體中主要的內容,目前己經有許多研究和應用利用文字探礦(Text mining)的方法,由社群媒體的文字訊息來獲取有用的資訊或知識,例如預測群眾運動的發生、輿論的發展趨勢、商品的網路口碑、和災情分析等,同樣的,文字探礦應用於社群媒體也為地理資訊研究帶來不同視野,仇恨的地理(The Geography of Hate)是洪堡德州立大學(Humboldt State University)史蒂芬斯博士(Monica Stephens)團隊所執行的計畫,這個計畫的動機和剛卸任美國總統歐巴馬(B. Obama)有極大關係,他在第二任當選時,不滿他當選的人在推特(Twitter)中大量用歧視性字眼攻擊他,如黑鬼(nigger)和猴子(monkey),歧視性字眼的使用代表著仇恨、忿怒的負面情緒,而這些推特文(tweets)帶有地理座標,可標示於地圖,因此可以呈現出這些「仇恨」的地理空間分佈。該研究團隊收集2012年6月到2013年4月間,超過15萬筆的推特文,利用情感分析(sentiment analysis)將推特文分類,並依照情緒字眼所設計的量表,來區分出正面、中立、和負面,研究團隊不僅處理了對於種族仇視情緒,也處理了同性戀和身障者的仇視程度,當負面的仇恨情緒愈高時,在地圖上顯示的就愈紅、反之則愈藍,圖2所顯示的是黑鬼(nigger)的仇恨情緒的空間分佈,呈現出美國東西二岸相當不同的結果。
事實上,GPS航跡是自願性地理資料中不可或缺的一塊,許多人常會把跑步、自行車、開車、登山健行等活動所記錄的航跡分享,透過時空間這些航跡常常可以擷取出一些有意義的事件或地點。德國弗勞恩霍夫爾智慧分析與資訊系統研究所(Fraunhofer Institute IAIS)為主的研究,他們在義大利米蘭中收集了17,241部車子於一週中的GPS航跡,如圖3所示,利用時空間群聚分析把時空間行為相似的航跡歸類,並且區分出塞車事件和興趣點,圖4即是研究團隊從龐雜的GPS航跡中歸類出有意義的事件(Andrienko et al., 2011)。此外,北京大學為首的研究團隊分析北京市的塞車樣態,他們收集北京市中28,519部計程車在24天的GPS航跡,不但以時空間群聚分析把塞車事件區分出來,而且進一步地區分同一路段不同方向塞車樣態,圖5中說明了(a)路段是北三環路,很規律地在週間7:30-10:00和13:30-18:30二個時段都容易塞車,(b)路段的車速偏低,因為是在二個小學間,但週間的7:30-8:00時段是接送學生的時間,最容易塞車,(c)和(d)都是在北京西站旁的隧道,但分屬二個方向,一方向容易在早上塞車,而另一個在下午塞車,一大筆的GPS航跡若不經過處理很難看得出塞車(Wang et al., 2013),但經過適量處理後,不但可以發掘城市中的塞車樣態,可以了解市民的生活動態。
圖3:在米蘭一週中的GPS航跡之時空間分佈(Andrienko et al., 2011)圖4:以時空間群聚分析從GPS航跡中歸類出有意義的事件(Andrienko et al., 2011)
Andrienko, G., N. Andrienko, C. Hurter, S. Rinzivillo3, S. Wrobel1 (2011) From Movement Tracks through Events to Places: Extracting and Characterizing Significant Places from Mobility Data, Proceeding of IEEE Symposium on Visual Analytics Science and Technology, pp.159-168, October 23 – 28, Providence, Rhode Island, USA
Bergman, C. and J. Oksanen (2016) Conflation of OpenStreetMap and Mobile Sports Tracking Data for Automatic Bicycle Routing, Transactions in GIS, 2016, 20(6): 848–868.
Goodchild, M.F. (2007), Citizens as sensors: The world of volunteered geography, GeoJournal, 69 (4): 211–221.
Haklay, M (2010) How good is volunteered geographical information? A comparative study OpenStreetMap and Ordnance Survey datasets, Environment and Planning B: Planning and Design 37:682-703.
Liu, X. and Y. Long (2015) Automated identification and characterization of parcels with OpenStreetMap and points of interest, Environment and Planning B: Planning and Design, 43(2): 341–360.
Mennis, J. and D. Guo (2009) Spatial data mining and geographic knowledge discovery – An introduction, Computers, Environment and Urban Systems, 33: 403-408.
Wang, Z., M. Lu, X. Yuan, J. Zhang, and H. van de Wetering (2013) Visual Traffic Jam Analysis Based on Trajectory Data, IEEE Transactions on Visualization and Computer Graphics, 19(12): 2159-2167