從知識發掘與資料探勘看自願性地理資訊之價值

自願性地理資訊是集結群眾的地理資料,常常記錄一般人對於週遭環境的經驗、感受與喜好,而知識發掘與資料探勘則是綜合各種技術和方法以便從資料中擷取出有用的知識,如何善用知識發掘與資料探勘由自願性地理資訊挖掘出有用的知識成為新世代地理資料科學家課題,讓我們用幾個實際的案例來說明知識發掘與資料探勘帶來解決問題的潛力,以及自願性地理資訊帶來的新的研究視野。

知識發掘與資料探勘

由於網路科技的發展,資料在網路中持續地快速增長,如何有效去蕪存菁,找出資料有用的知識,以解決問題,成為一項挑戰,知識發掘與資料探勘(Knowledge Discovery and Data Mining, KDD)即是一個跨領域的科學,著重於利用各種方法由資料中擷取出有用的知識,這些方法包含統計學、資料庫、圖形辨識、機器學習、資料視覺化、最適化分析、和高效能運算等研究。傳統的地理資料處理方法不足應付當今巨量且多樣化地理資料,知識發掘與資料探勘在地理資訊科學逐漸被重視,近年來常被應用於了解複雜的地理現象,例如,人與環境交互影響和社會經濟動態,同時也著重在於真實世界的危急問題,例如全球氣候變遷和流行性疾病散播(Mennis and Guo, 2009)。

自願性地理資訊

資通訊科技的革新,Web 2.0世代的來臨,改變了網路使用者的角色,從傳統上的資訊消費者,轉變成提供網頁內容的資訊生產者,同時,這個轉變也帶動了地理資訊的改變。傳統上地理資訊的生產是需要透過專業訓練的人員來製作,這些地理資料生產的工作也多數集中在測繪製圖單位、學研機構,然而,上述網路環境的轉變,也帶動地理資料生產方式的改變,新興的資通訊技術,開創了網路上開放性協同合作架構,帶動了網路地圖技術的革新,加上全球定位系統(Global Position System, 簡稱GPS)裝置的普及,使得一般人很容易地就可以在網路上共同地生產出地理資料,例如,開放街圖(OpenStreetMap, OSM),即是一個協同合作的線上地圖,參與者並非都是地理資訊專家,透過網路共同地繪製且編修地圖,這個地圖的產生不是專家學者的規劃,再由訓練有素的人員來繪製,相對地,這是透過一般人以協同合作的方式來產生,他們自願地貢獻時間精力來參與地圖繪製,產生地理資料,這類的地理資料通常被稱為「自願性地理資訊」 (Volunteered Geographic Information, VGI)(Goodchild, 2007)。

群眾外包集體智慧

自願性地理資訊其實就是一種群眾外包(Crowdsourcing)[1]的地理資料,在群眾集體協同合作的完成工作,在同儕相互檢視與競爭下,在生產的資料中產生集體智慧。 由群眾參與的製圖而成的開放街圖,縱然在一些區域的完整度和正確性仍有不足,但讓人驚艷的地方是,有許多地區已經達到商用水準,如西歐、美國、和日本,且與專業的地理資訊的品質亦相去不遠(Haklay, 2010),而包含於開放街圖中的知識,常成為補充專業性地理資訊不足的資源,以香港大學為主的研究團隊,他們利用開放街圖資料擷取土地坵塊的特性與類別,以便進行都市規劃(Liu and Long, 2015),而芬蘭國家土地測量局的一項研究也利用開放街圖擷取自行車道的資料,進而分析自行車道受歡迎的程度(Bergman and Oksanen, 2016)。

社群媒體的地理資料

除了開放街圖,事實上,有更多的自願性地理資訊是來自於社群媒體的使用,使用者為了分享訊息於社交網絡中,常常附帶一組地理座標於照片或文字中,使得這些分享的內容成為地理資料,這樣的地理資料,在多數情況下,不是事前的規劃才去產生的資料,而是一般民眾在日常生活中對週遭環境的觀察與感想,藉由社群媒體中分享於親朋好友,進而逐漸累積成有意義的資料,舉例而言,Flickr是知名的照片分享平台,提供使用者以標籤(tag)分類照片,當一地名被當成標籤而使用於帶有地理座標的照片時,這些照片所形成空間範圍,則可以表示一般人對於該地名所認知的空間範圍,圖1中所顯示的是以「公館」為標籤且帶有地理座標的照片所群聚出之區域,從圖上可以明顯看出,台北市內的公館是以新生南路到基隆路間的羅斯福路為基礎,並往北方的新生南路、東北方台灣大學校園、西南方的寶藏巖擴展,也就是說,當一般人提到台灣大學附近的公館時,其心裡所認知的空間範圍有可能不只有水源市場附近,而是更大的範圍。

圖1: 有「公館」為標籤且帶有地理座標的照片所群聚出之熱區圖

文字訊息是社群媒體中主要的內容,目前己經有許多研究和應用利用文字探礦(Text mining)的方法,由社群媒體的文字訊息來獲取有用的資訊或知識,例如預測群眾運動的發生、輿論的發展趨勢、商品的網路口碑、和災情分析等,同樣的,文字探礦應用於社群媒體也為地理資訊研究帶來不同視野,仇恨的地理(The Geography of Hate)是洪堡德州立大學(Humboldt State University)史蒂芬斯博士(Monica Stephens)團隊所執行的計畫,這個計畫的動機和剛卸任美國總統歐巴馬(B. Obama)有極大關係,他在第二任當選時,不滿他當選的人在推特(Twitter)中大量用歧視性字眼攻擊他,如黑鬼(nigger)和猴子(monkey),歧視性字眼的使用代表著仇恨、忿怒的負面情緒,而這些推特文(tweets)帶有地理座標,可標示於地圖,因此可以呈現出這些「仇恨」的地理空間分佈。該研究團隊收集2012年6月到2013年4月間,超過15萬筆的推特文,利用情感分析(sentiment analysis)將推特文分類,並依照情緒字眼所設計的量表,來區分出正面、中立、和負面,研究團隊不僅處理了對於種族仇視情緒,也處理了同性戀和身障者的仇視程度,當負面的仇恨情緒愈高時,在地圖上顯示的就愈紅、反之則愈藍,圖2所顯示的是黑鬼(nigger)的仇恨情緒的空間分佈,呈現出美國東西二岸相當不同的結果。

圖2: 黑鬼(nigger)的仇恨情緒的空間分佈 (http://users.humboldt.edu/mstephens/hate/hate_map.html)

GPS航跡中的時空間樣態

事實上,GPS航跡是自願性地理資料中不可或缺的一塊,許多人常會把跑步、自行車、開車、登山健行等活動所記錄的航跡分享,透過時空間這些航跡常常可以擷取出一些有意義的事件或地點。德國弗勞恩霍夫爾智慧分析與資訊系統研究所(Fraunhofer Institute IAIS)為主的研究,他們在義大利米蘭中收集了17,241部車子於一週中的GPS航跡,如圖3所示,利用時空間群聚分析把時空間行為相似的航跡歸類,並且區分出塞車事件和興趣點,圖4即是研究團隊從龐雜的GPS航跡中歸類出有意義的事件(Andrienko et al., 2011)。此外,北京大學為首的研究團隊分析北京市的塞車樣態,他們收集北京市中28,519部計程車在24天的GPS航跡,不但以時空間群聚分析把塞車事件區分出來,而且進一步地區分同一路段不同方向塞車樣態,圖5中說明了(a)路段是北三環路,很規律地在週間7:30-10:00和13:30-18:30二個時段都容易塞車,(b)路段的車速偏低,因為是在二個小學間,但週間的7:30-8:00時段是接送學生的時間,最容易塞車,(c)和(d)都是在北京西站旁的隧道,但分屬二個方向,一方向容易在早上塞車,而另一個在下午塞車,一大筆的GPS航跡若不經過處理很難看得出塞車(Wang et al., 2013),但經過適量處理後,不但可以發掘城市中的塞車樣態,可以了解市民的生活動態。

圖3:在米蘭一週中的GPS航跡之時空間分佈(Andrienko et al., 2011)
圖4:以時空間群聚分析從GPS航跡中歸類出有意義的事件(Andrienko et al., 2011)

 

圖5:利用GPS航跡以時間空視覺化分析北京市塞車樣態(Wang et al., 2013)

價值: 地理學研究再進化

自願性地理資訊帶來許多探究真實世界的可能性,而知識發掘與資料探勘的方法則是允許研究人員從資料中挖掘出知識的方法,利用合適的方法從自願性地理資訊中挖掘知識則為地理資訊科學帶來另一個視野,讓我們有可能更深入地了解人與環境的交互影響、區域特性和人文自然現象的空間分佈,即是應用知識發掘與資料探勘於自願性地理資訊的價值。

參考文獻

  1. Andrienko, G., N. Andrienko, C. Hurter, S. Rinzivillo3, S. Wrobel1 (2011) From Movement Tracks through Events to Places: Extracting and Characterizing Significant Places from Mobility Data, Proceeding of IEEE Symposium on Visual Analytics Science and Technology, pp.159-168, October 23 – 28, Providence, Rhode Island, USA
  2. Bergman, C. and J. Oksanen (2016) Conflation of OpenStreetMap and Mobile Sports Tracking Data for Automatic Bicycle Routing, Transactions in GIS, 2016, 20(6): 848–868.
  3. Goodchild, M.F. (2007), Citizens as sensors: The world of volunteered geography, GeoJournal, 69 (4): 211–221.
  4. Haklay, M (2010) How good is volunteered geographical information? A comparative study OpenStreetMap and Ordnance Survey datasets, Environment and Planning B: Planning and Design 37:682-703.
  5. Liu, X. and Y. Long (2015) Automated identification and characterization of parcels with OpenStreetMap and points of interest, Environment and Planning B: Planning and Design, 43(2): 341–360.
  6. Mennis, J. and D. Guo (2009) Spatial data mining and geographic knowledge discovery – An introduction, Computers, Environment and Urban Systems, 33: 403-408.
  7. Wang, Z., M. Lu, X. Yuan, J. Zhang, and H. van de Wetering (2013) Visual Traffic Jam Analysis Based on Trajectory Data, IEEE Transactions on Visualization and Computer Graphics, 19(12): 2159-2167

[1]群眾外包(Crowdsourcing)一詞是傑夫×豪伊(Jeff Howe)於2006年《連線》雜誌中所創造出的新詞,這個詞說明了當時正在發展趨勢,即是企業或組織的工作透過網路向廣大的群眾邀請,來提出解決問題想法(例如,因應氣候變遷的對策)、提供資源(例如,照片)、甚至簡單的勞務(例如,收集資料),最後,企業或組織聯合群眾一起共同地完成工作。群眾外包和外包(outsourcing)不一樣,外包(outsourcing)是將特定工作指派給特定的企業、組織、或個人,雙方會有一定的勞雇關係,而群眾外包是邀請廣大的群眾參與工作,強調協同合作的夥伴關係,參與者常常是自願者,也有可能得到一些回饋。

 

自願性地理資訊?或志願性地理資訊 ?Volunteered Geographic Information (VGI)

國土資訊通訊80期中的特稿「NGIS的下一步:公眾參與」,將Volunteered Geographic Information (VGI),翻譯為「志願性地理資訊」,而不少中文的翻譯是用「自願性地理資訊」,國科會空間資訊學門中101年研究計畫重點是譯為「自發性地理資訊」,到底什麼才是貼切的翻譯呢? 在這裡提供一些個人的看法。

Volunteered Geographic Information (VGI) 為 Micheal Goodchild 於2006-2007間所提出,隨即在網路上流傳,正式的出版則是2007年GeoJournal中「Citizen as sensors: The world of volunteered geography」一文[1]。「Volunteered」一詞是否可充份代表這類型的地理資訊,引起一些討論,在2007年的VGI Workshop中,René Sieber (2007)[2] 認為使用者提供這類型的資訊並非完全出自於「志願」,而只是要分享給他們的朋友,如在Flickr上有地理標籤的照片,多數是出自於使用者想以地圖顯示的方式來分享給他們的朋友。這類的地理資訊是因為Web 2.0技術演進,而讓使用者簡單地透過線上地圖的介面或有GPS的devices,就可以生產地理資訊,他們的目的並非出於遠大的志向,多數時候是因為社群網絡(social network)的相互影響。相對地,這樣的地理資料與Citizen Science的資料大不相同,Citizen Science的地理資料,是為受過訓練的義工(或志工),對於環境保護、動物保護(尤其是鳥類保育)有遠大的志向,希望盡自己一份力量,能對於環境或動物的保護有所幫助,而這些資料因為有地理空間座標或地名可以定位,被視為地理資訊。這二種資料都不是專業地理資訊者所產出,在Goodchild的文章中,把這二者放在一起討論,來支撐他使用 Volunteered Geographic Information (VGI) 一詞定義這網路如雨後春筍般冒出的「地理資訊」。然而,對於VGI一詞在地理資訊學界並沒有太多爭議和激烈的討論,這一、二年地理資訊領域似乎也接受這個名詞,而廣被使用了。事實上,2005年左右,對於Web 2.0 技術演進,而讓使用者可以生產網頁中的內容,早有名詞定義,「User-Generated Content 使用者生產內容」,何不延續這樣子的名詞來形容這類的地理資訊,如User-Generated Geo-content,這是否來的貼切呢?

了解VGI的背景後,我們來看看中文的譯名,

「自願」,自己願意;

「志願」,有遠大的志向或抱負而願意,如志願役,保衛國家的抱負;環保志工,為環境保護為志願;

Volunteered 翻譯成「自發性」似乎是很少見的。

個人認為「自願性地理資訊」與這種地理資訊的本身意涵較為接近,是使用者自己願意提供出來, 並非所有地理資訊都是出於某種遠大的志向。

 

[1] Goodchild, M. (2007) Citizen as sensors: The world of volunteered geography, GeoJournal, 69:211-221.

[2] Tulloch, D. L. (2007). Many, many maps: Empowerment and online participatory mapping. First Monday, 12(2).  http://www.firstmonday.org/htbin/cgiwrap/bin/ojs/index.php/fm/article/view/1620/1535