G20農業鏈結開放資料會議 Part 3 – 語彙、分類、索引典、地球觀測

John Fereira, AGROVOC-Three Ways

John Fereira在上午的場次講過康乃爾大學發展的VIVO,在這個場次的演講很簡短,而他想分享的是AGROVOC可以使用在三個功能中,分別為:

  1. 自動標籤(AutoTagging),少部份或沒有詮釋資料的時候使用;
  2. 自動建議(AutoSuggest),應用於在使用者介面當需要手動加入一些關鍵字時;
  3. 概念匹對(Concept Matching),當標記標籤於一個領域特定的儲存庫中的資源且該標籤要能匹對於一個語彙。

他並以介紹Agriknowledge網站,是一個農業文獻服務網站即是利用AGROVOC且應用上述三個功能,圖31即顯示關鍵字在Agriknowledge的使用,這些關鍵字都和AGROVOC有對映,且文獻本身也有相對映的AGROVOC,如圖32所示。

圖31: Agroknowledge的關鍵字功能
圖32: 應用AGROVOC的概念階層來瀏覽文獻

Valeria Pesce, Semantic challenges in sharing dataset metadata and creating federated catalogs: the example of the CIARD RING

Valeria Pesce 是全球農業研究論壇(GFAR)的資訊系統經理和計畫經理,且與GODAN的祕書共同合作,過去曾代表FAO和GFAR,現今則是加入歐盟計畫資料基礎計畫( agINFRA, Big Data Europe),並管理CIARD RING和AgriProfiles開放資料平台的在全球與區域間的協調工作。

圖33: CIARD RING平台

她的演講主要是在介紹CIARD RING (如圖 33)平台中對於農業資料集的管理,並強調語意在資料集管理上的好處及方式,圖34說明了描述資料集如何需要語意,除了使用DCAT、 DCAT-Stats、DateCube和VOID的語彙外,對於主題詞和資料型態都可以利用知識組識系統(Knowledge Organization System)來架構,使這些主題詞和資料型態的詞彙能夠清晰表達。「值」的標準化,如資料的主題涵蓋範圍和維度、格式、和協定的使用等,這些值在RDF也通常被視為是「資源」(resource),所以可被以URIs來辦別,但值通常是一個字串、概念的URI通常是專屬的設計,並非沒有一個共通的知識組織系統來指涉所有的事,她舉了幾個例子,如農業主題詮釋資料是AGROVOC或CABI thesaurus? 地理的詮釋資料是GeoNames或FAO GeoPolitic Ontology? 還有維度及文獻的語彙應該選那一個,如圖35 所示。然而,語彙所涉及的範圍和複雜度不一樣,是否合適於自己的資料需要評估,並非所有語彙都需要。

圖34: 描述資料集所使用的語彙以正規化語意

Pesce 也說明了選擇農業領域和跨領域語彙用於CIARD RING平台經驗,CIARD RING是一個農糧資料集和資料服務的聯合目錄平台,RING是指Routemap to Information Nodes and Gateways,為GFAR對於農業研究發展(Coherence Information for Agriculture Research for Development, CIARD)的計畫,RING的主要目錄可以提供資料和資料集,且都有詮釋資料,並使用RDF編碼。聯合目錄是透過獲取(Harvest)其它目錄平台的詮釋資料而來,目前有聯合的平台計有datahub, EU open data portal, Dataverse catalog, data.gov.uk, data,gov等,計有2740筆資料,4832項服務。RING平台的詮釋資料是以DCAT-AP、VOID和DataCube為主,並且會推出RING DCAT profile,她隨後介紹了RING平台中對於資料和資料集的詮釋資料編碼。

圖35: 語彙的選擇

 

其中介紹了如何利用SPARQL Queries控制LOD的映對,如圖36中的SPARQL query,可以取得所有畜牧的資料集是以AGROVOC的Livestock。

圖36: LOD的SPARQL查詢

 

在演講的結論中,她也再次強調最大的語意之挑戰在於資料或詮釋資料整合時缺乏使用共通語彙,而不是在格式、綱要(schema)或描述的方式不同,在許多情境中,資料缺乏好語意是因為不關注這部份,而不是工具的不足,RING的機器可讀層和SPARQL endpoint不是提供給終端使用者,他們期待的是更多開發者去建構加值的服務。

 

 

Sophie Aubin, Agrisemantics, vision for an infrastructure for semantic-based interoperability of agricultural data

Sophie Aubin沒有出席,是由Johannes Keizer代為演講。

Agrisemantics是一個農業資訊語意的研究社群,企圖邁向一個可以無縫使用和創造語意資源以支持農業和食物資料的互操作性。Agrismenatics的價值是一個自動化語意資源集合可反應出豐富的觀點和不同的領域資料,農業概念應建立出一個共通的概念網要,即Global Agriculture Concept Schema (GACS),有一組穩定的URIs可以重複使用和連結其它資源,增加鏈結由不同資源中製造資料操作性,分享經驗和共同的實務經驗,Agrisemantics是一個新開始的計畫,其整體架構如圖37所示。

圖37: Ageisemantics的架構

 

地球觀測與遙測(Earth observation and remote sensing)

這個場次的有5個演講,如下所示,都是歐盟國家的計劃,和資料或開放資料有關。

  1. Holger Lilienthal, The Research Center for Agricultural Remote Sensing (FLF) – a data source for agricultural information based on Sentinel satellite data
  2. Silke Migdall, ESA’s Food Security Thematic Exploitation Platform “Supporting sustainable food production from space”
  3. Bernd Hoffmann, Decision support for crop protection – Pest identification using UAV technology
  4. Sebastian Fritsch, Using open data and artificial intelligence to digitize global agriculture
  5. Uwe Voges, Linking and finding earth observation data on the Web

對於上述5個演講,就摘錄與開放鏈結資料的重點來記錄。

Lilienthal博士的演講中主要是介紹歐洲哨兵衛星系列的影像如何應用於農業資訊的擷取,而歐洲哨兵衛星是以開放資料的方式釋出,在即時資料方面,可以進行農作型態分類、農作輪作、草地監測、和土壤流失監控,動態資料方面,可以進行產量潛勢推估、植物參數(如生物量、葉面積指數、葉綠素含量)、和物候學(如成長天數),如圖38。

圖38: 歐洲哨兵衛星應用於農業上可生產出來的資料

Migdall所介紹如何以巨量資料平台來處理糧食安全的問題,並且說明平台中的許多資料是地理和航遙測資料如何應用於糧食安全問題的決策。同樣地,Hoffmann 所介紹的是德國的整合型的農業計畫,而著重的是如何應用UAV影像擷取出更多有助於農業決策的資訊。

Voges 博士的演講是在於介紹如何利用鏈結資料技術於地球觀測資料的查詢上,他提到雖然地球觀測資料是開放資料,但通常透過特定的接口(portal),或典藏於特定的平台,如果使用者對於這些接口和平台不熟悉的話,很難找到且取用這些資料。利用 OGC Catalogue Service標準來進行地球觀測資料之詮釋資料的處理,透過一般的搜尋引擎還是無法找到資料,他認為鏈結資料的方法是解決這個困境的途徑,應該有一層鏈結資料服務層架構在底層的空間資料基礎設施(SDI),如圖39所示。接著他介紹了如何利用OGC OpenSearch Geo and Time[3]標準和鏈結資料技術實現以鏈結資料技術為主的地球觀測資料平台。

圖39: 鏈結資料服務層介於搜尋引擎、開放資料平台和地球觀測資料庫之間

G20農業鏈結開放資料會議 Part 2 – 視覺化、導覽和搜尋

Jerzy Weres, Programming technologies supporting management of Linked Open Data in the domain of cereal grain drying and storage

Jerzy Weres教授是來自波蘭波茲納(Poznan)大學農業及生物技術學院資訊應用系。他認為農業資訊對於農夫或農業工程而言都是重要的基礎,這些資訊有助於做出更好的決策,而要讓決策支援的軟體能與時並進,就必須去使用未來的網路科技,這樣的科技己經可以被用來增加決策支援系統的功能性、可靠性、使用性、可維持性和效能,藉由語意網技術來整合多種不同資訊來源現在已經是未來系統發展的趨勢,語意網技術為基礎的系統的新見解是如何透過整合軟體而讓傳統平台開放和利用智慧型手機的開放近用。

在這個演講中,他分享了他是如何與學生在資訊和農業工程課程上合作開發,並且留下二個資訊系統,一是語意網為基礎的建議系統可以支援分析、設計和管理榖物乾燥、處理和儲存,以及另一個整合系統可支援推估和分析幾何、熱能和不同屬性的農糧及林產。

圖8: 語意網為基礎的建議系統 “Ziarbit” 支援分析和管理榖物處理、乾燥和儲存

榖物處理、乾燥和儲存之語意網為基礎的建議系統中是以UML勾勒出系統的結構和欲解決的問題,再以Visual Studio 2013、Windows Phone SDK 8、Xamarin、 .NET 4.5、 ASP .NET 4.5、 C++/CLI 和 C# 5.0 等程式語言為建構環境,圖8即是主系統 “Ziarbit” 的畫面,其中具有處理RDF和SPARQL的元件,如圖9即是RDF三元組的產生器,系統中使用知識本體來正規化資料,圖10即是描述乾燥機的知識本體圖形化。而他們也發輕量化的手機版本,如圖11所示。

圖9: RDF三元組的產生器
圖10: 乾燥機的知識本體的一部份
圖11: 語意網為基礎的建議系統的輕量化手機版開發

可支援推估和分析幾何、熱能和不同屬性的農糧及林產的整合系統是用來模擬熱能和生質能(如玉米核)的質量轉移過程,可以檢驗物質是非均質、非等向、和不規則的特性,以有限單元格網的3D座標來表現一產品的幾何、熱傳導、溼度傳送係數和可轉換的溼度轉換系數,這個整合系統包含了一個共通的圖形介面,而且整合推估、分析和視覺化農糧和林產之熱及水轉移過程的子系統,這個系統是根據標準的軟體工程方法所建立,並利用Visual Studio 2013和C# 5.0 程式語言為建構環境。這個整合系統名為BioProcessSoft,是一個有圖形化介面和資料庫的系統,並包含三個子系統,3D Mesh Node、BioVis和IPS,圖12是3D Mesh Node子系統的截圖畫面。

圖12: 3D Mesh Node子系統

 

John Fereira, Visualization of Linked Open Data – eye candy for VIVO

John Fereira是康乃爾大學資深程式設計師,是VIVO一開始發展就加入的成員。VIVO在2003 – 2005年間,最早的開始由康乃爾大學針對生命科學領域開發,是以關連式資料庫為主,2006 – 2008 年間,VIVO已經擴展到康乃爾大學的所有領域,並且轉換成以語意網為主,2009 – 2012 國家衛生研究院的支持,VIVO讓國家科學網路計畫可以建立,轉換VIVO成為一個多機構的開放源碼平台,2012 後,VIVO轉換成DuraSpace,成為開放社群發展為主的應用程式,VIVO 因此成為一個開放源碼、開放資料平台、且使用開放知識本體,圖13為VIVO的知識本體。

VIVO也是一個可以讓相關於研究活動的資料可看得到且可及的語意發佈平台,以語意網為基礎的研究者和研究之探索工具,除了可以對「人」進行描述,可以針對其它組織、研究經費,計畫、論文發表、活動、設備和研究資源等項目,進行關係的描述,例如有意義的連結人和活動,而這些關係是雙向的,可以瀏覽從一個點到另一個點的脈絡,以URI連結VIVO以外的人、地方、組織和事件。VIVO是一個跨領域的開放資料平台,開放地分享資料並使用鏈結資料,以連結學者、研究社群、學校,VIVO可以整合多種來源的資料,如系統記錄、職員活動報告、和外部資源(如,文獻資源Scopus、PubMed和NIH RePORTER),它也提供可以提供一個檢視和編輯介面,且可整合和過濾資訊至其它網址。

圖13: VIVO 的知識本體

康乃爾大學的[email protected]網站即是利用VIVO所製作,圖14即是[email protected]網站,而圖15展示了[email protected]架構及其與VIVO的關係,網站可以輕鬆地瀏覽各個學者的著作發表、獲得計畫和金額可在網站一覽無遺,可經由網站瀏覽學者的相關資訊,如發表的著作和獲得的計畫與金額,如圖16 和圖17所示而網站中也提供了四種資訊視覺化方法,文字雲、全球合作的地圖、計畫經費、和研究興趣,如圖18-21。

圖14: 利用VIVO所做的[email protected]網站

 

圖15: Scholar[email protected]架構及其與VIVO的關係
圖16: 對於單一學者的查詢及資料展示
圖17: 對於共同作者關連的視覺化

 

圖18: 文字雲

 

圖19: 全球合作的地圖
圖20: 研究經費和計畫的視覺化
圖21: 研究興趣關連視覺化

 

Daniel M. Herzig, Searching Linked Data Graphs with GraphScope

Herzig博士之前是德國卡爾斯魯爾科技研究院(Karlsruhe Institute of Technology, KIT)之應用資訊和正規描述方法研究所(Institute of Applied Informatics and Formal Description Methods, AIFB) 之成員,該研究所亦是歐洲語意網研究的重點研究機構,出產許多知名的語意網研究學者。Herzig博士於2014年共同創辦了SearchHaus,這家公司致力於利用圖管理(graph management)方式於巨量資料的關鍵字查詢,metaphacts則是另一家於2014年成立的公司,致力於知識圖管理的公司,2017年二家公司併整,Herzig博士成為這家公司的營運長,該公司目前約10人左右。

圖22: GraphScope的技術內容
圖23: GrophScope的系統架構

GraphScope 是二家公司整併後的新產品,是一智慧型資料近用引擎,可允許使用者以簡單的方式,如關鍵字,去取用結構化資料,特別是RDF 資料。 透過GraphScope對於關鍵字解析,可提供使用者更精確的查尋結果,如果是下SPARQL queries,使用者需要了解資料綱要(schema)和SPARQL的語法,才可以得到較為準確的結果,但在GraphScope並不需要,所有過於技術的細節使用者是看不到的,也不用了解,GraphScope可以把綱要和語彙內建默記起來以便處理資料,也就是辨認關鍵字,GraphScope也適於用了解資料模型的領域專家,即使不了解語意網和資訊技術,也可以簡單的查詢資料,圖22為GraphScope的技術內容。GraphScope可以部署於三元組資料庫的上層且提供網頁介面,圖23即顯示GraphScope的系統架構。

在農業資料方面,metaphacts幫丹麥農業部門處理資料,在農業資料部份包含農田和作物,在商業資料部份包含土地權屬、公司的住址及並活動的資料,資料的知識本體如圖24所示,利用GraphScope建立系統,如圖25所示。

圖24: 丹麥農業資料知識本體

 

圖25: 查詢誰種菠菜的結果

GraphScope最早應用的領域是在生命科學,圖26所顯示的是利用GraphScope架構的基因庫查詢系統,The Gene Expression Atlas ( http://www.ebi.ac.uk/rdf/services/atlas/ ) 由歐盟生物資訊研究所(The European Bioinformatics Institute, EMBL-EBI) 建構,其畫面為查詢REG1B的基因序列之結果。

圖26: The Gene Expression Atlas (http://www.ebi.ac.uk/rdf/services/atlas/) 

GraphScope在其網站上(https://www.metaphacts.com/graphscope)提供二個展示,一是利用Wikidata,另一個是研究著作的查尋系統ResearchSpace。在Wikidata的展示上登入頁面上,只需要輸入關鍵字,例如,輸入「Taiwan」,搜尋列會列出所有和Taiwan一字有關的實體(entities),如圖27,點選其一,可以找到所有和這個實體有語意關係的實體和概念,其介面提供視覺化介面,如圖28展示出所有和「Taiwan」有語意關係的實體。

圖27: 與「Taiwan」相關的實體
圖28: 與「Taiwan」有語意關係的實體

 

Daniel Martini, Linked Data architecture components – How to attach linked data services to legacy infrastructure?

Daniel Martini是籌辦單位之一德國農業科技與建立協會(KTBL)中資料庫和知識技術組的專家,他們團隊在2004年左右就開始進行AgroXML的建立與發展。在他的演講中一開始先說明了KTBL這個單位的背景,KTBL是一個有註冊的非營利協會,2/3是由德國農業部所資助,有來自於學術、業界的各領域專家約400位成員左右所組成,有70位左右的職員在Darmstadt工作,管理許多工作小組、組織專家工作坊、出席相關委員會、以及維持專家網絡。KTBL的任務是將研究成知識導入農業的實務中,並以專業來支援政策決策,評估新農業技術在經濟和生態在衝擊,以及提供計畫性資料(如,投資、產品處理過程…)到農夫。資訊技術的角色有三: 一為資料獲取,是由開放資料來源中獲得,二為資料處理,是由原始資料轉換為計畫資料,三為資訊提供,透過電子書、網頁和APPS,傳遞農業資訊給客戶。

KTBL並負有一個任務是在於傳遞人和機器都可讀格式的計畫性資料,這其實需要處理(1)人與機器都可讀的類別(classes),如購買價格、供給的消費量…等; (2)標準田野工作流程,如工作時間、在不同制度下機器的共通方式…等; (3)操作供給: 平均價格、內容…等; (4) 設施和建物: 畜舍、牛奶機器和它們的屬性…等,讓以上這些資料能夠被更多的人使用,而且能夠進一步地在軟體應用程式中處理,以便服務農夫。

圖29: 語意網工具評估

在KTBL中有許多資料準備提供分享,而他們想要遵循FAIR原則,而且使用標準規格,如RDF、HTTP、SPARQL,但這些資料早己經存在於既存的系統(基礎設施),他們想的是如何開發出來一個工具箱可以以最少工作來解開這些儲放在既存資料庫中的資料。

因此KTBL的第一步就是開始設計語彙,讓資料能讓「再使用(reuse)」,他們以rdfs:label提供人可謮的名稱,在人名、地址、電話部份,他們使用VCardFOAF語彙,在單位和維度方面,使用QUDT語彙,在地理資訊方面,使用GeoVocabGeoSPARQL,在價格和產品方面,他們使用Good Relations Ontology,有這些語彙他們也建立他們的知識本體。並且開始從既有竹點的資料庫中開始要轉換資料,但在這之前,面對這麼多的工具要怎麼使用成為一個問題,所以他們對於這些工具進行評估,最後決定用D2RQ由資料庫轉RDF資料、用Jena Fuseki來儲存RDF和支援SPARQL 查詢、用ELDA進行序列化和網頁版型, 圖29即是評估過工具和最後決定的評估過程。最後結論也再次強調利用開源工具去建立語意網服務是輕鬆寫意的事情。

圖30: KTBL的語意網服務的系統結構

G20農業鏈結開放資料會議 Part 1 – 會議背景和Keynote

會議背景

LOD in Agriculture Workshop 做為G20 農業首席科學家會議(MACS)之一,聚集農業科技上的科學共同討論農業資料之標準化、結構化、鏈結化、及應用上的問題,這個會議是由GODAN ( Global Open Data for Agriculture & Nutrition)、 德國農業部(BMEL)、和德國農業科技與建立協會(KTBL)等三個單位來共同舉辦。

值得一提的是,GODAN是一個5年的跨國合作計畫,規模為850萬美元,由美國政府、英國政府、荷蘭政府、開放資料研究所(Open Data Institute, ODI)、聯合國國際農糧組織(FAO)、歐盟支援的農業研究與創新全球論壇(The Global Forum on Agricultural Research and Innovation, GFAR)、農業和生物科學國際中心(Centre for Agriculture and Biosciences International, CABI)、國際農業研究諮議組織(Consultative Group on International Agricultural Research, CGIAR)、農業與農村合作技術中心(Technical Centre for Agricultural and Rural Cooperation, CTA)、 和食物與農業研究基金會(Foundation for Food and Agriculture Research, FFAR)等10個單位共同出資,目前全球共有579個公私立單位參與成為該計畫夥伴。

會議開場

會議開場是由德國農業科技與建立協會(KTBL)的 Daniel Martini 主持。首先,由德國農業部(BMEL)官員致詞,說明會議舉辦的背景,是由於德國今年於漢堡(Hamburg)舉辦G20會議,並因此在波茲坦(Potsdam)舉辦G20中首席農業科學家會議(MACS),而去年的G20會議在中國時,就強調資通訊科技在農業上的應用與發展,延續這個議題,有鑑於歐盟近5年來在鏈結資料上的發展,德國今年則嘗試以鏈結資料在農業上的討論為主來承續中國在去年開啟的議題。而他也說明,雖然這是G20的會議之一,但這個會議其實不侷限於G20的成員參與,而是著重於農業和食物科學議題討論,而開放資料的策略提供更多在農業議題脈絡中創新的機會,有助於解決當前全球共同面對的農業和食物問題。

接著是GODAN計畫祕書的Johannes Keizer博士致詞,他是前FAO官員,退休後持續在全球的農業和糧食議題上努力,尋求更多解決的方法。他認為開放資料是解決全球農業和糧食問題的重要策略,許多的經濟效益是可以由開放資料而來,

而開放資料的重要的內涵在於資料再利用,產生資料流動,資料不斷地流動,才有可能有經濟效益和價值,開放資料也透過資料分享、知識分享,讓整個系統更有效率、更加有力量,更加的堅固。資料要流動,就必須讓資料能夠被找的到,資料要再被利用,就必須讓資料的語彙共通。

如何透過開放資料建立更好的農業和糧食資料的利用,進而解決問題,是GODAN計畫在尋找的解決方案,全球各地許多科研單位和科學家加入。他也強調,在剛結束不久的科研資料聯盟(Research Data Alliance, RDA)第10次會議於加拿大蒙特婁(Montréal)舉辦,其中有許多議題都和鏈結資料有關,而鏈結資料的技術與方法在農業和糧食問題的研究發展方興未艾,本次的會議就是想更深入去探討農業上的鏈結資料。

最後,由Daniel Martini給了一些開場的結語,他強調這個會議嘗試找出鏈結資料如何在農業上有用,農業資訊如何能透過當代資通訊技術製造更多的經濟效益,而這些議題不單單是德國的問題,而是全球的議題。

Keynote

會議主辦方邀請Elsevier的Paul Groth博士,以 「The Roots: Linked Data and the Foundations of successful agriculture data」為題進行專題演講。Groth博士先自我揭露說,他的科學背景是電腦科學,著重於開放資料和鏈結資料,而非農業領域,但家鄉是荷蘭,是非常重視農業科技的國家,也算是和農業扯上邊。

他先以三個問題來揭開專題演講,這些問題也是整演講的脈絡。

  1. 鏈結開放資料如何能讓農業不同以往? (How can Linked Open Data make a difference in agriculture? 
)
  1. 什麼樣的技術門檻阻礙了這個發展? (What technical obstacles stand in the way?)
  1. 什麼樣的政策需要配合? (What policies are needed to achieve the potential?)

他首先強調資料在農業的重要性,以精準農業為例說明資料是農業的中心。如圖1所示。他進一步引用Wolfert等人(2017)的文章,藉由該文的農業資料供應鏈之回顧分析中,說明了農業資料的問題,包含了格式、異質的資料來源、資料清理和準備的自動化、語意的異質性等,而這些正是鏈結資料技術可以應用的地方。

圖1: 資料是精準農業的中心

而研究科學資料在很早以前就開始討論資料開始的議題,在國際科學理事會(ICSU)帶領下,國際科學與技術資料委員會(CODATA)及研究資料聯盟(RDA)的會議中不斷地探討科學資料開放的議題,也使得投入科學資料開放的研究者愈來愈多,Groth博士以他為共同作者的Scientific Data期刊文章「The FAIR Guiding Principles for scientific data management and stewardship」為例,引導了科學資料中倡議開放資料的FAIR 原則,即是Findable, Accessible, Interoperable, 和Reusable,其節細內容如圖2,而達到FAIR原則所導向是成功的資料,而達成成功資料的最佳途徑就是鏈結資料。

圖2: FAIR原則
(來源: Wilkinson et al., M.D. 2016, The FAIR Guiding Principles for scientific data management and stewardship, Scientific Data 3, 160018)

資料再使用(reuse)成為科學資料開放的重要議題之一,要被使用就要找得到資料,要讓科學家能把自己的研究資料開放,資料引用(Data Citation)的制度是一個不可缺或因素,近年來也逐漸形成風氣,許多大型的期刊論文出版商目前都有資料論文(Data paper)的制度,且有些已經進入SCI索引。但這些似乎還不夠,期刊論文的使用者是科學家,對於一些特定群體的行為和需求則不一定滿足,例如,年輕科學家、政策制定者、學生等,觀測資料的背景使用比前景使用有較好的文件說明,也常有人需要資料而從別人的期刊論文中之表格再把資料再製,也有人會在搜尋引擎上尋找,或是直接索取資料。事實上,Google 對於資料集做索引,資料集發佈於網頁時,利用schema.org的語彙於HTML中會有助於Google 對這樣的網頁做索引。

對整合和互操作性而言,Groth博士先以ISOBUS這樣硬體規格,來說明標準所建立的整合和互操作性的重要性,接著解釋農業資料中己經有一些不錯的標準語彙,如AGROVOC和Crop ontology,而AGROVOC是促進農業鏈結資料的重要基礎,GODAN計畫更是重要的推手。資料要跨領域的整合,需要語意和語言的對映,Groth博士以植物知識庫的整合為例,來說明植物資料庫的整合過程,在語言方面,他也以Wikidata為例,說明語彙多語言的整合。

FAIR原則並不只是在於人類趨動的活動,而也著重於機器趨動的活動,因此資料的開放後,要考量的使用者並非只有「人」,還有一個重要的使用者是「機器」,FAIR原則所要克服的是人和機器在網路中尋找和處理處料時個別都會面臨到的問題,要弭平這樣子的障礙,機器學習是一個解決途徑。Groth博士引用吳恩達(Andrew Ng) 博士在2016年史丹福灣區深度學習課程中的一句話。

If there’s a task that a normal person can do with less than one second of thinking, there’s a very good chance we can automate it with deep learning.

也就是說我們現今有太多片段的知識可以透過機器學習建立出知識庫,使得人和機器都可以在語意共通的環境使用資料。接著舉NVIDIA利用深度學習於影像辨識,並將圖片中內容的萃取,例如圖3中,經過機器學習可以萃取出人物、酒瓶、和桌子,而影像辨識也在導入深度學習後,準確度大幅度的改善,圖4說明了ImageNet Large Scale Visual Recognition Challenge 在2012年後利用機器學習後,錯誤大量的減少。

圖3: 以分類來源圖片中每一個像素而產生語意圖的案例 (圖片來源: https://devblogs.nvidia.com/parallelforall/author/czhang/)
圖4: 在 ImageNet Large Scale Visual Recognition Challenge中前5大錯誤的比率在2012年使用用深度神經網路後,錯誤大量減少 (圖片來源: https://devblogs.nvidia.com/parallelforall/author/czhang/)

深度學習的叢集運算可以讓更多的知識由資料中被萃取出來,Groth博士再以ImageNet為案例說明以資料為導向的深度學習將會改變模式的建立,他引用了李菲菲(Fi-fi Li)博士受訪的一段話,

The paradigm shift of the ImageNet thinking is that while a lot of people are paying attention to models, let’s pay attention to data. … Data will redefine how we think about models.

ImageNet企圖建立的知識庫有如WordNet對於知識架構的分類(如圖5),這將有助於機器在處理圖片中的知識。他再舉一個例子是如何從社群媒體的文字描述去了Emoji的意義,如圖6中所示,這些Emoji所群集的分類是由文字描述的自然語言處理,輔以SVM演算法的改良,所得到的結果。

圖5: ImageNet 的概念階層是來自於WordNet 圖片來源: https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/
圖6: Emoji向量在二個維度群集
(下方是國旗、左上方是有關於家庭的符號、在高一點的左上方是星座的符號、最左邊是動物的,中間則是笑臉)
(圖片來源: Eisner, B. et al. (2016). Emoji2vec: learning emoji representations from their description. arXiv:1609.08359v1)

Groth博士接著論述鏈結資料和機器學習的關係,他認為機器可以熟練於學習由文字、語言、圖片和影片中回答問題,是仰賴於我們訓練機器可有效率地由網頁去讀取資訊的能力。先回過頭來看看機器當今如何讀取網頁的,最普遍的方式是搜尋引擎都會做的事,就是透過爬取和索引網頁資源,進一步地可能還有語意化的標籤(例如,使用schema.org),再者,更深層一點的,就語意網的脈絡,可能是尋找且遵循對於知識本體和資料分享和再使用的開放鏈結資料爬取,而在Open API的脈絡而言,機器讀取資料是利用程式可取用的API透過HTTP/S和其它協定來讀取資料,這些機器的讀取方式都需要讓我們去想如何支援標記語言(ML)導向的資料,如XML、JSON、RDF/OWL等。

Groth博士進一步地以FAIR Data的概念來說明資料供應的標準和語彙如何強化資料的品質,在多資料來源和多使用者的平台上更加顯得重要,他就以全球變遷資料庫「The Global Change Information System」來說明如何利用W3C PROV (Provenance Vocabulary) 來幫助平台的資料品質。

圖7: 美國全球變遷資料庫(http://www.globalchange.gov/)

最後,他再回到一開始提到的三個問題,總結而言,他認為要解決這三個問題就是建立成功的FAIR農業資料,而鏈結資料的技術即是建立出FAIR農業資料的關鍵。

接續 Part 2。

2016年歐洲資料論壇(European Data Forum 2016)與會記行

1.歐洲資料論壇的背景

歐洲資料論壇(European Data Forum, EDF) 是每年一次的會議,聚焦在以資料為主的多個面向,如社會、經濟、研究、工程、和科學等,並著重於歐洲的資料趨動經濟之提昇,該會議自2012年起開始舉行,是由歐盟執委會(European Commission)中,連結的數位單一市場(Connected Digital Single Market)計畫下主導,但會議行政管理是由歐洲各國產官學相關人士組成指導委員會來執行,以確定每年會議主題與內容、目標、及預算支配,且評估歐洲各國提出舉辦會議的申請。

這二年的主題都以資料經濟(Data Economy)為會議主軸,來貫穿4個主題,

  • 巨量資料(Big Data),如何利用新的科學和工程方法,有意義的處理大量資料,
  • data_economy開放資料(Open Data),如何透過跨部門資料整併,以支援決策制定,提昇政府治理的透明度,
  • 鏈結資料(Linked Data),如何將鏈結資料技術與方法做為普遍的資料整合平台,
  • 由資料產生的價值(Data-driven value),由前三者去審視資料能產生的價值,並研析資料趨動經濟的方法和工具。

而基於數位經濟和數位化社會(Digital Economy and Society)的發展,會議本身也關注三個面向的發展,

  • 技術面,如何駕馭現今如此大量的、異質的、和動態的資料,面對這樣的資料世代,科技和基礎建設會是什麼樣貌?
  • 應用面,因為開放資料、鏈結資料、和巨量資料的快速發展,可能的新產品和服務會是什麼?
  • 社經面,在這個新的資料世代中,社會衝擊、法律問題、政府政策法規、商業模式、和創新方式的改變會是什麼?

歐洲資料論壇(EDF)是一個聚集歐洲各國的產官學人士,共同討論資料趨動創新的機會與挑戰的重要會議。所謂的資料趨動創新的機會與挑戰是著重在資料的基礎設施、工具、應用程式的發展潛力,及其所面臨之問題,因此資料趨動創新特別重視創新所可能帶來的社會和經濟面的影響。EDF這個會議所企圖吸引的參加者,是涉及資料價值鏈中的利益關係者(stakeholder),無論是從巨量資料技術方法之應用到創新想法的突破,或者是,各項進行中之政策的辯論到前瞻思維的演講中獲得啟發,在EDF中的意見與想法的交換,是會議的價值,這將為歐盟各國在未來資料經濟之研究課題的設計,和政策決定的方向上帶來影響,這即是推動資料趨動創新往前動力,強化歐洲資料經濟的力量,也是奠定歐洲資料經濟在全球地位的基礎,因此這屆的EDF將主軸定為 Scaling up the European Data Economy,換句話說,資料經濟的議題在歐盟並不是新的開始,而是進入到擴大並強化各個領域在資料經濟的應用規模。

By Rijksdienst voor het Cultureel Erfgoed, CC BY-SA 3.0 nl, https://commons.wikimedia.org/w/index.php?curid=37243214

本屆的歐洲資料論壇(EDF)是由荷蘭埃因荷芬科技大學(Eindhoven University of Technology )中資料科學中心(Data Science Center Eindhoven (DSC/e)) 肩負起主要籌辦的角色,因此會議舉辦城市即在荷蘭埃因荷芬,該城市即是一個工業城,是許多知名企業的根據地,如菲利浦、NXP、ASML…等,值得一提的是城市行銷是以Brainport為主題,有別於鹿特丹的海港和阿姆斯特丹的空港,所謂的Brainport即是集合整個區域的公司企業、大學、和研究中心,成為一個創新研發的城市,這樣的策略倒也很符合EDF主軸,是強調資料趨動的創新下的經濟動能。

而會議場館Evoluon則是一個很特殊外觀的建築物,這個飛碟造型的場館是原本是當地的科學館,在1966年就落成,已經有50年的歷史,後來成為菲利浦的會議中心。

2.會議內容

2.1.真槍實彈的鍵結資料應用

EDF2016會前有幾個工作坊和活動一同在Eindhoven舉行,巧好會議前一天(6/27)的早上看到有一個活動是荷蘭鏈結資料平台(Platform Linked Data Nederland)舉辦的荷蘭鏈結資料會議,在沒有事先報名的情況下就直接殺去會場,結果主辦單位很包容地讓我參加了會議,結果會議還沒開始就遇到老朋友,Simon Scheider,目前在烏特列支大學(Utrecht University)地理系任教,仔細一看,他上下午各有一個演講,一個是講的是地理資料在進行跨資料集連結時,如何除錯、確定地理實體的型別、正確的相互連結的工作流程,另一個是講鏈結資料和空間分析整合的潛力。更有趣的是,下午有一個講者居然是我的指導教授Rob Lemmens,他的演講是在介紹歐盟的一個計畫ENERGIC Project 中如何利用自願性地理資料進行Datathon,這真是太巧了!

其實會議中有一個案例很吸引我,講的是半導體企業NXP和Freescale合併時,產生資料整合的問題,雖然二個企業體都是做半導體,各自企業的資料架構是不同的,因此在企業整併的過程出現資訊系統整合的難題,為了解決這樣的困境,他們選擇使用鏈結資料的技術和方法來整併二家企業的資料,這個工作是由Semaku這家工公司承接,最後NXP和Semaku根據這樣的經驗建立了一個 NXP Enterprise Data Hub,這個鏈結資料的應用在去年接連拿到荷蘭鏈結資料應用的首獎和歐洲鏈結資料首獎

 2.2.企業善用資料,開創新商業模式

edf2016

由Keynotes的結構來看,這個會議確實是秉持產官學互動交流的原則,在8個Keynotes中有4個是來自於業界的分享,菲利浦總裁 Frans van Houten介紹自家許多家電產品已經收集消費者的使用行為資料,分析資料可以提供更好的服務,例如,電動牙刷利用藍芽和手機連結收集使用者的刷牙方式,若有使用者刷牙方式錯誤,手機應用程式可以自動提醒。西門子數位工廠部門工廠資料服務資深副總 Ralf Wanger則是介紹西門子賣出的機器中裝有感測器(sensor),可以消費者可以將機器連結上西門子的資料服務中心,系統可自動分析維修時間,並自動安排員工進行檢修。導航和地圖空間資料服務的知名公司TomTom之總裁Harold Goddijn 則是分享公司跨界轉型過程,單純買圖資或GPS導航的獲利已經不高,TomTom已將圖資應用在支援無人車研發。知名線上音樂公司Spotify,資料分析主任Andres Arpteg 以資料科學的角度來了解消費者使用行為,他們利用資料探礦的方法分析了解消費習慣以提昇音樂平台的服務。

第一天下午和第二天有三個時段各有三個平行的場次,主題分別是Automotive, Data-Driven Government, Agrifood, Urban Smart Living, Smart Industry,Novel Emerging Areas, Educations and Skills, Healthcare, 和 Media,這9個場次的講者來源,有政府官員、非營利組織、大學及科研中心,更有來自公司企業,不同領域在同一主題上所面臨的問題可能不一樣,但在同一個場所的討論則有助相互交流和經驗分享,與會者中有許多是來自於歐洲的中小型企業(SMEs),藉由研討的過程,他們有機會提供他們的技術與經驗和講者交流,也就創造他們參與大型計畫,以及和大型企業合作的機會。

2.3.政府部門主導資料經濟政策的制定img_0721

會議中有二個歐盟政府官員的Keynotes,都與EDF的組成有關,一個是來自歐盟執委會 在數位經濟和文化的專員,以錄影方式發表演說,另一個是Márta Nagy-Rothengass 歐盟網通科技總署 (DG Connect) 中資料價值鏈部門的主任,以「 Building a data-driven economy – The perspective of the European Commission」為題演說。

img_0722她的演講中清楚地勾勒出歐盟在資料政策上制定與推行,在多國組成的歐盟,不同制度文化下,資料的管理方式不同,造成資料整合應用上的障礙,一直是歐盟成立以來著重的問題,隨著開放資料、巨量資料和資料科學的風潮,歐盟也逐漸地在過去電子化政府運作中做出改變,開始著重於建立一個有效率的資料生態系統,朝向政府、科研、企業、公民等不同角色的公私部門夥伴(Public-Private Partnership)的合作架構,以促進資源與利益的共享、責任的共同承擔、並著重社會層面議題。

為了建立這樣的資料生態系統,開放資料的策略變得很重要,因為資料能開放地被近用,才有可能讓資料在不同的角色中相互流動,資料有流動就增加應用加值的可能性,在這樣的脈絡下,開放資料被視為資料經濟的一部份。因此歐盟不但極積的建立歐盟開放資料平台,2012年啟動,一開始只有歐盟本身的資料,去年(2015年)起開始要求各國開放資料匯入,另一方面也極積地調查歐盟資料市場的規模和潛力,透過歐盟經費補助,委由國際數據資訊(IDC)和Open Evidence 進行歐洲資料市場的調查,報告書在2015年發表,同時他們也建立了一個資料視覺化的工具,European Data Market Monitoring Tool,可瀏覽歐洲的資料市場情況。

2.3.學研機構提供資料治理的策略

img_0624
在Data-Driven Gvoernemnt場次中,JOHANN HÖCHTL 發表Performance-indicator based policy-making in Austria

會議中的展覽單位和參展海報中,不少是歐盟計畫的成果,如IQmulus,仔細調查可以發現,歐盟執委會在推動資料經濟,並不是單單只有制定政策,且提供許多經費給科研單位進行長期的研究,這些科研計畫是以解決問題為導向的研究,並重視跨國、跨領域間的協同合作,這些計畫過去也都參加過之前的EDF,在歐盟的網頁上可以看得到這些計畫

在Data-Driven Government場次中,有4個演講,除了論述政府如何應用資料治理的策略與方法,也包含了實務面的處理,荷蘭如何應用資料分析改善交通問題,奧地利如何運用開放資料制定指標以決定政策,法國如何透過培育計畫培殖更多資料科學人才。

fhg_193_ids_grafiken-eng-03Sören Auer是Fraunhofer IAIS 企業資訊部門主任,也是波昂大學企業資料系的教授,他在Smart Industry以Industrial data space digital sovereignty over data為題發表演說,提出 Industrial Data Space 是一個利用資訊標準和共同治理模式建構出一個虛擬的資料空間 ,這個構想之目的在於嘗試在商業環境中,讓資料的交換更安全且資料的連結更容易,這個構想想建立的系統也試圖提供一個基礎,以建立和使用智慧服務和創新商業流程,使得資料擁有者以確保他們的資料治理權 (digital sovereignty)。

透過使用情境,可以了解Industrial Data Space的架構和需求,這架構是在於創造資料價值鏈,以及調適以特定領域中鏈結資料的語彙以輕量化的語意表達,Industrial Data Space廣大地支援不同領域的情境,同時,也是下一代的工業生產 (工業4.0) 可以應用的範疇。此外,他也指出 Industrial Data Space 也是一個跨領域組織,包含商業、政府、和科研單位,於2014年底在德國成立,這個組織的目標清楚企圖建立一個歐盟、甚至是世界級的平台。

2.4.重視巨量資料科學研究、應用、與人才培育

EDF2016中二個Keynotes是來自於埃因荷芬(Eindhoven)附近的科研中心,分別是荷蘭提堡大學(Tilburg University)校長Emile Aarts和德國多特蒙德大學(TU Dortmund University)資料科學中心的主任Katharina Morik,他們各自介紹各自資料科學中心如何透過在企業合作以資料科學的方法解決問題,此外,也強調各自資料學中心的能力和潛力,以吸收更多人才的加入。加上埃因荷芬大學資料科學中心,似乎讓我有感覺有一個趨勢,就是這個過去以工業生產為主的區域,已經看清資料價值鏈中,傳統工業轉型後,所要扮演的角色,所以需要的人才,這些資料科學中心成為這個區域進入下一個工業世代的軍火庫,不但提供策略想法,也訓練人才。

3.會後心得

這次EDF的參與者有1070人,來自於48國家,參與人數最多的15國依次分別為,荷蘭、德國、比利時、英國、西班牙、希臘、奧地利、法國、義大利、愛爾蘭、匈牙利、挪威、盧森堡、芬蘭、萄葡牙等,有明顯的舉辦國優勢的傾向,以參與人員的行業類別而言,有40%是來自於工業界,32%是學術界、13%是公部門、和15%的其它,會議參與者多數是來自於業界,但科研單位的人也為數不少,這和我過去參與的學術會議巧好有點相反的情形,因此二天會議談論的事情,多是實務面的工作和面臨的問題,較少生硬的科學理論,相對而言,整體內容是比較能讓一般人進入的。

荷蘭North Brabant省的經濟經理Bert Puali,在會後的宣傳錄影中提到,「…在我們變得談論過多巨量資料的可能性之前,我們應該加入有執行力的那一方,藉由資料和資通訊相關的研究,以了解資料經濟的市場有多大…」,其實這就是EDF的主軸,整個會議雖然扣合歐盟「資料經濟」發展的政策,但不會讓人感到過多政策推動鑿痕,可以讓人感到的是,歐盟對於政策推動是根植於問題與挑戰的認知和了解,接著再提出解決問題的技術方法的一系列進程,反觀國內,通常把二件事情給壓縮了,常在政策推動的過程中,讓人看不清,解決問題的意識和方向是什麼? 而堆疊過多的技術名詞,沒有執行的實質內容,最後流於空洞。

在海報、展覽單位、以及與會會眾中,很多是資通訊產業的中小型企業(SMEs)的員工、甚至是老闆,試圖透過這個會議中尋找合作機會,這與歐盟資料經濟策略中重視中小型企業(SMEs)所扮演的角色有關,個人觀察,這就和公民科技在開放資料生態系中扮演重要角色是類似的,政府或大型企業在面對新問題和新挑戰時,由於組織體系的龐大,未必能及時適度確切的反應,而中小型企業較具有彈性,可以容易調整方向,調度人才,因此大型企業或政府單位和中小型企業合作,較能快速地解決問題,如之前提到NXP和Semaku的案例。

從許多EDF的演講中,可以發現有些研究是歐盟所補助的計畫,這些計畫無論是在智慧城市、物聯網或工業4.0上,都以資料為本,提出解決問題的架構、技術或方法,而這些計畫也不僅是單一科研單位所執行,而是跨國、跨領域協同合作,這種3-5年左右的研科計畫,也提供教育、研究資源,培養更多的人才,因此可以想像的,一個新興議題,如資料經濟,一開始大家都不熟悉,在這樣的情況下可以做出的策略自然保守且限縮的,而在補助科研單位的研究計畫中,利用博碩士生在深入研究推導,研究成果最終成為政府單位政策推動依據,這樣一個階段、一個階段的進行下,歐盟在開放資料、巨量資料、和鏈結資料逐漸形成策略,以面對不斷演變的挑戰,因此提出資料趨動經濟的論述,成為歐盟政策內容,形為今日如此的規模,這絕對不是把堆砌一堆技術名詞而缺乏解決問題方法的報告書重抄一遍,再重新包裝的政策內容。

看到歐盟對於資料相關的政策,反觀台灣,想問的是,面臨新的資料世代,台灣政府對應的政策是什麼?

首次台灣開放街圖研討會(SotM Taiwan 2012)的記事

開放街圖 (OpenStreetMap) 計畫已經在台灣進行多年,隨著開放街圖在全球知名度大開,台灣的製圖參與者 (mappers) 與日增多,台灣開放街圖雖然沒有政府部門開放資料與製圖相關的商業團體支持,在 mappers 一步一腳印地繪製,台灣地區資料量也日漸豐富,但相對於鄰近日本,以及歐美各國,台灣開放街圖仍然不足,亟需更多 mappers 的加入。台灣 OSM 社群目前缺乏系統性互動討論,以及更深入地對於技術發展、應用推動、和交流的平台,因此極有必要舉辦台灣 OSM 研討會,讓以社群為主的地圖成為各界共同討論的目標,達到概念性與技術性的交流。

此次報名人數超乎預的踴躍,截止前已超過100人,因為場地的限制,過多的人我們無法容納,但讓我感到揪感心的是報到率出奇之高,當天來了80位左右的朋友,做為首次舉辦的研討會,尤其OSM Taiwan的社群又相對於其它社群規模小,能有這樣的數量已經感到十分滿足,謝謝大家的支持!

當日議程和投影片都放在SotM Taiwan 2012活動網頁,本次研討會榮幸地邀請中研院資訊所副研究員莊庭瑞博士,就「大眾協作與個人記憶」為主題,講述群眾外包的地圖特性與合作協同過程中如同透過地圖編輯保存共同的地方記憶,當天上午並有6個演講,涉及層面廣,從Open Data、防災、歷史地圖、教育到授權,下午則是台灣 OSM Mappers較為實務性的分享。所有的演講都有錄影,並置於YouTube,感謝OSSF同仁錄影並整理上傳。

當天本人統計分析一下台灣Mappers的製圖特性,做為開場,投影片在SlideShare:

我們這種小地區的SotM,ito world並不會幫我們做過去一年的製圖概況,因此自已親手做了一個利用CartoDB+Torque的版本:

http://geocyber.org/maps/osm/sotm2012/taiwan_osm_2012.html

SotM Taiwan 2012的活動照片:
[fsg_gallery id=”1″]

語意技術聯合國際研討會 (Joint International Semantic Technology Conference, JIST 2012)

JIST2012是第二屆,上一屆在中國杭州,如果沒有搞錯這個研討會的前身應該是ASWC (Asian Semantic Web Conference)。

JIST2012

雖然這是亞洲區語意網會議,但參加的人不僅來自於亞洲國家,除了日本、韓國、中國、泰國、越南、印度、伊朗、台灣,許多人是來自於歐洲,如德國、英國、愛爾蘭、瑞典、芬蘭、義大利、盧森堡,少數來自於美洲,如美國和加拿大,來參與的人不乏是語意網領域有名的單位組織,如愛爾蘭的DERI (Digital Enterprise Research Institute)、美國的Kno.e.sis Center in Wright State University、德國的 University of Leipzig、日本的NII (National Institute of Informatics)、韓國的KISTI、中國上海交通大學、清華大學,參加人數約100人左右。

會議內容雖有少數偏於理論, 但多數論文偏於語義網和資料連結的實務性研究,4個邀請演講也偏向於應用面,以業界的實務應用,詳細內容可參考議程 。與會的人多為語意網或連結資料方面專家,尤其能在亞洲地區的會議遇到這麼多來自歐美地區且是語意網的專家,三天的會議下來,彼此互動切蹉,獲益良多,有些沒想過研究主題,衝擊腦袋,產生不一樣且具體的想法 。

我們的論文有幸被接受並口頭發表。此行 另一個收獲是能夠了解日本在Open Data和LOD的推動和做法,在JIST 2012 大會的前一天LOD Challenge社群舉辦的International Asian LOD Challenge Day,雖然來不及參與這一天的活動,但後來有機會與LOD Challenge社群接觸,並了解一些日本在推動Open Data和Linked Open Data 的做法和推動方式,這一些觀察整理成 LOD Challenges

相較而言,JIST的等級當然比不上ISWC和ESWC,但被接受的文章仍然有一定的水準,但接受率略高,約在36-37%左右。詳細的接受率為:

  • Regular papers 22/58
  • In-Use track papers 7/17
  • Special track papers 6/15
  • Linked Data in Pratice 4/11
  • Database Integration 2/4

開放街圖研討會 State of the Map (SotM) 2012

其實2005年就加入OSM成為Mapper,2010年才註冊為OSM Foundation會員,從沒有參加過每年一次OSM的研討會(State of the Map),一直是一個單純的mapper。在我的研究領域中,OSM是一個研究標的,如Muki Maklay 所建議,研究人員應該站在局外人的角度來看OSM,也因此長久以來,我並不想涉入太多OSM體制內的事,然而,2011年底,從荷蘭返台後,逐漸覺得台灣雖然有OSM社群,但多數台灣人是不知道OSM是什麼的,開始有想法在台灣來推動OSM。

SotM 2012 會場東京大學駒場校區 Tokyo University Komaba Research Campus

對於我而言,推動OSM中的第一步就是參加SotM 2012,去這種大會有機會和許多高手或主要成員聊天,也才有可能進一步了解OSM內部的運作模式。很幸運的,年初宣布2012年SotM在日本東京舉辦,台灣和日本地理上算是近的,台灣的社群怎麼可以不去,所以鼓吹台灣OSM重要的二個推手,LouisSin-Di也一起參加,Louis的高雄市公車被接受於大會中演講,看到台灣社群如此積極的參與,會議的主要組織者之一 Daniel Kastl 還說他在這之前從來不知道台灣社群如此活躍。在大會開始前,主辦單位將投稿內容做成tag cloud,Taiwan可是主要的tag之一。

會議的三天的議程相當豐富,有來自於世界各國的OSM Mappers的報告,包含災害救援、導航技術、製圖技術和社群發展。第一天所有的主題都與防救災有關,自海地地震後,OSM就一直和救災相關議題有相當強的連結,因為2011年東日本大地震的關係,如何用OSM來救災也成為日本重要的議題,因此有4個講題是來自東日本大地震間使用OSM製圖的經驗和技術,其中Kinya Inoue先生就是福島人,當他述說著福島在東日本大地震前和後,地圖如何改變,提到過去的朋友和親人在這樣的巨變中喪生,每每不能控制自已,同時,讓在場每一個參與的人動容。我也註冊了第一天的Lightning talk,簡單介紹了如何使用簡易輻射計數器來量測環境輻射,以抵抗台電官方輻射安全的說法,當時舉的例子就是蘭嶼,不過這個計畫因為沒有順利拿到Safecast的裝備而延宕中。

Steve Coast 在SotM 2012的開場

第二天,二個keynotes很有趣,Jaak利用OSM來環境整潔(clean up)計畫。接著,Raul Krauthausenwheelmap.org的創辦人,報告了wheelmap成立的經過,他本身就是殘障人仕,個人覺得這個應用對於殘障人仕是相當有幫助的,可以用地圖查詢和瀏覽公共空間是否有殘障設施,在這之前就已經知道這個應用,現在Sin-di正在將它中文化。上午的整個session都在談如何用OSM做導航或路徑規劃,Louis 在keynote後上場,這是一個相當實務的經驗,拿OSM的地圖來做公車導航,他一開始就用日本地名開了一個玩笑,會後Mapping party要去的地點是高尾山(Mt. Takao),就是高雄舊名打狗,他玩趣的說,我今天要講的地點是Takao,但不是你們將去的Takao,我講的Takao需要買機票坐飛機去,全場笑了!下午換了跑道到日本語的track,本來是想聽聽如何做GPS logger,但講者不知道為什麼沒有來報告。晚上的宴會是在東京灣的船形屋(YAKATA-BUNE)宴會,吃不完的生魚片,喝不完的啤酒,吃飽喝足再上船頂欣賞東京灣的夜景,很棒的晚宴。

船形屋宴會

第三天,除了探討資料品質和停車格製圖外,引起我比較多關注的是利物浦大學教授Bob Barr的演講,他以Pirate 和Pilot 辯思在他(mappers)在OSM中所扮演的角色,風趣幽默的演講方式引人入勝,也帶入mapper在OSM所扮演的角色的思考。接下來4個mapping的talks都相當棒,就不一一介紹,印象深刻的是Kinya Inoue先生,就是之前講福島災後製圖的那位,他的英文表達能力有限,但內容極豐富有趣,是一個了不起的mappers,或OSM製圖家? 下午的talks一樣精彩,老實說我差一點就跑去閒逛,因為已經第三天的了,但最後一個talk,讓人精神大振,Tim Waters講你知道什麼時候對OSM上癮,可能是在場都是癮頭很重的mappers (不然怎麼大老遠從世界各地來),他舉的例子搞的大家笑不停。

這不知道是不是SotM的傳統最後一天,把所有東西都拿來拍賣了,包含最大的banner,一個也不剩,這樣籌錢是一個不錯的方式,因參加者來自世界各國,自從澳洲幣首先出來鬧場後,各國的錢幣紛紛出場,台幣也加入這場混戰中, Louis和Sin-di最後拍得一條用途十分廣大的方巾和一瓶日本酒。

再多相關報導來自於日本

[1]趣味のインターネット地図ウォッチ,第144回:世界のマッパーが来日した「オープンストリートマップ」の国際会議

[2]“地図のWikipedia”OpenStreetMapの国際会議が日本で初開催

 

Enhanced by Zemanta

那些年Python攻佔了GIS

會想去碰觸這個主題,是因為有一次和Marr無意間聊起Python對於GIS的影響。在尋找相關的資料時,受到James Fee的二篇文章”2011 — the Year Python Takes Over GIS” 和”2011 Was the Year of Python“的感召,加上「那些年」熱潮下,定了這個名字,如果你是因為這個keyword,不小心走進來的,跟你說聲「歹勢啦!」。

事實上,近年來我們觀察到Python在GIS領域所佔的比重有逐漸增加,無論是Open sources, 還是 commercial software 都有這個現象。OSGeo的wiki 上列出以 python為基礎的套件和軟體,除了核心基本的套件—GDAL和PROJ4有Python binding,Mapserver、QGIS和老牌的GIS open source – GRASS都支援 Python,另外,許多人文地理學者、空間經濟學家或社會學家會用到的GeoDa,也有Python 的套件—PySAL,當然也有套件Rpy支持python來使用統計軟體R,對於學術研究或教學而言,Python所提供的套件是相當充足的。

再來看看commercial的,ESRI 是最大的 GIS 軟體商,他們的GIS軟體ArcGIS在10版後,改為使用Python來擴充使用者對於軟體的使用,然而,ArcGIS 9還是用Visual Basic,在遠古時代的版本,ArcView 是以 Avenue,Arc/Info 是用AML(Arc Macro Language),二者都是ESRI為自家軟體所發展的語言,ArcGIS或早期的ArcView都是Desktop GIS,雖然使用上便利,許多命令的執行可透過在視窗上的命令列來執行,但許多情況預設的命令是無法滿足一些複雜的空間運算,或runtine 的工作,因此ESRI的軟體,一直以來都保持與一個腳本語言一起運作的模式,而ESRI在本身軟體發展愈來愈複雜的同時,他們並沒有繼續發展自家的腳本語言Avenue,先使用了VBA ,之後再用python,這是一個很有趣的現象,ESRI 看到了什麼?使他們選擇Python,而不是其它的腳本語言,如Ruby呢?讓我們看下去…..

Geospatial training services newsletter列出10個學Python來使用ArcGIS的理由,很明顯地,Python可以被用來在ArcGIS上處理複雜的分析且Python是一個簡單易學的語言。事實上,Python被認為是地理資訊專家和程式設計者的橋樑,ESRI 有更大企圖心想把他們的產品向資訊社群推,而不單純只在地理資訊社群,況且自已軟體商本身來設計和維護一套程式語言,對於以地理資訊軟體為主的公司,並不是一件明智之舉,他們須花更多人力資源在程式本身的scalability, reliability 和 compatibility,既然只是用來擴充自家產品的語言,何需自已設計一套,陷入wheel reinvention,況且已存在的general purpose語言有一堆,使用者多,程式的體質好的語言更是不勝枚舉,沒道理去自已搞一套!? 所以一開始ESRI導向使用VBA,有一陣子VBA是很熱門,加上Microsoft的推波助瀾,ESRI 在軟體由ArcView 3.x 升級為ArcGIS 8.x 時,也將由自家的Avenue 改為VBA,相關的VBA套件使ArcGIS的擴充變得更fancy,但VBA是Microsof為自家產品所設計的語言,並不為地理資訊所設計,ArcGIS 雖然與Windows 其它的軟體和應用程式整合的更好,但地理資訊本質上所追求的地理空間分析功能並沒有強化,另一方面,Python 算是geospatial open source的異軍突起,在C++和Java二大社群下,發展出來的另一個大的geospatial open source 社群,之前提到的已經有許多binding的libraries可以使用,在這種情勢下,商業軟體見風轉舵,也不是一見稀奇的事,因此在ArcGIS 10之後的版本,將Python納為ArcGIS中的重要一部份,即為正式的ArcGIS腳本語言,即ArcPy,ESRI 也極力推廣 Python在 ArcGIS 上的使用,不但有許多的desmonstrations、tutorials、workshops及official training courses。

Top 10 Reasons to Learn Python for ArcGIS

  1.  Automate your repetitive GIS tasks through Python scripts and free up your time for more important analysis work.
  2.  ESRI has fully embraced Python as its language of choice for geoprocessing.
  3.  Easy language to learn.
  4.  Automate map production and creation of PDF map books.
  5.  Find and fix broken data sources in your map document files.
  6.  Manage data within map document files by adding, inserting, or removing layers.
  7.  Analyze, convert, and publish your data to ArcGIS Server.
  8.  Create your own custom tools that can be integrated with ArcToolbox and shared with others.
  9.  Integrated with ModelBuilder for complex geoprocessing workflows
  10.  Add, edit, and delete records from tables and feature classes