以資料趨動智慧的治理

對於資料洪流的世代,資料會是智慧的重嬰來源之一,但資料到智慧並非一蹴可及,需要一個穩固的基礎來建立。今年年初的演講中整理了一些想法,基本上我認為至少會有四個概念化的基礎。

1.互動(Interaction)

是以開放資料為基礎,政府以開放資料和人民互動、協同合作,進而公私協力解決問題。

2.整合(Integration)

要能擴大合作範圍,或者使得以資料為主的協同合作順暢,資料整合的工作不容忽視,無論日本、美國、歐盟都有資料標準的語彙,來讓資料能跨領域、跨機關單位的整合,才可能創造更好的合作環境,也才有可能產生智慧。

3.智慧(Intelligence)

資料共通語彙是資料整合的一個步驟,要讓資枓整合的過程需要知識的介入規整,有助於利用資料產生智慧化服務。

4.影響(Influence)

以政府的智慧化服務而言,應該是對人民產生正面的影響,以使得人民更相信政府服務,促使公私合作更緊密。

 

鏈結資料(Linked Data)的商業化應用

在幾次鏈結資料的演講中常被問到有沒有鏈結資料的商業化應用? 其實我腦海中即刻浮現的是在2015年得到最佳鏈結企業資料獎的 NXP Enterprise Data Hub ,這是一個企業應用鏈結資料技術來整合資料的實際案例。另一個是在2014年就開始發展的 Fujitsu LOD4ALL的商業鏈結資料服務平台,這是一個結合政府鏈結開放資料和企業資料的商業資訊服務平台,最近則導向Fintech的發展

其實,因為歐盟資料經濟的政策,在鏈結資料和語意網的應用案例是相當多元且廣泛,例如,

  1. SEMANTiC 一直以來都是比較偏向語意網技術的應用和工業化的會議,於2016年的會議中有一個Session就是討論鏈結資料在商業上的案例( Linked Data Business Cases) 。
  2. Semantic Web Company 更是語意網和鏈結資料發展的公司,主要產品為PoolParty,他們列舉出他們產品的應用案例
  3. Ontotext 也是一家以語意網透鏈結資料技術為基礎的公司,他們的GraphDB是一個強大的Knowledge Graph 工具包含了處理非結構化資料的ETL到鏈結資料的語意網技術,他們也有應用於商業上的實例。個人很喜歡他們公司產出的文件和技術報告,清楚又實用。

G20農業鏈結開放資料會議 Part 5 – 開放地理資料、區塊鏈、溯源

Open GeoData

Open GeoData這個場次有三個演講,分別如下:

  1. Raul Palma de Leon, Publication of Inspire-based agricultural Linked Data
  2. Karel Charvat, Integration of open land use, smart point of interest and open transport maps using RDF
  3. Rob Knapen, Obstacles in standards and spatial thinking for Linked Data in agriculture

前二個演講是同屬於一個歐盟Horizon 2020 巨量資料研究計畫DataBio,有16國48個單位加入,計畫期間為2017年到2020年,總經費規模達到1千6萬歐元,歐盟支援了1千3百萬歐元,是一個針於農業和其它對於生物經濟工業中原物料產品的巨量資料技術優勢的展示,並且佈署一個互操作性的平台在所有計畫成員的資料基礎設施之上,藉由這樣的技術架構這個計畫企圖提供巨量資料管理的解決辦法,包含不同巨量資料的儲存和查詢,以及使用鏈結資料為聯合層來整合來自不同來源之異質性資料。DataBio需要整合先前的歐盟FP7的研究計畫SDI4Apps和FOODIE之資料,如圖41所示。SDI4Apps主要在於建構的是以Open API為主的雲端架構來進行資料整合,並且依此雲端環境建立6個試驗性Apps 與INSPIRE、Copernicus 和 GEOSS 空間資料基礎設施整合。而FOODIE 主要是在建構一個開放和互操作性的雲端基礎平台以整合不同來源的農田生產相關資料,並包含地理空間向度,以及發佈為鏈結資料。

圖41: DataBio計畫由資料整合

在de Leon的演講中主要介紹如何利用FOODIE既有的語彙和標準,並與INSPIRE整合開發出鏈結資料的服務,如下所列。

而Charvat的演講中則進一步介紹如何在DataBio的計畫中整合交通資料(Open Transportation Map)和土地利用資料,其鏈結資料的服務也是從上述的服務中展示,但略有不同,如圖40中的服務是土地利用坵塊,就不是上述的農田分區,但技術上都是一樣的。

圖42: 雲端服務查詢結果的地圖視覺化 http://ng.hslayers.org/examples/olu_spoi/?hs_panel=info&hs_x=1607799.902082933&hs_y=6462976.717926565&hs_z=16&visible_layers=Base%20layer;Land%20use%20parcels

 

第三個演講是Rob Knapen,來自荷蘭Wageningen大學環境研究所,演講內容主要在基於他過去處理農業和地理資料的經驗中,去論述資料整合的問題和鏈結資料的障礙,檢討目前研究計畫事實上對於鏈結資料的使用仍然不夠深入。

圖43: Rob Knapen的演講

供應鏈和追溯(Supply chain and traceability)

這個場次包含了三個演講,前二個是關於區塊技術應用於農業資料上,而第三個即是我的報告,三個演講如下:

  1. Christopher Brewster, Blockchains and Linked Data for agrifood value chains
  2. Liisa Pesonen, Employing the principles of My Data and blockchain to build trust in farm data sharing
  3. Dongpo Deng, Construction and reuse of linked traceable agricultural product records

Brewster博士是來自於荷蘭應用科學研究所(Netherlands Organisation for Applied Scientific Research),他認為鏈結資料沒有用在價值鏈(如農田到消費者)的處理,Schema.org、GoodRelations和產品型態本體的語彙可以被期待用來增加價值鏈的處理,學術上企圖使用知識本體在價值鏈上的處理很少,過去的研究計畫也顯示出鏈結資料方法用在價值鏈上會有一些限制,但並沒有真的被進一步的討論。他認為價值鏈的核心問題在於產品履歷或溯源,但這個產品履歷系統是一個很緩慢的系統。從產品溯源的觀點,他進一步介紹條碼系統GS1,以建構資料鏈結系譜(linked pedigree),而這資料鏈結系譜再導以區塊鏈技術來處理,如圖44即是他演講中所提出來一個整合鏈結資料和區塊鏈的架構。

圖44:鏈結資料系譜和區塊鏈整合

 

Pesonen的演講陳述了很多區塊鏈和MyData的觀念,但缺乏實證,整個演講是一個概念架構研究的介紹。

圖45: MyData、MyFarmData和區塊鏈

 

 

G20農業鏈結開放資料會議 Part 4 – 農業科技分享平台

農業科技分享(Agricultural Technology Sharing, ATS)平台的目標是鼓勵G20成員國、有興趣的國家和國際組織改善農業技術資料的獲取,促進技術支援,分享發展永續農業發展技能的經驗,促進農業技術轉讓作為全球集體行動。

該平台還可以通過分享成員經驗,鼓勵和強調要優化農業技術創新體系的政策制定,更新現有機構和發展新機構,引入有關資訊安全和保護財產權的監管機制,建立資訊、資料共享和交換標準,加強決策者、研究人員、推廣機構、農業企業、農民組織、協會、非政府組織、私營商業部門、金融機構等各方利益相關者的合作,進行農業研究,教育、推廣和農業企業發展。ATS還可以通過發展中國家和已開發國家之間的合作,包括對於人力資源和能力發展。

圖40: 中國農業科學院副院長聶鳳英報告「農業科技分享平台」的進行

 

ATS旨於讓異質的資訊來源易於交叉搜索和整合,以便可以搜索所有資訊,以便所有利益關係者(例如,小農或企業家)都可以使用此類知識的的查詢進行搜索,以使成功地能讓農業實踐適應本地脈絡。ATS要扮演的一個在合作夥伴國家中的資訊目錄之角色,並透過合作和分享作為集體行動。通過這種方式,ATS將能夠在技術及其實際應用和影響方面獲得、分享、交流商業利益,同時也促進採用,適應和創新新技術的伙伴關係和合作。

ATS工作小組的主要原則是在20國框架下倡導和採取行動,通過G20成員,以及多樣化夥伴關係和共同努力,以加強農業技術創新和知識共享,持續地提高農業生產和實現糧食安全、生活和更好的環境。

工作小組是在中國主導但由G20 成員國中的首席農業科學家(MACS)來管控,以強化工作小組成為農業創新和知識共享的全球平台,並協調工作,避免重複和 最大化現有機會和資源。在中國農業科學院(CAAS)與GFAR、FAO、IFPRI及其全球網絡緊密合作,工作小組定期向G20的 MACS報告。

G20農業鏈結開放資料會議 Part 3 – 語彙、分類、索引典、地球觀測

John Fereira, AGROVOC-Three Ways

John Fereira在上午的場次講過康乃爾大學發展的VIVO,在這個場次的演講很簡短,而他想分享的是AGROVOC可以使用在三個功能中,分別為:

  1. 自動標籤(AutoTagging),少部份或沒有詮釋資料的時候使用;
  2. 自動建議(AutoSuggest),應用於在使用者介面當需要手動加入一些關鍵字時;
  3. 概念匹對(Concept Matching),當標記標籤於一個領域特定的儲存庫中的資源且該標籤要能匹對於一個語彙。

他並以介紹Agriknowledge網站,是一個農業文獻服務網站即是利用AGROVOC且應用上述三個功能,圖31即顯示關鍵字在Agriknowledge的使用,這些關鍵字都和AGROVOC有對映,且文獻本身也有相對映的AGROVOC,如圖32所示。

圖31: Agroknowledge的關鍵字功能
圖32: 應用AGROVOC的概念階層來瀏覽文獻

Valeria Pesce, Semantic challenges in sharing dataset metadata and creating federated catalogs: the example of the CIARD RING

Valeria Pesce 是全球農業研究論壇(GFAR)的資訊系統經理和計畫經理,且與GODAN的祕書共同合作,過去曾代表FAO和GFAR,現今則是加入歐盟計畫資料基礎計畫( agINFRA, Big Data Europe),並管理CIARD RING和AgriProfiles開放資料平台的在全球與區域間的協調工作。

圖33: CIARD RING平台

她的演講主要是在介紹CIARD RING (如圖 33)平台中對於農業資料集的管理,並強調語意在資料集管理上的好處及方式,圖34說明了描述資料集如何需要語意,除了使用DCAT、 DCAT-Stats、DateCube和VOID的語彙外,對於主題詞和資料型態都可以利用知識組識系統(Knowledge Organization System)來架構,使這些主題詞和資料型態的詞彙能夠清晰表達。「值」的標準化,如資料的主題涵蓋範圍和維度、格式、和協定的使用等,這些值在RDF也通常被視為是「資源」(resource),所以可被以URIs來辦別,但值通常是一個字串、概念的URI通常是專屬的設計,並非沒有一個共通的知識組織系統來指涉所有的事,她舉了幾個例子,如農業主題詮釋資料是AGROVOC或CABI thesaurus? 地理的詮釋資料是GeoNames或FAO GeoPolitic Ontology? 還有維度及文獻的語彙應該選那一個,如圖35 所示。然而,語彙所涉及的範圍和複雜度不一樣,是否合適於自己的資料需要評估,並非所有語彙都需要。

圖34: 描述資料集所使用的語彙以正規化語意

Pesce 也說明了選擇農業領域和跨領域語彙用於CIARD RING平台經驗,CIARD RING是一個農糧資料集和資料服務的聯合目錄平台,RING是指Routemap to Information Nodes and Gateways,為GFAR對於農業研究發展(Coherence Information for Agriculture Research for Development, CIARD)的計畫,RING的主要目錄可以提供資料和資料集,且都有詮釋資料,並使用RDF編碼。聯合目錄是透過獲取(Harvest)其它目錄平台的詮釋資料而來,目前有聯合的平台計有datahub, EU open data portal, Dataverse catalog, data.gov.uk, data,gov等,計有2740筆資料,4832項服務。RING平台的詮釋資料是以DCAT-AP、VOID和DataCube為主,並且會推出RING DCAT profile,她隨後介紹了RING平台中對於資料和資料集的詮釋資料編碼。

圖35: 語彙的選擇

 

其中介紹了如何利用SPARQL Queries控制LOD的映對,如圖36中的SPARQL query,可以取得所有畜牧的資料集是以AGROVOC的Livestock。

圖36: LOD的SPARQL查詢

 

在演講的結論中,她也再次強調最大的語意之挑戰在於資料或詮釋資料整合時缺乏使用共通語彙,而不是在格式、綱要(schema)或描述的方式不同,在許多情境中,資料缺乏好語意是因為不關注這部份,而不是工具的不足,RING的機器可讀層和SPARQL endpoint不是提供給終端使用者,他們期待的是更多開發者去建構加值的服務。

 

 

Sophie Aubin, Agrisemantics, vision for an infrastructure for semantic-based interoperability of agricultural data

Sophie Aubin沒有出席,是由Johannes Keizer代為演講。

Agrisemantics是一個農業資訊語意的研究社群,企圖邁向一個可以無縫使用和創造語意資源以支持農業和食物資料的互操作性。Agrismenatics的價值是一個自動化語意資源集合可反應出豐富的觀點和不同的領域資料,農業概念應建立出一個共通的概念網要,即Global Agriculture Concept Schema (GACS),有一組穩定的URIs可以重複使用和連結其它資源,增加鏈結由不同資源中製造資料操作性,分享經驗和共同的實務經驗,Agrisemantics是一個新開始的計畫,其整體架構如圖37所示。

圖37: Ageisemantics的架構

 

地球觀測與遙測(Earth observation and remote sensing)

這個場次的有5個演講,如下所示,都是歐盟國家的計劃,和資料或開放資料有關。

  1. Holger Lilienthal, The Research Center for Agricultural Remote Sensing (FLF) – a data source for agricultural information based on Sentinel satellite data
  2. Silke Migdall, ESA’s Food Security Thematic Exploitation Platform “Supporting sustainable food production from space”
  3. Bernd Hoffmann, Decision support for crop protection – Pest identification using UAV technology
  4. Sebastian Fritsch, Using open data and artificial intelligence to digitize global agriculture
  5. Uwe Voges, Linking and finding earth observation data on the Web

對於上述5個演講,就摘錄與開放鏈結資料的重點來記錄。

Lilienthal博士的演講中主要是介紹歐洲哨兵衛星系列的影像如何應用於農業資訊的擷取,而歐洲哨兵衛星是以開放資料的方式釋出,在即時資料方面,可以進行農作型態分類、農作輪作、草地監測、和土壤流失監控,動態資料方面,可以進行產量潛勢推估、植物參數(如生物量、葉面積指數、葉綠素含量)、和物候學(如成長天數),如圖38。

圖38: 歐洲哨兵衛星應用於農業上可生產出來的資料

Migdall所介紹如何以巨量資料平台來處理糧食安全的問題,並且說明平台中的許多資料是地理和航遙測資料如何應用於糧食安全問題的決策。同樣地,Hoffmann 所介紹的是德國的整合型的農業計畫,而著重的是如何應用UAV影像擷取出更多有助於農業決策的資訊。

Voges 博士的演講是在於介紹如何利用鏈結資料技術於地球觀測資料的查詢上,他提到雖然地球觀測資料是開放資料,但通常透過特定的接口(portal),或典藏於特定的平台,如果使用者對於這些接口和平台不熟悉的話,很難找到且取用這些資料。利用 OGC Catalogue Service標準來進行地球觀測資料之詮釋資料的處理,透過一般的搜尋引擎還是無法找到資料,他認為鏈結資料的方法是解決這個困境的途徑,應該有一層鏈結資料服務層架構在底層的空間資料基礎設施(SDI),如圖39所示。接著他介紹了如何利用OGC OpenSearch Geo and Time[3]標準和鏈結資料技術實現以鏈結資料技術為主的地球觀測資料平台。

圖39: 鏈結資料服務層介於搜尋引擎、開放資料平台和地球觀測資料庫之間

G20農業鏈結開放資料會議 Part 2 – 視覺化、導覽和搜尋

Jerzy Weres, Programming technologies supporting management of Linked Open Data in the domain of cereal grain drying and storage

Jerzy Weres教授是來自波蘭波茲納(Poznan)大學農業及生物技術學院資訊應用系。他認為農業資訊對於農夫或農業工程而言都是重要的基礎,這些資訊有助於做出更好的決策,而要讓決策支援的軟體能與時並進,就必須去使用未來的網路科技,這樣的科技己經可以被用來增加決策支援系統的功能性、可靠性、使用性、可維持性和效能,藉由語意網技術來整合多種不同資訊來源現在已經是未來系統發展的趨勢,語意網技術為基礎的系統的新見解是如何透過整合軟體而讓傳統平台開放和利用智慧型手機的開放近用。

在這個演講中,他分享了他是如何與學生在資訊和農業工程課程上合作開發,並且留下二個資訊系統,一是語意網為基礎的建議系統可以支援分析、設計和管理榖物乾燥、處理和儲存,以及另一個整合系統可支援推估和分析幾何、熱能和不同屬性的農糧及林產。

圖8: 語意網為基礎的建議系統 “Ziarbit” 支援分析和管理榖物處理、乾燥和儲存

榖物處理、乾燥和儲存之語意網為基礎的建議系統中是以UML勾勒出系統的結構和欲解決的問題,再以Visual Studio 2013、Windows Phone SDK 8、Xamarin、 .NET 4.5、 ASP .NET 4.5、 C++/CLI 和 C# 5.0 等程式語言為建構環境,圖8即是主系統 “Ziarbit” 的畫面,其中具有處理RDF和SPARQL的元件,如圖9即是RDF三元組的產生器,系統中使用知識本體來正規化資料,圖10即是描述乾燥機的知識本體圖形化。而他們也發輕量化的手機版本,如圖11所示。

圖9: RDF三元組的產生器
圖10: 乾燥機的知識本體的一部份
圖11: 語意網為基礎的建議系統的輕量化手機版開發

可支援推估和分析幾何、熱能和不同屬性的農糧及林產的整合系統是用來模擬熱能和生質能(如玉米核)的質量轉移過程,可以檢驗物質是非均質、非等向、和不規則的特性,以有限單元格網的3D座標來表現一產品的幾何、熱傳導、溼度傳送係數和可轉換的溼度轉換系數,這個整合系統包含了一個共通的圖形介面,而且整合推估、分析和視覺化農糧和林產之熱及水轉移過程的子系統,這個系統是根據標準的軟體工程方法所建立,並利用Visual Studio 2013和C# 5.0 程式語言為建構環境。這個整合系統名為BioProcessSoft,是一個有圖形化介面和資料庫的系統,並包含三個子系統,3D Mesh Node、BioVis和IPS,圖12是3D Mesh Node子系統的截圖畫面。

圖12: 3D Mesh Node子系統

 

John Fereira, Visualization of Linked Open Data – eye candy for VIVO

John Fereira是康乃爾大學資深程式設計師,是VIVO一開始發展就加入的成員。VIVO在2003 – 2005年間,最早的開始由康乃爾大學針對生命科學領域開發,是以關連式資料庫為主,2006 – 2008 年間,VIVO已經擴展到康乃爾大學的所有領域,並且轉換成以語意網為主,2009 – 2012 國家衛生研究院的支持,VIVO讓國家科學網路計畫可以建立,轉換VIVO成為一個多機構的開放源碼平台,2012 後,VIVO轉換成DuraSpace,成為開放社群發展為主的應用程式,VIVO 因此成為一個開放源碼、開放資料平台、且使用開放知識本體,圖13為VIVO的知識本體。

VIVO也是一個可以讓相關於研究活動的資料可看得到且可及的語意發佈平台,以語意網為基礎的研究者和研究之探索工具,除了可以對「人」進行描述,可以針對其它組織、研究經費,計畫、論文發表、活動、設備和研究資源等項目,進行關係的描述,例如有意義的連結人和活動,而這些關係是雙向的,可以瀏覽從一個點到另一個點的脈絡,以URI連結VIVO以外的人、地方、組織和事件。VIVO是一個跨領域的開放資料平台,開放地分享資料並使用鏈結資料,以連結學者、研究社群、學校,VIVO可以整合多種來源的資料,如系統記錄、職員活動報告、和外部資源(如,文獻資源Scopus、PubMed和NIH RePORTER),它也提供可以提供一個檢視和編輯介面,且可整合和過濾資訊至其它網址。

圖13: VIVO 的知識本體

康乃爾大學的[email protected]網站即是利用VIVO所製作,圖14即是[email protected]網站,而圖15展示了[email protected]架構及其與VIVO的關係,網站可以輕鬆地瀏覽各個學者的著作發表、獲得計畫和金額可在網站一覽無遺,可經由網站瀏覽學者的相關資訊,如發表的著作和獲得的計畫與金額,如圖16 和圖17所示而網站中也提供了四種資訊視覺化方法,文字雲、全球合作的地圖、計畫經費、和研究興趣,如圖18-21。

圖14: 利用VIVO所做的[email protected]網站

 

圖15: [email protected]架構及其與VIVO的關係
圖16: 對於單一學者的查詢及資料展示
圖17: 對於共同作者關連的視覺化

 

圖18: 文字雲

 

圖19: 全球合作的地圖
圖20: 研究經費和計畫的視覺化
圖21: 研究興趣關連視覺化

 

Daniel M. Herzig, Searching Linked Data Graphs with GraphScope

Herzig博士之前是德國卡爾斯魯爾科技研究院(Karlsruhe Institute of Technology, KIT)之應用資訊和正規描述方法研究所(Institute of Applied Informatics and Formal Description Methods, AIFB) 之成員,該研究所亦是歐洲語意網研究的重點研究機構,出產許多知名的語意網研究學者。Herzig博士於2014年共同創辦了SearchHaus,這家公司致力於利用圖管理(graph management)方式於巨量資料的關鍵字查詢,metaphacts則是另一家於2014年成立的公司,致力於知識圖管理的公司,2017年二家公司併整,Herzig博士成為這家公司的營運長,該公司目前約10人左右。

圖22: GraphScope的技術內容
圖23: GrophScope的系統架構

GraphScope 是二家公司整併後的新產品,是一智慧型資料近用引擎,可允許使用者以簡單的方式,如關鍵字,去取用結構化資料,特別是RDF 資料。 透過GraphScope對於關鍵字解析,可提供使用者更精確的查尋結果,如果是下SPARQL queries,使用者需要了解資料綱要(schema)和SPARQL的語法,才可以得到較為準確的結果,但在GraphScope並不需要,所有過於技術的細節使用者是看不到的,也不用了解,GraphScope可以把綱要和語彙內建默記起來以便處理資料,也就是辨認關鍵字,GraphScope也適於用了解資料模型的領域專家,即使不了解語意網和資訊技術,也可以簡單的查詢資料,圖22為GraphScope的技術內容。GraphScope可以部署於三元組資料庫的上層且提供網頁介面,圖23即顯示GraphScope的系統架構。

在農業資料方面,metaphacts幫丹麥農業部門處理資料,在農業資料部份包含農田和作物,在商業資料部份包含土地權屬、公司的住址及並活動的資料,資料的知識本體如圖24所示,利用GraphScope建立系統,如圖25所示。

圖24: 丹麥農業資料知識本體

 

圖25: 查詢誰種菠菜的結果

GraphScope最早應用的領域是在生命科學,圖26所顯示的是利用GraphScope架構的基因庫查詢系統,The Gene Expression Atlas ( http://www.ebi.ac.uk/rdf/services/atlas/ ) 由歐盟生物資訊研究所(The European Bioinformatics Institute, EMBL-EBI) 建構,其畫面為查詢REG1B的基因序列之結果。

圖26: The Gene Expression Atlas (http://www.ebi.ac.uk/rdf/services/atlas/) 

GraphScope在其網站上(https://www.metaphacts.com/graphscope)提供二個展示,一是利用Wikidata,另一個是研究著作的查尋系統ResearchSpace。在Wikidata的展示上登入頁面上,只需要輸入關鍵字,例如,輸入「Taiwan」,搜尋列會列出所有和Taiwan一字有關的實體(entities),如圖27,點選其一,可以找到所有和這個實體有語意關係的實體和概念,其介面提供視覺化介面,如圖28展示出所有和「Taiwan」有語意關係的實體。

圖27: 與「Taiwan」相關的實體
圖28: 與「Taiwan」有語意關係的實體

 

Daniel Martini, Linked Data architecture components – How to attach linked data services to legacy infrastructure?

Daniel Martini是籌辦單位之一德國農業科技與建立協會(KTBL)中資料庫和知識技術組的專家,他們團隊在2004年左右就開始進行AgroXML的建立與發展。在他的演講中一開始先說明了KTBL這個單位的背景,KTBL是一個有註冊的非營利協會,2/3是由德國農業部所資助,有來自於學術、業界的各領域專家約400位成員左右所組成,有70位左右的職員在Darmstadt工作,管理許多工作小組、組織專家工作坊、出席相關委員會、以及維持專家網絡。KTBL的任務是將研究成知識導入農業的實務中,並以專業來支援政策決策,評估新農業技術在經濟和生態在衝擊,以及提供計畫性資料(如,投資、產品處理過程…)到農夫。資訊技術的角色有三: 一為資料獲取,是由開放資料來源中獲得,二為資料處理,是由原始資料轉換為計畫資料,三為資訊提供,透過電子書、網頁和APPS,傳遞農業資訊給客戶。

KTBL並負有一個任務是在於傳遞人和機器都可讀格式的計畫性資料,這其實需要處理(1)人與機器都可讀的類別(classes),如購買價格、供給的消費量…等; (2)標準田野工作流程,如工作時間、在不同制度下機器的共通方式…等; (3)操作供給: 平均價格、內容…等; (4) 設施和建物: 畜舍、牛奶機器和它們的屬性…等,讓以上這些資料能夠被更多的人使用,而且能夠進一步地在軟體應用程式中處理,以便服務農夫。

圖29: 語意網工具評估

在KTBL中有許多資料準備提供分享,而他們想要遵循FAIR原則,而且使用標準規格,如RDF、HTTP、SPARQL,但這些資料早己經存在於既存的系統(基礎設施),他們想的是如何開發出來一個工具箱可以以最少工作來解開這些儲放在既存資料庫中的資料。

因此KTBL的第一步就是開始設計語彙,讓資料能讓「再使用(reuse)」,他們以rdfs:label提供人可謮的名稱,在人名、地址、電話部份,他們使用VCardFOAF語彙,在單位和維度方面,使用QUDT語彙,在地理資訊方面,使用GeoVocabGeoSPARQL,在價格和產品方面,他們使用Good Relations Ontology,有這些語彙他們也建立他們的知識本體。並且開始從既有竹點的資料庫中開始要轉換資料,但在這之前,面對這麼多的工具要怎麼使用成為一個問題,所以他們對於這些工具進行評估,最後決定用D2RQ由資料庫轉RDF資料、用Jena Fuseki來儲存RDF和支援SPARQL 查詢、用ELDA進行序列化和網頁版型, 圖29即是評估過工具和最後決定的評估過程。最後結論也再次強調利用開源工具去建立語意網服務是輕鬆寫意的事情。

圖30: KTBL的語意網服務的系統結構

G20農業鏈結開放資料會議 Part 1 – 會議背景和Keynote

會議背景

LOD in Agriculture Workshop 做為G20 農業首席科學家會議(MACS)之一,聚集農業科技上的科學共同討論農業資料之標準化、結構化、鏈結化、及應用上的問題,這個會議是由GODAN ( Global Open Data for Agriculture & Nutrition)、 德國農業部(BMEL)、和德國農業科技與建立協會(KTBL)等三個單位來共同舉辦。

值得一提的是,GODAN是一個5年的跨國合作計畫,規模為850萬美元,由美國政府、英國政府、荷蘭政府、開放資料研究所(Open Data Institute, ODI)、聯合國國際農糧組織(FAO)、歐盟支援的農業研究與創新全球論壇(The Global Forum on Agricultural Research and Innovation, GFAR)、農業和生物科學國際中心(Centre for Agriculture and Biosciences International, CABI)、國際農業研究諮議組織(Consultative Group on International Agricultural Research, CGIAR)、農業與農村合作技術中心(Technical Centre for Agricultural and Rural Cooperation, CTA)、 和食物與農業研究基金會(Foundation for Food and Agriculture Research, FFAR)等10個單位共同出資,目前全球共有579個公私立單位參與成為該計畫夥伴。

會議開場

會議開場是由德國農業科技與建立協會(KTBL)的 Daniel Martini 主持。首先,由德國農業部(BMEL)官員致詞,說明會議舉辦的背景,是由於德國今年於漢堡(Hamburg)舉辦G20會議,並因此在波茲坦(Potsdam)舉辦G20中首席農業科學家會議(MACS),而去年的G20會議在中國時,就強調資通訊科技在農業上的應用與發展,延續這個議題,有鑑於歐盟近5年來在鏈結資料上的發展,德國今年則嘗試以鏈結資料在農業上的討論為主來承續中國在去年開啟的議題。而他也說明,雖然這是G20的會議之一,但這個會議其實不侷限於G20的成員參與,而是著重於農業和食物科學議題討論,而開放資料的策略提供更多在農業議題脈絡中創新的機會,有助於解決當前全球共同面對的農業和食物問題。

接著是GODAN計畫祕書的Johannes Keizer博士致詞,他是前FAO官員,退休後持續在全球的農業和糧食議題上努力,尋求更多解決的方法。他認為開放資料是解決全球農業和糧食問題的重要策略,許多的經濟效益是可以由開放資料而來,

而開放資料的重要的內涵在於資料再利用,產生資料流動,資料不斷地流動,才有可能有經濟效益和價值,開放資料也透過資料分享、知識分享,讓整個系統更有效率、更加有力量,更加的堅固。資料要流動,就必須讓資料能夠被找的到,資料要再被利用,就必須讓資料的語彙共通。

如何透過開放資料建立更好的農業和糧食資料的利用,進而解決問題,是GODAN計畫在尋找的解決方案,全球各地許多科研單位和科學家加入。他也強調,在剛結束不久的科研資料聯盟(Research Data Alliance, RDA)第10次會議於加拿大蒙特婁(Montréal)舉辦,其中有許多議題都和鏈結資料有關,而鏈結資料的技術與方法在農業和糧食問題的研究發展方興未艾,本次的會議就是想更深入去探討農業上的鏈結資料。

最後,由Daniel Martini給了一些開場的結語,他強調這個會議嘗試找出鏈結資料如何在農業上有用,農業資訊如何能透過當代資通訊技術製造更多的經濟效益,而這些議題不單單是德國的問題,而是全球的議題。

Keynote

會議主辦方邀請Elsevier的Paul Groth博士,以 「The Roots: Linked Data and the Foundations of successful agriculture data」為題進行專題演講。Groth博士先自我揭露說,他的科學背景是電腦科學,著重於開放資料和鏈結資料,而非農業領域,但家鄉是荷蘭,是非常重視農業科技的國家,也算是和農業扯上邊。

他先以三個問題來揭開專題演講,這些問題也是整演講的脈絡。

  1. 鏈結開放資料如何能讓農業不同以往? (How can Linked Open Data make a difference in agriculture? 
)
  1. 什麼樣的技術門檻阻礙了這個發展? (What technical obstacles stand in the way?)
  1. 什麼樣的政策需要配合? (What policies are needed to achieve the potential?)

他首先強調資料在農業的重要性,以精準農業為例說明資料是農業的中心。如圖1所示。他進一步引用Wolfert等人(2017)的文章,藉由該文的農業資料供應鏈之回顧分析中,說明了農業資料的問題,包含了格式、異質的資料來源、資料清理和準備的自動化、語意的異質性等,而這些正是鏈結資料技術可以應用的地方。

圖1: 資料是精準農業的中心

而研究科學資料在很早以前就開始討論資料開始的議題,在國際科學理事會(ICSU)帶領下,國際科學與技術資料委員會(CODATA)及研究資料聯盟(RDA)的會議中不斷地探討科學資料開放的議題,也使得投入科學資料開放的研究者愈來愈多,Groth博士以他為共同作者的Scientific Data期刊文章「The FAIR Guiding Principles for scientific data management and stewardship」為例,引導了科學資料中倡議開放資料的FAIR 原則,即是Findable, Accessible, Interoperable, 和Reusable,其節細內容如圖2,而達到FAIR原則所導向是成功的資料,而達成成功資料的最佳途徑就是鏈結資料。

圖2: FAIR原則
(來源: Wilkinson et al., M.D. 2016, The FAIR Guiding Principles for scientific data management and stewardship, Scientific Data 3, 160018)

資料再使用(reuse)成為科學資料開放的重要議題之一,要被使用就要找得到資料,要讓科學家能把自己的研究資料開放,資料引用(Data Citation)的制度是一個不可缺或因素,近年來也逐漸形成風氣,許多大型的期刊論文出版商目前都有資料論文(Data paper)的制度,且有些已經進入SCI索引。但這些似乎還不夠,期刊論文的使用者是科學家,對於一些特定群體的行為和需求則不一定滿足,例如,年輕科學家、政策制定者、學生等,觀測資料的背景使用比前景使用有較好的文件說明,也常有人需要資料而從別人的期刊論文中之表格再把資料再製,也有人會在搜尋引擎上尋找,或是直接索取資料。事實上,Google 對於資料集做索引,資料集發佈於網頁時,利用schema.org的語彙於HTML中會有助於Google 對這樣的網頁做索引。

對整合和互操作性而言,Groth博士先以ISOBUS這樣硬體規格,來說明標準所建立的整合和互操作性的重要性,接著解釋農業資料中己經有一些不錯的標準語彙,如AGROVOC和Crop ontology,而AGROVOC是促進農業鏈結資料的重要基礎,GODAN計畫更是重要的推手。資料要跨領域的整合,需要語意和語言的對映,Groth博士以植物知識庫的整合為例,來說明植物資料庫的整合過程,在語言方面,他也以Wikidata為例,說明語彙多語言的整合。

FAIR原則並不只是在於人類趨動的活動,而也著重於機器趨動的活動,因此資料的開放後,要考量的使用者並非只有「人」,還有一個重要的使用者是「機器」,FAIR原則所要克服的是人和機器在網路中尋找和處理處料時個別都會面臨到的問題,要弭平這樣子的障礙,機器學習是一個解決途徑。Groth博士引用吳恩達(Andrew Ng) 博士在2016年史丹福灣區深度學習課程中的一句話。

If there’s a task that a normal person can do with less than one second of thinking, there’s a very good chance we can automate it with deep learning.

也就是說我們現今有太多片段的知識可以透過機器學習建立出知識庫,使得人和機器都可以在語意共通的環境使用資料。接著舉NVIDIA利用深度學習於影像辨識,並將圖片中內容的萃取,例如圖3中,經過機器學習可以萃取出人物、酒瓶、和桌子,而影像辨識也在導入深度學習後,準確度大幅度的改善,圖4說明了ImageNet Large Scale Visual Recognition Challenge 在2012年後利用機器學習後,錯誤大量的減少。

圖3: 以分類來源圖片中每一個像素而產生語意圖的案例 (圖片來源: https://devblogs.nvidia.com/parallelforall/author/czhang/)
圖4: 在 ImageNet Large Scale Visual Recognition Challenge中前5大錯誤的比率在2012年使用用深度神經網路後,錯誤大量減少 (圖片來源: https://devblogs.nvidia.com/parallelforall/author/czhang/)

深度學習的叢集運算可以讓更多的知識由資料中被萃取出來,Groth博士再以ImageNet為案例說明以資料為導向的深度學習將會改變模式的建立,他引用了李菲菲(Fi-fi Li)博士受訪的一段話,

The paradigm shift of the ImageNet thinking is that while a lot of people are paying attention to models, let’s pay attention to data. … Data will redefine how we think about models.

ImageNet企圖建立的知識庫有如WordNet對於知識架構的分類(如圖5),這將有助於機器在處理圖片中的知識。他再舉一個例子是如何從社群媒體的文字描述去了Emoji的意義,如圖6中所示,這些Emoji所群集的分類是由文字描述的自然語言處理,輔以SVM演算法的改良,所得到的結果。

圖5: ImageNet 的概念階層是來自於WordNet 圖片來源: https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/
圖6: Emoji向量在二個維度群集
(下方是國旗、左上方是有關於家庭的符號、在高一點的左上方是星座的符號、最左邊是動物的,中間則是笑臉)
(圖片來源: Eisner, B. et al. (2016). Emoji2vec: learning emoji representations from their description. arXiv:1609.08359v1)

Groth博士接著論述鏈結資料和機器學習的關係,他認為機器可以熟練於學習由文字、語言、圖片和影片中回答問題,是仰賴於我們訓練機器可有效率地由網頁去讀取資訊的能力。先回過頭來看看機器當今如何讀取網頁的,最普遍的方式是搜尋引擎都會做的事,就是透過爬取和索引網頁資源,進一步地可能還有語意化的標籤(例如,使用schema.org),再者,更深層一點的,就語意網的脈絡,可能是尋找且遵循對於知識本體和資料分享和再使用的開放鏈結資料爬取,而在Open API的脈絡而言,機器讀取資料是利用程式可取用的API透過HTTP/S和其它協定來讀取資料,這些機器的讀取方式都需要讓我們去想如何支援標記語言(ML)導向的資料,如XML、JSON、RDF/OWL等。

Groth博士進一步地以FAIR Data的概念來說明資料供應的標準和語彙如何強化資料的品質,在多資料來源和多使用者的平台上更加顯得重要,他就以全球變遷資料庫「The Global Change Information System」來說明如何利用W3C PROV (Provenance Vocabulary) 來幫助平台的資料品質。

圖7: 美國全球變遷資料庫(http://www.globalchange.gov/)

最後,他再回到一開始提到的三個問題,總結而言,他認為要解決這三個問題就是建立成功的FAIR農業資料,而鏈結資料的技術即是建立出FAIR農業資料的關鍵。

接續 Part 2。

英國政府公部門的URI設計

英國政府將政府URI視為資訊基礎建設之一,是「跨政府部門總體架構」(cross-Government Enterprise Architecture, xGEA)一系列的政策和綱領中的一部份,因此英國首席技術辦公室(Chief Technology Officer, CTO)提出「設計英國公部門URI集合(Designing URI Sets for the UK Public Sector)」之報告。

而URI的設計與資料中的概念及其定義有關,有清楚的定義有助資料的分享,以及政府部門發佈和查詢鏈結開放資料。英國政府明確定義URI之目的也在於方便擁有參考性資料(reference data) 的部門,可以讓他們的資料可被再使用(re-use),並且給予那些有可被鏈結資料的部門,可以根據這些規則來使用 URI,因此,URI的定義對於一些與政府部門資料有關係的人更為重要,如在擁有參考資料政府部門、希望透過整併的URI來改善資料再使用(data reuse)的資料擁有者、以及政府部門解決方案的提供者。

報告中指出在2009年時,英國就有一些公部門著手進行URI設計,包含英國廣播公司 (BBC)、英國測繪局(Ordnance Survey)和英國公部門辦公室。經過建立和整合好的實務經驗,對於URI的設計,他們有三個主要重點:

  1. 使用data.gov.uk為URI集合的根網域,以利再使用(reuse)。
  2. URI集合是以部門或機構(如教育、交通、健康等)來分。
  3. 有一致的註釋資料用來描述URI集合的品質特性。

而該份報告所提出的就是一個英國公部門URI設計、架構和原則的技術規範,因此報告中對於URI的進行分類且給予定義,如表1。

表1: URI 類別

資源型態 URI的型態去命名資源 定義/範圍
真實世界的’事物’

Real-world ‘Things’

辨識碼 URI

Identifier URI

這些都是可以在宣告中被指涉的自然或抽象之事物。

自然的真實世界事物,舉例來說,可以是一間學校、一個人、或一條路; 而抽象的事物,舉例來說,可以是一個政府部門、一個族群、或一個事件。

文件或作品也是可以以包含的內容來區別的真實世界事物。

真實世界事物可以大寫的’Things’來表示

一個真實世界事物(Thing)不可能出現在網路中,而只有資訊形容它,因此很重要的是,當有一些宣告是用來指涉它時,事物本身和形容事物的資訊能被區別

在網路上關於真實世界事物的資訊 文件 URI

Document URI

這些命名了位於網絡上的文件,這些文件由每個辨識碼統一資源識別元的發佈者清楚地連接,以提供關於真實世界事物的資訊。
表示 URI

Representation URI

當一個文件URI提供超過一個格式,每一個格式可分別以表示URI來命名

基於格式,有些表示URI可命名機器可讀的文件,且因而可提供進一步關於命名資源的連結

每一個識別碼在一個集合中的索引 列表 URI

List URI

這些提供辨識碼URI的列表,其包含在一個集合中
概念的定義 知識本體 URI

Ontology URI

鑑於一個真實世界事物識別一個事物的個別實例,這是需要提供概念的定義,而知識本體URI可被查詢以提供定義。

 

事物間的關係 知識本體URI

Ontology URI

一個RDF宣告的每一部份可以使用URI來命名,這包含真實世界事物之間的關係。

 

而知識本體URI給予一個到知識本體的連結,可以提供關係和及其所關連的概念的進一步推理。

URI集合

URI Set

URI集合 是指參考資料以URI發佈的參考資料URI之集合,一個URI集休也是表達一個概念,由單一資源來管理,例如,學校公路、司法都是各自的集合

命名URI集合且可以被所解析以提供這個集合品質特性之辨識碼 URI的一個型態

 

該報告由既存的優良實作經驗中衍生且經由修改而導出一些符合UK公部門URI集合原則,如表2所示。

表2: URI設計原則

原則
使用HTTP所以URIs可以被解析 必要
使用固定路徑結構以明確指示出URI的型態 建議
URI集合是否被提升被政府或公眾的其它部份再使用,發佈者會把它弄的更清楚 必要
公部門URI集合應該發佈他們期待壽命和對於再使用的潛力 必要
這些被提升為再使用的公部門URI集合應該至少可維持10年 建議
如果超過有一個代表URI,提供一個文件URI其中內容協商(Content Negotiation)可以用來提供最合適的表示 建議
避免暴露在一個在URI結構中的技術實現(implementation) 建議
至少提供一個機器可讀的表示URI 必須
如果適當,提供一個人可以的URI在HTML中 建議
對於單一文件URI提供發現每一個可用的表示URI的方法 建議
一個URI集合會發佈它的授權、身份驗証、和使用共同語彙的資料品質特徵 必須
一個URI結構不會包含任何會改變的,例如session IDs 必須
一個URI路徑結構是可讀的,以致於人對於它的內容會有合理的了解 建議

 

報告中也提供了當公部門要建立URI集合時的原則和考量,如表3。

表3:  公部門要建立URI集合的原則和考量

原則 考量
負責真實世界的事物的部門或機構應該負責定義URI集合和命名URI集合的實例,合適部門的代表 URIs應該被組織進具有領頭部門或構機的部門

領頭部門/機構應該與利益關係人接觸以確保這集合是能足以符合廣泛的需求

從一個被提昇為再使用的集合的URIs不應該包含現正負責它的部門或機構之名稱 這涉及到政府部門的改變,一部門或機構可以停止或改變業務範圍
圖1: URIs整合到集合之概念圖

一個URI集合可以包含4個部份(如圖1):

  1. 一個命名集合和描述它的品質特徵的URI
  2. 在單一概念中,對於真實世界事物的每一個識別碼URI
  3. 選擇性的,定義綱要的概念和關係的知識本體URI
  4. 選擇性的,列出在集合中的識別碼URI的列表URI

基於上述的定義和原則,該報告提出各個URI類型的案例,如表4所示。

URI 類型 URI結構 案例
識別碼 http://{domain}/id/{concept}/{reference}

or

http://{domain}/{concept}/{reference}#id

http://education.data.gov.uk/id/school/78 http://education.data.gov.uk/school/78#id http://transport.data.gov.uk/id/road/M5/junction/24
文件 http://{domain}/doc/{concept}/{reference} http://education.data.gov.uk/doc/school/78
表示 http://{domain}/doc/{concept}/{reference}/{doc.file-extension} http://education.data.gov.uk/doc/school/78/doc.rdf
綱要概念的定義 http://{domain}/def/{concept} http://education.data.gov.uk/def/school
綱要識別碼列表 http://{domain}/doc/{concept} http://education.data.gov.uk/doc/school
集合 http://{domain}/set/{concept} http://education.data.gov.uk/set/school

 

下圖則是顯 示URI如何被解析,例如http://transport.data.gov.uk/id/road/M5 即代表的是M5高速公路,而http://transport.data.gov.uk/doc/road/M5 則是關於M5高速公路的資訊。

圖2: URI如何解析的案例