G20農業鏈結開放資料會議 Part 2 – 視覺化、導覽和搜尋

Jerzy Weres, Programming technologies supporting management of Linked Open Data in the domain of cereal grain drying and storage

Jerzy Weres教授是來自波蘭波茲納(Poznan)大學農業及生物技術學院資訊應用系。他認為農業資訊對於農夫或農業工程而言都是重要的基礎,這些資訊有助於做出更好的決策,而要讓決策支援的軟體能與時並進,就必須去使用未來的網路科技,這樣的科技己經可以被用來增加決策支援系統的功能性、可靠性、使用性、可維持性和效能,藉由語意網技術來整合多種不同資訊來源現在已經是未來系統發展的趨勢,語意網技術為基礎的系統的新見解是如何透過整合軟體而讓傳統平台開放和利用智慧型手機的開放近用。

在這個演講中,他分享了他是如何與學生在資訊和農業工程課程上合作開發,並且留下二個資訊系統,一是語意網為基礎的建議系統可以支援分析、設計和管理榖物乾燥、處理和儲存,以及另一個整合系統可支援推估和分析幾何、熱能和不同屬性的農糧及林產。

圖8: 語意網為基礎的建議系統 “Ziarbit” 支援分析和管理榖物處理、乾燥和儲存

榖物處理、乾燥和儲存之語意網為基礎的建議系統中是以UML勾勒出系統的結構和欲解決的問題,再以Visual Studio 2013、Windows Phone SDK 8、Xamarin、 .NET 4.5、 ASP .NET 4.5、 C++/CLI 和 C# 5.0 等程式語言為建構環境,圖8即是主系統 “Ziarbit” 的畫面,其中具有處理RDF和SPARQL的元件,如圖9即是RDF三元組的產生器,系統中使用知識本體來正規化資料,圖10即是描述乾燥機的知識本體圖形化。而他們也發輕量化的手機版本,如圖11所示。

圖9: RDF三元組的產生器
圖10: 乾燥機的知識本體的一部份
圖11: 語意網為基礎的建議系統的輕量化手機版開發

可支援推估和分析幾何、熱能和不同屬性的農糧及林產的整合系統是用來模擬熱能和生質能(如玉米核)的質量轉移過程,可以檢驗物質是非均質、非等向、和不規則的特性,以有限單元格網的3D座標來表現一產品的幾何、熱傳導、溼度傳送係數和可轉換的溼度轉換系數,這個整合系統包含了一個共通的圖形介面,而且整合推估、分析和視覺化農糧和林產之熱及水轉移過程的子系統,這個系統是根據標準的軟體工程方法所建立,並利用Visual Studio 2013和C# 5.0 程式語言為建構環境。這個整合系統名為BioProcessSoft,是一個有圖形化介面和資料庫的系統,並包含三個子系統,3D Mesh Node、BioVis和IPS,圖12是3D Mesh Node子系統的截圖畫面。

圖12: 3D Mesh Node子系統

 

John Fereira, Visualization of Linked Open Data – eye candy for VIVO

John Fereira是康乃爾大學資深程式設計師,是VIVO一開始發展就加入的成員。VIVO在2003 – 2005年間,最早的開始由康乃爾大學針對生命科學領域開發,是以關連式資料庫為主,2006 – 2008 年間,VIVO已經擴展到康乃爾大學的所有領域,並且轉換成以語意網為主,2009 – 2012 國家衛生研究院的支持,VIVO讓國家科學網路計畫可以建立,轉換VIVO成為一個多機構的開放源碼平台,2012 後,VIVO轉換成DuraSpace,成為開放社群發展為主的應用程式,VIVO 因此成為一個開放源碼、開放資料平台、且使用開放知識本體,圖13為VIVO的知識本體。

VIVO也是一個可以讓相關於研究活動的資料可看得到且可及的語意發佈平台,以語意網為基礎的研究者和研究之探索工具,除了可以對「人」進行描述,可以針對其它組織、研究經費,計畫、論文發表、活動、設備和研究資源等項目,進行關係的描述,例如有意義的連結人和活動,而這些關係是雙向的,可以瀏覽從一個點到另一個點的脈絡,以URI連結VIVO以外的人、地方、組織和事件。VIVO是一個跨領域的開放資料平台,開放地分享資料並使用鏈結資料,以連結學者、研究社群、學校,VIVO可以整合多種來源的資料,如系統記錄、職員活動報告、和外部資源(如,文獻資源Scopus、PubMed和NIH RePORTER),它也提供可以提供一個檢視和編輯介面,且可整合和過濾資訊至其它網址。

圖13: VIVO 的知識本體

康乃爾大學的[email protected]網站即是利用VIVO所製作,圖14即是[email protected]網站,而圖15展示了[email protected]架構及其與VIVO的關係,網站可以輕鬆地瀏覽各個學者的著作發表、獲得計畫和金額可在網站一覽無遺,可經由網站瀏覽學者的相關資訊,如發表的著作和獲得的計畫與金額,如圖16 和圖17所示而網站中也提供了四種資訊視覺化方法,文字雲、全球合作的地圖、計畫經費、和研究興趣,如圖18-21。

圖14: 利用VIVO所做的[email protected]網站

 

圖15: [email protected]架構及其與VIVO的關係
圖16: 對於單一學者的查詢及資料展示
圖17: 對於共同作者關連的視覺化

 

圖18: 文字雲

 

圖19: 全球合作的地圖
圖20: 研究經費和計畫的視覺化
圖21: 研究興趣關連視覺化

 

Daniel M. Herzig, Searching Linked Data Graphs with GraphScope

Herzig博士之前是德國卡爾斯魯爾科技研究院(Karlsruhe Institute of Technology, KIT)之應用資訊和正規描述方法研究所(Institute of Applied Informatics and Formal Description Methods, AIFB) 之成員,該研究所亦是歐洲語意網研究的重點研究機構,出產許多知名的語意網研究學者。Herzig博士於2014年共同創辦了SearchHaus,這家公司致力於利用圖管理(graph management)方式於巨量資料的關鍵字查詢,metaphacts則是另一家於2014年成立的公司,致力於知識圖管理的公司,2017年二家公司併整,Herzig博士成為這家公司的營運長,該公司目前約10人左右。

圖22: GraphScope的技術內容
圖23: GrophScope的系統架構

GraphScope 是二家公司整併後的新產品,是一智慧型資料近用引擎,可允許使用者以簡單的方式,如關鍵字,去取用結構化資料,特別是RDF 資料。 透過GraphScope對於關鍵字解析,可提供使用者更精確的查尋結果,如果是下SPARQL queries,使用者需要了解資料綱要(schema)和SPARQL的語法,才可以得到較為準確的結果,但在GraphScope並不需要,所有過於技術的細節使用者是看不到的,也不用了解,GraphScope可以把綱要和語彙內建默記起來以便處理資料,也就是辨認關鍵字,GraphScope也適於用了解資料模型的領域專家,即使不了解語意網和資訊技術,也可以簡單的查詢資料,圖22為GraphScope的技術內容。GraphScope可以部署於三元組資料庫的上層且提供網頁介面,圖23即顯示GraphScope的系統架構。

在農業資料方面,metaphacts幫丹麥農業部門處理資料,在農業資料部份包含農田和作物,在商業資料部份包含土地權屬、公司的住址及並活動的資料,資料的知識本體如圖24所示,利用GraphScope建立系統,如圖25所示。

圖24: 丹麥農業資料知識本體

 

圖25: 查詢誰種菠菜的結果

GraphScope最早應用的領域是在生命科學,圖26所顯示的是利用GraphScope架構的基因庫查詢系統,The Gene Expression Atlas ( http://www.ebi.ac.uk/rdf/services/atlas/ ) 由歐盟生物資訊研究所(The European Bioinformatics Institute, EMBL-EBI) 建構,其畫面為查詢REG1B的基因序列之結果。

圖26: The Gene Expression Atlas (http://www.ebi.ac.uk/rdf/services/atlas/) 

GraphScope在其網站上(https://www.metaphacts.com/graphscope)提供二個展示,一是利用Wikidata,另一個是研究著作的查尋系統ResearchSpace。在Wikidata的展示上登入頁面上,只需要輸入關鍵字,例如,輸入「Taiwan」,搜尋列會列出所有和Taiwan一字有關的實體(entities),如圖27,點選其一,可以找到所有和這個實體有語意關係的實體和概念,其介面提供視覺化介面,如圖28展示出所有和「Taiwan」有語意關係的實體。

圖27: 與「Taiwan」相關的實體
圖28: 與「Taiwan」有語意關係的實體

 

Daniel Martini, Linked Data architecture components – How to attach linked data services to legacy infrastructure?

Daniel Martini是籌辦單位之一德國農業科技與建立協會(KTBL)中資料庫和知識技術組的專家,他們團隊在2004年左右就開始進行AgroXML的建立與發展。在他的演講中一開始先說明了KTBL這個單位的背景,KTBL是一個有註冊的非營利協會,2/3是由德國農業部所資助,有來自於學術、業界的各領域專家約400位成員左右所組成,有70位左右的職員在Darmstadt工作,管理許多工作小組、組織專家工作坊、出席相關委員會、以及維持專家網絡。KTBL的任務是將研究成知識導入農業的實務中,並以專業來支援政策決策,評估新農業技術在經濟和生態在衝擊,以及提供計畫性資料(如,投資、產品處理過程…)到農夫。資訊技術的角色有三: 一為資料獲取,是由開放資料來源中獲得,二為資料處理,是由原始資料轉換為計畫資料,三為資訊提供,透過電子書、網頁和APPS,傳遞農業資訊給客戶。

KTBL並負有一個任務是在於傳遞人和機器都可讀格式的計畫性資料,這其實需要處理(1)人與機器都可讀的類別(classes),如購買價格、供給的消費量…等; (2)標準田野工作流程,如工作時間、在不同制度下機器的共通方式…等; (3)操作供給: 平均價格、內容…等; (4) 設施和建物: 畜舍、牛奶機器和它們的屬性…等,讓以上這些資料能夠被更多的人使用,而且能夠進一步地在軟體應用程式中處理,以便服務農夫。

圖29: 語意網工具評估

在KTBL中有許多資料準備提供分享,而他們想要遵循FAIR原則,而且使用標準規格,如RDF、HTTP、SPARQL,但這些資料早己經存在於既存的系統(基礎設施),他們想的是如何開發出來一個工具箱可以以最少工作來解開這些儲放在既存資料庫中的資料。

因此KTBL的第一步就是開始設計語彙,讓資料能讓「再使用(reuse)」,他們以rdfs:label提供人可謮的名稱,在人名、地址、電話部份,他們使用VCardFOAF語彙,在單位和維度方面,使用QUDT語彙,在地理資訊方面,使用GeoVocabGeoSPARQL,在價格和產品方面,他們使用Good Relations Ontology,有這些語彙他們也建立他們的知識本體。並且開始從既有竹點的資料庫中開始要轉換資料,但在這之前,面對這麼多的工具要怎麼使用成為一個問題,所以他們對於這些工具進行評估,最後決定用D2RQ由資料庫轉RDF資料、用Jena Fuseki來儲存RDF和支援SPARQL 查詢、用ELDA進行序列化和網頁版型, 圖29即是評估過工具和最後決定的評估過程。最後結論也再次強調利用開源工具去建立語意網服務是輕鬆寫意的事情。

圖30: KTBL的語意網服務的系統結構

DIGI+中缺少的戰略思考— 資料

DIGI+的全名為「數位國家・創新經濟發展方案」,這個方案是以「數位國家、智慧島嶼」為總政策綱領,其實就是蔡英文總統在競選時就提出的政策方向,後來上任後,由行政院科技會報完成具體內容,並在2016年11 月通過。隔了一年,今天(2017年11月29日) 才召開民間諮詢委員會,會中除了介紹DIGI+方案的內容外,並設定了二個討論提案:

  1. 政府政策如何協助推動企業的數位轉型?
  2. 政府政策如何協助建立軟硬並重的產業生態?

後來,看了一下民間諮詢委員的名單才發現有八成以上的委員都來自於業界,而且都是大公司的老闆或經理,所以會設定這樣的討論提案就不難理解,但這二個問題其實有很大的邏輯問題,DIGI+的方案都已經核定通過,政策不就寫在計畫書中了,現在才討論這二個問題豈不太晚?

先說結論,我認為DIGI+方案缺乏以資料為向度的戰略思考。

DIGI+的戰略思考是什麼?

如果仔細地唸一下DIGI+方案的計畫書,不難發現,這個方案的戰略思考是以提升世界經濟論壇(World Economic Forum)的全球資訊技術報告(Global Information Report)中「網路整備指標」(Networked Readiness Index, NRI)來決定,而台灣在近5年中,由2012年的第11名,2016年已經下滑到第19名,主要的問題有法規和稅務環境不良、人才培育不佳、政府使用ICT技術能不足、對新興技術的採購牛步、以及ICT在社會影響力低,造成排名每況愈下,事實上,以得分而言,分數的變化不大,但其它國家的進步就是我們的退步,與我們最近的國家–日本,則是從2012年的第18名,進步到2016年的第10名,而新加坡在這幾年則是始終維持在第1、2名間,因此DIGI+的目標是在2025年時,我國數位經濟規模能夠成長至新台幣6.5兆元、民眾數位生活服務使用普及率達到80%、寬頻服務可達2Gbps、保證國民25Mbps寬頻上網基本權利、我國資訊國力排名能夠躍進到前10名。還有另一說是要力拚資訊國力為全球第 6 名。

無論要爭取全球資訊國力的第幾名都好,除了眼前的問題,一個國家的數位政策是否也應該兼顧未來ICT變化與挑戰,以及現今台灣ICT體質的改善? 的確,計畫書已經把目前己經發展的資通訊技術都放進去了,但3年後、5年後呢? 這樣的計畫書內容是否能因應未來的ICT發展呢?,是否思考由最基本的地方做起,以改善體質?

資料基礎建設的戰略思考

事實上,DIGI+的計畫書中也回顧了幾個主要及鄰近國家之數位政策,但可惜的是,我們的DIGI+似乎沒有把其它國家對於ICT調適的重點摸清,以及他們的戰略思考看透。

以資訊國力進步很多的日本為例,計畫書中提到,

2013年日本IT戰略本部公布「世界最先進IT國家創造宣言」,安倍經濟學第三隻箭之一的國家IT戰略,以「活用IT,創造未來」為政策願景,「開放資料」與「巨量資料」為主要推動核心,並結合日本向來引以為傲的人工智慧技術,在物聯網環境下,透過世界最高水準的IT應用,打破困頓已久的經濟閉鎖窘境。

可見得日本的IT戰略是以資料為基底來支撐技術發展,但DIGI+的計畫書並沒有這方面深 入的洞察,以分析台灣目前環境得以借鏡的地方,只是片面且粗淺地取了日本的超高速寬頻環境的成果,來背書DIGI+的寬頻基礎建設,且回顧「美國Gigabit城市挑戰計畫」也是同樣地只是為了寬頻基礎建設,難道美國沒有其它的數位政策了嗎? 川普政府不好說,但過去歐巴馬政府時代,確實制定了許多開放政府和數位治理的策略,很多地方都值得借鏡。

回到日本的IT戰略,我相信日本NRI的排名一路走高是因為基礎建設做的好,也因為有基礎打底,許多政策不會是表面功夫,人一換就一切如過往雲煙,很多人可能不知道日本在「世界最先進IT國家創造宣言」的戰略中,有一塊是針對「資料基礎設施」的行動策略,而資料基礎設施不是在做資料平台和Open API這種表象的工作,而是制定「共通語彙基盤」和「文字情報基盤」以利資料互通,不但讓政府各單位的資訊能橫向串聯,而且中央與地方政府的資訊也能縱向串通,在這個基礎上,針對「AI農業」(Agriculture Informatics)的進展,再制定「農業共通語彙」先讓農業資訊標準化,以利農業資訊共通,達到資訊利用最大化,創造以資料活用的經濟效益。

日本人瘋了嗎? IT最先進國的宣言居然在做這麼基礎的工作?! 但各位可以想一想,有多少人在FB或PTT上在靠北政府資料品質不好,連「台」和「臺」都不統一、連UTF8和BIG5也弄不清楚,更別說幾年前一個會議講「資料開放」,可能各自心中都有一個定義,且不太一樣。無論是AI、或是巨量資料,機器可理解愈多,人要處理的就愈少,我們要讓機器做的愈多,資訊愈標準化愈有可能,日本的IT戰略會有這樣的行動方案,一定是遇到很多資料無法整合問題,而造成資料應用和分析上的成本。

反觀台灣,我們沒有這類的問題嗎? 我們的開放資料走的快,得了個第一名,卻有了面子,忘了看裡子,開放了這麼資料,我們卻常被資料品質所苦 ; 有了這麼多資料,卻沒有可以拿出去國際上一較高下的應用案例 ; 政府釋出資料,卻不知道意義是什麼? 忘了開放資料所帶來可能的橫向和縱向串聯,而DIGI+中卻看不到日本IT的戰略思維,把開放資料視為敝屣,看不到資料基礎建設的價值。

科技始於來自於人性、智慧就是來自於資料

DIKW金字塔說明了如何從資料中得到資訊、轉化知識、運用知識成為智慧,因此當一個數位政策冠上智慧XX、如智慧島嶼、智慧城鄉、智慧生活應用、智慧製造服務、…的同時,不禁要問,這智慧從何而來?

會議中有委員提到「政府應推動各產業打造數據中心,以利用數據來提供智慧化服務」,這讓我想到去年在歐洲資料論壇聽到的計畫,Industrial Data Space,是一個藉由資料的數位治理(Digital sovereignty),也是一個由資料為基底來提供智慧化服務的計畫,這個計畫認為在工業的數位轉型中很重要的一個項目是在於資料和服務在公司間交換,藉由資料交換,以及與開放資料的整合來串聯公司,可以在新產品和智慧服務中產生附加價值,也就是說這樣新的數位商業模式是有機會應用在傳統工業的公司上。

Industry Data Space就是一個執行工業4.0的計畫,並大量使用資料治理的方法來達到以資料為底蘊的智慧化服務和產品,其中有一個重要的部份是在於一個「參照架構模型」(Reference Architecture Model),其實這就是前面提到的資料基礎設施的一環,如果各位有空去看看內容會發現,這之中有語彙、又有鏈結資料(Linked Data),所以是不是各位可以更理解,為日本在喊IT最先進國宣言,花了功夫在共通語彙基盤上呢?

資料趨動的轉型是數位治理的基礎

以資料趨動的轉型是一個硬功夫,確實要花很多心血和頭腦,但綜觀許多國際案例,資料基礎設施是一個資料趨動轉型的重要支柱,是數位治理的依據。我們的ICT環境比日本先進嗎? 為什麼我們要忽略這一塊? 有德國Industrial Data Space的案例,做為數位政策的 DIGI+ 有意識到資料在產業轉型的重要性? 會議中有另一位委員提到一段令人贊同的話,「在談產業的數位轉型之前,政府可否先做到數位轉型成功後,再來輔導產業」,所以目前DIGI+的計畫書內容真的有辦法帶給台灣政府數位轉型,以帶動產業嗎? 我存疑。台灣的資訊國力會因為這個DIGI+的計畫推動而提昇嗎? 我也存疑。

 

G20農業鏈結開放資料會議 Part 1 – 會議背景和Keynote

會議背景

LOD in Agriculture Workshop 做為G20 農業首席科學家會議(MACS)之一,聚集農業科技上的科學共同討論農業資料之標準化、結構化、鏈結化、及應用上的問題,這個會議是由GODAN ( Global Open Data for Agriculture & Nutrition)、 德國農業部(BMEL)、和德國農業科技與建立協會(KTBL)等三個單位來共同舉辦。

值得一提的是,GODAN是一個5年的跨國合作計畫,規模為850萬美元,由美國政府、英國政府、荷蘭政府、開放資料研究所(Open Data Institute, ODI)、聯合國國際農糧組織(FAO)、歐盟支援的農業研究與創新全球論壇(The Global Forum on Agricultural Research and Innovation, GFAR)、農業和生物科學國際中心(Centre for Agriculture and Biosciences International, CABI)、國際農業研究諮議組織(Consultative Group on International Agricultural Research, CGIAR)、農業與農村合作技術中心(Technical Centre for Agricultural and Rural Cooperation, CTA)、 和食物與農業研究基金會(Foundation for Food and Agriculture Research, FFAR)等10個單位共同出資,目前全球共有579個公私立單位參與成為該計畫夥伴。

會議開場

會議開場是由德國農業科技與建立協會(KTBL)的 Daniel Martini 主持。首先,由德國農業部(BMEL)官員致詞,說明會議舉辦的背景,是由於德國今年於漢堡(Hamburg)舉辦G20會議,並因此在波茲坦(Potsdam)舉辦G20中首席農業科學家會議(MACS),而去年的G20會議在中國時,就強調資通訊科技在農業上的應用與發展,延續這個議題,有鑑於歐盟近5年來在鏈結資料上的發展,德國今年則嘗試以鏈結資料在農業上的討論為主來承續中國在去年開啟的議題。而他也說明,雖然這是G20的會議之一,但這個會議其實不侷限於G20的成員參與,而是著重於農業和食物科學議題討論,而開放資料的策略提供更多在農業議題脈絡中創新的機會,有助於解決當前全球共同面對的農業和食物問題。

接著是GODAN計畫祕書的Johannes Keizer博士致詞,他是前FAO官員,退休後持續在全球的農業和糧食議題上努力,尋求更多解決的方法。他認為開放資料是解決全球農業和糧食問題的重要策略,許多的經濟效益是可以由開放資料而來,

而開放資料的重要的內涵在於資料再利用,產生資料流動,資料不斷地流動,才有可能有經濟效益和價值,開放資料也透過資料分享、知識分享,讓整個系統更有效率、更加有力量,更加的堅固。資料要流動,就必須讓資料能夠被找的到,資料要再被利用,就必須讓資料的語彙共通。

如何透過開放資料建立更好的農業和糧食資料的利用,進而解決問題,是GODAN計畫在尋找的解決方案,全球各地許多科研單位和科學家加入。他也強調,在剛結束不久的科研資料聯盟(Research Data Alliance, RDA)第10次會議於加拿大蒙特婁(Montréal)舉辦,其中有許多議題都和鏈結資料有關,而鏈結資料的技術與方法在農業和糧食問題的研究發展方興未艾,本次的會議就是想更深入去探討農業上的鏈結資料。

最後,由Daniel Martini給了一些開場的結語,他強調這個會議嘗試找出鏈結資料如何在農業上有用,農業資訊如何能透過當代資通訊技術製造更多的經濟效益,而這些議題不單單是德國的問題,而是全球的議題。

Keynote

會議主辦方邀請Elsevier的Paul Groth博士,以 「The Roots: Linked Data and the Foundations of successful agriculture data」為題進行專題演講。Groth博士先自我揭露說,他的科學背景是電腦科學,著重於開放資料和鏈結資料,而非農業領域,但家鄉是荷蘭,是非常重視農業科技的國家,也算是和農業扯上邊。

他先以三個問題來揭開專題演講,這些問題也是整演講的脈絡。

  1. 鏈結開放資料如何能讓農業不同以往? (How can Linked Open Data make a difference in agriculture? 
)
  1. 什麼樣的技術門檻阻礙了這個發展? (What technical obstacles stand in the way?)
  1. 什麼樣的政策需要配合? (What policies are needed to achieve the potential?)

他首先強調資料在農業的重要性,以精準農業為例說明資料是農業的中心。如圖1所示。他進一步引用Wolfert等人(2017)的文章,藉由該文的農業資料供應鏈之回顧分析中,說明了農業資料的問題,包含了格式、異質的資料來源、資料清理和準備的自動化、語意的異質性等,而這些正是鏈結資料技術可以應用的地方。

圖1: 資料是精準農業的中心

而研究科學資料在很早以前就開始討論資料開始的議題,在國際科學理事會(ICSU)帶領下,國際科學與技術資料委員會(CODATA)及研究資料聯盟(RDA)的會議中不斷地探討科學資料開放的議題,也使得投入科學資料開放的研究者愈來愈多,Groth博士以他為共同作者的Scientific Data期刊文章「The FAIR Guiding Principles for scientific data management and stewardship」為例,引導了科學資料中倡議開放資料的FAIR 原則,即是Findable, Accessible, Interoperable, 和Reusable,其節細內容如圖2,而達到FAIR原則所導向是成功的資料,而達成成功資料的最佳途徑就是鏈結資料。

圖2: FAIR原則
(來源: Wilkinson et al., M.D. 2016, The FAIR Guiding Principles for scientific data management and stewardship, Scientific Data 3, 160018)

資料再使用(reuse)成為科學資料開放的重要議題之一,要被使用就要找得到資料,要讓科學家能把自己的研究資料開放,資料引用(Data Citation)的制度是一個不可缺或因素,近年來也逐漸形成風氣,許多大型的期刊論文出版商目前都有資料論文(Data paper)的制度,且有些已經進入SCI索引。但這些似乎還不夠,期刊論文的使用者是科學家,對於一些特定群體的行為和需求則不一定滿足,例如,年輕科學家、政策制定者、學生等,觀測資料的背景使用比前景使用有較好的文件說明,也常有人需要資料而從別人的期刊論文中之表格再把資料再製,也有人會在搜尋引擎上尋找,或是直接索取資料。事實上,Google 對於資料集做索引,資料集發佈於網頁時,利用schema.org的語彙於HTML中會有助於Google 對這樣的網頁做索引。

對整合和互操作性而言,Groth博士先以ISOBUS這樣硬體規格,來說明標準所建立的整合和互操作性的重要性,接著解釋農業資料中己經有一些不錯的標準語彙,如AGROVOC和Crop ontology,而AGROVOC是促進農業鏈結資料的重要基礎,GODAN計畫更是重要的推手。資料要跨領域的整合,需要語意和語言的對映,Groth博士以植物知識庫的整合為例,來說明植物資料庫的整合過程,在語言方面,他也以Wikidata為例,說明語彙多語言的整合。

FAIR原則並不只是在於人類趨動的活動,而也著重於機器趨動的活動,因此資料的開放後,要考量的使用者並非只有「人」,還有一個重要的使用者是「機器」,FAIR原則所要克服的是人和機器在網路中尋找和處理處料時個別都會面臨到的問題,要弭平這樣子的障礙,機器學習是一個解決途徑。Groth博士引用吳恩達(Andrew Ng) 博士在2016年史丹福灣區深度學習課程中的一句話。

If there’s a task that a normal person can do with less than one second of thinking, there’s a very good chance we can automate it with deep learning.

也就是說我們現今有太多片段的知識可以透過機器學習建立出知識庫,使得人和機器都可以在語意共通的環境使用資料。接著舉NVIDIA利用深度學習於影像辨識,並將圖片中內容的萃取,例如圖3中,經過機器學習可以萃取出人物、酒瓶、和桌子,而影像辨識也在導入深度學習後,準確度大幅度的改善,圖4說明了ImageNet Large Scale Visual Recognition Challenge 在2012年後利用機器學習後,錯誤大量的減少。

圖3: 以分類來源圖片中每一個像素而產生語意圖的案例 (圖片來源: https://devblogs.nvidia.com/parallelforall/author/czhang/)
圖4: 在 ImageNet Large Scale Visual Recognition Challenge中前5大錯誤的比率在2012年使用用深度神經網路後,錯誤大量減少 (圖片來源: https://devblogs.nvidia.com/parallelforall/author/czhang/)

深度學習的叢集運算可以讓更多的知識由資料中被萃取出來,Groth博士再以ImageNet為案例說明以資料為導向的深度學習將會改變模式的建立,他引用了李菲菲(Fi-fi Li)博士受訪的一段話,

The paradigm shift of the ImageNet thinking is that while a lot of people are paying attention to models, let’s pay attention to data. … Data will redefine how we think about models.

ImageNet企圖建立的知識庫有如WordNet對於知識架構的分類(如圖5),這將有助於機器在處理圖片中的知識。他再舉一個例子是如何從社群媒體的文字描述去了Emoji的意義,如圖6中所示,這些Emoji所群集的分類是由文字描述的自然語言處理,輔以SVM演算法的改良,所得到的結果。

圖5: ImageNet 的概念階層是來自於WordNet 圖片來源: https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/
圖6: Emoji向量在二個維度群集
(下方是國旗、左上方是有關於家庭的符號、在高一點的左上方是星座的符號、最左邊是動物的,中間則是笑臉)
(圖片來源: Eisner, B. et al. (2016). Emoji2vec: learning emoji representations from their description. arXiv:1609.08359v1)

Groth博士接著論述鏈結資料和機器學習的關係,他認為機器可以熟練於學習由文字、語言、圖片和影片中回答問題,是仰賴於我們訓練機器可有效率地由網頁去讀取資訊的能力。先回過頭來看看機器當今如何讀取網頁的,最普遍的方式是搜尋引擎都會做的事,就是透過爬取和索引網頁資源,進一步地可能還有語意化的標籤(例如,使用schema.org),再者,更深層一點的,就語意網的脈絡,可能是尋找且遵循對於知識本體和資料分享和再使用的開放鏈結資料爬取,而在Open API的脈絡而言,機器讀取資料是利用程式可取用的API透過HTTP/S和其它協定來讀取資料,這些機器的讀取方式都需要讓我們去想如何支援標記語言(ML)導向的資料,如XML、JSON、RDF/OWL等。

Groth博士進一步地以FAIR Data的概念來說明資料供應的標準和語彙如何強化資料的品質,在多資料來源和多使用者的平台上更加顯得重要,他就以全球變遷資料庫「The Global Change Information System」來說明如何利用W3C PROV (Provenance Vocabulary) 來幫助平台的資料品質。

圖7: 美國全球變遷資料庫(http://www.globalchange.gov/)

最後,他再回到一開始提到的三個問題,總結而言,他認為要解決這三個問題就是建立成功的FAIR農業資料,而鏈結資料的技術即是建立出FAIR農業資料的關鍵。

接續 Part 2。

英國政府公部門的URI設計

英國政府將政府URI視為資訊基礎建設之一,是「跨政府部門總體架構」(cross-Government Enterprise Architecture, xGEA)一系列的政策和綱領中的一部份,因此英國首席技術辦公室(Chief Technology Officer, CTO)提出「設計英國公部門URI集合(Designing URI Sets for the UK Public Sector)」之報告。

而URI的設計與資料中的概念及其定義有關,有清楚的定義有助資料的分享,以及政府部門發佈和查詢鏈結開放資料。英國政府明確定義URI之目的也在於方便擁有參考性資料(reference data) 的部門,可以讓他們的資料可被再使用(re-use),並且給予那些有可被鏈結資料的部門,可以根據這些規則來使用 URI,因此,URI的定義對於一些與政府部門資料有關係的人更為重要,如在擁有參考資料政府部門、希望透過整併的URI來改善資料再使用(data reuse)的資料擁有者、以及政府部門解決方案的提供者。

報告中指出在2009年時,英國就有一些公部門著手進行URI設計,包含英國廣播公司 (BBC)、英國測繪局(Ordnance Survey)和英國公部門辦公室。經過建立和整合好的實務經驗,對於URI的設計,他們有三個主要重點:

  1. 使用data.gov.uk為URI集合的根網域,以利再使用(reuse)。
  2. URI集合是以部門或機構(如教育、交通、健康等)來分。
  3. 有一致的註釋資料用來描述URI集合的品質特性。

而該份報告所提出的就是一個英國公部門URI設計、架構和原則的技術規範,因此報告中對於URI的進行分類且給予定義,如表1。

表1: URI 類別

資源型態 URI的型態去命名資源 定義/範圍
真實世界的’事物’

Real-world ‘Things’

辨識碼 URI

Identifier URI

這些都是可以在宣告中被指涉的自然或抽象之事物。

自然的真實世界事物,舉例來說,可以是一間學校、一個人、或一條路; 而抽象的事物,舉例來說,可以是一個政府部門、一個族群、或一個事件。

文件或作品也是可以以包含的內容來區別的真實世界事物。

真實世界事物可以大寫的’Things’來表示

一個真實世界事物(Thing)不可能出現在網路中,而只有資訊形容它,因此很重要的是,當有一些宣告是用來指涉它時,事物本身和形容事物的資訊能被區別

在網路上關於真實世界事物的資訊 文件 URI

Document URI

這些命名了位於網絡上的文件,這些文件由每個辨識碼統一資源識別元的發佈者清楚地連接,以提供關於真實世界事物的資訊。
表示 URI

Representation URI

當一個文件URI提供超過一個格式,每一個格式可分別以表示URI來命名

基於格式,有些表示URI可命名機器可讀的文件,且因而可提供進一步關於命名資源的連結

每一個識別碼在一個集合中的索引 列表 URI

List URI

這些提供辨識碼URI的列表,其包含在一個集合中
概念的定義 知識本體 URI

Ontology URI

鑑於一個真實世界事物識別一個事物的個別實例,這是需要提供概念的定義,而知識本體URI可被查詢以提供定義。

 

事物間的關係 知識本體URI

Ontology URI

一個RDF宣告的每一部份可以使用URI來命名,這包含真實世界事物之間的關係。

 

而知識本體URI給予一個到知識本體的連結,可以提供關係和及其所關連的概念的進一步推理。

URI集合

URI Set

URI集合 是指參考資料以URI發佈的參考資料URI之集合,一個URI集休也是表達一個概念,由單一資源來管理,例如,學校公路、司法都是各自的集合

命名URI集合且可以被所解析以提供這個集合品質特性之辨識碼 URI的一個型態

 

該報告由既存的優良實作經驗中衍生且經由修改而導出一些符合UK公部門URI集合原則,如表2所示。

表2: URI設計原則

原則
使用HTTP所以URIs可以被解析 必要
使用固定路徑結構以明確指示出URI的型態 建議
URI集合是否被提升被政府或公眾的其它部份再使用,發佈者會把它弄的更清楚 必要
公部門URI集合應該發佈他們期待壽命和對於再使用的潛力 必要
這些被提升為再使用的公部門URI集合應該至少可維持10年 建議
如果超過有一個代表URI,提供一個文件URI其中內容協商(Content Negotiation)可以用來提供最合適的表示 建議
避免暴露在一個在URI結構中的技術實現(implementation) 建議
至少提供一個機器可讀的表示URI 必須
如果適當,提供一個人可以的URI在HTML中 建議
對於單一文件URI提供發現每一個可用的表示URI的方法 建議
一個URI集合會發佈它的授權、身份驗証、和使用共同語彙的資料品質特徵 必須
一個URI結構不會包含任何會改變的,例如session IDs 必須
一個URI路徑結構是可讀的,以致於人對於它的內容會有合理的了解 建議

 

報告中也提供了當公部門要建立URI集合時的原則和考量,如表3。

表3:  公部門要建立URI集合的原則和考量

原則 考量
負責真實世界的事物的部門或機構應該負責定義URI集合和命名URI集合的實例,合適部門的代表 URIs應該被組織進具有領頭部門或構機的部門

領頭部門/機構應該與利益關係人接觸以確保這集合是能足以符合廣泛的需求

從一個被提昇為再使用的集合的URIs不應該包含現正負責它的部門或機構之名稱 這涉及到政府部門的改變,一部門或機構可以停止或改變業務範圍
圖1: URIs整合到集合之概念圖

一個URI集合可以包含4個部份(如圖1):

  1. 一個命名集合和描述它的品質特徵的URI
  2. 在單一概念中,對於真實世界事物的每一個識別碼URI
  3. 選擇性的,定義綱要的概念和關係的知識本體URI
  4. 選擇性的,列出在集合中的識別碼URI的列表URI

基於上述的定義和原則,該報告提出各個URI類型的案例,如表4所示。

URI 類型 URI結構 案例
識別碼 http://{domain}/id/{concept}/{reference}

or

http://{domain}/{concept}/{reference}#id

http://education.data.gov.uk/id/school/78 http://education.data.gov.uk/school/78#id http://transport.data.gov.uk/id/road/M5/junction/24
文件 http://{domain}/doc/{concept}/{reference} http://education.data.gov.uk/doc/school/78
表示 http://{domain}/doc/{concept}/{reference}/{doc.file-extension} http://education.data.gov.uk/doc/school/78/doc.rdf
綱要概念的定義 http://{domain}/def/{concept} http://education.data.gov.uk/def/school
綱要識別碼列表 http://{domain}/doc/{concept} http://education.data.gov.uk/doc/school
集合 http://{domain}/set/{concept} http://education.data.gov.uk/set/school

 

下圖則是顯 示URI如何被解析,例如http://transport.data.gov.uk/id/road/M5 即代表的是M5高速公路,而http://transport.data.gov.uk/doc/road/M5 則是關於M5高速公路的資訊。

圖2: URI如何解析的案例

 

一個鏈結資料(Linked Data)實作的調查

美國國際圖書館電腦中心(OCLC, Online Computer Library Center)在2014-15年間對全球的圖書館和博物館進行問卷調查,想了解全球的圖書館和博物館界在鏈結資料(Linked Data)的執行狀況,這個調查收集了20個國家90個機構的回應,問卷的原始資料在此,根據這個問卷資料,Karen Smith-Yoshimura 在2016年於D-Lib上發表了一篇文章,以下的內容是來自於這篇文章。

以機構的類別而言,調查對象是以圖書館為主,博物館比例較少。在這90個機構中,有些已經進行鏈結資料的工作超過二年,但也有為數不少的機構其實還沒有開始鏈結資料的工作。

機構進行鏈結資料工作有多久?

如何使用鏈結資料?以鏈結資料的使用而言,多數的單位鏈結資料的使用者,相對地,發佈者比例則較低。

調查如何使用鏈結資料?

那發佈鏈結資料的單位,因為調查對象是以圖書館為主,他們所發佈出來的資料類型,是以書目資料、描述的詮釋資料、權威檔、知識本體/語彙為主。若以發佈鏈結資料的動 機而言,大多數的單位認為資料轉為鏈結資料後,可以擴大資料的使用範圍。

發佈鏈結資料的動機

雖然許多機構的鏈結資料的計畫都是在剛起步的階段,能夠說出鏈結資料工作的成功之機構是相對低的,整理了46個機構的回饋,導出幾個成功的鏈結資料工作之指標:

  • 資料重複使用 (Data re-use).
  • 增加被搜尋 (Increased discoverability)
  • 新知識的建立 (New knowledge creation)
  • 思想的領先者 (Thought leadership)
  • 對於語意網的準備 (Preparation for the semantic Web)
  • 操作的順利進行 (Operational success)
  • 促進機構的發展 (Organizational development)
  • 促進機構的轉型 (Organizational transformation)

其文章也列出其他原因,包含:

  • 在未來的計劃需要發佈鏈結資料來利用及重複使用。
  • 最大化資料的互操作性和重複使用性。
  • 測試 BIBFRAME 和 schema.org。
  • 計畫需求。
  • 提供穩定、整合、正規化資料在跨機構的研究活動。

被提到發佈鏈結資料的障礙依序為:

  1. 學習曲線對員工太高
  2. 和舊有的資料不一致
  3. 選擇合適的知識本體來呈現資料
  4. 建立連結
  5. 在如何建立系統有輕量文件或建議
  6. 工具的缺乏
  7. 不成熟的軟體
  8. 弄清楚資料是誰的

最後,文章整理了受訪者給要進行鏈結資料計畫的單位一些建議:

  • 聚焦於你所要完成的目標,而不是技術的東西
    • 模型化你所要解決之案例的資料
    • 往長期的資料一致和統合 (data reconciliation and consolidation) 之方向去努力
  • 增加獨特的價值: 建立在你有但別人沒有
    • 挑出你可以解決的問題
    • 帶入你所處的機構/社群來思考
  • 對於鏈結資料結構、可取得的知識本體和你的資料能有好的理解
    • 消化你所發佈的資料
    • 一開始就考慮法律授權問題
    • 盡量廣泛地參考相關資料且諮詢專家
  • 現在開始! 就去做吧!

如何利用開放資料解決農業和糧食的問題

以下文字是取自於 ODI(Open Data Institute)在2015年發表的報告「How can we improve agriculture, food and nutrition with open data? 」,主要想分享報告中所整理的14個案例。

因為開放資料是任何人都可以近用、利用和分享的資料,這所形塑的解決問題之道,相對於不開放的資料是昂貴的、耗時的且不可能的。透過加快創新速度,開放資料促進了政府、商業、NGOs和個人的協同合作,得以有新的發現,以幫助永續地提供糧食於不斷增長的人口。這份報告區分出三個關鍵方向,其中開放資料在農業和糧食的挑戰中扮演解決問題的重要角色,這三個方向為:

  • 讓更有效、有影響的決策可以產生
  • 培植讓所有人都可以受惠的創新
  • 藉由透明化,趨使組織和部門的改變

讓更有效、有影響的決策可以產生

1. GroenMonitor: 以植被分佈圖防止害蟲爆發並保護農作物

田間生產量常因農作物受到害蟲侵襲而損害,在廣大的農田中,很難用人工方式偵測到老鼠或其它害蟲的入侵,GroenMonitor (GreenMonitor)是一個利用荷蘭的衛星影像所製成的植被圖來監控害蟲入侵的工具,其衛星影像是來自於歐洲太空總署 (European Space Agency, ESA)所釋出的開放資料,利用開放的衛星影像所製成植被圖,使得害蟲爆發的容易被辨識出來,在2014年,GroenMonitor 已經被用來辨識出12,000公頃受到鼠害的農地,這個工具現在還整合其它不同應用程式,包含植物物候學、作物辨識和產出、農業活動的辦識(如除草、犛田、和收割)、自然和水管理。

2. AWhere: 以氣象應用程式和簡訊預測幫助農夫

對於農夫而言,他們很難去取得影響他們耕作活動的基本資訊,如溫度高低、溼度和降雨,特別是在低度網路使用的地區,但很多資料提供者現在可以提供所需的氣象資料給個別農夫。AWhere 就是其中一個,透過他們全球資料庫和Weather Terrain,AWhere 結合從全球尺度到田間尺度的氣象觀測、預測模式、和歷史資料,幫助農夫做好的預測和規劃農業活動。

許多農夫,特別是發展中國家的,使用行動電話(而不是電腦)作為他們主要通訊的工具,因為這樣,迦納在地社群與AWhere一起合作,去發展一個APP在 Weather Terrain的Open API之上,以讓他們豐富的資料得以透過行動電話來使用,而這個使用方式是,氣象資料被轉換成簡訊服務,使用基本關鍵字(如,部份晴天的、部份多雲的、有風的)和照片,農夫可以低成本的方式使用氣象資料,讓他們可以決定關於耕作的事務。

3. Plantwise: 以最佳實務知識庫來增加農作用產量

約40%的全球作物產量損失是因為植物病蟲害,Plantwise幫助開發中國家的小農處理植物健康問題,它著重於增加糧食安全和改善鄉村生活以減少作物因病蟲害的損失,從 CABI(Centre for Agriculture and Biosciences International)的資料庫、研究論文和政府等資料,整合出全球和地方的開放近用的資料庫,使資料可以在線上平台取得和查詢,從全球各地的植物診所的疾病診斷報告,可以用來補充知識庫,並通知在處理蟲害的在地夥伴。

在二年發展下,Plantwise知識庫己經成為一個必要工具,以支持在33個國家的植物診所診斷,超過來自於198個國家的六十萬農夫造訪了這個知識庫,包含使用了超過九千筆的報表來取用關鍵的與作物蟲害相關的農業資料和最佳實作,去幫忙管理和預防作物在病蟲害的損失。Plantwise在2014年也獲頒ODI的對於社會影響的開放資料獎

4. CIAT Colombia: 以智慧氣候工具在旱災中省下3.6萬

這是一個最近利用公私資料的協作的案例,其成果幫助農夫得到預警,以避免旱災在哥倫比亞所造成的損失,在2007-2013年間,國際稻農組織(National Federation of Rice Growers; Fedearroz)、熱帶農業國際研究中心(Centro Internacional de Agricultura Tropical; CIAT)、和哥倫比亞農業部一同合作來處理旱災在稻米產量減少的議題,稻米是哥倫比亞重要的糧食之一  (詳見 Stuart, E, E. Samman, W. Avis and T. Berliner, 2015, The data revolution – Finding the missing millions, 37p)。

公私資料的使用,私部門資料取得是透過特別條款,CIAT 得以分析來自於每年稻米調查、採收記錄、田間試驗、和天氣資料的大資料集,且辨識出在稻米產量減少背後的複雜和區域特定之議題,根據分析,再去發展智慧氣候農業決策工具給哥倫比亞稻米種植者,而工具其實是開放給任何人的

無論是在農業部門,還是對於哥倫比亞的經濟的影響都是重大的,農業活動進行是根據 資料分析結果,幫助了農夫避免旱災造成的重大損失,省下估計360萬美元可能的經濟損失。這個智慧氣候的工具在2014年羸到聯合國巨量資料氣候挑戰頭銜

5. 加州水資源局: 以資料視覺化管理加州旱災

加州正經歷在過去記錄上最嚴重的旱災之一,缺水造成農業部門嚴重的威脅,農業的水利用是大約是整個州的80%左右,在2014年的農業部門的經濟直接損失預估有15億美元,在食物生產減少上有1萬7千工作喪失 (2014年加州旱災的經濟損失報告),為了確保安全和永續的水資源,加州水資源局宣布水供給計畫,這計畫減少了水分配到農地並減少了25%的用水。

開放資料被用來告訴州政府如何重新分配嚴峻的水資源,其方式是美國地質調查局(USGS)將乾早的情形視覺化,視覺化所使用的資料是由USDA研究機構群所收集,且開放近用的資料,這些資料涉及了農業永續、氣候變遷和自然資源保育在集水區尺度或景觀尺度之長期的自然、化學和生物資料,這使得研究人員和決策者得以監看水管理的狀況和計畫,根基於資料的模式,可以經常的更新、推估真實水量的水準、用水量和其它因子,並允許適時地預測和決策多少水量用於農業上。

美國農業部 (The US Department of Agriculture, USDA) 也研究了相關加州乾旱資料的開放,Catherine Woteki 博士希望這將是刺激公私部門在開放資料的使用,以幫助農夫在用水和作物選擇的決策支援。

培植讓所有人都可以受惠的創新

6. Climate Corporation: 以天氣模擬和智慧保險,省下作用和金錢

在過去,天氣預測模式中讓農夫很掙札,這些模式沒有把在地狀況納入考量,而導致沒效率的風險計算。Climate Corporation是一個開放資料商業公司,提供更為準確的保險和商業諮詢服務,以幫助農夫管理和調適氣候變遷。

透過分析大量來自於開放和其它來源的資料,對於特定作物產量進行模擬天氣事件和評估風險,因此他們得以提供專業的諮詢和準確的保險。

這公司使用開放資料是來自於美國國家海洋暨大氣總署(NOAA)美國國家氣象局的159個都卜勒雷達站、以及美國地質調查署(USGS)的地形圖和土壤分佈圖,Open Data Now的介紹

農夫使用詳細的天氣預測資以強化他們農耕行為和活動,如澆水、施肥、和播種,舉例來說,農夫可以使用這家公司所提供的溼度和降雨分佈圖,知道他們農田的特定區域是否過於溼潤而不能耕作。在一個工業水準上,開放資料加持的服務對這家公司的影響可以是很大的,在2013年,Climate Corporation的客戶使用他們產品耕作了超過一千萬英畝的農地

7. AgTrials: 以育種試驗的開放資料來改善作物品種

培育品種試驗是一個改善農作物品種的重要方法,在全球各地都有各式各樣的試驗在進行,這些試驗各著重於不同的主題,如耐旱、熱逆境和土壤管理,然而,這些資料幾乎都不能被其它研究人員所使用,而只是放在實驗室的硬碟中,甚至因為資料管理不好而造成資料逸失,形成不完整的資料集。

藉由農藝和植物育種試驗資料的整合和開放資料,由CGIAR在氣候變遷,農業和糧食安全研究計畫所負責的 Global Agricultural Trial Repository (AgTrials)  提供豐富的知識庫讓協同合作的計畫得以進行,去除掉非必要且有成本的重複工作。

科學家使用250個開放的AgTrials 資料集,以建立西非區域的農作物模式,這個模式被用在一個氣候變遷對於在地影響的計畫,並用來定義氣候變遷調適的育種計畫

8. FAO AGRIS portal: 把農業研究帶向大眾

AGRIS 是一個研究機構和資料節點的國際網絡,這個網絡讓農業研究資訊在全球可以取得,他們從在65個國家超過150個資料提供者中,收集且分享多樣的食物及農業出版品之書目資訊。

AGRIS 成為書目資料成為一個匯整平台,藉由超8百萬筆記錄的開放資料儲存庫,讓相關內容在線上有位址且可以組織這些內容,應用程式將在這個開放資料儲存中的記錄與連結網址與其它有品質的資料來源,例如世界銀行(World Bank)、自然期刊(Nature)、和中國種質資料庫(Chinese Germplasm Database)

AGRIS 平台已經有來自於204個國家超過750萬的人造訪,這些訪客從大學生到研究生都有,AGRIS 成為科學和技術資訊的最重要節點。

9.  CIARD RING: 讓農業食品(agri-food)資料更容易查找

儘管已經有很多相關於開放資料的資訊 (像資料集、平台、標準),相關資訊的檢索仍然是需要關注的重要議題,在這個脈胳下,CIARD R.I.N.G. 的資訊節點和閘道扮演了全球性農業研究發展(ARD)之註冊的網路資訊服務。

這個註冊服務允許資料提供者登記和分類他們的服務,在確保所有資料集都完成對於那種使用標準的詮釋資料(如語彙、範圍和標準)下,註冊的服務促進且利用了標準,而標準的使用促進資料的再使用(reuse)和被查尋,且允許更好自動化,現在約有1/3的農業食品資料集,即有超過1000個資料服務是具有特徵。

藉由透明化趨使組織和部門改變

10. Syngenta: 以開放且協作的平台來追蹤水、農藥、燃料的使用

在2013年,Syngenta宣布了他們的「好成長計畫 (Good Growth Plan)」,其中有6項承諾以改善農作物產量、保護土壤和生物多樣性,以及訓練小農和確保工作標準,並設定於2020年完成目標。這個行動著重於透過監測活動,如肥料和農藥利用及水和燃料的使用,讓農夫以永續的方法來增加農作物產量。

資料管理系統被建立於用來追蹤這些使用農地和公開農業資料的輸入輸出,由獨立的公司收集、驗証和分析

因應6項承諾的2014年的基準資料以機器可讀的格式(CSV)、CC-BY-NC-ND的條款釋出,透過這些行動,Syngenta和ODI合作,去建立一個開放且協同合作平台,以找出方法解決餵飽日漸增加人口的需求下減少資源使用,以及為生態多樣性而保護棲地。

11.FUNDAR: 在墨西哥找出不當使用的農場補助

在墨西哥,PROCAMPO 是一個最大的聯邦農場補助計畫,支援最貧窮農夫,自從2007年,他們開始關注真正極需要幫助的農夫,卻沒有拿到補助。

為了更了解這個情況,一個墨西哥的NGO組織,FUNDAR 研究分析中心徵求墨西哥農業部處理補助發放的相關資料,這個中心一開始拿到的資料是不完整且機器不可讀格式,在處理分析後,發現57%的受益者是分佈在最富有的10%之補助者,初步確認了他們所 害怕的事

這個重要的結果是來自於FUNDAR和其它NGO建立資料庫 (Subsidios al Campo en México)的貢獻,這個資料庫也不斷地發佈農場補助的資訊,以確保更透明化,以致於一系列的官員下台,且墨西哥政府也增加補助合格的限制。

12. 美國國家營養資料庫: 賦權消費者去聰明的選擇食物

消費者都會想知道他們買的食物之品質和內容物的資訊,雖然基本資訊已經標示在食品包裝上,但更詳細的食物營養資訊可以讓消費者依照個人需要做出更好的選擇,例如,遵從營養師指示。

美國農業部國家營養標準資料庫的(USDA National Nutrient Database for Standard Reference, SR25)是一個食物成份資料的主要來源,提供給公私部門,SR25包含約150食品公司中超過8,500食品品項的營養資料,例如維他命、礦物質、胺基酸、和脂肪酸,這些資料不限於商業應用(如,智慧型手機APP),這資料庫提供政府做了一個基本的服務 ChooseMyPlate.gov,由前美國第一夫人蜜雪兒歐巴馬和農業部祕書長湯姆·維爾薩克( Tom Vilsack)開始倡議,提供實務的資訊給個人、健康專業人員、營養教育者、和食品工業,以資源和工具幫助消費者做出飲食評估、擁有營養教育和其它友善的營養資訊,以建立更健康飲食

13. 歐盟食物警示: 幫助消費者了解他們吃的食物之風險

食物安全是另一個對消費者影響甚大的重要議題, 歐洲 RASFF (Rapid Alert System for Food and Feed) 平台 提供一個使用的資料庫,這資料庫收集的公開可得資訊是最近傳出的食品安全警示和通知,

消費者可近用資料於食品安全議題,例如出現在食品中過敏原,病原體,毒素或其他有害物質,以及分享預防資訊因為2011年福島核災,RASFF被用於監測來自於太平洋區域魚類和其它海洋產品中可能危害消費者的輻射殘留

How does RASFF work

14. LIVES: 標示餐廳檢查分數改善食品安全

開放資料也可以被用來幫助消費者去選擇那裡用餐,同時也促進改善食品安全的動機,LIVES (Local Inspector Value-Entry Specification) 是一個餐廳評分標準,目的在於標準化在不同管轄區的餐廳檢查分數,讓消費者了解不同城市和自家城鎮對食品安全的規格的不同。LIVES是在舊金山、Socrata, Code for America, 和Yelp在2013年所開始的計畫,它提供了餐廳檢查開放資料發佈的標準。因為市民得以更好的使用檢查結果,LIVES 事實上使食物容易清楚了解且可以選擇通過檢查的餐廳,當洛杉磯市開始要求餐廳要放衛生檢查等級在入口處,研究顯示減少了13%的因食源性疾病的住院治療

資料經濟(Data economy)是什麼?

歐盟在數位經濟和數位化社會(Digital Economy and Society)的發展脈絡下,著重於三個面向,也就是在

  1. 技術面,應著重於如何駕馭現今如此大量的、異質的和動態的資料,針對資料的特建構科技和基盤。
  2. 應用面,基於開放資料、鏈結資料、和巨量資料,打造創新的產品和服務。
  3. 社經面,在這個新的資料世代中,對於社會衝擊、法律問題、政府政策和法規、商業模式、商業化的應有調適和改變,以打造創新的環境。

而三個面向其實都是由資料的價值鏈(value chain)中衍生出來的。資料的價值鏈(value chain)主要行動都是在資料,包含資料輸入輸出、處理、分享和維護、而這些行動需要根植於支援的行動,包含政府對於資料的政策、法規、和治理想法,政府對於資料所建立的技術基盤(或者基礎設施),包含共通語彙、資料平台、資料標準和規範,這也是開放政府的透明化治理的一部份,而資料釋出後,技術社群會形成的生態圈,這其實就是公民科技是創新的基本,更重要的是,民眾因政府開放資料得以了解政府運作,甚至利用資料改善政府治理效能,使得政府和民眾的互動和溝通轉變,民眾不再只是一昧接受政府的支配,而是有能力提出改善的做法,這樣的發展則可能影響政府開放文化的態度。

 

以上內容發佈於Facebook

從知識發掘與資料探勘看自願性地理資訊之價值

自願性地理資訊是集結群眾的地理資料,常常記錄一般人對於週遭環境的經驗、感受與喜好,而知識發掘與資料探勘則是綜合各種技術和方法以便從資料中擷取出有用的知識,如何善用知識發掘與資料探勘由自願性地理資訊挖掘出有用的知識成為新世代地理資料科學家課題,讓我們用幾個實際的案例來說明知識發掘與資料探勘帶來解決問題的潛力,以及自願性地理資訊帶來的新的研究視野。

知識發掘與資料探勘

由於網路科技的發展,資料在網路中持續地快速增長,如何有效去蕪存菁,找出資料有用的知識,以解決問題,成為一項挑戰,知識發掘與資料探勘(Knowledge Discovery and Data Mining, KDD)即是一個跨領域的科學,著重於利用各種方法由資料中擷取出有用的知識,這些方法包含統計學、資料庫、圖形辨識、機器學習、資料視覺化、最適化分析、和高效能運算等研究。傳統的地理資料處理方法不足應付當今巨量且多樣化地理資料,知識發掘與資料探勘在地理資訊科學逐漸被重視,近年來常被應用於了解複雜的地理現象,例如,人與環境交互影響和社會經濟動態,同時也著重在於真實世界的危急問題,例如全球氣候變遷和流行性疾病散播(Mennis and Guo, 2009)。

自願性地理資訊

資通訊科技的革新,Web 2.0世代的來臨,改變了網路使用者的角色,從傳統上的資訊消費者,轉變成提供網頁內容的資訊生產者,同時,這個轉變也帶動了地理資訊的改變。傳統上地理資訊的生產是需要透過專業訓練的人員來製作,這些地理資料生產的工作也多數集中在測繪製圖單位、學研機構,然而,上述網路環境的轉變,也帶動地理資料生產方式的改變,新興的資通訊技術,開創了網路上開放性協同合作架構,帶動了網路地圖技術的革新,加上全球定位系統(Global Position System, 簡稱GPS)裝置的普及,使得一般人很容易地就可以在網路上共同地生產出地理資料,例如,開放街圖(OpenStreetMap, OSM),即是一個協同合作的線上地圖,參與者並非都是地理資訊專家,透過網路共同地繪製且編修地圖,這個地圖的產生不是專家學者的規劃,再由訓練有素的人員來繪製,相對地,這是透過一般人以協同合作的方式來產生,他們自願地貢獻時間精力來參與地圖繪製,產生地理資料,這類的地理資料通常被稱為「自願性地理資訊」 (Volunteered Geographic Information, VGI)(Goodchild, 2007)。

群眾外包集體智慧

自願性地理資訊其實就是一種群眾外包(Crowdsourcing)[1]的地理資料,在群眾集體協同合作的完成工作,在同儕相互檢視與競爭下,在生產的資料中產生集體智慧。 由群眾參與的製圖而成的開放街圖,縱然在一些區域的完整度和正確性仍有不足,但讓人驚艷的地方是,有許多地區已經達到商用水準,如西歐、美國、和日本,且與專業的地理資訊的品質亦相去不遠(Haklay, 2010),而包含於開放街圖中的知識,常成為補充專業性地理資訊不足的資源,以香港大學為主的研究團隊,他們利用開放街圖資料擷取土地坵塊的特性與類別,以便進行都市規劃(Liu and Long, 2015),而芬蘭國家土地測量局的一項研究也利用開放街圖擷取自行車道的資料,進而分析自行車道受歡迎的程度(Bergman and Oksanen, 2016)。

社群媒體的地理資料

除了開放街圖,事實上,有更多的自願性地理資訊是來自於社群媒體的使用,使用者為了分享訊息於社交網絡中,常常附帶一組地理座標於照片或文字中,使得這些分享的內容成為地理資料,這樣的地理資料,在多數情況下,不是事前的規劃才去產生的資料,而是一般民眾在日常生活中對週遭環境的觀察與感想,藉由社群媒體中分享於親朋好友,進而逐漸累積成有意義的資料,舉例而言,Flickr是知名的照片分享平台,提供使用者以標籤(tag)分類照片,當一地名被當成標籤而使用於帶有地理座標的照片時,這些照片所形成空間範圍,則可以表示一般人對於該地名所認知的空間範圍,圖1中所顯示的是以「公館」為標籤且帶有地理座標的照片所群聚出之區域,從圖上可以明顯看出,台北市內的公館是以新生南路到基隆路間的羅斯福路為基礎,並往北方的新生南路、東北方台灣大學校園、西南方的寶藏巖擴展,也就是說,當一般人提到台灣大學附近的公館時,其心裡所認知的空間範圍有可能不只有水源市場附近,而是更大的範圍。

圖1: 有「公館」為標籤且帶有地理座標的照片所群聚出之熱區圖

文字訊息是社群媒體中主要的內容,目前己經有許多研究和應用利用文字探礦(Text mining)的方法,由社群媒體的文字訊息來獲取有用的資訊或知識,例如預測群眾運動的發生、輿論的發展趨勢、商品的網路口碑、和災情分析等,同樣的,文字探礦應用於社群媒體也為地理資訊研究帶來不同視野,仇恨的地理(The Geography of Hate)是洪堡德州立大學(Humboldt State University)史蒂芬斯博士(Monica Stephens)團隊所執行的計畫,這個計畫的動機和剛卸任美國總統歐巴馬(B. Obama)有極大關係,他在第二任當選時,不滿他當選的人在推特(Twitter)中大量用歧視性字眼攻擊他,如黑鬼(nigger)和猴子(monkey),歧視性字眼的使用代表著仇恨、忿怒的負面情緒,而這些推特文(tweets)帶有地理座標,可標示於地圖,因此可以呈現出這些「仇恨」的地理空間分佈。該研究團隊收集2012年6月到2013年4月間,超過15萬筆的推特文,利用情感分析(sentiment analysis)將推特文分類,並依照情緒字眼所設計的量表,來區分出正面、中立、和負面,研究團隊不僅處理了對於種族仇視情緒,也處理了同性戀和身障者的仇視程度,當負面的仇恨情緒愈高時,在地圖上顯示的就愈紅、反之則愈藍,圖2所顯示的是黑鬼(nigger)的仇恨情緒的空間分佈,呈現出美國東西二岸相當不同的結果。

圖2: 黑鬼(nigger)的仇恨情緒的空間分佈 (http://users.humboldt.edu/mstephens/hate/hate_map.html)

GPS航跡中的時空間樣態

事實上,GPS航跡是自願性地理資料中不可或缺的一塊,許多人常會把跑步、自行車、開車、登山健行等活動所記錄的航跡分享,透過時空間這些航跡常常可以擷取出一些有意義的事件或地點。德國弗勞恩霍夫爾智慧分析與資訊系統研究所(Fraunhofer Institute IAIS)為主的研究,他們在義大利米蘭中收集了17,241部車子於一週中的GPS航跡,如圖3所示,利用時空間群聚分析把時空間行為相似的航跡歸類,並且區分出塞車事件和興趣點,圖4即是研究團隊從龐雜的GPS航跡中歸類出有意義的事件(Andrienko et al., 2011)。此外,北京大學為首的研究團隊分析北京市的塞車樣態,他們收集北京市中28,519部計程車在24天的GPS航跡,不但以時空間群聚分析把塞車事件區分出來,而且進一步地區分同一路段不同方向塞車樣態,圖5中說明了(a)路段是北三環路,很規律地在週間7:30-10:00和13:30-18:30二個時段都容易塞車,(b)路段的車速偏低,因為是在二個小學間,但週間的7:30-8:00時段是接送學生的時間,最容易塞車,(c)和(d)都是在北京西站旁的隧道,但分屬二個方向,一方向容易在早上塞車,而另一個在下午塞車,一大筆的GPS航跡若不經過處理很難看得出塞車(Wang et al., 2013),但經過適量處理後,不但可以發掘城市中的塞車樣態,可以了解市民的生活動態。

圖3:在米蘭一週中的GPS航跡之時空間分佈(Andrienko et al., 2011)
圖4:以時空間群聚分析從GPS航跡中歸類出有意義的事件(Andrienko et al., 2011)

 

圖5:利用GPS航跡以時間空視覺化分析北京市塞車樣態(Wang et al., 2013)

價值: 地理學研究再進化

自願性地理資訊帶來許多探究真實世界的可能性,而知識發掘與資料探勘的方法則是允許研究人員從資料中挖掘出知識的方法,利用合適的方法從自願性地理資訊中挖掘知識則為地理資訊科學帶來另一個視野,讓我們有可能更深入地了解人與環境的交互影響、區域特性和人文自然現象的空間分佈,即是應用知識發掘與資料探勘於自願性地理資訊的價值。

參考文獻

  1. Andrienko, G., N. Andrienko, C. Hurter, S. Rinzivillo3, S. Wrobel1 (2011) From Movement Tracks through Events to Places: Extracting and Characterizing Significant Places from Mobility Data, Proceeding of IEEE Symposium on Visual Analytics Science and Technology, pp.159-168, October 23 – 28, Providence, Rhode Island, USA
  2. Bergman, C. and J. Oksanen (2016) Conflation of OpenStreetMap and Mobile Sports Tracking Data for Automatic Bicycle Routing, Transactions in GIS, 2016, 20(6): 848–868.
  3. Goodchild, M.F. (2007), Citizens as sensors: The world of volunteered geography, GeoJournal, 69 (4): 211–221.
  4. Haklay, M (2010) How good is volunteered geographical information? A comparative study OpenStreetMap and Ordnance Survey datasets, Environment and Planning B: Planning and Design 37:682-703.
  5. Liu, X. and Y. Long (2015) Automated identification and characterization of parcels with OpenStreetMap and points of interest, Environment and Planning B: Planning and Design, 43(2): 341–360.
  6. Mennis, J. and D. Guo (2009) Spatial data mining and geographic knowledge discovery – An introduction, Computers, Environment and Urban Systems, 33: 403-408.
  7. Wang, Z., M. Lu, X. Yuan, J. Zhang, and H. van de Wetering (2013) Visual Traffic Jam Analysis Based on Trajectory Data, IEEE Transactions on Visualization and Computer Graphics, 19(12): 2159-2167

[1]群眾外包(Crowdsourcing)一詞是傑夫×豪伊(Jeff Howe)於2006年《連線》雜誌中所創造出的新詞,這個詞說明了當時正在發展趨勢,即是企業或組織的工作透過網路向廣大的群眾邀請,來提出解決問題想法(例如,因應氣候變遷的對策)、提供資源(例如,照片)、甚至簡單的勞務(例如,收集資料),最後,企業或組織聯合群眾一起共同地完成工作。群眾外包和外包(outsourcing)不一樣,外包(outsourcing)是將特定工作指派給特定的企業、組織、或個人,雙方會有一定的勞雇關係,而群眾外包是邀請廣大的群眾參與工作,強調協同合作的夥伴關係,參與者常常是自願者,也有可能得到一些回饋。