Openlink Virtuoso的安裝與初階使用

這些年玩過不少SPARQL Endpoints,如D2RARC2OWLIM(現在的GraphDB)、最早接觸的4Store 和符合OGC GeoSPARQL規範的BBN Parliament,一直沒有機會好好研究一下 Openlink Virtuoso,從W3C Wiki中對於SPARQL Endpoints的整理,和其它領域的整理中,如醫學,不難發現,Openlink Virtuoso是一套建立SPARQL Endpoint常用的軟體。

Virtuoso有開源版和商業版,到了第7版後二種版本的差異不太,對於學研單位實驗室的使用,和早期POC開發而言,提供充足的功能,從官網的比較看來,商業版會比開源版多了一些的功能,例如,第三方關連式資料庫的連結、叢集(clustering)、和資料複製(data replication)等。

安裝

Virtuoso可支援Linux、Solars、Mac OSx和Windows等作業系統,除了有開源碼可以自行編譯外,也有便利的安裝方式,如

  1. Windows有Binaries 的安裝檔
  2. Ubuntu 上 apt-get install
  3. OSx 上 brew install virtuoso

以Mac OS X中的brew安裝為例,是在 /usr/local/Cellar/virtuoso/7.2.4.2,Virtuoso安裝的主要內容和結構可以詳見http://vos.openlinksw.com/owiki/wiki/VOS/VirtConfigScale

其中有幾個重要的部份:

  • virtuoso.ini 是VDBMS的設定檔,位在 /usr/local/Cellar/virtuoso/7.2.4.2/lib/virtuoso/db (位置有可以會不一樣)

  • virtuoso-t 是啟動Virtuoso server的指令,須配合virtuoso.ini 執行,例如,
 $virtuoso-t -c var/lib/virtuoso/db/virtuoso.ini

或者,加上-f,讓server運作的情形在幕前(front)顯示,例如,

 $virtuoso-t -f -c var/lib/virtuoso/db/virtuoso.ini

  • iSQL(Interactive SQL) 是Virtuoso的查詢程式。

進入系統

Virtuoso啟動後,預設會跑在8890埠上。在左上角輸入預設的帳號和密碼,dba和dba,即可進入系統。

載入資料

要載入Virtuoso中的方法有很多,可以從前端網面的介面輸入,可以由後端,透過iSQL來載入,詳細可參考 「RDF Insert Methods in Virtuoso 」,這篇就以N3的資料為例 ,參考「Load TTL (TURTLE or N3 resource) datasets into Virtuoso Graph IRI」的說明,來操作資料如何載入。

在載入前,需先在virtuoso.ini中,在DirsAllowed加入放資料集的路徑,例如資料是放在/tmp的話,就需要把./tmp加入,最後,在iSQL的介面中,輸入以下的命令,資料即可儲存到Virtuoso。

SQL> DB.DBA.TTLP_MT (file_to_string_output ('/tmp/tap.nt'), '', 'http://tap.linkedopendata.tw');

查詢

待資料輸入後,可以到SPARQL介面 http://localhost:8890/sparql  查詢資料,如

SELECT * WHERE {
?a ?b ?c
} LIMIT 10

這個SPARQL查詢會隨機地反應出10的結果。

另一個查詢方式則是可以利用iSQL的介面,

SPARQL SELECT * WHERE {
?a ?b ?c
} LIMIT 10

或者直接在Terminal上,用iSQL查詢,先把SPARQL查詢用文字編輯器編寫好,如上述的SPARQL查詢寫在test.sparql,並在terminal上輸入下列命令,一樣可以得到查詢結果。

$ isql 127.0.0.1:1111 dba dba test.sparql > results.txt

 

 

以資料趨動智慧的治理

對於資料洪流的世代,資料會是智慧的重嬰來源之一,但資料到智慧並非一蹴可及,需要一個穩固的基礎來建立。今年年初的演講中整理了一些想法,基本上我認為至少會有四個概念化的基礎。

1.互動(Interaction)

是以開放資料為基礎,政府以開放資料和人民互動、協同合作,進而公私協力解決問題。

2.整合(Integration)

要能擴大合作範圍,或者使得以資料為主的協同合作順暢,資料整合的工作不容忽視,無論日本、美國、歐盟都有資料標準的語彙,來讓資料能跨領域、跨機關單位的整合,才可能創造更好的合作環境,也才有可能產生智慧。

3.智慧(Intelligence)

資料共通語彙是資料整合的一個步驟,要讓資枓整合的過程需要知識的介入規整,有助於利用資料產生智慧化服務。

4.影響(Influence)

以政府的智慧化服務而言,應該是對人民產生正面的影響,以使得人民更相信政府服務,促使公私合作更緊密。

 

Knowledge Graph (知識圖譜)的前世今生

講到Knowledge Graph 一詞,很多人大概會直覺地想到Google的Knowledge Graph,隨著AI再度興起,使得Knowledge Graph變得熱門,舉例而言(圖1),在Google 中查找,「歐巴馬老婆那裡畢業?」,Google能回答出,她畢業於普林斯頓大學和哈佛法學院,並且還把蜜雪兒的生平生事蹟結構化的列出來。Google能回答這些問題,Knowledge Graph扮演相當重要的角色,此外,Google對於問題中的具名實體及關係的區辨能力也是能夠準確回答的重要因素,這必須區辨出這個問題不是問歐巴馬,而是蜜雪兒,且「那裡畢業」是要問蜜雪兒在那個學校畢業。因此,Google能夠回答這個問題,不僅是Knowledge Graph內容豐富,而且要有很好的中文斷字斷詞,以及對於問題語意的解讀能力,這方面能力的提昇應該與2014年Google在KDD研討會中發表的Knowledge Vault有關。

圖1: Google 查尋的問答

Google Knowledge Graph 的應用,使得「知識」在網路世界中表達和使用達到另一個境界,但Knowledge Graph並不是偶然發生,有一部份是歸功於過去的發展,早在2000年左右建立knowledge graph的觀念就被提出來,加上Web 2.0的風潮,認為knowledge graph的建立可以透過群眾的力量共同編輯,因此在2007年Freebase由Metaweb所創立,很快的2010年就被Google買下來,到2016年整個服務停掉,Freebase也整併到Google 的Knowledge Graph,但龐大的資料並沒有消失,而是由Wikidata接續群眾共同編輯知識的工作。另一方面,在2007年,利用Wikipedia中infobox中的資料製作而成的DBpedia被發表,帶動了鏈結資料的發展,2008年YAGO 利用更強大的資訊擷取技術,把Wikipedia中非結構化資料,轉為knowledge graph。而NELL (Never-Ending Language Learning)計畫則是在2010年由CMU在AAAI上發表,是一透過網路爬蟲大量由網頁中擷取資料,並結構化且正規化資料的計畫。再者,Cyc是一個歷史悠久的人工智慧計畫,從1984年就開始進行,是一個龐大Knowledge base計畫,讓人不清楚最終是否完成? 但Cyc有一部份,開放出來為OpenCyc

事實上,在Google Knowledge Graph 尚未成熟時,2009年智慧問答系統 Wolfram Alpha 被發表出來,引起高度的重視,它能回答像,「英國女王伊莉莎白二世在1974年時是幾歲?」、「貸款利息隨時間的變化」,這種較為複雜的問題,邏輯推演能力其實很強,但侷限在於內容,Wolfram Alpha 不像 Google Knowledge Graph 具有這種龐大的內容來迎合一般民眾的問答。而另一個強大的問答系統IBM Watson,已經眾所皆知的人工智慧平台。

Semantic Network (語意網)

Semantic Network 可以說是Knowledge Graph的濫觴,早在1960年代,多數人把知識中概念概念串起來的網絡稱為semantic network,許多自然語言處理的研究致力於整理這些知識,以便促成更智慧、更精準的自然語言處理,最知名應該是普林斯頓大學的WordNet,是一個相當完整的英文為主的語料庫,後來也有其它語言加入,如中文。以WordNet為例,這個semantic network 著重的是詞彙的上下位關係和同義詞之建立,所謂上下位關係是以詞彙語意上較為抽象、描述範圍較大者為上位詞,而較明確、描述範圍較小者為下位詞。

和knowledge graph的比較,WordNet強調的是詞彙語意的正確表達,而knowledge graph是著重於真實世界實體的關係,例如,巴拉克·歐巴馬和蜜雪兒·歐巴馬的配偶關係,而不是去定義配偶為何,其上下位關係和同義詞為何。在Knowledge Graph中的配偶是一個用於「人」這個概念(concepts or classes)的關係(relations),巴拉克·歐巴馬和蜜雪兒·歐巴馬都是「人」的實例(instances),所以可以用配偶關係來表達。

圖2:WordNet

Ontologies (知識本體)

上述的概念、關係、和實例都是構成知識本體要素,但ontologies建立更重視正規化的知識表達,所謂的正規化就是如何以邏輯關係來定義知識、確立語意,Gruber(1995)提出用框架和第一階邏輯(First Order Logic)來建立知識本體,並定義 5 種基本要素:類別(Classes)、關係(Relations)、功能(Functions)、正規的原則(Formal axioms)和實例(Instances)。之後,Noy and McGuinness(2001)認為建立知識本體應該定義:

  1. 知識本體中的類別(Classes);
  2. 安排分類體系中的類別(Subclass–Superclass);
  3. 定義屬性(Slot)和描述這些屬性的允許值;
  4. 給實例(Instance)填入屬性的值。

隨著,語意網技術的發展,W3C已製定了知識本體的語言OWL(Web Ontology Language) ,其中使用描述性邏輯(Description Logic) 來定義語意,目前大多數知識本體的建立皆以 OWL 為主,只是在格式上採用較為簡單的Turtle或N3。而知識本體的建立工具則以Protégé 為最多人使用。

舉例來說,日本農業活動知識本體(Agricultural Activity Ontology, AAO)的建立,播種(seed propagation)是一個農業活動(Agricultural Activity),所以播種是農業活動的子類別,播種的概念比散播控制小、散播控制又比作物成長小、作物成長又比作物生產小,因此這些概念的活動即形成一個階層,且每一個概念都是由邏輯關係所定義而成。許多知識本體都像日本的農業活動知識本體之建立,強調於概念(concepts)或類別(classes)之間的邏輯關係,而較缺乏實例的部份,如DOCLE,這和Knowledge Graph有相當大不一樣的地方,Knowledge Graph的類別(classes)通常不複雜,階層較淺,但實例(Instances)的部份相當豐富。

圖3:日本農業活動知識本體(AAO)

Knowledge Base (知識庫)

Knowledge base 早在1970年代就被提出來,主要有二個特徵,一是有一個知識呈現方式來表達事實(facts),通常是知識本體,並有儲存庫(repository)來儲存這些事實,這裡的事實和資料不一樣的地方在於結構化和正規化,以知識本體的角度而言,就是一個被陳述的事實一定會有一個類別來說明並表明這個事實應有可有的關係。另一個特徵是推理機(inference engine),可以使用邏輯規則來推論以減少這些事實的不一致(inconsistence),當然早期許多以Knowledge base為基礎的專家系統會強調,推理機可以透過規則和邏輯關係的建立,回答問題,或預測更多事實。

Knowledge Base和Knowledge Graph應該是被混用最多的二個名詞,本質上,這二個東西確實是相似,有綱要(schema)部份,也就是圖4中TBox (Terminology Box),一般而言,是以OWL來實現,以及ABox (Assertion Box),就是事實(facts),一般由RDF來實現。為了進一步解釋,圖5中在雲朵中的都屬於TBox的部份,都是類別(classes),而方框中的是ABox,是根據TBox類別所定義的實例(instances),或者是事實(facts)。

圖4: Knowledge base的組成ABox 和 Tbox
圖5: ABox和TBox的實際範例

最大的差別在於Knowledge base在提出時,並沒有想到是一個網路規模(Web scale)的應用,內容(也就是事實)如此龐大,對於資料的綱要(schema)(TBox)要求較多,相對而,knowledge graph的TBox部份就比較沒這麼複雜。另一方面,knowledge base的建立常常只是單一領域,例如,Geonames 只有地名,和knowledge graph盡量收納所有知識的基調,是完全不一樣的。

 

鏈結資料(Linked Data)的商業化應用

在幾次鏈結資料的演講中常被問到有沒有鏈結資料的商業化應用? 其實我腦海中即刻浮現的是在2015年得到最佳鏈結企業資料獎的 NXP Enterprise Data Hub ,這是一個企業應用鏈結資料技術來整合資料的實際案例。另一個是在2014年就開始發展的 Fujitsu LOD4ALL的商業鏈結資料服務平台,這是一個結合政府鏈結開放資料和企業資料的商業資訊服務平台,最近則導向Fintech的發展

其實,因為歐盟資料經濟的政策,在鏈結資料和語意網的應用案例是相當多元且廣泛,例如,

  1. SEMANTiC 一直以來都是比較偏向語意網技術的應用和工業化的會議,於2016年的會議中有一個Session就是討論鏈結資料在商業上的案例( Linked Data Business Cases) 。
  2. Semantic Web Company 更是語意網和鏈結資料發展的公司,主要產品為PoolParty,他們列舉出他們產品的應用案例
  3. Ontotext 也是一家以語意網透鏈結資料技術為基礎的公司,他們的GraphDB是一個強大的Knowledge Graph 工具包含了處理非結構化資料的ETL到鏈結資料的語意網技術,他們也有應用於商業上的實例。個人很喜歡他們公司產出的文件和技術報告,清楚又實用。

交通部開放資料諮詢建議

交通部開放資料之成果斐然,各界有目共睹。其中「公共運輸整合資訊流通服務平臺」(Public Transport Data eXchange,PTX) 以國際資料標準建立互通平台,並以API方式流通交通資料,實為各界佳話。既然交通部可為國內開放資料範模生,何不依此基礎更上一層樓,將資料品質和服務皆提升,讓開放資料進入四星、甚至是五星等級,因此有幾個建議提供交通部在開放資料推動上參考。

整體而言,建議交通部應確立開放資料行動策略或更進一步的開放資料白皮書,這點在張維志委員的書面建議中也有提到,行動策略有助各個委員了解交通部的想法與目標,進而委員們可以依各自專業提供想法與建議,才不致於使諮詢會議流於形式。

交通部已經進行資料盤點,並且建立資料開放的清單,在此基礎上,開放資料的行動策略可以往資料應用的方向思考。

就資料治理而言,我想提供3個I的策略思考,交通部利用國際標準建立資料平台,使資料得以利用API的方式流通,是達到了基本的 Interoperability (互操作) ; 然而,Interoperability 不僅在於以標準標準格式包裝,而是能夠在資料流動過程把資料中的語意一起帶著,使得機器可以自動解讀資料,也就是應該由Syntactic Interoperability,進化到Semantic Interoperability,也就是在開放資料三星級的基礎,思考如何進展到四星級、甚至五星級開放資料,因此資料不僅是在機器間交換,而是可以同時查詢多個資料服務(data services),資料可以在本地端自動整合在一起,不再是一個個資料表格查詢回來後,再人工方式比對整合,這個部份姑且稱 Integration (整合) ; 資料可以依照其語意(semantic)來整合,是發展智慧化服務的基礎,也就是所謂的 Intelligence (智慧)

就開放政府而言,開放資料是為開放府政一環,目的為促進民眾更了解政府施政,促進民眾參與,以達到政府透明化,因此開放的資料可配合政府的推動,讓民眾透過開放資料以了解政府施政內容、效率、與進程,簡單說,開放資料不應該落入額外的工作,而是應該思考如何以資料為基礎以改善台理效能、施政程序;

就資料經濟而言,公私夥伴關係(Public Private Partnership, PPP)的建立是一個雙贏的策略,歐盟開放資料策略中善用了這個架構發展資料經濟值得效法。

資料盤點列出甲乙丙三類並討論不開放理由,這部份還有許多部會做不到,但交通部很用心,盤點確實要花許多功夫。美中不足的是,在不開放理由和收費原由的說明上仍有待加強,有些不開放和收費可能涉及到現行法規,這可以加以說明,再來慢慢突破,若沒有涉及法規,是否危及國家安全、社會安全和隱私,應該都有一個客觀公正的說法,以受公評。例如,其中有委員提到災害資料的列為不開放的適宜性,這些資料雖然應透過中央應變中心發佈,但就不能開放給一般民眾甚至更多資訊服務商加值嗎? 不能開放的問題是什麼? 難道交通航班停運、交通路線阻斷、遊客受困…等訊息,會有什麼社會衝擊? 再者,資料可以開放給學者,但不允許開放給一般民眾,這是有違開放資料原則,如何確定除了「學者」外,就沒有其它身份的人(stakeholders)可以去處理資料,這不是一種專業的高傲嗎?

 

G20農業鏈結開放資料會議 Part 5 – 開放地理資料、區塊鏈、溯源

Open GeoData

Open GeoData這個場次有三個演講,分別如下:

  1. Raul Palma de Leon, Publication of Inspire-based agricultural Linked Data
  2. Karel Charvat, Integration of open land use, smart point of interest and open transport maps using RDF
  3. Rob Knapen, Obstacles in standards and spatial thinking for Linked Data in agriculture

前二個演講是同屬於一個歐盟Horizon 2020 巨量資料研究計畫DataBio,有16國48個單位加入,計畫期間為2017年到2020年,總經費規模達到1千6萬歐元,歐盟支援了1千3百萬歐元,是一個針於農業和其它對於生物經濟工業中原物料產品的巨量資料技術優勢的展示,並且佈署一個互操作性的平台在所有計畫成員的資料基礎設施之上,藉由這樣的技術架構這個計畫企圖提供巨量資料管理的解決辦法,包含不同巨量資料的儲存和查詢,以及使用鏈結資料為聯合層來整合來自不同來源之異質性資料。DataBio需要整合先前的歐盟FP7的研究計畫SDI4Apps和FOODIE之資料,如圖41所示。SDI4Apps主要在於建構的是以Open API為主的雲端架構來進行資料整合,並且依此雲端環境建立6個試驗性Apps 與INSPIRE、Copernicus 和 GEOSS 空間資料基礎設施整合。而FOODIE 主要是在建構一個開放和互操作性的雲端基礎平台以整合不同來源的農田生產相關資料,並包含地理空間向度,以及發佈為鏈結資料。

圖41: DataBio計畫由資料整合

在de Leon的演講中主要介紹如何利用FOODIE既有的語彙和標準,並與INSPIRE整合開發出鏈結資料的服務,如下所列。

而Charvat的演講中則進一步介紹如何在DataBio的計畫中整合交通資料(Open Transportation Map)和土地利用資料,其鏈結資料的服務也是從上述的服務中展示,但略有不同,如圖40中的服務是土地利用坵塊,就不是上述的農田分區,但技術上都是一樣的。

圖42: 雲端服務查詢結果的地圖視覺化 http://ng.hslayers.org/examples/olu_spoi/?hs_panel=info&hs_x=1607799.902082933&hs_y=6462976.717926565&hs_z=16&visible_layers=Base%20layer;Land%20use%20parcels

 

第三個演講是Rob Knapen,來自荷蘭Wageningen大學環境研究所,演講內容主要在基於他過去處理農業和地理資料的經驗中,去論述資料整合的問題和鏈結資料的障礙,檢討目前研究計畫事實上對於鏈結資料的使用仍然不夠深入。

圖43: Rob Knapen的演講

供應鏈和追溯(Supply chain and traceability)

這個場次包含了三個演講,前二個是關於區塊技術應用於農業資料上,而第三個即是我的報告,三個演講如下:

  1. Christopher Brewster, Blockchains and Linked Data for agrifood value chains
  2. Liisa Pesonen, Employing the principles of My Data and blockchain to build trust in farm data sharing
  3. Dongpo Deng, Construction and reuse of linked traceable agricultural product records

Brewster博士是來自於荷蘭應用科學研究所(Netherlands Organisation for Applied Scientific Research),他認為鏈結資料沒有用在價值鏈(如農田到消費者)的處理,Schema.org、GoodRelations和產品型態本體的語彙可以被期待用來增加價值鏈的處理,學術上企圖使用知識本體在價值鏈上的處理很少,過去的研究計畫也顯示出鏈結資料方法用在價值鏈上會有一些限制,但並沒有真的被進一步的討論。他認為價值鏈的核心問題在於產品履歷或溯源,但這個產品履歷系統是一個很緩慢的系統。從產品溯源的觀點,他進一步介紹條碼系統GS1,以建構資料鏈結系譜(linked pedigree),而這資料鏈結系譜再導以區塊鏈技術來處理,如圖44即是他演講中所提出來一個整合鏈結資料和區塊鏈的架構。

圖44:鏈結資料系譜和區塊鏈整合

 

Pesonen的演講陳述了很多區塊鏈和MyData的觀念,但缺乏實證,整個演講是一個概念架構研究的介紹。

圖45: MyData、MyFarmData和區塊鏈

 

 

G20農業鏈結開放資料會議 Part 4 – 農業科技分享平台

農業科技分享(Agricultural Technology Sharing, ATS)平台的目標是鼓勵G20成員國、有興趣的國家和國際組織改善農業技術資料的獲取,促進技術支援,分享發展永續農業發展技能的經驗,促進農業技術轉讓作為全球集體行動。

該平台還可以通過分享成員經驗,鼓勵和強調要優化農業技術創新體系的政策制定,更新現有機構和發展新機構,引入有關資訊安全和保護財產權的監管機制,建立資訊、資料共享和交換標準,加強決策者、研究人員、推廣機構、農業企業、農民組織、協會、非政府組織、私營商業部門、金融機構等各方利益相關者的合作,進行農業研究,教育、推廣和農業企業發展。ATS還可以通過發展中國家和已開發國家之間的合作,包括對於人力資源和能力發展。

圖40: 中國農業科學院副院長聶鳳英報告「農業科技分享平台」的進行

 

ATS旨於讓異質的資訊來源易於交叉搜索和整合,以便可以搜索所有資訊,以便所有利益關係者(例如,小農或企業家)都可以使用此類知識的的查詢進行搜索,以使成功地能讓農業實踐適應本地脈絡。ATS要扮演的一個在合作夥伴國家中的資訊目錄之角色,並透過合作和分享作為集體行動。通過這種方式,ATS將能夠在技術及其實際應用和影響方面獲得、分享、交流商業利益,同時也促進採用,適應和創新新技術的伙伴關係和合作。

ATS工作小組的主要原則是在20國框架下倡導和採取行動,通過G20成員,以及多樣化夥伴關係和共同努力,以加強農業技術創新和知識共享,持續地提高農業生產和實現糧食安全、生活和更好的環境。

工作小組是在中國主導但由G20 成員國中的首席農業科學家(MACS)來管控,以強化工作小組成為農業創新和知識共享的全球平台,並協調工作,避免重複和 最大化現有機會和資源。在中國農業科學院(CAAS)與GFAR、FAO、IFPRI及其全球網絡緊密合作,工作小組定期向G20的 MACS報告。

G20農業鏈結開放資料會議 Part 3 – 語彙、分類、索引典、地球觀測

John Fereira, AGROVOC-Three Ways

John Fereira在上午的場次講過康乃爾大學發展的VIVO,在這個場次的演講很簡短,而他想分享的是AGROVOC可以使用在三個功能中,分別為:

  1. 自動標籤(AutoTagging),少部份或沒有詮釋資料的時候使用;
  2. 自動建議(AutoSuggest),應用於在使用者介面當需要手動加入一些關鍵字時;
  3. 概念匹對(Concept Matching),當標記標籤於一個領域特定的儲存庫中的資源且該標籤要能匹對於一個語彙。

他並以介紹Agriknowledge網站,是一個農業文獻服務網站即是利用AGROVOC且應用上述三個功能,圖31即顯示關鍵字在Agriknowledge的使用,這些關鍵字都和AGROVOC有對映,且文獻本身也有相對映的AGROVOC,如圖32所示。

圖31: Agroknowledge的關鍵字功能
圖32: 應用AGROVOC的概念階層來瀏覽文獻

Valeria Pesce, Semantic challenges in sharing dataset metadata and creating federated catalogs: the example of the CIARD RING

Valeria Pesce 是全球農業研究論壇(GFAR)的資訊系統經理和計畫經理,且與GODAN的祕書共同合作,過去曾代表FAO和GFAR,現今則是加入歐盟計畫資料基礎計畫( agINFRA, Big Data Europe),並管理CIARD RING和AgriProfiles開放資料平台的在全球與區域間的協調工作。

圖33: CIARD RING平台

她的演講主要是在介紹CIARD RING (如圖 33)平台中對於農業資料集的管理,並強調語意在資料集管理上的好處及方式,圖34說明了描述資料集如何需要語意,除了使用DCAT、 DCAT-Stats、DateCube和VOID的語彙外,對於主題詞和資料型態都可以利用知識組識系統(Knowledge Organization System)來架構,使這些主題詞和資料型態的詞彙能夠清晰表達。「值」的標準化,如資料的主題涵蓋範圍和維度、格式、和協定的使用等,這些值在RDF也通常被視為是「資源」(resource),所以可被以URIs來辦別,但值通常是一個字串、概念的URI通常是專屬的設計,並非沒有一個共通的知識組織系統來指涉所有的事,她舉了幾個例子,如農業主題詮釋資料是AGROVOC或CABI thesaurus? 地理的詮釋資料是GeoNames或FAO GeoPolitic Ontology? 還有維度及文獻的語彙應該選那一個,如圖35 所示。然而,語彙所涉及的範圍和複雜度不一樣,是否合適於自己的資料需要評估,並非所有語彙都需要。

圖34: 描述資料集所使用的語彙以正規化語意

Pesce 也說明了選擇農業領域和跨領域語彙用於CIARD RING平台經驗,CIARD RING是一個農糧資料集和資料服務的聯合目錄平台,RING是指Routemap to Information Nodes and Gateways,為GFAR對於農業研究發展(Coherence Information for Agriculture Research for Development, CIARD)的計畫,RING的主要目錄可以提供資料和資料集,且都有詮釋資料,並使用RDF編碼。聯合目錄是透過獲取(Harvest)其它目錄平台的詮釋資料而來,目前有聯合的平台計有datahub, EU open data portal, Dataverse catalog, data.gov.uk, data,gov等,計有2740筆資料,4832項服務。RING平台的詮釋資料是以DCAT-AP、VOID和DataCube為主,並且會推出RING DCAT profile,她隨後介紹了RING平台中對於資料和資料集的詮釋資料編碼。

圖35: 語彙的選擇

 

其中介紹了如何利用SPARQL Queries控制LOD的映對,如圖36中的SPARQL query,可以取得所有畜牧的資料集是以AGROVOC的Livestock。

圖36: LOD的SPARQL查詢

 

在演講的結論中,她也再次強調最大的語意之挑戰在於資料或詮釋資料整合時缺乏使用共通語彙,而不是在格式、綱要(schema)或描述的方式不同,在許多情境中,資料缺乏好語意是因為不關注這部份,而不是工具的不足,RING的機器可讀層和SPARQL endpoint不是提供給終端使用者,他們期待的是更多開發者去建構加值的服務。

 

 

Sophie Aubin, Agrisemantics, vision for an infrastructure for semantic-based interoperability of agricultural data

Sophie Aubin沒有出席,是由Johannes Keizer代為演講。

Agrisemantics是一個農業資訊語意的研究社群,企圖邁向一個可以無縫使用和創造語意資源以支持農業和食物資料的互操作性。Agrismenatics的價值是一個自動化語意資源集合可反應出豐富的觀點和不同的領域資料,農業概念應建立出一個共通的概念網要,即Global Agriculture Concept Schema (GACS),有一組穩定的URIs可以重複使用和連結其它資源,增加鏈結由不同資源中製造資料操作性,分享經驗和共同的實務經驗,Agrisemantics是一個新開始的計畫,其整體架構如圖37所示。

圖37: Ageisemantics的架構

 

地球觀測與遙測(Earth observation and remote sensing)

這個場次的有5個演講,如下所示,都是歐盟國家的計劃,和資料或開放資料有關。

  1. Holger Lilienthal, The Research Center for Agricultural Remote Sensing (FLF) – a data source for agricultural information based on Sentinel satellite data
  2. Silke Migdall, ESA’s Food Security Thematic Exploitation Platform “Supporting sustainable food production from space”
  3. Bernd Hoffmann, Decision support for crop protection – Pest identification using UAV technology
  4. Sebastian Fritsch, Using open data and artificial intelligence to digitize global agriculture
  5. Uwe Voges, Linking and finding earth observation data on the Web

對於上述5個演講,就摘錄與開放鏈結資料的重點來記錄。

Lilienthal博士的演講中主要是介紹歐洲哨兵衛星系列的影像如何應用於農業資訊的擷取,而歐洲哨兵衛星是以開放資料的方式釋出,在即時資料方面,可以進行農作型態分類、農作輪作、草地監測、和土壤流失監控,動態資料方面,可以進行產量潛勢推估、植物參數(如生物量、葉面積指數、葉綠素含量)、和物候學(如成長天數),如圖38。

圖38: 歐洲哨兵衛星應用於農業上可生產出來的資料

Migdall所介紹如何以巨量資料平台來處理糧食安全的問題,並且說明平台中的許多資料是地理和航遙測資料如何應用於糧食安全問題的決策。同樣地,Hoffmann 所介紹的是德國的整合型的農業計畫,而著重的是如何應用UAV影像擷取出更多有助於農業決策的資訊。

Voges 博士的演講是在於介紹如何利用鏈結資料技術於地球觀測資料的查詢上,他提到雖然地球觀測資料是開放資料,但通常透過特定的接口(portal),或典藏於特定的平台,如果使用者對於這些接口和平台不熟悉的話,很難找到且取用這些資料。利用 OGC Catalogue Service標準來進行地球觀測資料之詮釋資料的處理,透過一般的搜尋引擎還是無法找到資料,他認為鏈結資料的方法是解決這個困境的途徑,應該有一層鏈結資料服務層架構在底層的空間資料基礎設施(SDI),如圖39所示。接著他介紹了如何利用OGC OpenSearch Geo and Time[3]標準和鏈結資料技術實現以鏈結資料技術為主的地球觀測資料平台。

圖39: 鏈結資料服務層介於搜尋引擎、開放資料平台和地球觀測資料庫之間