《中文名稱規(guī)范文檔與VIAF共享問題分析--》由會(huì)員分享,可在線閱讀,更多相關(guān)《中文名稱規(guī)范文檔與VIAF共享問題分析--(4頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、中文名稱規(guī)范文檔與VIAF共享問題分析??
關(guān)鍵詞:中文名稱規(guī)范文檔;VIAF;共享
下載論文網(wǎng)
摘要:在信息技術(shù)不斷發(fā)展的過程中,我國圖書館對(duì)規(guī)范控制也從以往的獨(dú)立模式慢慢轉(zhuǎn)向合作模式。因?yàn)椴煌瑖抑g的圖書館規(guī)范文檔在形式方面存在較大差異,因此,實(shí)現(xiàn)不同成員庫信息資源共享逐漸成為協(xié)作規(guī)范控制工作的重要內(nèi)容。文章通過構(gòu)建中心式模型,對(duì)我國不同成員館數(shù)據(jù)庫中規(guī)范文檔進(jìn)行整合,并且探討了中文名稱規(guī)范文檔與VIAF共享的方式,以期為中文名稱規(guī)范文檔與VIAF共享工作提供一定幫助。
中圖分類號(hào):G250文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-15
2、88(2018)02-0111-03
1背景
在互聯(lián)網(wǎng)技術(shù)不斷發(fā)展的過程中,網(wǎng)絡(luò)逐漸滲透到人們生活中的各個(gè)領(lǐng)域,也使規(guī)范文檔擁有更為廣泛的來源,且規(guī)范文檔種類不斷增加。規(guī)范文檔儲(chǔ)存于各個(gè)機(jī)構(gòu)之中,而且各個(gè)機(jī)構(gòu)所擁有的資源既存在一定重復(fù),又有一定差別,其所采用的數(shù)據(jù)組織形式同樣存在一定差異,導(dǎo)致大量且分散的異構(gòu)數(shù)據(jù)很難得到利用,也在很大程度上影響到名稱規(guī)范文檔的進(jìn)一步發(fā)展?;谟脩粜枨蠖?,現(xiàn)階段互聯(lián)網(wǎng)的現(xiàn)有組織形式無法滿足用戶逐漸深化的數(shù)據(jù)需求。在數(shù)字化環(huán)境下,圖書館的信息資源除了包含大量紙質(zhì)信息資源,數(shù)字信息資源所占的比例不斷增加,互聯(lián)網(wǎng)信息數(shù)據(jù)的數(shù)量呈幾何式增長。而對(duì)于信息資源
3、急劇增加的問題,各機(jī)構(gòu)應(yīng)當(dāng)采取一定的方法,對(duì)不同?C構(gòu)相對(duì)分散的信息資源進(jìn)行整合,確保目前名稱規(guī)范所包含的信息更加豐富,從而可以更加準(zhǔn)確地對(duì)同名記錄加以區(qū)分,而且還能對(duì)不同的對(duì)象所對(duì)應(yīng)的同一資源加以集中,確保用戶在信息資源檢索過程中能夠更加快速、準(zhǔn)確以及便捷,有效地提升查全率[1]。不同機(jī)構(gòu)應(yīng)構(gòu)建相應(yīng)的共享機(jī)制,可以對(duì)相關(guān)主題信息資源進(jìn)行整合處理,從而顯著降低冗余信息數(shù)量,為用戶提供更加清晰和全面的信息結(jié)構(gòu)。
2影響中文名稱規(guī)范文檔與VIAF共享的要素
2.1編目規(guī)則
不同機(jī)構(gòu)會(huì)結(jié)合自身情況編制出相應(yīng)的編目規(guī)則,作為編目過程中的參考標(biāo)準(zhǔn),各個(gè)機(jī)構(gòu)依照制定的相應(yīng)標(biāo)準(zhǔn),將相關(guān)信息
4、資源通過規(guī)范方法完成著錄工作。不同編目機(jī)構(gòu)采用的著錄規(guī)則存在較大差異,而且著錄規(guī)則相對(duì)較多,不同的著錄規(guī)則之間也存在一定差異。著錄規(guī)則主要包含AACR2、西文文獻(xiàn)著錄條例、中文文獻(xiàn)編目規(guī)則、FRBR、FRAD、ICP及RDA等?,F(xiàn)階段,國際上不同組織與機(jī)構(gòu)之間已開展廣泛合作,而且不少組織及機(jī)構(gòu)開始在其所使用的規(guī)范文檔里添加一些中文字段,極大地促進(jìn)了中文名稱規(guī)范文檔共享范圍的進(jìn)一步擴(kuò)大。然而,還有很多地區(qū)的編目組織及機(jī)構(gòu)在開展著錄工作時(shí)采用的規(guī)則有所差異,其中包含的中文字段具體位置以及對(duì)應(yīng)功能均有所不同,導(dǎo)致在信息資源共享的過程中存在較大阻礙。對(duì)于著錄款目工作而言,《中國文獻(xiàn)編目規(guī)則》將主要的款
5、目全部取消,目前我國目錄體系里的一些書名信息、著錄信息以及主題信息等還處于分離狀態(tài),而且不同款目信息間也不存在主要、次要的區(qū)別。但是,在AACR2以及《西文文獻(xiàn)著錄條例》之中,由于西歐各國存在一些多款目字典式目錄,且一直沿襲自己的編目習(xí)慣,現(xiàn)在依舊保留了主要款目。在進(jìn)行著錄過程中,AACR2相關(guān)要求更為嚴(yán)格,其中替代順序以及優(yōu)先級(jí)別等均有非常嚴(yán)格的規(guī)定,能夠確保開展著錄工作時(shí)更加精準(zhǔn)。而由于我國圖書版權(quán)頁面里含有相對(duì)多的信息,《中國文獻(xiàn)編目規(guī)則》把圖書的版權(quán)頁面以及書名頁面并列作為編目工作的信息來源,但是沒有將二者所對(duì)應(yīng)的優(yōu)先順序加以說明。而從表目的具體形式來看,二者均含有主體信息以及附加信息
6、,但是各個(gè)國家在進(jìn)行名稱的表達(dá)方面有著一定差異,特別是在附加信息之中,更是存在相對(duì)大的不同[2]。
2.2數(shù)據(jù)元素
與名稱實(shí)體存在一定的關(guān)聯(lián)性,除去名稱實(shí)體所對(duì)應(yīng)名稱之外的一些信息均稱為數(shù)據(jù)元素,F(xiàn)RAD將數(shù)據(jù)元素認(rèn)定為名稱實(shí)體所對(duì)應(yīng)的屬性。當(dāng)記錄信息達(dá)到相應(yīng)規(guī)模以后,便會(huì)產(chǎn)生非常多的同名實(shí)體記錄,而用戶在進(jìn)行信息檢索的過程中就容易產(chǎn)生混淆。在名稱主體的標(biāo)目信息中,數(shù)據(jù)元素是極其關(guān)鍵的內(nèi)容,進(jìn)行信息匹配時(shí)一般將其當(dāng)作名稱附加信息,以確保各個(gè)名稱主體能夠被更為準(zhǔn)確地區(qū)分開來。通常,數(shù)據(jù)元素包含兩種類別,一是性別信息、生卒信息、民族信息及籍貫信息等,二是學(xué)科信息、專長信息以及職業(yè)信息等
7、,前者屬于名稱主體所對(duì)應(yīng)的自然屬性,而后者屬于名稱主體所對(duì)應(yīng)的社會(huì)屬性。現(xiàn)階段,在進(jìn)行附加信息的選擇過程中不論采取何種方式,都不能構(gòu)建出統(tǒng)一的標(biāo)準(zhǔn),但是人們逐漸形成了一個(gè)共識(shí),即將生卒信息當(dāng)作最主要的匹配信息,要是不能獲取到生卒信息,或是生卒信息較難確認(rèn)時(shí),則再考慮采用其他信息作為主要匹配信息[3]。在具體的應(yīng)用過程中,我國的國家圖書館以及CALIS一般采取加入關(guān)鍵詞或者是加入學(xué)科信息的方式,對(duì)相同人物名稱加以區(qū)分,如張三(化工)、張三(酒店管理)等。不過,采用這種形式對(duì)不同人的名稱進(jìn)行區(qū)分的過程中同樣會(huì)產(chǎn)生兩個(gè)問題:第一,在選用區(qū)分信息的過程中主要受到人為因素影響,而且大部分區(qū)分信息都是編目
8、人員通過推斷獲得的,相關(guān)信息表述無法達(dá)到非常精確的要求,使相同領(lǐng)域中一些相似的學(xué)科極易出現(xiàn)混淆。第二,即使加入?yún)^(qū)分信息,在一些情況下也無法確定名稱主體的具體身份,這樣極易導(dǎo)致數(shù)目信息發(fā)生連接錯(cuò)誤的問題,同時(shí)還會(huì)導(dǎo)致用戶在信息檢索過程中更加困難。對(duì)于相同名稱的不同人物進(jìn)行區(qū)分的過程中,數(shù)據(jù)元素選擇是極為重要的,其會(huì)在很大程度上影響名稱規(guī)范文檔的質(zhì)量。不過,現(xiàn)階段數(shù)據(jù)元素相關(guān)規(guī)范依舊存在一定的不足,各機(jī)構(gòu)應(yīng)當(dāng)不斷加以完善。
3中文名稱規(guī)范文檔與VIAF的共享
VIAF將各個(gè)國家權(quán)威的文檔進(jìn)行匹配以及連接,同時(shí)把不同類型的文檔加以分組處理,產(chǎn)生對(duì)相同實(shí)體進(jìn)行描述的記錄合集,并且將這一合集
9、當(dāng)作相應(yīng)實(shí)體的權(quán)威記錄,其中含有該實(shí)體存在一定差異性的各種名稱信息?,F(xiàn)階段,我國在數(shù)據(jù)源規(guī)范方面擁有一定的基礎(chǔ)條件,國家圖書館規(guī)范數(shù)據(jù)庫的相關(guān)記錄在近幾年得到了極大的增長,同時(shí)能夠?qū)崿F(xiàn)信息的共享,也為中文名稱規(guī)范文檔和VIAF實(shí)現(xiàn)數(shù)據(jù)共享創(chuàng)造了條件。而要想實(shí)現(xiàn)和VIAF之間的信息共享,需要對(duì)中文名稱文檔進(jìn)行規(guī)范,構(gòu)建信息更為全面以及規(guī)范的文檔數(shù)據(jù)庫。 3.1中文名稱規(guī)范文檔的構(gòu)建
在中文名稱規(guī)范工作方面,我國內(nèi)地和臺(tái)灣地區(qū)還沒有建立統(tǒng)一標(biāo)準(zhǔn)。2000年,由國家圖書館、HKCAN、CALIS以及臺(tái)灣漢學(xué)研究中心共同構(gòu)建了中文名稱規(guī)范數(shù)據(jù)庫,不過其所應(yīng)用的具體模式仍然是不同機(jī)構(gòu)獨(dú)立構(gòu)
10、建數(shù)據(jù)庫,借助于網(wǎng)絡(luò)平臺(tái)實(shí)現(xiàn)信息共享,該方式屬于較為簡便的分布式信息共享模式。不同機(jī)構(gòu)進(jìn)行信息的收集以及數(shù)據(jù)庫建設(shè)已經(jīng)趨于成熟,但不同機(jī)構(gòu)間的互聯(lián)性相對(duì)較差,具體使用的格式以及規(guī)范都有一定差異,僅采取數(shù)據(jù)匹配的方法容易導(dǎo)致查全率偏低等問題的產(chǎn)生。同時(shí),不同機(jī)構(gòu)在進(jìn)行信息更新時(shí)未能同步完成,所以,當(dāng)采用分布式信息共享模式時(shí),怎樣確保信息成果得到更好地共享還有待進(jìn)行深入研究。
3.1.1模型構(gòu)建。由于我國圖書館領(lǐng)域不同機(jī)構(gòu)在進(jìn)行數(shù)據(jù)庫建設(shè)過程中基本上都是獨(dú)立建庫,因此我國需要構(gòu)建相應(yīng)的機(jī)制,確保不同機(jī)構(gòu)之間可以實(shí)現(xiàn)信息共享。目前,中文名稱規(guī)范數(shù)據(jù)庫能夠完成聯(lián)機(jī)查詢工作,但在信息交互過程中仍然
11、存在一些問題。筆者采用中心式模型,構(gòu)建基于客?艋?/服務(wù)器的多館中心鏈接,構(gòu)建相應(yīng)的中心數(shù)據(jù)庫,而成員庫包含我國各個(gè)名稱規(guī)范庫,具體模型見圖1。用戶在進(jìn)行信息檢索的過程中,得到的結(jié)果為不同數(shù)據(jù)庫間的數(shù)據(jù)整合信息。構(gòu)建完整且系統(tǒng)的中心數(shù)據(jù)庫,將不同機(jī)構(gòu)中的數(shù)據(jù)庫進(jìn)行鏈接,數(shù)據(jù)信息的描述內(nèi)容含有簡體、繁體、英文以及拼音等不同形式,各個(gè)成員庫只是從中心庫讀取相關(guān)數(shù)據(jù)信息,但不能修改中心庫的數(shù)據(jù)信息。當(dāng)用戶需要進(jìn)行信息檢索時(shí),無論采取哪種方式都可以檢索到中心數(shù)據(jù)庫包含的信息,確保實(shí)現(xiàn)信息資源的共享。而不同成員庫可以對(duì)機(jī)構(gòu)內(nèi)部數(shù)據(jù)庫加以修改,并且修改行為可以實(shí)時(shí)體現(xiàn)在中心庫。
3.1.2名稱標(biāo)目以
12、及功能字段。由于各個(gè)機(jī)構(gòu)所采用的標(biāo)目選用規(guī)則有所差異,因此,采取更為適宜的標(biāo)目以及功能字段,可以確保用戶在信息檢索過程中擁有更高的查全率以及查準(zhǔn)率。依照名稱規(guī)范記錄具體狀況,同時(shí)參照各個(gè)機(jī)構(gòu)的名稱規(guī)范文檔,筆者得出完整的名稱規(guī)范文檔應(yīng)當(dāng)包含的信息(見圖2)。在標(biāo)目選擇過程中,各個(gè)機(jī)構(gòu)因?yàn)樽陨淼木?
目背景以及文化的不同,采用的原則同樣有所差異。例如,北京大學(xué)圖書館在進(jìn)行標(biāo)目的選擇過程中,會(huì)將《辭海》里所包含的名稱當(dāng)作規(guī)范標(biāo)目優(yōu)先選用,或是將具有較高權(quán)威性的工具書里的翻譯姓名當(dāng)作標(biāo)目。而香港地區(qū)基本上都是根據(jù)國外的數(shù)據(jù)源進(jìn)行套錄,并且在這一過程中盡可能維持源數(shù)據(jù)不變。因此,在規(guī)范標(biāo)目的選取過
13、程中,各機(jī)構(gòu)要盡可能采用人們知曉的名稱作為標(biāo)目。規(guī)范標(biāo)目包含的內(nèi)容包括個(gè)人名稱以及附加成分,其中附加成分通常含有個(gè)人生卒信息、性別信息以及民族信息等。由于生卒信息以及性別信息等均為個(gè)人的自然屬性信息,因此其擁有更高的穩(wěn)定性以及精確性。在附加信息中,通常采用的附加信息均為個(gè)人自然屬性信息,如VIAF中魯迅的個(gè)人名稱規(guī)范標(biāo)目是“100$alu,Xun,$d1881-1936”。
3.2完成與VIAF的共享
VIAF屬于一種虛擬文檔,而完整的文檔依舊儲(chǔ)存于不同成員庫中,同時(shí)各個(gè)成員庫之間形成相互鏈接,一些權(quán)威數(shù)據(jù)經(jīng)由OAI協(xié)定,利用服務(wù)器設(shè)備在不同的成員庫之中抽取相關(guān)數(shù)據(jù)并完成數(shù)據(jù)的匹配
14、。在構(gòu)建中文名稱規(guī)范文檔之后,各機(jī)構(gòu)應(yīng)當(dāng)接著完成與VIAF的共享工作。VIAF能夠?yàn)樗械膶?shí)體分配所對(duì)應(yīng)的ID,如VIAF為李白所分配的ID為108725426,不同文章中的實(shí)體利用特定ID進(jìn)行鏈接。OCLC提供能夠讓用戶進(jìn)行下載的數(shù)據(jù)集合,大部分信息結(jié)構(gòu)屬于聚類結(jié)構(gòu)形式,聚類信息集合本質(zhì)上屬于中樞―發(fā)散式模型,中心為一個(gè)個(gè)人名、地名等,采用發(fā)散方式與VIAF成員庫中對(duì)應(yīng)的概念資源進(jìn)行鏈接,在鏈接時(shí)可以利用FOAF(Friend-of-a-Friend)詞匯表中的foaf:focus。不同的成員館都會(huì)采用各自的方式對(duì)名稱實(shí)體加以描繪,而且所有的記錄均指向VIAF中所包含的唯一的URI。
4結(jié)語
在規(guī)范控制領(lǐng)域中,中文名稱規(guī)范控制是極為重要的內(nèi)容,而只有對(duì)我國目前所擁有的名稱規(guī)范數(shù)據(jù)進(jìn)行整合才能確保有效地控制名稱規(guī)范,才能為中文名稱規(guī)范文檔與VIAF共享提供可靠的基礎(chǔ)保障。
參考文獻(xiàn):
[1]陳辰,王璐,郝曉雪,等.語義化人名規(guī)范文檔建設(shè)探索[J].圖書館論壇,2017(10):1-6.
[2]王瑞云,賈君枝.中文個(gè)人名稱規(guī)范記錄的實(shí)體匹配與聚簇[J].國家圖書館學(xué)刊,2017(2):79-86.
[3]崔春,畢強(qiáng).虛擬國際規(guī)范文檔(VIAF)項(xiàng)目進(jìn)展[J].圖書情報(bào)工作,2014(6):129-134.
?。ň幮#捍廾龋?