向日葵视频官网下载_向日葵视频色板_向日葵视频黄版_向日葵APP下载安装

新聞動態(tài)

聯(lián)系我們

咨詢:010-63396898
電話:010-63396881
地址:北京市 東城區(qū) 建國門北大街 金成建國5號
行業(yè)新聞
您當(dāng)前位置: 首頁 > 新聞動態(tài)

從電子印刷邁向數(shù)字出版的基石——《辭源》用字整理

發(fā)布日期:2016-03-15 點擊:915


  • 發(fā)布日期:2016-03-14
  •  
  • 作者:王曉明
  •  
  • 來源:中國社會科學(xué)報

《辭源》第三版優(yōu)盤版和網(wǎng)絡(luò)版

《辭源》第三版優(yōu)盤版和網(wǎng)絡(luò)版    

      《辭源》第三版修訂工作始于2007年,用時長達8年。其間,恰逢我國數(shù)字出版從興起轉(zhuǎn)向興盛之際,毫無疑問,紙質(zhì)版和數(shù)字版都要出,但二者是分步實施還是一氣呵成,紙質(zhì)版電子印刷數(shù)據(jù)是否與數(shù)字出版接軌,這是一個無法回避的問題。

       “一氣呵成”的數(shù)字出版策略

      單從數(shù)據(jù)層面講,電子印刷相對傳統(tǒng)鉛字排版印刷只是載體改變,目的還是“印刷”呈現(xiàn),而數(shù)字出版則是全新的理念。

      數(shù)字出版是建立在計算機技術(shù)、存儲技術(shù)、顯示技術(shù)、網(wǎng)絡(luò)技術(shù)和流媒體技術(shù)等高新技術(shù)基礎(chǔ)上,在內(nèi)容的編輯、制作、發(fā)行、傳播等出版全過程中,將所有信息都以統(tǒng)一二進制代碼的數(shù)字化形式存儲。其核心是“一字一碼”,這個編碼在全球范圍內(nèi)是唯一的,即國際標(biāo)準編碼。

      為了實現(xiàn)數(shù)字出版,項目組最終確立了紙、電一氣呵成的出版策略。從電子印刷邁向數(shù)字出版,意味著轉(zhuǎn)變觀念、調(diào)整工作模式和技術(shù)創(chuàng)新?!掇o源》修訂工作原本就時間緊、任務(wù)重,這種策略的調(diào)整無疑雪上加霜。為此,專門成立了字形組,對《辭源》用字進行全面整理。

      為了在短時間內(nèi)實現(xiàn)這一跨越,字形組在主編指導(dǎo)下,制定了較為科學(xué)的技術(shù)路線和實施方案,從摸清情況、制定原則和技術(shù)實現(xiàn)3個層面,分6個步驟對《辭源》用字進行整理,為實現(xiàn)《辭源》第三版從電子印刷邁向數(shù)字出版打下基礎(chǔ)。

      《辭源》用字面臨挑戰(zhàn)

      修訂人員以2010年《辭源》紀念版為基礎(chǔ),利用其紙質(zhì)版和電子印刷數(shù)據(jù),對《辭源》用字進行徹底清理,從中提取出用字16000余個,并且摸清了《辭源》的用字狀況。《辭源》初版于1915年面市,距今已百年,由于歷史沉積和印刷技術(shù)條件所限,其用字存在一字多形、新舊并存等現(xiàn)象,這是呈現(xiàn)層面的問題;電子印刷數(shù)據(jù)則存在一碼多字、多字一碼等情況,這是印刷平臺系統(tǒng)底層的問題。2010年版《辭源》的電子印刷平臺是以國家編碼標(biāo)準GB2312的6763漢字為核心編碼,繁體字和集外字均通過切換字庫來實現(xiàn),這是權(quán)宜之計。同時,該平臺為了排版印刷的方便,開放了自造字功能,導(dǎo)致一個編碼對應(yīng)多個漢字和多個漢字對應(yīng)一個編碼的現(xiàn)象頻出。這樣的數(shù)據(jù)無法實現(xiàn)有效的信息檢索、準確的信息傳遞和直接的信息交換,是實現(xiàn)數(shù)字出版的最大障礙。

      《辭源》的字形原則

      《辭源》是“閱讀古籍用的工具書和古典文史研究工作者的參考書”,它的主要功能是“用來解決閱讀古籍時遇到的關(guān)于語詞典故和有關(guān)古代名物典章制度等知識性疑難問題”。按照這個功能定位,字形組根據(jù)10億字古籍語料庫的用字頻率,并參照《康熙字典》和《中華大字典》等權(quán)威工具書,確立了其字形原則。

      依據(jù)《辭源》的字形原則,從字樣、字位、字種三個層面對其用字進行規(guī)范,對一字多形、一字多碼、多碼一字等問題進行歸一化處理,并從部首、部件乃至筆畫層面對字形進行細致入微的規(guī)范,確保字庫的字體形態(tài)符合《辭源》的功能定位,也確保字庫在整體風(fēng)格上的一致性。

      原始數(shù)據(jù)跨平臺移植

      數(shù)字出版的基本要求是一個漢字應(yīng)有一個唯一編碼?;趪H編碼標(biāo)準ISO10646框架的計算機平臺,可以滿足《辭源》“一字一碼”的需求,而且能實現(xiàn)有效的信息檢索、準確的信息傳遞和直接的信息交換。因此,對《辭源》印刷平臺編碼方式的梳理,并將其用字與國際編碼標(biāo)準對接,是實現(xiàn)數(shù)字出版最基礎(chǔ),也是最必要的工作。

      《辭源》用字與國際編碼標(biāo)準對接后,采取技術(shù)手段將1000多萬字的原始數(shù)據(jù)一次性從封閉、不可對外交換的平臺,移植到基于國際編碼標(biāo)準、可交換的開放平臺,避免了繁瑣的人工修改,以及用字上的不一致等問題,移植后的數(shù)據(jù)可直接用于數(shù)字出版。

      總體來講,《辭源》的用字整理工作具有里程碑意義。首先,它不僅解決了《辭源》用字在表面呈現(xiàn)上的規(guī)范一致性,而且還徹底解決了底層編碼的標(biāo)準統(tǒng)一性,后者則是數(shù)字出版的重要基礎(chǔ)。其次,它實現(xiàn)了印刷數(shù)據(jù)與數(shù)字出版的無縫對接,做到了紙、電同步出版,尤為重要的是,確保了不同出版形式在內(nèi)容上的完全統(tǒng)一,這也是《辭源》數(shù)字版的主要特點。最后,它也為實現(xiàn)電子印刷數(shù)據(jù)的跨平臺移植,探索了一條切實可行的技術(shù)途徑。

      事實說明,《辭源》紙質(zhì)版與數(shù)字版“一氣呵成”的出版策略是正確的、可行的,不但沒有影響紙本正常出版,更有利地推進了數(shù)字版的出版進程,降低了數(shù)字出版的成本。可以說,此次的用字整理工作,是《辭源》從電子印刷邁向數(shù)字出版的基石。

友情鏈接 : 百度新浪深圳點通
展開