01. Big5/Unicode/cns11643中文編碼概述


  目前常見的中文編碼系統,有:big5、unicode、cns11643等,各有其中文在電腦發展歷程上的意義。以作業系統預設的中文編碼方式來區分,並概略說明其特性:

  1. Windows 98/ME及這版本之前,採ANSI的架構,對應的中文編碼處理方式,是一般所稱的Big5編碼。Big5不是微軟所發布的,但在作業系統的呈現上,主要 是依據這個編碼的對應關係來顯示的。
使用Big5編碼方式,有一個很大的困擾,在Big5的規劃原則下,編碼的數量有限,但所可能出現的中文字數量,卻遠大於編碼所規劃的數量,因此使用者造 字被廣泛的使用。
既然是使用者造字,同一個造字編碼,在每個人的造字檔中,就會有不一樣的可能,在這種情況下,造字的管理,就有其存在的必要性,以便讓同一組織內,能在相 同的造字基礎下流通使用。
  2. Windows2000/XP以後的版本,採Unicode的架構,可以使用的中文字變多了。基本上這對大部分的個人使 用者來說,這絕對是一個好消息。但 是對使用Big5中文編碼的應用程式使用者而言,雖然unicode編碼,已提供之前沒有的中文字,但似乎是用不到的?
許多在ANSI架構下所開發的程式,雖然在中文輸入選擇時,可以找到這個字,但是選取後,卻沒有辦法在該程式下正常的顯示這個字,出現的可能是一個 『?』,有一些應用程式,在中文輸入選取時,雖可以找到這個中文字,選取後也可以正常顯示,但存檔後,再讀取一樣不能正常顯示。

   BIG-5碼,係由資策會於1984年策劃制定,宗旨原是儘量不使用到控制碼範圍,並配合國人自製的五大 (BIG-5)套裝軟體來設計。BIG-5碼系統為兩位元組之內碼系統,共可定義19,782個字碼,但因其原設計規格的限制,實際收錄了13,053個 字,其餘列為可供使用者自行造字的範圍:

  1. 使用者造字區一:FA40~FEFE,共785個字。
  2. 使用者造字區二:8140~8DFE,共2,041個字。
  3. 使用者造字區三:8E40~A0FE,共2,983個字。
  4. 造字用罕用符號區:C6A1~C8FE,共408個字。

   BIG-5所提供的13,053個字,很顯然不足以應付許多中文輸入顯示的需求,例如:堃、煊、瓈、凃...等。有鑑於此,行政院研考會委託 中推會,再選取3,954個字,在BIG-5碼的造字區中建置「BIG-5碼補充字集 (BIG-5 Extension Character Set,簡稱BIG-5E字集)」;並配合行政院「電子化╱網路化政府計畫」之推動,於公文電子交換作業規範中訂為可處理中文碼類別之一。

BIG-5E之編碼區間:

  1. 8E40 - 8E42:納編CNS11643第1字面的3個部首(原倚天定義之C6C2、C6C5、C6C6)。
  2. 8E43 – A0FE:納編CNS1643第3字面的2,980個中文字。
  3. 8140 – 86DF:納編CNS11643第3字面的911個中文字。
  4. 86E0 - 875B:納編CNS11643第4字面的59個中文字。
  5. 875C - 875C:國字零(O)。
  6. 875D - 87EE:保留碼位128個。

  BIG-5E所收錄的這3,954個字,雖早已收錄在unicode的字型中,但沒有對應的BIB-5編碼 範圍的BIG-5正式編碼,所以在還沒將這些BIG-5E的中文字,加入到BIG-5的造字區前,也許您可以使用中文輸入法,列出BIG-5E中所包含的 中文字供選取使用,但是一遇到以BIG-5中文編碼方式製作的應用程式,就沒辦法正常顯示了!

如何在BIG-5應用程式環境下,正常使用BIG-5E所收集的這些中文字?

方法一:

CNS11643中文全字庫網站(http://www.cns11643.gov.tw)→應用工具下載→個人電腦造字處理工具→Big5平台→大五碼(Big5)補充字集安裝/解除程式 2.0(Big5-E)

方法二:
自行造字。那要如何讓編碼與BIG-5E所制定的編碼一致呢?
這是本使用手冊所要介紹的重點之ㄧ,後續會有詳細說明。

什麼是『CNS11643』?CNS11643:國家中文標準交換碼。其官方網站稱此為『中文全字庫』。

  1. CNS11643 已納入「政府機關資訊處理共通規範」中,是大多數國內外資訊廠商共同遵循的中文作業系統參考準則。
  2. 政府機關公文電子交換之標準傳遞碼:本院政府機關公文電子傳遞作業已規定,凡經「交換中心」(設於交通部管資中心)傳送之公文,一律先轉換為 CNS11643碼。
  3. 目前為止,CNS11643已收錄編碼的中文字有95,732個字。
unicode2.0字型已收錄20,902個字。
unicode3.0字型已收錄27,484個字。
unicode4.0字型已收錄70,195個字。
  4. CNS11643官方網站,提供『全字庫字型』下載服務。
全字庫正宋體(98.1版),收錄了38,850個字。
全字庫正楷體(98.1版),收錄了38,676個字。

PS.本章節所述內容,部分引用http://www.cns11643.gov.tw/所收錄的內容。



Comments