架構中文字的公式

9hsihsia.jpg

我們用這個系統(構字式,漢字組字規則)來處理缺字,這個系統最終將是中文交換碼的下一代,因為所有現在的交換碼都是封閉集合,而我們的系統是一套產生系統(production system)。透過這個系統我們已經可以處理六萬多個字,而現行的任何系統都無法處理六萬多字。這當中,文字是用構字式來表達,而構字式是唯一的。只要是構字式不同,就是不同的字(雖然一個字可能有不同的構字式,但都可以經過計算機的化約歸納到一個標準式),字和字就可以比對了。

透過這套系統,可以做中文字的交換。它和傳統編碼的方式完全是兩套不同的思路,但可以附加在目前任何編碼系統上,都沒有問題。現行的系統只要加上一個後處理(post process)運算來識別沒有碼的那些缺字,無須更改原來的編碼。譬如大五碼(big 5),可以加上構字式的系統,其中所有的字根都用大五碼的編碼,但缺字就用構字式來表達。目前何建明的實驗室做了一個網站,根據這些構字式就可以到網站上去下載那些字形。不只如此,這套系統也可以延伸到處理日文、韓國、越南的漢字,甚至於中國各個朝代的文字,在時、空上都沒有問題。


謝清俊先生之簡介與訪談簡要
資訊所 20 週年慶特刊中研院資訊所。另外可以參考易符智慧科技葉健欣先生的動態字形產生器之原理與實作漢字智慧型編碼與應用研討會,中研院資訊所,2003/3/17~19。

廣告

3 thoughts on “架構中文字的公式

  1. 可惜這些東西好像都一直留在這個圈子裡。

    沒有 open source,沒有 unix 版,也沒有大公司強力推銷…

    然後又變成另一個 CCCII 的故事?

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s