秀下限的漢字簡化,純屬娛樂

上次看到,根據統計,平均簡體字大概是7畫不到的水準,當然這裡的平均是語料平均,換言之,各字按出現頻率進行加權。
使用傳統漢字,要多2畫,沒有感覺的多,因為簡化字並沒有這麼大比例。
不過,還有諸如二簡字那樣的玩意,那麼,漢字能簡化到什麼程度呢。
首先,簡化的基本方法就是把各種筆劃組合按筆劃數從小到大,並按字從高頻到低頻分配。
如此可以簡化到一個水平呢。雖然我手頭沒有具體的語料庫,不過有人給我們統計了漢字的靜態信息熵,大概是9.7bit
,換言之,理想的編碼體系只需要平均這麼多個零一位就能給漢字編碼了,比如有一種優秀的方法就是哈夫曼編碼,近似於漢字只要10bit左右碼長就夠了。
不過這個長度要比我們說的辦法要長,因為哈夫曼等等編碼是有斷字的能力的。
譬如概率(頻率)1/2,1/4,1/8,1/8的ABCD,哈夫曼編碼成1,01,001,000。。。而我們編譯成0,1,10,11。。。明顯牛逼一頭,但是現在來了BA這個玩意,前一種編碼成了011,很明顯,這只能是BA,但是我們寫成10,於是我們不知道這是BA還是C了。
不過實際中我們斷字是輕而易舉的,這對於拼音文字來說,加個空格比較靠譜,不過以前的梵文還有日語。。。
這就有賴於拼寫的規律了。

說了這麼多,關鍵是要說明,我們的這種方案是要小於10bit的,接下來我們把編碼改成4進制,這樣大概就是5位。
最後我們把這種4進制編碼轉化為“超簡字”
如圖,圖中只標示了一至三位的翻譯工作,其中一位是橫豎撇捺四種筆劃,二位和三位給出了編碼對應的方式(而且有些實際筆劃少於位數)為使其有邏輯點,盡可能才用基本筆劃的順序組合和變體。
對於更多的位數,我們只有三位一斷,按順序接起來。。。比較靠譜的是三個部件的組合(四個部件的組合有,但比較怪了),不過這就夠了,因為光9畫的字就能達到40w,遠超各種字典的收錄了。
這樣的方案,我粗略估計下,只有4畫左右


楼主 七三二十三  发布于 2016-10-02 23:51:00 +0800 CST  
@诗琴画弈世界人
最後的圖片是拿漢字頻率最高的十個字舉例







楼主 七三二十三  发布于 2016-10-04 03:21:00 +0800 CST  

楼主:七三二十三

字数:786

发表时间:2016-10-03 07:51:00 +0800 CST

更新时间:2021-03-09 10:57:31 +0800 CST

评论数:27条评论

帖子来源:百度贴吧  访问原帖

 

热门帖子

随机列表

大家在看