close
Blogtrottr
2013 - Yahoo奇摩 搜尋結果
2013 - Yahoo奇摩 搜尋結果 
漢字正義(十三)︰漢字的數量有定數嗎?
Mar 30th 2014, 00:15

作者 : 子正

(Fotolia)

漢字產生以後,走過了四五千年不間斷的發展演變歷程。在這漫長的歷史過程中,歷朝歷代產生的新字不計其數。時至今日,漢字的數量究竟有多少?或說兩三萬、三四萬、四五萬,甚至有說七八萬,竟然沒人能大致說清楚。漢字的數量真沒有一個相對確定的數字嗎?

讓我們先看看歷代字書(及韻書)的收字情況:

商(公元前1600~前1046年):甲骨文已發現單字4378個(《甲骨文字編》,臺灣中央研究院歷史語言研究所李宗焜,2012年),其中已識2000餘字,公認1000餘字。

西周:《史籀篇》(周宣王期間,前827~前781),共十五篇,字數不詳。估計在1500~3000字之間。

秦(公元前221年):《倉頡篇》(李斯作)、《博學篇》(趙高作)、《爰歷篇》(胡毋敬作),共計3300餘字。

漢:《訓纂編》(楊雄,公元前53~公元18年),5340字(已佚);《說文解字》(公元100年,許慎著),9353字;加上重文(異體字),共10,516字。

晉:《字林》(公元514年,呂忱著):12,824字(已佚)。

南朝.梁:《玉篇》(公元534年,著顧野王):16,917字(後增補至22561字)。

宋:《廣韻》(1008年,陳彭年等編著),26,194字;《集韻》(1039年,丁度等編著),53,525字;《類篇》(1066年,司馬光等編著),31,319字。

明:《字彙》(1615年,梅膺祚等編著),33,179字;《正字通》(崇禎末年,張自烈著),33,549字。

清《康熙字典》(1716年,張玉書等編著),47,043字。

1915年,《中華大字典》(歐陽博存主編):48,000餘字。

1971年,《中文大辭典》(張其昀主編):49,888餘字。

1993年,《漢語大字典》(徐中舒主編):56,000餘字。

1994年,《中華字海》(冷玉龍主編):85,000餘字。

可是,漢字的數量真的有這麼多嗎?

其實,當我們明白了漢字造字的原理與方法,清楚漢字發展演變的來龍去脈,對於漢字的數量問題,就會有一個基本的判斷。

在《漢字的造字理念與原則》一文中談到,漢字的具體構字方法是「六書」(其中的「假借」與「轉注」,是後起的二法)。也就是說,真正的漢字,得符合「六書」才算數。一個人隨便寫一個「字」,其構造不符合「六書」的要求,使人無從解讀,那就不能算是一個真正的漢字。歷史上,這樣的「字」很多,有些是俗字,有些是錯別字。所以,「有效漢字」的數量,其實是可以有定數的。

這裏所說的「有效漢字」,主體是指符合六書的通用漢字(很多字後世發生了訛變,變得不符合六書),也包括後世歷代沿用下來的俗字。

下面我們再看看有關中國古籍的用字統計,看能不能找到確定漢字數量的線索。


由上表可以看出,中國歷代各類著作所用不重複字數很少有超過4000的,大多介於2000~4000之間,說明中國歷代社會常用字有一個恒量,即3000字左右。我國古代童蒙識字教材同時並用時的總字數,恰在3000~4000上下,說明當時圍繞漢字教育所進行的字頻研究和常用字研究,已經達到很高的水準。

有人曾統計過,十三經(《易》、《書》、《詩》、《周禮》、《儀禮》、《禮記》、《春秋左傳》、《春秋公羊傳》、《春秋穀梁傳》、《論語》、《孝經》、《爾雅》、《孟子》)中不相同的單字數為6544字。因此,實際上古人日常使用的漢字數不過六、七千上下而已。

以下,我們再分析大陸有關單位所作的漢字使用頻度統計資料。

現代語料字頻統計(清華大學):

統計字數:6,763(GB2313-80字元集)。

使用語料總字數:86,405,823字。

古籍字頻統計(北京書同文數字化技術有限公司所,2004年):

語料來源:

《四庫全書》用字:總字數:698,076,596字:不重複單字:29,081字。

《四部叢刊》用字:總字數: 90,616,538字;不重複單字:27,606字。

二者合併: 總字數:788,693,134字,不重複單字:30,135字。


由現代語料字頻統計結果可看出:

前1,000個常用字,對語料的覆蓋率達到91.9%以上;
前2,500個常用字,對語料的覆蓋率達到99.2%以上;
前3,500個常用字,對語料的覆蓋率達到99.8%以上;
前4,500個常用字,對語料的覆蓋率達到99.9%以上。

這與中國古時歷代社會常用字的數量基本一致。而對古籍字頻的統計,雖然統計字數擴大了將近五倍,達到3萬多字,但字頻與現代漢語相比,差別並不很大:

前1,000個常用字,覆蓋率達到80.9%以上;
前2,000個常用字,覆蓋率達到91.6%以上;
前4,000個常用字,覆蓋率達到97.5%以上;
前6,000字常用字,覆蓋率達到99.1%以上;
前8,000字常用字,覆蓋率達到99.6%以上;
前13,000字常用字,覆蓋率達到99.9%以上。

以後字數再增加,語料覆蓋率的增加就很少了。如果拋除古籍中大量的異體字、俗字,則古今語料漢字的使用頻度基本一致。

1988年,大陸發布的收錄3500字的《現代漢語常用字表》(常用字2500個、次常用字1000個),以及收錄7000的《現代漢語通用字表》(含《現代漢語常用字表》中的3500字),就是依據與上述漢字字頻統計相關的資料制定的。

2013年,大陸又發布了《通用規範漢字表》,將收字數量提高到8105(其中一級字仍為3500)。

香港城市大學研究中心的Benjamin K. Tsou教授關於漢字信息熵的研究表明:隨著漢字容量增大到一定數量,信息熵的增加趨緩;當漢字增加到12,370個以後,不再使信息熵有明顯的增加。據此,有關專家認為:漢字的容量極限為12,366個。

所謂信息熵,是指信息中排除了冗餘後的平均信息量。信息熵越高,意味著能傳輸的信息越多;信息熵越低,則能傳輸的信息越少。

由以上介紹可知,有效漢字的數量,也就在13,000個左右。

對於通常的出版印刷、信息處理、姓氏人名、地名、科技術語等方面的用字需要,8000通用漢字基本上都能滿足。對於專業人員而言,掌握4000~4500個漢字足矣;而對於普通人士,掌握2500~3500個漢字,則基本上就能滿足正常的工作與閱讀需要。

所以,2007年(民國民國九十六年)臺灣《國語小字典》第二版,收字4,305個。1997年(民國民國八十六年)臺灣教育部的《重編國語辭典修訂本》,收字11,930個;另有異體字1,848個,共計13,778字。2011年大陸第十一版《新華字典》,收字11,200餘個。

所以,那些所謂的漢字的數量有幾萬個,甚至是超過十萬個的說法,是不能成立的。因為,那其中的絕大部分,或是異體字、俗字、錯別字,還有大量的死字(歷史上曾經出現過而後世廢置不用的字)。@*

美東時間: 2014-03-29 19:04:31 PM 【萬年曆】 【投稿/爆料】
本文網址: http://www.epochtimes.com/b5/14/3/2/n4095950.htm漢字正義(十三)︰漢字的數量有定數嗎-.html

This entry passed through the Full-Text RSS service — if this is your content and you're reading it on someone else's site, please read the FAQ at fivefilters.org/content-only/faq.php#publishers.

You are receiving this email because you subscribed to this feed at blogtrottr.com.

If you no longer wish to receive these emails, you can unsubscribe from this feed, or manage all your subscriptions
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 granaxky 的頭像
    granaxky

    2016大台北美食推薦懶人包【食記】台北車站 | 微風美食廣場-夢卡朵/咖哩飯【台北餐廳】人氣拉麵~花月嵐拉麵台北車站台北平價餐廳美食總整理

    granaxky 發表在 痞客邦 留言(0) 人氣()