个左右,韩国《汉韩大辞典》收字53667个。
“RB《今昔文字镜》收字更是高达16万,其中还包含了越南旧时曾使用的以汉字为原型孳乳仿造的喃字。
“虽然汉字数量众多,甚至还有衍生字形,真要统计一个准确数字是一件困难的事情。但从商朝至今,使用最频繁、字义稳定不变的核心汉字不超过300个。
“这些核心汉字在任意一篇文本中,占用字数量的70%,余下29%则有2000个汉字,而那孤独的1%则属于其他几万个汉字,其中大多数属于在文献中出现过一次或几次,或只在特定情况下才使用的‘一次性’的汉字。
“即便是27部先秦主要文献中,1076个汉字也占全部用字的95%,而这些先秦典籍使用的汉字数量其实并没有想象中那么丰富。
“比如《诗经》用字2831个,《周易》用字1358个,《老子》用字824个,而《孙子兵法》用字更是仅有760个。
“所谓微言大义,可见一斑。
“而《现代汉语常用字表》则是有3500个汉字,能够覆盖现代主流文本的99.48%的篇幅。
“所以我们国家的九年义务教育的语文课标里要求认识常用汉字3500个左右这个标准,可以说是十分有依据。
“不过认识汉字的数量足够多,并不代表一个人的汉语水平一定很高,因为还涉及到构词和造句的问题。
“毕竟仅有760字的《孙子兵法》不是所有人都读得懂,当这些单语素的字组成千上万不同的词和短语,要是还包含典故的话,就是那种‘既熟悉又陌生’的感觉了。
“这也是许多老外在学习汉字时最头疼的一件事——认识几千个汉字,但仍然读不懂一篇文章。”
听到这一席话,众人已经觉得有点棘手了。
这无疑是让一个初学者,做到顶尖语言学家的水准。
就这些,还不包括各种方言、乡音的语调学习。
至少碰到一个口音比较重的天津人,人家张口闭口“介介”,你得知道那有可能是自称“我”,或者在表达尊称“您”的意思。
想想都能让人崩溃。
至于少数民族的文字,外语,那些都是以后的事情了。
徐福倒没那么大负担,“你们想的太复杂了,别忘了,我们现在就拥有二十多万用户可以帮助人工智能学习进步。以后还会有几百万,上千万甚至上亿的人帮我们丰富数据库。只