中文与空格_风闻
code2Real-有人就有江湖,有code就有bug2021-08-16 23:01
二十年前,曾经从事过自然语言处理,具体一点说,就是从事中文分词工作。
那时,计算机要处理中文语料,需要事先将文本分成一个一个词汇。
开始时,是一群中文语言学家开发出中文分词软件,分词速度每秒从几十个到几百个不等。
后来找了一个专业程序员,重新编写分词软件,分词工作在内存里处理,不用来回读写磁盘文件,结果分词速度提高了几万倍。
计算机处理中文语料之所以需要分词,主要是受编译器思维的影响。
编译器总是将源代码分解成抽象语言树(AST),然后将AST转化为相应的汇编符号。
计算机语言在设计时,为了方便编译器工作,总是尽可能减少语言的歧义。
但自然语言总是存在歧义,因此基于语法树的转换其实并不适合自然语言处理。
随着深度学习(deep learning)的兴起,人们发现用AI处理中文语料其实不需要分词,就象中国人在阅读中文时其实不需要分词一样。甚至中国古代的文言不仅不需要分词,而且连标点符号都没有。
中国古代读书人学会断句。
人们对深度学习在自然语言上的应用印象深刻,但是忽视了深度学习对哲学上的影响。
现代知识的基础其实是分类,没有分类,我们人类有限的智力难以消化巨大的现实。
在软件设计时,我们经常采用“分而治之”的方法分解模块,分解到可以手动写代码的程度。
但是对于更复杂的系统,这种”分而治之“会面临着无从下手的困难。
此外,过度的分化会导致整体的消失。把人分解成一个一个细胞,人的活力就失去了,人的意识就失去了。
深度学习的出现,意味着我们可以吞下更大的现实,我们需要做出改变的是接受深度学习吞下的东西。
在复盘阿尔法狗的围棋套路时,柯洁发现传统的围棋经验被颠覆了。
传统围棋思维是“金角银边白肚皮”,人的智力总是沿着边边角角向中心试探,但是AI直接只在棋盘中心布局。
阿尔法狗只需要自己与自己对弈十几个小时,就能达到人类九段棋手的水平,就能参透人类几千年来的围棋经验。
如果现实是大象,以前我们总是将大象分解成鼻子、腿、耳、尾、肚等几分不相干的部分进行认识。以为大象长得象管子、柱子、扇子、蛇,墙。
以至于,科学家为光是波还是粒子争论了很长时间,直到爱因斯坦提出波粒二象性。
我们的感官只能感觉低维属性,对于高维的存在只能采用分析的方法。
当我们使用深度学习发现真正的大象或巨龙时,我们会不会因为叶公好龙而被吓跑?
西方长期俯视中国,拒绝中国成为巨人的可能性。
当中国真正成为巨人时,西方选择无视、抹黑。
因此可以肯定,基于分析的西方科学已经走向穷途末路了,他们无法接触深度学习发现的巨龙。