用人工智能对各类小说做一个寻章摘句的分析_风闻
阴山贵种-典午当涂2018-03-09 13:40
《经济学人》今天的一篇文章谈了这个问题。
昨天是三八妇女节,来看看名著中的“女性”地位问题。
把诸多名小说情节中的女性的动作、语言、描述集合起来,从高往低排一下,如下:

The Handmaid Tale排第一,Little women和Lolita分列二三位。
垫底的那个老夫恰好通读过——《蝇王》。里面确实没有女性,描写了一群孩子,比较奇怪的是没有小女孩。也许戈尔丁的霍布斯情节会让他忽略性别问题。

当然,不少专家指出,人工智能的算法也不是完美的。尤其是对于以第一人称叙述的小说,这个算法的犯错率尤其高。
人工智能的算法可以识别某一个或者某一类作者的习惯用词的频率,勾勒出某个作家的写作特色之后,可以用文本分析的方式分析小说情节的走势,甚至可以识别情节的突然转折。
其中还有一个重要作用是,可以解决历史遗留的“版权”问题,也就是某些伪书的疑案。比如英国的很多计算机专家用人工智能算法,认为莎士比亚的44部剧作中有17部是“好几个人合力完成”的。其中一个重要手段就是分析作品中的连词、介词“with”和“and”的用法。
美国专家也用这个手段识别出美国开国元勋汉密尔顿和James Madison的书稿,中有一大部分和James Madison写作风格迥异,根据还是对连词的分析,比如while和whilst,以及among和between。
国内不少文坛疑案,比如《红楼梦》问题、康有为有没有抄袭廖平等问题,也可以用这个办法搞一搞。
Ben Blatt甚至还用往前推进了一步,用人工智能算法算出纳博科夫最喜欢的词是mauve(lolita里确实有不少mauve呐)。

未来人工智能能不能写出一流的严谨、通顺、逻辑清晰的科技著作?文学家们一直认为“隐喻”和“比喻”是人类很拿手的东西,人工智能很难识别,但随着人工智能对文学作品文本的分析深入化,这个还是很有可能的。还是拿济慈的一句话来讲吧:
We must constantly look at things in a different way.