简单语料统计、具备
定语义感知能力
文本分析工具。其实,早在语言学家们利用词频统计来判定《红楼梦》前八十回文本与后四十回文本异同
年代,计算机对于文学创作、文学评论
镜鉴价值就已经模糊地显现
出来。今天
AI工具拥有比单纯
词频统计更强
能力。例如,自然语言处理中常用
语词表征学习技术Word2vec就是这个探索方向上
种基本工具。有关Word2vec
个通俗解读是,当机器利用此工具计算出文本中每个语词对应
神秘数值[7]后,可以巧妙地将神秘数值与语义联系起来,甚至可以用直观
计算式来进行语义推导(
们用加
方括号
词来表示该词对应
神秘数值):
[皇帝]–[男人]+[女人]≈[皇后]
[北京]-[中国]+[澳大利亚]≈[悉尼]
上面两个非常直白计算式对AI研发者而言早已司空见惯,但每次展示给没有经过编程和算法训练
人,还是会收获莫名
惊诧。因为这样明显
语义关系完全由AI算法自动得出,这很难不让人怀疑AI已经找到
解读人类大脑
密码。遗憾
是,科学逻辑并不支持这样
假想。今天
Word2vec只是
种应用于文本
数学工具,AI对语义
解读,还只停留在肤浅
统计建模层面,远谈不上理解人类语言。
Word2vec实用价值在于,它是主题、风格、情感等更高级建模或分析
基础。
曾抽取楸帆作品中代表性较强
词汇,计算得到每个词对应
Word2vec向量数值,再通过数学变换将百多维空间中
向量转换成二维或三维人类可见
图像[8]——这是标准
、科学意义上
“降维打击”。例如,后图(见下页)是从楸帆收录在这本书中
六篇小说文本中,抽样提取代表性词汇生成
空间分布示例(不同小说中
语词在图中对应于不同形状
标记)。
在电脑上,类似分布图可以针对每个空间局部或每个聚合主题,进行放大和细化。词汇在不同空间层级、区域
聚合关系,可以直观地反映每篇小说、每个章节甚至每个段落
写作特点。类似
工具还可以很方便地比较不同作家
文本差异。例如,
们完全可以将楸帆
《人生算法》和保罗·巴奇加卢皮
《卡路里人》进行类似
主题分析和词汇比较。再例如,即便
们知道楸帆
《美丽新世界
孤儿》是向赫胥黎《美丽新世界》致敬
作品,但精密
文本分析也足以向
们呈现出两部作品在语汇和主题层面
异同。从这个意义上
请关闭浏览器阅读模式后查看本章节,否则可能部分章节内容会丢失。