2019-04-13 07:48:01
作为网络的文本 有多少单词足以识别作者

人们比他们想象的更原始 - 这是波兰科学院核物理研究所科学家提出的文体分析方法所提出的。作者的个性可以在英文文本中不超过十几个单词之间的联系中看出。事实证明,在斯拉夫语言中,作者身份识别需要更少的单词,并且更加确定。

研究人员寻求解决验证仅从碎片中识别的历史文献的作者身份,抄袭的识别以及类似问题的问题。在许多情况下,传统的测量方法失败或不能得出足够可靠的结论。在信息科学领域,克拉科夫波兰科学院核物理研究所(IFJ PAN)的科学家现在提出了他们自己的样式分析统计工具。通过使用图表构建,它以一种新的方式分析文本的结构。

“我们研究的结论一方面令人鼓舞。它们表明任何人的个性都清楚地表现在他们使用少量词汇的方式上。但也有一个黑暗的一面。事实证明克拉科夫理工大学的Stanislaw Drozdz教授说,人们是如此原创,通过他们的陈述更容易识别个人。

风格测量学是处理文本风格统计特征的科学,它基于每个人以略微不同的方式使用相同语言的观察。有些人拥有更广泛的词汇,有些人更狭隘,有些人喜欢某些短语并犯错误,有些人则避免重复,而且是语言纯粹主义者。在书面文本中,他们使用标点符号的方式也不同。在典型的样式方法中,通常检查文本的基本特征,包括单个单词出现的频率,而忽略标点符号。对研究文本和潜在知名作者撰写的文本进行了分析。创作者被视为其作品具有与所识别的材料所获得的值最接近的参数的人。

“我们建议使用图形在文本的网络表示中表示样式的特征,”Tomasz Stanisz博士解释说。 IFJ PAN的学生和该出版物的第一作者。 “图形是图形上的点或顶点的集合,通过线条连接,即图形的边缘。在最简单的情况下 - 在所谓的未加权网络中 - 顶点对应于单个单词并通过边连接并且只有当两个给定的单词在文本中至少出现一次相邻时才会出现。例如,对于“Jane is hungry”这个句子,图形将有三个顶点,每个单词一个,但只有两个边一个介于'简'和'是'之间,另一个介于'是'和'饥饿'之间。“

在构建他们的测量工具时,研究人员测试了不同类型的图形。获得了加权图的最佳结果,即每个边携带有关字之间相应连接的出现次数的信息。两个参数在这种网络中最有用:节点度和聚类系数。第一个描述来自给定节点的边数,并且与文本中给定单词的出现次数直接相关。反过来,聚类系数描述了由具有给定字的边连接的两个字也与它们之间的边连接的概率。

使用这种方式编制的统计工具,克拉科夫的物理学家查阅了96本书:八位着名英国作家(奥斯汀,康拉德,笛福,狄更斯,多伊尔,艾略特,奥威尔和吐温)的六部小说和八位波兰作家(Korczak) ,Kraszewski,Lam,Orzeszkowa,Prus,Reymont,Sienkiewicz和Zeromski)。作者包括两位诺贝尔文学奖获得者(Wladyslaw Reymont和Henryk Sienkiewicz)。所有文本均来自互联网资源:Project Gutenberg,Wikisource和Wolne Lektury。然后,来自IFJ PAN的小组检查了可以确定12种随机选择的作品在一种语言中的作者的可靠性,将作品池的其余部分视为比较材料。

“在英文文本的情况下,我们在近90%的案例中正确地确定了作者。此外,为了取得成功,有必要追踪被检查文本中只有10到12个单词之间的联系。与天真相反直觉,所研究的单词数量的进一步增加并未显着提高该方法的有效性,“斯坦尼斯说。

在波兰语中,作者身份的确定变得更加简单:只需要分析五到六个单词。值得注意的是,尽管重要单词池的数量是英语的一半,但正确识别的概率却提高了95%。然而,只有当标点符号也被视为单独的单词时才能实现如此高的诊断准确性。在这两种语言中,省略标点符号会导致正确猜测数量的显着减少。观察到的标点符号的作用是对Drozdz教授2017年出版物的结论的另一个证实,其中显示标点符号在语言中起着与单词本身同等重要的作用。

“与英语相比,波兰人似乎更有可能揭示作者的风格。我们认为其他斯拉夫语言具有相似的特征。英语是一种位置语言,这意味着句子中的单词顺序这种语言比单调的斯拉夫语言留下更少的个人表达风格,其中变形或变异决定了一个单词或短语在一个句子中的作用。这使得组织顺序更加自由。 Drozdz教授说,句子中的单词虽然意义不变。

猜您喜欢的其它内容