|
Определение по двум текстам того, один ли у них автор.
Всем добрый день.
Есть две книги - для простоты будем считать что есть два текстовых файла 1.txt и 2.txt.
Вопрос: есть ли алгоритм, который выдаст какой-то показатель (например, частоту встречаемости каждой буквы) и вывод - количественный показатель, что "вероятность того, что автор двух файлов - один и тот же, равно 90%"
Может кто знает уже готовые разработки с исходниками?
С уважением,
Игорь.
P.S.
Я пытался искать в интернете подобные статьи - нашел несколько. Но у них одна проблема - нет конечной цели. Авторы пишут кучу формул и т.д. - а вот вывода нет: забывают они о том, для чего вся эта писанина, и в конце концов после прочтения так и не понятно какой же метрикой пользоваться и как делать вывод что "авторы текстов - разные".
|