Для проверки уникальности текстов можно использовать специальные программы, устанавливаемые на компьютер либо онлайн-сервисы — принцип их работы идентичен принципу, по которому работают поисковые системы. Казалось бы: все онлайн-сервисы и программы, проверяющие на уникальность, давно используются и привычны, как для авторов, так и для заказчиков оригинальных текстов. Однако не все так просто. Если взять одну и ту же статью, опубликованную несколько месяцев назад, то выдаются разные результаты после проверки антиплагиатными программами от разных разработчиков. Сервисы copyscape.ru, miratools.ru, istio.com, программа DСF, не говоря уж о привычных всем Advego Antiplagiatus, Etxt.ru и о мощно продвигающемся в последнее время онлайн-сервисе text.ru — все они выдают процент уникальности, разительно отличающийся от результата проверки текста другими программами.
В чем причина такого несогласия?
Поисковые роботы — это машины, в них не заложены эмоции, все строго и точно считается. В уникальном тексте порядок слов не должен совпасть с порядком слов опубликованных и проиндексированных текстов. Вот почему можно легко повысить степень уникальности текста, если переставить абзацы, предложения, подобрать синонимы для слов. Человек может увидеть плагиат, но робот с его математическим подходом не обратит внимания. Для проверки уникальности текста разработчики поисковых систем составляют сложные алгоритмы. Их суть — в анализе текстов, разделенных на части.
Методы проверки
1) Более точный результат выдается, если выставлены настройки проверки более коротких участков текста, — это так называемый метод шинглов. Программа проверяет отрезки текста, состоящие из 5-6 слов (шингл — shingle), преобразуя их в двоичный код. Каждый отдельный участок текста отмечается уникальным числом. Затем, используя заданный алгоритм, робот вычисляет контрольную сумму. Если тексты отличны друг от друга, то суммы не совпадут. Сканируя тексты, программа не теряет ни единого слова. Слово, заканчивающее один текстовый отрезок, начинает следующий кусочек проверяемого текста. Благодаря методу шинглов можно отыскать не только откровенный плагиат, но даже немного переделанные тексты.
2) Метод пассажей — еще один способ найти повторы текстов в сети Интернет. Здесь текст разбивается на более крупные куски и проверяется уже предложениями. Большая часть приложений, проверяющих насколько уникален текст, основаны на методе шинглов. Но в этом методе есть и отрицательная сторона: цитаты, идиомы, фразеологизмы — из-за присутствия их в тексте резко понижается уровень его уникальности.
Вот почему программа может объявить текст, который вы писали самолично и от души, неоригинальным — это же голая математика и никаких эмоций.