Author

Topic: [Антиплагиат] Полный список омографов (Read 203 times)

hero member
Activity: 504
Merit: 732
плагиаторы начали применять так называемые "спиннеры", которые заменяют ключевые слова в исходном предложении на синонимы. При этом примерный смысл текста остаётся неизменным

Это не новшество какое-то. Простейший рерайт в копирайтинге строится на этом.
hero member
Activity: 840
Merit: 962
HOLD BITCOIN! Fiat - SCAM!
Сейчас, кстати, на форуме плагиаторы начали применять так называемые "спиннеры", которые заменяют ключевые слова в исходном предложении на синонимы. При этом примерный смысл текста остаётся неизменным.

Видимо генерировать "свежий" контент ботофермам все сложнее и сложнее. Вот и пускают в ход СЕО-шные инструменты типа СловоЁБа.

В результате получаются посты типа: "Мы думаем что криптовалюта вырастут, но возможно и упадет, но я точно не знал"  Grin
legendary
Activity: 2674
Merit: 2334
Пару дней назад увидел несколько одинаковых аккаунтов в SPREADSHEET моей подписной. Что интересно - мошенники использовали букву B из этого списка и при сортировке по алфавиту аккаунты оказывались в разных частях таблицы что затрудняло их обнаружение.

Интересно. Оказывается, даже в баунти-таблицах мошенники уже омографы используют.

Сейчас, кстати, на форуме плагиаторы начали применять так называемые "спиннеры", которые заменяют ключевые слова в исходном предложении на синонимы. При этом примерный смысл текста остаётся неизменным.
hero member
Activity: 840
Merit: 962
HOLD BITCOIN! Fiat - SCAM!
Пару дней назад увидел несколько одинаковых аккаунтов в SPREADSHEET моей подписной. Что интересно - мошенники использовали букву B из этого списка и при сортировке по алфавиту аккаунты оказывались в разных частях таблицы что затрудняло их обнаружение.
jr. member
Activity: 65
Merit: 4
Яндекс ещё лет 20 назад, когда он был просто одним из поисковиков, умел определять фразы, где русские буквы были заменены латинскими, аналогичными по написанию.
legendary
Activity: 2674
Merit: 2334
"Омографы", а если еще корректнее - омоглифы. Омографы - это вообще-то про слова. Хотя хакерская атака с подменой букв в URL-адресах и называется "омографической".

Да, правильнее будет "омографы", поправлю название темы. На мой взгляд, "омоглифы" - это, скорее, относится к изображениям, "омографы" - более широкое понятие.


И это замечание превратило бы данную тему в пособие для начинающих копипастеров, если бы не одно "но":

Здесь есть ещё одно "но": для SEO-сервиса нужно знать, на каком языке написано сообщение, так как алгоритму анализа нужно привести потенциальный плагиат к одинаковому формату со сравниваемым текстом. В любом случае, для работы SEO-сервису нужен полный список омографов, которые могут использоваться в текстах на данном языке. Могу сказать, что поисковые системы в общем случае хранят найденную в Интернете текстовую информацию "как есть", то есть без изменений.



неужели такими подменами кто-то занимается для набивания постов, на мой взгляд подмена символов займет больше времени чем написание своего поста и поэтому бессмысленна или преследуются другие цели.

Да, на форуме в англоязычных ветках некоторые недобросовестные баунти-хантеры занимаются подменой ASCII-символов в постах. Сообщения перед отправкой можно модифицировать простым JS-скриптом за одну секунду. Это не занимает много времени.

Оказывается, буквально недавно проблема была решена ретроспективной заменой таких символов при показе постов в англоязычных секциях, но, по-моему, ещё не все омографы были добавлены в тот список.
member
Activity: 528
Merit: 38
неужели такими подменами кто-то занимается для набивания постов, на мой взгляд подмена символов займет больше времени чем написание своего поста и поэтому бессмысленна или преследуются другие цели.
hero member
Activity: 504
Merit: 732
для усложнения обнаружения эти баунти-хантеры начали использовать гомографы

"Омографы", а если еще корректнее - омоглифы. Омографы - это вообще-то про слова. Хотя хакерская атака с подменой букв в URL-адресах и называется "омографической".

Quote
системы анализа не смогут выявить плагиат, просто сравнивая тексты в кодировке UTF-8

И это замечание превратило бы данную тему в пособие для начинающих копипастеров, если бы не одно "но": продвинутые системы распознавания плагиата и работы с текстом таки выявляют омоглифы. К примеру, российская система Антиплагиат выявляет (по крайней мере так утверждает ее исполнительный директор). Google Chrome (который браузер) "палит" смесь кириллицы и латинницы просто при проверке орфографии (т.е. можно тупо включить проверку и перекопировать текст в любое поле в браузере - "спорные" места будут подсвечены). LanguageTool (что английский, что русский) показывает слова с омоглифами как "имеющие возможную ошибку в написании". А известный сайт-антиплагиатор text.ru и вовсе с омоглифами обходится жестко: неизвестные ему (вроде македонских символов) выбрасывает, известные подсчитывает в "SEO-анализе текста" (пункт "Замена символов") - и, естественно, все равно находит источник.

Кому интересно - может поковыряться в упомянутых с этой вот фразой (в которую специально понапихана куча разных омоглифов):

Code:
Thrее yеаrs agο, Micrоsоft Azure wаs the first tо bring blоckchain tο the clоud. Nоw it's cоnnеcting the tеchnоlоgy tо just abοut еverything еlse.

(Первоначально фраза взята отсюда.)
legendary
Activity: 2674
Merit: 2334
Зарезервировано.
legendary
Activity: 2674
Merit: 2334
Список омографов для ASCII:

Символ ASCIIНомер Unicode  Комментарий      Verdana   Arial        Sans Serif  Courier New
1)A (65)0x0391 (913)ГреческийA  ΑA  ΑA  ΑA  Α
2)B (66)0x0392 (914)ГреческийB  ΒB  ΒB  ΒB  Β
3)E (69)0x0395 (917)ГреческийE  ΕE  ΕE  ΕE  Ε
4)Z (90)0x0396 (918)ГреческийZ  ΖZ  ΖZ  ΖZ  Ζ
5)H (72)0x0397 (919)ГреческийH  ΗH  ΗH  ΗH  Η
6)I (73)0x0399 (921)ГреческийI  ΙI  ΙI  ΙI  Ι
7)K (75)0x039A (922)ГреческийK  ΚK  ΚK  ΚK  Κ
8)M (77)0x039C (924)ГреческийM  ΜM  ΜM  ΜM  Μ
9)N (78)0x039D (925)ГреческийN  ΝN  ΝN  ΝN  Ν
10)O (79)0x039F (927)ГреческийO  ΟO  ΟO  ΟO  Ο
11)P (80)0x03A1 (929)ГреческийP  ΡP  ΡP  ΡP  Ρ
12)T (84)0x03A4 (932)ГреческийT  ΤT  ΤT  ΤT  Τ
13)Y (89)0x03A5 (933)ГреческийY  ΥY  ΥY  ΥY  Υ
14)X (88)0x03A7 (935)ГреческийX  ΧX  ΧX  ΧX  Χ
15)o (111)0x03BF (959)Греческийo  οo  οo  οo  ο
16)c (99) [4]0x03E2 (994)Греческийc  ϲc  ϲc  ϲc  ϲ
17)j (106) [2]0x03E3 (995)Македонскийj  ϳj  ϳj  ϳj  ϳ
18)C (67) [4]0x03E9 (1001)C  ϹC  ϹC  ϹC  Ϲ
19)S (83)0x0405 (1029)МакедонскийS  ЅS  ЅS  ЅS  Ѕ
20)I (73)0x0406 (1030)I  ІI  ІI  ІI  І
21)J (74)0x0408 (1032)МакедонскийJ  ЈJ  ЈJ  ЈJ  Ј
22)A (65)0x0410 (1040)РусскийA  АA  АA  АA  А
23)B (66)0x0412 (1042)РусскийB  ВB  ВB  ВB  В
24)E (69)0x0415 (1045)РусскийE  ЕE  ЕE  ЕE  Е
25)K (75) [1]0x041A (1050)РусскийK  КK  КK  КK  К
26)M (77)0x041C (1052)РусскийM  МM  МM  МM  М
27)H (72)0x041D (1053)РусскийH  НH  НH  НH  Н
28)O (79)0x041E (1054)РусскийO  ОO  ОO  ОO  О
29)P (80)0x0420 (1056)РусскийP  РP  РP  РP  Р
30)C (67)0x0421 (1057)РусскийC  СC  СC  СC  С
31)T (84)0x0422 (1058)РусскийT  ТT  ТT  ТT  Т
32)X (88)0x0425 (1061)РусскийX  ХX  ХX  ХX  Х
33)a (97)0x0430 (1072)Русскийa  аa  аa  аa  а
34)e (101)0x0435 (1077)Русскийe  еe  еe  еe  е
35)o (111)0x043E (1086)Русскийo  оo  оo  оo  о
36)p (112)0x0440 (1088)Русскийp  рp  рp  рp  р
37)c (99)0x0441 (1089)Русскийc  сc  сc  сc  с
38)y (121) [3]0x0443 (1091)Русскийy  уy  уy  уy  у
39)x (120)0x0445 (1093)Русскийx  хx  хx  хx  х
40)s (115)0x0455 (1109)Македонскийs  ѕs  ѕs  ѕs  ѕ
41)i (105)0x0456 (1110)i  іi  іi  іi  і
42)j (106)0x0458 (1112)Македонскийj  јj  јj  јj  ј
43)Y (89)0x04AE (1198)Y  ҮY  ҮY  ҮY  Ү
44)h (104)0x04BB (1211)h  һh  һh  һh  һ
45)I (73) [2]0x04C0 (1216)I  ӀI  ӀI  ӀI  Ӏ
46)l (108) [2]0x04CF (1231)l  ӏl  ӏl  ӏl  ӏ
47)G (71) [1]0x050C (1292)G  ԌG  ԌG  ԌG  Ԍ
48)Q (81)0x051A (1306)Q  ԚQ  ԚQ  ԚQ  Ԛ
49)q (113)0x051B (1307)q  ԛq  ԛq  ԛq  ԛ
50)W (87)0x051C (1308)W  ԜW  ԜW  ԜW  Ԝ
51)w (119)0x051D (1309)w  ԝw  ԝw  ԝw  ԝ

[1] почти одинаковы во всех шрифтах
[2] одинаковы во всех шрифтах, кроме "Verdana" (v5.02)
[3] одинаковы во всех шрифтах, кроме "Courier New" (v5.11)
[4] одинаковы только в шрифте "Arial" (v5.06)
legendary
Activity: 2674
Merit: 2334
Примечание: Изначально эта тема была создана в корневом разделе русского локального форума Мета, но была перенесена модератором сюда. Читайте также английскую версию в основном разделе Meta.



Обычно в подписных кампаниях BitcoinTalk баунти-хантерам требуется написать определённое количество постов в неделю, за эту активность участникам начисляются стейки. Иногда недобросовестные пользователи копируют чужие сообщения или абзацы из сторонних статей в Интернете и постят их здесь на форуме. Такие посты могут быть легко сравнены и отслежены SEO-сервисами, поэтому для усложнения обнаружения эти баунти-хантеры начали использовать омографы.

Говоря упрощённо, омографы - это символы в международной таблице Unicode, которые выглядят визуально одинаково. В английском алфавите используются только ASCII-символы.

Если смешать в тексте омографы из разных языков, то при чтении человек не заметит никакой разницы, однако системы анализа не смогут выявить плагиат, просто сравнивая тексты в кодировке UTF-8.

Например:
  • "SEO". Здесь все символы ASCII, омографы не используются. Длина слова в UTF-8 равна 3 байтам.
  • "ЅΕО". Здесь первый символ "Ѕ" взят из македонского алфавита, второй символ "Ε" из греческого алфавита, а третий символ "О" из русского алфавита. Эти неанглийские буквы выглядят так же как ASCII-символы, но кодируются двумя байтами, поэтому длина слова в UTF-8 равна 6 байтам.

Таким образом некоторые пользователи, используя омографы, пишут посты на форуме, просто копируя и изменяя тексты других людей. Поэтому мне захотелось создать полный список омографов, которые могут использоваться в текстах на английском языке.



Судя по HTML-коду, на форуме используется следующий CSS-стиль:
Code:
style="font-family: Verdana, Arial, sans-serif;"
Итак, в постах используются три шрифта: "Verdana", "Arial" и "Sans Serif". Также для моноразмерных текстов используется "Courier New".

В таблице ниже представлены ASCII-символы и рядом их омографы, написанные всеми этими четыремя шрифтами. Смотрите мой следующий пост ниже.
Jump to: