Features of calculating the information entropy of the text in case of attacking the linguistic stegosystem by semantic compression

Open Access

11 October 2018

journal article
Published by National Aviation University in Ukrainian Scientific Journal of Information Security

Vol. 24 (2), 124-129
https://doi.org/10.18372/2225-5036.24.12954

Abstract

У статті, на основі відомих методів обчислення ентропії тексту проводиться їх удосконалення та описуються особливості обчислення інформаційної ентропії тексту в умовах проведення атаки семантичним стисненням на лінгвістичну стегосистему, реалізовану в однойменному програмному комплексі, формалізується задача визначення ентропії тексту природньої мови в контексті подальшого дискурсного аналізу та видалення семантичної надлишковості. Вводяться додаткові параметри, що сприяють визначенню семантичної ентропії осмисленого та штучно згенерованого тексту для проведення атаки семантичним стиснення на лінгвістичну стегосистему, контейнером для якої виступає текстова інформація природньої (англійської) мова. Обґрунтовуються розбіжності ентропії для різних стилів мови та пояснюється її збільшення зі зміною стилю завдяки потребі додавання до використаного словнику загальної термінології спеціалізованих словників. Крім особливостей розрахунку умовної та безумовної ентропії у випадку використання програмного комплексу проведення атаки на лінгвістичну стегосистему, наведено розрахунок потужності використаного у ньому словнику та прописаних правил граматики, що і є додатковими параметрами, які зумовлюють обчислення ентропії в конкретному випадку, наводиться розрахунок максимальної ентропії (для неосмисленого тексту) та кількості інформації, що несе одне слово чи граматична форма у випадку максимальної та реальної ентропії. Крім того, наводиться обчислення межі семантичного стиснення та формалізовано задачу визначення надлишкової смислової інформації. Таким чином, стає можливим визначення...

Keywords

LINGUISTIC STEGOSYSTEM