Вступление



суббота, 30 июля 2011 г.

Академические тошноты


Вот ползаю по «Форуму Ленинградского Издательства» и несколько раз наткнулся на интересные глупости. Хотя, любому пишущему полезно будет там покопаться, хотя бы для… подтверждения или опровержения собственных мыслей. Ну и для забавы тоже, ага. Так вот, шел Фомснат лесом, шел полем, продираясь сквозь многобукафные изречения, сквозь вумные советы и флудовые обсуждения, и нашел «Семантический анализ текста онлайн».
Что это такое? Ну, подобные программки вы могли встретить много где. Например, на СИ есть такая, кажись «Репетитор» называется, есть еще «Свежий Взгляд» (ссылку дать не могу, но можно погуглить, может, найдете его). Смысл программы в том, что она выискивает ваши косяки в тексте. Но, если фрэшай всего лишь сообщал об однокоренных и вообще похожих словах в тексте, стоявших близко друг к другу, а так же давал список всех повторяющихся в тексте слов вообще, Семантический анализ имеет несколько преимуществ. Вернее, он чуть более разнообразен. Например, он выискивает «стоп-слова» (долго объяснять, что это такое, но кто ищет, обрящет), сообщает количество значимый и уникальных слов, а так же есть там две графы: «Академическая тошнота документа» и «Классическая тошнота документа». Ну, и я, разумеется, сразу же и попробовал.

Что и говорить, к чистоте своих текстов я отношусь с особой теплотой. То есть, я уже давно определил для себя, от чего надо текст чистить, и этого у меня там не найдет никакой анализатор. Этого и другой писатель вряд ли найдет, потому что к чистке текста подход у меня особый. Впрочем, писать об это нудно, поэтому далее про тошноты. Так вот, забил я туда своих «Убийц». Расстроился, что принимаются куски до ста тыщ символов, вырезал пятьдесят и расстроился еще больше – «Классическая тошнота документа» у меня вышла процентов, кажись, в пятнадцать. Сам же знаю, что чушь все это, но все-таки хотелось увидеть в тошнотах нули. Ну и ладно, забиваю уже текст другого автора, тока кусок размером в десять тыщ слов. И еще больше расстраиваюсь – пусть академические тошноты у нас примерно совпадают, в классической я вырвался вперед раза, эдак, в три. Тогда решаю реабилитироваться и вбиваю «Мастера и Маргариту». С удивлением обнаруживаю, что если «оно» у меня в тексте – самое распространенное слово, у Булгакова какое-то другое. Но что же я вижу – кусок в тридцать тысяч знаков обладает классической тошнотой в десять прОцентов. Добиваю до пятидесяти тыщ знаков, и что бы вы думали? Тошноты у нас с Булгаковым сошлись в одинаковый процент. Вот и подумалось мне: пусть анализ и не сильно поможет писателю, зато он весьма символичен. Вот так и в жизни, читаешь кого-нибудь, а тошнит тебя – в классическом смысле слова – все больше и больше, и больше… Бедный, бедный семантический анализатор.

Комментариев нет:

Отправить комментарий