Вот эта задача как раз оч даже реальная и чиста конкретная
Пару лет назад написал свой спам-фильтр, ибо все что видел в свободном доступе мне не нравилось. (Уточняю: фильтр для сервера, а не для читалки, подключен к sendmail'у)
1. Выделил ряд признаков, позволяющих 100%-но утверждать, что заливаемое письмо - спам.
2. Так же ряд признаков, позволяющих 100%-но утверждать - НЕспам.
3. Признаки, отменяющие действие признаков из п. 1 (например, сервер отправителя находится в списке "плохо сконфигурированные сервера" - шлет кривые заголовки)
4. Аналогично, отменяющие действие признаков из 2.
Это все пока "жесткая логика", осечек почти не дает (знающие люди обратили внимание на слово "почти" ....

но это пока отложим)
Но эти группы признаков позволяют классифицировать примерно 80% входящей почты.
С оставшимися 20% : выделяю кучу "слабых" признаков - каждый из которых всего лишь повышает "спам-рейтинг" письма на величину, назначенную мной от балды. (Вот как раз тут нейронные сети будут очень даже к месту!)
Этот спам-фильтр работал удовлетворительно года два, но спамеры растут над собой, и в последнее время процент "пропусков" медленно, но неуклонно увеличивается. Это заставило меня вернуться к этой теме.
На первый взгляд, алгоритм видится такой:
Вычисляю все признаки и подаю их на вход НС (все, в том числе и мои "100%-ные"). Далее, если "100%-ные" признаки позволяют мне классифицировать письмо без помощи НС, то результат этой классификации сравниваю с выходом НС. Если результаты классификации не совпали - подаю этот набор на вход для обучения.
(Исхожу из предположения, что признаки спама статистически коррелируют между собой. Совсем грубо говоря: наличие слова "виагра" коррелирует с наличием слова "цена", а также с подделанной строчкой Received.)
А сомнения меня гложат такие:
1. Отношение спам/не_спам назвать затрудняюсь, но оно ГАРАНТИРОВАНО выше 1000 ... То-есть, в автоматически формируемой обучающей выборке примеров "не_спама" будет меньше 0.1% И есть у меня опасение, что сеть к этому "привыкнет" и станет валить в спам все подряд... Вопрос: как от этого застраховаться ?
2. А не получится ли так, что сеть в процессе обучения быстренько "обнаружит" среди полного набора признаков мои "100%-ные" и далее будет смотреть исключительно на них (а остальным присвоит нулевые коэффициенты) ? Может правильней как раз их на вход НЕ подавать ?
Идея подать их на вход вызвана тем, что часть из них, бывшая "100%-ными" ранее, сегодня таковыми быть перестала, превратилась в "99%-ные", грубо говоря

Логично предположить, что "вес" ПОЧТИ ЛЮБОГО признака может меняться со временем, а потому хотелось бы отслеживание этого свалить на автомат...
Буду благодарен за любые здравые мысли.
PS А если, в результате "механического" анализа письма я прихожу к выводу "скорей всего спам, но твердой уверенности нет" - стОит ли такое письмо подавать для обучения, с желаемым значением выхода типа 0.9, или не стОит ?...