Добро пожаловать, гость
:: алгоритмы  и методы :: :: олимпиадные задачи :: :: связь :: :: о сайте :: :: форум ::

Форум работает в режиме архива, только для чтения и поиска.
Архив 2004 Архив 2007 Архив 2013

 
 
Опции темы Поиск в этой теме Опции просмотра
  #1  
Старый 27.08.2009, 15:45
Новичок

Отправить личное сообщение для termo Посмотреть профиль Найти все сообщения от termo
 
Регистрация: 27.08.2009
Сообщений: 1

Нахoждение тeрминoв в текстe
Есть задача - создать программу для нахождения терминoв для определенных кусков текста.

Например для текста:
"Агроном Василий Петрович надеется получить высокий урожай пшеницы используя летучие трактора на магнитно-резонансной подвеске"

этими тeрминaми будут
"летучие трактора" и "магнитно-резонансной подвеске"

Обычно такая задача решается без использования ИИ, с помощью статистических методов - на основе большой базы текстов на определенном языке подсчитывается частотность фраз и сравнивается с частотностью фраз в заданном тексте. Если в тексте она высокая - значит фраза является тeрмином.

Проблема в том что создание такой базы текстов является проблематичным и меня интересует можно ли решить эту задачу меньшей кровью используя нейронные сети ?

Я с нейронными сетями не работал, поэтому буду благодарен за советы по поводу того как лучше решить данную проблему (какую сеть выбрать, что почитать, где посмотреть схожие примеры реализации и тд)
  #2  
Старый 28.08.2009, 09:21
гость

 
Сообщений: n/a

Вроде бы, то что вы хотите называют noun phrase detection. Не знаю как оно по научному решается (надо гуглить, читать статьи...), но может быть вам подойдет такая простая идея - разбить текст на слова, для каждого слова определить часть речи (это широко известная задача, part-of-speech tagging, наверняка уже есть готовый софт и БД), ну и выбрать пары соседних слов прилагательное-существительное.

Сообщение от termo Посмотреть сообщение
Обычно такая задача решается без использования ИИ, с помощью статистических методов - на основе большой базы текстов на определенном языке подсчитывается частотность фраз и сравнивается с частотностью фраз в заданном тексте. Если в тексте она высокая - значит фраза является тeрмином.
Так вам нужно определять эти словосочетания на основе частот слов? Это уже совсем другая лингвистическая задача - поиск collocation'ов.

Ну, а база текстов - есть русская википедия, и яндексовский национальный корпус руссого языка.

Цитата:
Проблема в том что создание такой базы текстов является проблематичным и меня интересует можно ли решить эту задачу меньшей кровью используя нейронные сети ?
Нейросети - это популярная тема для студенчесих дипломов, но во на практике их (почти) никто не применяют. Статистические методы машинного обучения работают лучше.
 


Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск
Опции просмотра