Добро пожаловать, гость
:: алгоритмы  и методы :: :: олимпиадные задачи :: :: связь :: :: о сайте :: :: форум ::

Форум работает в режиме архива, только для чтения и поиска.
Архив 2004 Архив 2007 Архив 2013

 
 
Опции темы Поиск в этой теме Опции просмотра
  #1  
Старый 02.11.2010, 23:40
kvo kvo вне форума
Новичок

Отправить личное сообщение для kvo Посмотреть профиль Найти все сообщения от kvo
 
Регистрация: 24.10.2010
Сообщений: 1

Работа со строками. Процент совпадение
Ребята, нужна помощь...
Может кто знает алгоритм подсчета процента или коэффициента совпадения строк. То есть просчитать коэффициент совпадения и принять решения для синонимизации...
Реально нужно для синонимизации адресов предприятий.
  #2  
Старый 03.11.2010, 02:44
гость

 
Сообщений: n/a

http://en.wikipedia.org/wiki/Jaccard_index - не оно?

Только там брать, естественно, надо множество не букв, а н-грамм для начала.
  #3  
Старый 03.11.2010, 03:07
гость

 
Сообщений: n/a

А еще вот вспомнил, как вариант, на старой работе успешно юзал для кластеризации сниппетов - брать cosine similarity между векторами частот н-грамм. Т.е. каждая встречающаяся n-грамма - это отдельный индекс в векторе, значение по этому индексу - частота этой н-граммы в строке, cosine similarity - косинус угла между векторами, т.е. скалярное произведение нормированное на длины векторов. Мы брали n=3, кажется.

но хрен его знает, что лучше жаккард или косинус...
  #4  
Старый 03.11.2010, 03:18
гость

 
Сообщений: n/a

Сообщение от гость Посмотреть сообщение
значение по этому индексу - частота этой н-граммы
еще это дело можно на idf умножить, вот.
 


Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск
Опции просмотра


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Работа с множествами на Си Iworb Математические алгоритмы 2 30.03.2010 12:51
Работа с файлом GreenBeret Сортировка и поиск 9 15.09.2009 06:35
Проблема со строками в с++ гость Реализация, исходники, языки 16 15.05.2009 15:14
Рекуррентные двумя строками vosminog Математические алгоритмы (другое) 6 17.03.2009 17:47
Работа с классами Armaged_don Реализация, исходники, языки 2 17.12.2008 17:54