С 15 по 19 октября 2010 года в городе Казань проводилась очная часть РОМИП —
РОМИП — это некоммерческий проект, который осуществляется силами сообщества российских исследователей и разработчиков, занимающихся информационным поиском. Целью семинара является создание плацдарма для проведения независимой оценки методов информационного поиска, а также консолидация сообщества российских исследователей и разработчиков, занимающихся информационным поиском. Организаторы РОМИП ежегодно приглашают к участию всех заинтересованных лиц — создателей поисковых систем, исследователей, занимающихся проблемами информационного поиска. В оргкомитете РОМИП собраны представители таких организаций, как Московский Государственный Университет, Яндекс, УИС Россия и другие.
Аналитики сервиса ROOKEE подготовили исследование, в рамках которого изучаются сразу несколько задач информационного поиска. Забегая вперед, следует сказать, что по результатам предложенные нами алгоритмы заняли 1 и 2 места в соответствующих дорожках. Неплохой результат для дебюта!
Александр Салтыков (руководитель отдела проектирования сервиса ROOKEE), Сергей Куротченко (аналитик отдела проектирования) и Роман Дорохин (программист отдела проектирования) разработали алгоритм контекстно-зависимого аннотирования документов.
Аннотирование веб-документов является важным критерием качества любой поисковой системы. Оно подразумевает составление краткой аннотации (сниппета) ограниченной длины (обычно это текст длиной 150-400 символов). Такая аннотация должна представить пользователю поисковой системы наиболее полную и ценную информацию о странице в соответствии с введенным запросом.
Достоинства предложенного алгоритма:
1. Хорошая читаемость аннотации — аннотация часто содержит законченные предложения, наиболее полно формирующие представление о странице по введенному поисковому запросу,
2. Простота,
3. Высокая скорость работы.
Кстати, как показали «опыты», полученные по данному алгоритму аннотации в 52% случаев содержат фрагмент из сниппета Яндекса, который формирует поисковая система по тому же запросу.
Вторая разработка, представленная нашей командой на РОМИП — это алгоритм тематической классификации веб-страниц и веб-сайтов. Над его созданием трудились Сергей Панков (технический директор сервиса ROOKEE), Сергей Шебанин (руководитель отдела разработки) и Александр Рыбаков (системный аналитик отдела проектирования).
Тематическая классификация сайтов — задача, которая становится все более актуальной в связи с необходимостью ориентироваться в огромных объемах информации в интернете. В исследовании описано решение двух основных задач: поиск документов по заданной тематике и определение тематики для заданного сайта.
На рисунках приведены результаты участников дорожек РОМИП 2010 классификации веб-станиц и веб-сайтов по метрике AND. По этой оценке, релевантными считались только те результаты, которые были признаны релевантными всеми асессорами.
Сравнительные результаты классификации страниц, оценка AND
Стоит отметить, что для участия в РОМИП использовалась упрощенная версия классификатора. Версия, которая сейчас реализована в системе ROOKEE для классификации сайтов на порядок сложнее.
От всей души поздравляем наших коллег с действительно достойными результатами и желаем дальнейших успехов.
А напоследок небольшой фотоотчет о РОМИП из Казани!
Один из красивейших видов Казани
Наша команда. Только с поезда
Сергей Панков (технический директор ROOKEE) отвечает на вопросы после доклада
Александр Салтыков (руководитель отдела проектирования)
Андрей Канунников (ведущий аналитик)
Общение в кулуарах с руководителем службы оценки качества поиска Яндекса, Романом Поборчим
Илья Зябрев aka G00DMAN