ROOKEE дебютировали на РОМИП

С 15 по 19 октября 2010 года в городе Казань проводилась очная часть РОМИП — 8-ой Российский семинар по оценке методов информационного поиска. В этом году активное участие в семинаре приняла команда сервиса ROOKEE: мы представили свои технологические решения сразу в двух дорожках.

РОМИП — это некоммерческий проект, который осуществляется силами сообщества российских исследователей и разработчиков, занимающихся информационным поиском. Целью семинара является создание плацдарма для проведения независимой оценки методов информационного поиска, а также консолидация сообщества российских исследователей и разработчиков, занимающихся информационным поиском. Организаторы РОМИП ежегодно приглашают к участию всех заинтересованных лиц — создателей поисковых систем, исследователей, занимающихся проблемами информационного поиска. В оргкомитете РОМИП собраны представители таких организаций, как Московский Государственный Университет, Яндекс, Mail.ru, Oracle Corporation, HP Labs, Facebook, УИС Россия и другие.

Аналитики сервиса ROOKEE подготовили исследование, в рамках которого изучаются сразу несколько задач информационного поиска. Забегая вперед, следует сказать, что по результатам предложенные нами алгоритмы заняли 1 и 2 места в соответствующих дорожках. Неплохой результат для дебюта!

Александр Салтыков (руководитель отдела проектирования сервиса ROOKEE), Сергей Куротченко (аналитик отдела проектирования) и Роман Дорохин (программист отдела проектирования) разработали алгоритм контекстно-зависимого аннотирования документов.

Аннотирование веб-документов является важным критерием качества любой поисковой системы. Оно подразумевает составление краткой аннотации (сниппета) ограниченной длины (обычно это текст длиной 150-400 символов). Такая аннотация должна представить пользователю поисковой системы наиболее полную и ценную информацию о странице в соответствии с введенным запросом.

Достоинства предложенного алгоритма:

1. Хорошая читаемость аннотации — аннотация часто содержит законченные предложения, наиболее полно формирующие представление о странице по введенному поисковому запросу,

2. Простота,

3. Высокая скорость работы.

Кстати, как показали «опыты», полученные по данному алгоритму аннотации в 52% случаев содержат фрагмент из сниппета Яндекса, который формирует поисковая система по тому же запросу.

Вторая разработка, представленная нашей командой на РОМИП — это алгоритм тематической классификации веб-страниц и веб-сайтов. Над его созданием трудились Сергей Панков (технический директор сервиса ROOKEE), Сергей Шебанин (руководитель отдела разработки) и Александр Рыбаков (системный аналитик отдела проектирования).

Тематическая классификация сайтов — задача, которая становится все более актуальной в связи с необходимостью ориентироваться в огромных объемах информации в интернете. В исследовании описано решение двух основных задач: поиск документов по заданной тематике и определение тематики для заданного сайта.

На рисунках приведены результаты участников дорожек РОМИП 2010 классификации веб-станиц и веб-сайтов по метрике AND. По этой оценке, релевантными считались только те результаты, которые были признаны релевантными всеми асессорами.

Сравнительные результаты классификации страниц, оценка AND

Стоит отметить, что для участия в РОМИП использовалась упрощенная версия классификатора. Версия, которая сейчас реализована в системе ROOKEE для классификации сайтов на порядок сложнее.

От всей души поздравляем наших коллег с действительно достойными результатами и желаем дальнейших успехов.

А напоследок небольшой фотоотчет о РОМИП из Казани!

Один из красивейших видов Казани

Наша команда. Только с поезда

Сергей Панков (технический директор ROOKEE) отвечает на вопросы после доклада

Александр Салтыков (руководитель отдела проектирования)

Андрей Канунников (ведущий аналитик)

Общение в кулуарах с руководителем службы оценки качества поиска Яндекса, Романом Поборчим

Илья Зябрев aka G00DMAN

(Голосов: 6, Рейтинг: 5)