Заказчикам: новый поиск в магазине статей - сортировка по релевантности
Сделали правильную сортировку по релевантности в магазине статей. Ранее сортировка была не совсем нормальной. Сортировка по релевантности теперь установлена по умолчанию.
Хоть я в сервисе недавно, но понимаю, что это нововведение ни к чему хорошему не приведет. Ввел в поиск "раскрутка сайтов". На первом месте статья автора, у которого 200% доработка !!! Я так полагаю, что приоритет у статей, в которых ключевики встречаются чаще. Но, чем больше ключевых фраз, тем хуже читаемость текста, больше воды. При этом также теряется смысл.
Я знаю, что такое релевантность и по ссылке прочитал информацию. Можно подумать, что у компьютера мозги появились и он начал понимать смысл статей, а не тупо оценивает статью по наличию ключевых фраз.
Релевантность - это не оценка статьи по наличию ключевых фраз.
"...Соответствие документа информационному запросу, определяемое неформальным путем. Одним из методов для оценки релевантности является TF-IDF-метод. Его смысл сводится к тому, что чем больше локальная частота термина (запроса) в документе (TF) и больше «редкость» (то есть чем реже он встречается в других документах) термина в коллекции (IDF), тем выше вес данного документа по отношению к термину — то есть документ будет выдаваться раньше в результатах поиска по данному термину..."
Сортировка по релевантности позволяет выбрать из всех наших статей наиболее подходящие. Если поиск с сортировкой по релевантности не дает нужных результатов, значит просто нет необходимых статей. Если это не так - покажите примеры. Если статьи плохие или некачественные - пишите в ЛПА.
Материал из Википедии :) Чтобы раскрыть эту тему, надо будет написать большую статью (понятно не в комментах). Конечно релевантность учитывает много факторов, но главный принцип - это соответствие ключевой и похожих фраз (хотя все остальные факторы в сумме могут нести больший вес). Если вы с этим не согласны, то не вижу смысла продолжать дискуссию.
Вы каждый раз забываете самое главное - коллекцию документов. Без коллекции документов релевантности не существует. И расчитывается релевантность исходя из коллекции документов.
Вы пытаетесь доказать, что релевантные документы - это плохо читаемые документы с большим количеством ключевых фраз, с большим количеством "воды" и с малым смыслом. Это не верно, вы заблуждаетесь. Изучайте матчасть.
При такой сортировке статья "Как выбрать «правильное» агентство недвижимости? Копирайтинг / 4329 символов / 4.763 у.е. (1.10 у.е. за 1000) Категория: Недвижимость / Язык: Russian — Русский / Автор: Smakota / все статьи Извещения" встречается в конце каждой странице и другие статьи при такой сортировке так же повторяются.
Сергей, мне сам принцип построения поиска очень нравится. Но нельзя ли более конкретизировать разделы в магазине? Например, статью про мебель, куда её разместить в Дом и быт или в Торговлю, а может в Моду и стиль? Это же можно сказать о дизайне. Или, например раздел Дом и быт, там все вперемешку и рецепты и стирка-уборка и много чего. Можно было бы каждый раздел разделить на подразделы.
В простейшем случае, релевантность текста определенному запросу — это процент вхождения запроса к общему объему текста. Для поисковых систем высокорелевантным текстом считается такой, где вхождение запроса в текст примерно равно 4-7% — меньшего может не хватить, большее чревато тем, что система сочтет текст за поисковый спам и наложит на страницу некий понижающий фильтр или может вообще убрать страницу из результатов выдачи по искомому запросу.
Конечно, каждая поисковая система использует гораздо более сложные способы вычисления релевантности документов запросу пользователя. Тем не менее, несмотря на то, что алгоритмы у всех поисковых машин разные, они построены на общих принципах — основные отличия результатов выдачи заключаются не в алгоритмах определения релевантности, а в конкретных способах реализации этих алгоритмов.
Значит, такой текст не всем может подходить, и, по моему мнению, такая сортировка не должна стоять по умолчанию.
Согласен с lakki2 сортировка по ревалентности не должна стоять по умолчанию, пусть этот параметр выбирают заказчики, которые этот термин понимают. Такое впечатление, что для большинства это воспринимают, как необходимое, не задумываясь о принципе работы системы.
При поиске любой информации в любой коллекции документов основная сортировка - сортировка по соответствию результатов запросу, что и есть сортировка по релевантности. Не понимать это и пытаться опровергнуть глупо. Свое общение с вами закрываю. Повторюсь - за флуд буду банить.
У меня по этому поиску статья "Дары моря" в категории "Дом и быт" внизу каждой страницы. Я считаю, что такая сортировка не должна стоять по умолчанию. Мне лично мешает постоянно переключать. Или сделайте в настройках выбор что стоит по умолчанию. Или возможность запомнить выбор.
Ищу: категория - авто и мото, сортировка - цена по возростанию, длина от 1000, текст - не задано. Результат: цены 1,85; 1,32; 1,17; 0,89; 1,06... Какая ЭТО сортировка?
Ппц, вы намудрили. Ничего не ищет новый поиск. С вечера вчерашнего. Ни по релевантности, ни по другим опциям. При установке "Цена 1000 знаков по возрастанию" вообще полная каша. При поиске ключевого слова вообще пусто в выдаче.
Блин, злюсь. Вы бы сперва потестили на резервах, а не в живом проекте. *madmad*
Добрый день, меры принимаем. Исправлены работы всех фильтров. Остался поиск по слову (на данный момент работает поиск по фразе) В ближайшее время исправим.
Публикация комментариев и создание новых тем на форуме Адвего для текущего аккаунта ограничено. Подробная информация и связь с администрацией: https://advego.com/v2/support/ban/forum/1186