Искать или не искать - вот в чем вопрос.
Автор будет очень признателен, если Вы кликнете по одной из белых ссылок выше.
Вам это ничего не стоит, а автору сайта будет приятно ;)
Все продукты Вадима Ласто в той или иной степени ориентированы на монетизацию. Заработок любыми средствами, удобство посетителей на втором плане - почти эталон спартанского минимализма в действии. Но жаловаться грех - хотите "рюшечек" - берите другой движок, благо их в сети навалом. И большинство даже раздаются бесплатно. Однако ж давайте поговорим о том, чем уже активно пользуемся - о Ласто-блоге и Ко.
Как уже сказано, этот софт ориентирован в первую очередь на притягивание поискового трафика, а не на номинирование в конкурсе "Мега комфорт-2010". Отсюда и весьма ограниченные удобства для пользователей. И это касается не столько владельцев сайтов, сколько посетителей. Например блог не обладает такой (практически ставшей уже стандартом для блогов) вещью как облако тэгов. И хотя скрипт имеет достаточно развитый механизм для автоматического наращивания количества страниц и создания лабиринта для поисковиков, облако тэгов в этом плане тоже не плохо смотрится. Но ко всему оно еще и очень удобно для пришедших серферов.
Вторым заметным недостатком является поиск по сайту. Вот об этом и поговорим.
Автора блога здесь винить не в чем, он и так сделал все достаточно грамотно, пытался соблюсти некий баланс удобства с ресурсопотребления. И вышло, надо сказать, довольно удачно. Но все же...
Я думаю, что никто не станет спорить, что на сегодняшний день ни один более-менее крупный сайт (естественно сделанный для людей) не может обойтись без качественной поисковой системы. Навигация по сайту - это основа удобства работы. И если посетители вашего сайта не могут найти на нем нужную им информацию, то не ждите от них благосклонности и уважения. А следовательно и повторных заходов.
К слову сказать, серьезные сайты тоже страдают этой проблемой - кривым поиском. Частично проблему позволяет решить такая штука как карта сайта. Но если ресурс действительно крупный (а даже средние блоги могут легко заиметь несколько сотен докуметов), то в карте сайта уже нет места для прописки каждой страницы - только разделы и секции, что не есть хорошо, т.к. серферы ленивы и капризны и если в первые две минуты они не смогли получить то, что хотят - поминай их как звали.
Ситуация с созданием качественного поиска осложнена тем, что "великий и могучий" очень фигово поддается машинному анализу и построить серьезную поисковую систему весьма трудоемко. Англоговорящим буржуям в этом смысле повезло гораздо больше - у них слова практически не изменяются и даже банальный LIKE в SQL-запросе способен дать вполне приемлемые результаты. Но вот с русским такая фишка не проходит - два слова, различающиеся всего одной буквой будут расценены как разные. Наши падежи, роды, времена, склонения, спряжения и прочие приставки-суффиксы портят всю малину.
Поскольку сравнение "в лоб" не проходит, приходится искать другие, обходные пути. Например использовать для сравнения строк так называемое расстояние Левенштейна.
Если не вдаваться в подробности, то этот алгоритм просто сравнивает два слова и выдает число, которое является показателем, сколько нужно сделать вставок, замен и удалений символов, чтобы из первого слова получить второе.
Т.е. для организации поиска можно использовать, например, такой подход: если расстояние Левенштейна между двумя словами меньше 2, то считаем, что слова одинаковы (совпадают по смыслу, являются однокоренными). Кстати, похоже именно этот алгоритм используется механизмом поиска в Ласто-блоге.
Этот подход дает достаточно приемлемые результаты. Так например слова "блог", "блога", "блогу", "блоге" получаются совпадающими. В принципе не плохо, Но (как обычно) есть и подводные камни. Причем сразу несколько.
- Алгоритм довольно медленный, а учитывая какую гору информации необходимо перелопатить использование его ставится под вопрос.
Допустим, что на сайте сотня страниц, каждая из которых содержит примерно 1000 слов. Да еще посетитель ввел в запросе не одно слово, а сразу три. Получается, что нужно произвести 300 000 сравнений, чтобы получить полный результат. Естественно, что процесс можно оптимизировать - удалить заведомо ложные (неискомые) слова, прекращать поиск при первом совпадении, хранить словари и т.д... Но все равно, даже если придется проделать в 50 раз меньше сравнений, нагрузка получается довольно большая. И это для сайта всего из сотни страниц.... - Анализ количества действий для преобразования одного слова в другое на самом деле все же довольно туп, т.к. в приведенном выше примере слово "блог" совпадет не только с реально однокоренными словами, но и со словами, совершенно никакого отношения к искомому не имеющими. Например слово "блоК" так же будет учтено. Соответственно результаты поиска будут захламлены нерелевантными документами, которые просто содержат слова похожие на искомые. Что собственно и наблюдается в результатах поиска по блогу.
Для поисковиков такое захламление только в плюс - увидят лишние ссылки на внутренние документы. А вот посетителям врядли понравится листать десятки страниц выдачи, наблюдая практически полное отсутствие релевантности найденного искомому.
Вторая крупная проблема, возникающая при создании поискового механизма для крупного сайта, состоит в неоднородности содержимого этого самого сайта. Тут тебе и магазины и форумы и блоги и новости и еще черт знает что. И каждый модуль хранит свои данные в своем собственном формате и в своих базах. Поэтому создать по настоящему универсальный поиск для большого разнородного сайта - та еще задача.
Какие же могут быть варианты решения?
- Написать свой мега-умный алгоритм анализа, учитывающий специфику славянского языка, понимающий фигову кучу форматов и самостоятельно отделяющий зерна от плевел.
- Использовать сторонние разработки, специально для такой работы заточенные.
Собственно реально приемлемый вариант только один, т.к. врядли кому-то придет в голову идея писать нейронные сети на PHP, да и мозг можно повредить, занимаясь таким неблагодарным делом. Не говоря уж про хостера, которому очень не хочется отдавать 99% ресурсов сервера под ваш скрипт.
Остается только второй вариант - использование сторонних сервисов. Благо их в достатке - все поисковые машины только для того и рождены, чтобы реализовывать этот самый поиск. И разрабатывались они не пионером-одиночкой, а целыми командами дипломированных специалистов, специально для такой работы обученных. Нам же остается только лишь придумать способ использования их ресурсов для наших целей.
Тут так же есть варианты.
Почти каждый из поисковиков предоставляет возможность хозяевам сайтов разместить у себя на страницах специальный код, который соорудит в броузере формочку для комфортного поиска по вашему ресурсу. Последние варианты этих поделок даже умеют интегрировать результаты работы в существующий дизайн сайта, для еще большего комфорта.
К недостаткам же стоит отнести то, что такие механизмы либо платные, либо будут втихаря крутить на вашем сайте разную рекламу, либо не позволят встроиться в дизайн и будут тупо перенаправлять ищущих на свои сайты, где опять же будут крутить рекламу....
К тому же даже во встроенном варианте результаты поиска будут генерироваться java-скриптом, а значит не могут являться сырьем для создания сети внутренних линков, поскольку поисковикам они будут не видны.
Вот, собственно, и задача сформировалась: создать нечто, что будет использовать для поиска по сайту ресурсы какой-либо из поисковых машин и при этом результаты будет встраивать в страницу сайта в виде полноценных статичных и видимых всеми ссылок.
Убиваем сразу четырех зайцев:
- не нужно ломать ум над сверх-интеллектуальным алгоритмом анализа текста
- не нужно жрать ресурсы хостера на реализацию поиска по сверх-интеллектуальному алгоритму и соответственно заставлять серфера ждать, пока наш "мега-сыщик" найдет что-нить подходящее.
- не нужно крутить бесплатно чужую рекламу и надеяться, что у серфера не отключена поддержка java-script в броузере.
- получаем добавочную внутреннюю перелинковку, опять же дико-релевантную, которю видят поисковики.
Теперь, внимание, вопрос! А нужно ли все это?
Точнее, ставить его нужно так: а много ли сайтов, построенных на ласто-блогах, реально сделаны для людей, а не для тупой продажи ссылок?
Если действительно много, тогда стоит заняться реализацией вышеописанной приблуды. Ну а если нет, то... на "нет" и суда нет.
Отписывайте свои пожелания и мысли в комментах, а заодно вот тут можете пронаблюдать черновичек, реализующий поиск по этому сайту с помощью гугля.
Может для "сплоговодов" и "саперов" не очень нужно, но лично у меня именно СДЛ на скрипте блога и множество страниц. И полноценный поиск по всем страничкам в общем нужен и как собственно качественный сервис и как средство перелинковки.
Очень клёво было б заиметь такую штуку на нанке. Думаю, разницы особой в скрипте не будет.
(17 июня 2009, 14:29)Совершенно не проблема. Этот скрипт не привязан к движку, поэтому его можно (немного поколдовав) прикрутить к любому сайту, хоть на Nano, хоть на ворд-пресс. В принципе, если хостер позволяет использовать на сайте PHP, то даже на HTML'ьный сайт прикрутится, правда колдовать немного больше придется.
Кстати, вот тут: http://fit-media.com/ys.html таже приблуда, но уже использующая Яндекс в качестве движка (он сильнее любит этот сайт) 
Можно получить тулзу в мозолистые руки вебмастера?
Заранее благодарен 
Что-то мне подсказывает, что автор всё-таки решился пользовать редактор BUEditor для своего блога
Радует!
На движке Ласто есть обычные блоги, можете сами убедиться http://www.moneymaker-blog.biz И всякие улучшения только приветствуются. А после того, как сейчас пройдет update таких нормальных блогов станет больше.
Кстати, купила такой редактор, но еще не поставила. Теперь посмотрела в действии. А не помешает его установка нормальному up-dete блога?
Платите за воздух, товарищи
Это я про этот движок и все с ним связанное.
1. Поиск здесь педальный секунд 15-20 можно дожидаться ответа от сервера. Кто не верит может попробовать ввести побольше слов ))
2. тема поиска не раскрыта.
3. если спросить у гугла как? то всё уже придумано (без нейронных сетей) )))
4. у меня реализация нормальной поисковой системы на MysqL заняла 3 дня (ну может ещё немного на фиксы) (на постгри было бы немного прощё).
5. Выборка из базы (пронидексировано 100 -200 страниц) на дохлом домашнем компе занимает 0.1 - 0.2с (для большого запроса). На постгри (в последних версиях) это работало бы ещё быстрей и проще, т.к. там всё это уже встроено
(15 сентября 2009, 03:33)блоговому поиску низачот статье 3-
К сожалению, Виталий, Вы не поняли идеи статьи, поэтому Ваша критика мягко-говоря неуместна. Но все же...
Поиск здесь педальный секунд 15-20 можно дожидаться ответа от сервера. Кто не верит может попробовать ввести побольше слов ))
Если Вы про "стандартную систему" поиска блога, то ее основные недостатки и описаны в статье. Зачем повторяться? К тому же 15 секунд - это Вы уж явно хватили. Приведите, пожалуйста, текст запроса, который у Вас занял столько времени.
Если же вы о реализации поиска через гугль, то тут ни о каких 15 секундах вообще речи быть не может. Скорость ответа практически равно скорости ответа самого гугля.
2. тема поиска не раскрыта.
Ага. И сисек тоже нет.
Я не ставил себе целью "раскрывать тему поиска". Просто рассказал, что можно использовать мощности поисковиков в своих интересах, вместо того, чтобы изобретать велосипед (на постгри или мускуле - без разницы).
3. если спросить у гугла как? то всё уже придумано (без нейронных сетей) )))
Угу. Вот только результат будет выдаваться жаба-скриптом, а значит поисковики его не проиндексируют, а именно это нас и не устраивает. Читайте пост внимательно.
4. у меня реализация нормальной поисковой системы на MysqL заняла 3 дня
Рад за Вас. И я уверен, что с русским у нее все в полном порядке: склонения она понимает, и наклонения, и падежи, и глаголы с приставками и суффиксами во всех временах. Гугль рядом не стоял. 
5. Выборка из базы (пронидексировано 100 -200 страниц) на дохлом домашнем компе занимает 0.1 - 0.2с
Для справки: движек данного сайта не использует НИКАКХ бд - все данные хранятся в файлах и этот сайт на самом деле сейчас содержит около 4к страниц. 
1 - относится к ластоблогу. Ну ладно про 15-20 я загнул, но сек 10 было точно. запроса уже не помню, а если тыща зомбокомпов полезут одновременно???
2. ну так и быть. на нет и суда нет
3.никаких жабаскриптов. только нормальный моск програмера
почитай хотя бы здесь.
http://valera.ws/2007.09.05~morpho_search_in_mysql /
готового рецепта там нет, зато есть куча полезных мыслей. немного переварить - и в бой
4. с результатами поиска у неё гуд. (как залью в инет (мот через пару месяцев) ссылку брошу) только словоформы иногда неадекватные генерятся. но основные проблемы фиксятся наура. но гугла всё-таки качвенней.
5. ни на чём большом не тестил, но временные затраты особо вырости не должна.(особо не напрягался, ещё можно кучу всего оптимайзить)
(16 сентября 2009, 02:58)
Тема топика реализовано в Портаторе. Но ежели будет подобная приблуда и для блога это только плюс.
(17 июня 2009, 04:52)