Просмотров: 8350

Яндекс изнутри: поговорим о потрохах русского поиска


У нас не так уж много ИТ-компаний, про которые можно уверенно сказать, что «это проект мирового уровня». Сегодня я бы хотел малость тормознуть на Яндексе, пока ещё главном поисковике нашей страны. Почему «пока»? Я ещё в далеком 2012 году в общих чертах объяснял почему и делал прогноз о том, что Гугля скушает наш слаатенький Яндекс с потрохами, и вот мы видим то, что согласно самым последним и свежим данным доля Yandex-Поиска продолжает скукоживаться на глазах.

Очень зря Yandex недавно суматошно пытался выдавить это противостояние в юридическую плоскость, потому что это скорее жест отчаяния — никакую проблему по существу это не решает. Гугл инвестировал бабло вдолгую и как результат создал свою собственную мобильную ОС, которую теперь добровольно предустанавливают тысячи производителей гаджетов по всему миру. И  вот недавно (внезапно!) наступила эпоха мобильных девайсов-гаджетов, понятно чем это закончится для олдфажного Яндекса: вот она стратегическая точка перегиба в мае 2016, а вот оно уже движение под откос согласно текущим статистическим данным. Но не будем о грустном, всё в этом мире относительно — лично я считаю, что даже при таком негативном раскладе тот же Яндекс ещё переживёт Газпром, хе-хе.

Короче говоря, безотносительно к рыночным реалиям, Yandex — реально сложный, интересный и передовой проект. И в этом посте я собрал 4 видео, в которых говорливые инженеры из Яндекса очень откровенно рассказывают про техническое устройство этой самой махины. Обычно хлопцы из Яндекса весьма замкнутые на себе интроверты, которые свято блюдут секреты отечественного поиска, трепетно оберегая его толи от продажно-ссылочной SEO-индустрии, толи от заокеанского конкурента-супостатота Google, но на этот раз они наговорили ртом столько, что на осмысление всего услышанного нужно время.

Итак, на каких таких физических принципах фурычит ентот отечественный поисковый аппарат?

  • Устройство поиска «Яндекса» с инженерной точки зрения;
  • Вызовы поискового облака Яндекса;
  • Об основных принципах ранжирования Яндекса и о том, как компания добивается максимальной релевантности результатов поиска;
  • Сетевая инфраструктура хранения и обработки данных Яндекс.

Вот такие вот четыре свеженьких и слаатеньких инсадерских видео-доклада от 2016 года я собрал и аккуратно выложил под кат для всего честного айтишного народа.

Сокровенное про устройство «Яндекса»

Яндексоиды рассказывают по-русски про мир Big Data и High Load, про реальные решения для развертывания промышленного поиска. Помимо безусловной полезности, порой просто любопытно заглянуть под капот таких гигантских программных конструкций, которые невозбранно пасутся на бескрайних серверных просторах «Яндекса».

Признаюсь, зрелище «миллиона процессорных ядер» лично меня завораживает...

1. Пётр Попов: Поиск «Яндекса» с инженерной точки зрения

Поисковая система Яндекса содержит своего рода слепок интернета. Мы пишем программы, которые быстро ищут по этому слепку, находят в сети новые интересные для пользователей страницы, пополняют и обновляют поисковый индекс. Нам важно сохранять в поисковой базе как можно больше документов, так как в объеме индекса заключается продуктовое преимущество.

В докладе речь пойдет об основных технических характеристиках поиска Яндекса. Вы узнаете, почему суммарная мощность наших дата-центров переваливает за миллион процессорных ядер и какие технологические и инженерные вызовы стоят перед нами.

2. Олег Фёдоров: Вызовы поискового облака.

Краткое содержание этого видео:

— «Не все йогурты одинаково полезны»: как выбрать правильный процессор или сервер по соотношению «цена — производительность».
— Как заполнить рюкзак камнями, песком и водой: распределение ресурсов в облаке.
— Как чинить двигатель самолета в воздухе: балансировка нагрузки между дата-центрами.
— И овцы сыты, и волки целы: изоляция, виртуализация и discovery в облаке.
— «Хьюстон, у нас проблемы...»: поиск аномалий, факап или релиз.

3. Александр Сафронов: Как найти лучшие ответы.

Размеры интернета колоссальны, и задача поисковой машины — мгновенно найти в этом космосе то, что нужно пользователю. Иначе говоря, необходимо упорядочить документы так, чтобы в начале списка оказались наиболее релевантные. Но как отличить хорошие документы от плохих, а наилучшие от хороших?

В докладе пойдёт речь об основных принципах ранжирования Яндекса и о том, как мы добиваемся максимальной релевантности результатов поиска. Вы узнаете, что такое факторы ранжирования и какие они бывают, какую роль играет в ранжировании машинное обучение и зачем поиску нужна лингвистика.

4. Яндекс изнутри: инфраструктура хранения и обработки данных

Наша инфраструктура хранения и обработки данных уникальна. Суммарный объём данных, которыми оперирует Яндекс, измеряется эксабайтами, а требования к системам хранения — очень жёсткие.

Руководители команд и ведущие разработчики направления инфраструктуры расскажут, как удаётся добиться согласованной работы огромных дата-центров, что такое Media Storage, YT и Yandex Query Language. Слушатели узнают, как устроена СУБД ClickHouse, на основе которой работает Яндекс.Метрика. И ещё — всем наконец-то станет известно, сколько же в Яндексе MapReduce-систем.

5. Неформальная видео-экскурсия по московскому офису Яндекса

И в качестве невинного бонуса — центральный офис Яндекса в Москве изнутри:

Все пять приведенных видео — за 2016 год и на русском языке.


Ключевые слова: Это серверная Яндекса, как устроены алгоритмы поиска в Яндексе, как накручивать поиск и выдачу серпа. Сервера и возможности инфраструктуры Яндекс, его поиск, устройство и балансировка нагрузок HiLoad, защита от атак и топология сети. Как работает и устроен поиск на примере Google и Yandex, как ранжируются результаты и формируется поисковый серп, а также поисковая выдача. Как устроен поиск изнутри и внутри настоящей поисковой машины, боты и граберы, поисковые парсеры и роботы, обстукивалки которые барражируют интернет и читают эти строки. Описание устройства работы, устройства и структуры поиска у Яндекса и его серверов. Индексация больших массивов информации и их анализ через Big Data. Как работает и ищет яндекс в интернете и чем он отличается от поиска Гугла?

twitter.com facebook.com vkontakte.ru odnoklassniki.ru mail.ru ya.ru pikabu.ru blogger.com liveinternet.ru livejournal.ru google.com bobrdobr.ru yandex.ru del.icio.us

Подписка на обновления блога → через RSS, на e-mail, через Twitter
Теги: , , , ,
Эта запись опубликована: Четверг, 20 октября 2016 в рубрике Обзоры.

4 комментария

Следите за комментариями по RSS
  1. Яндекс это наглость и хамство. Без мыла лезет в Ж... Навязывают всюду свой ср-ный броузер. Уроды.

  2. Яша... Гоша...

    Еще много-много лет назад я удивлялся, почему многие ищут Яндексом? Для меня Гугл всегда был более качественным поисковиком. Если взять последние лет 8-10, то с точки зрения пользователя хорошо заметна эволюция обеих систем, имеется много параллелей. Одна из них заключается в том, что Яша почти всегда был на шаг позади и копировал тренды Гоши. Парадокс в том, что Яндекс, в отличие от Гугла, практически невозможно рассматривать без оглядки на Гугл.

    Вообще, здесь без поллитры и статьи с продолжением не обойтись, комментария маловато для освещения таких монстров, как Я. и Г. А ведь есть ещё якобы конкуренты. Плюс ниша поисковиков второго и третьего эшелона.

    > Суммарный объём данных, которыми оперирует Яндекс, измеряется эксабайтами

    Какая тонкая фраза. Лучше сравнить объем серверов Гугла и Яндекса. Отдельно алгоритмы. Отдельно сервисы. Отдельно качество. И вместе подбить итог. А оперируют они оба "эксабайтами".

    P. S.

    Окей, Яндекс, скажи мне, где твоё такси за полтос?

    Молчание...

    Окей, Гугл, скажи мне, где Я.Такси за полтос?

    Спасибо, Гугл.

  3. >Гугл инвестировал бабло вдолгую и как результат создал свою собственную мобильную ОС.

    Ага, создал, конечно.

    Только давайте не будем забывать что гугл взял ядро гну/линукс, а ядро Linux стоит примерно 1,4 миллиарда долларов и над ним трудилось очень много умных IT специалистов и распространяется он под лицензией GNU GPL (это означает что код принадлежит всему человечеству и не какая корпорация добра не может просто взять и присвоить его себе).

    А гугл в свою очередь добавил пару рабочих столов и стор для приложений. (драйвера для своих устройств пилят сами разработчики устройств)

    Это все значит, что гугл пытается заработать, присвоив себе труды других людей. А яндекс пытается ему противостоять и это, я считаю хорошо.

  4. По ссылке, скукоживание доли Яндекса на рынке связано с растущей популярностью смартфонов на базе Android, на десктопах (лэптопах) для Яши все ОК. Более того, по СЕОшным данным, веб-мастера стали больше вешать рекламы от Яши, по "выхлопу" выгоднее, чем от забугорной Гугли (до кризиса ситуация была обратной). Кой-какие фишки Яши уникальны (типа опции "Оригинальные тексты" для сайтов от 10 тиц), сервис развивается, так что "не дождетесь", как в том анекдоте;))...

Оставьте комментарий!

Не регистрировать/аноним

Используйте нормальные имена. Ваш комментарий будет опубликован после проверки.

Зарегистрировать/комментатор

Для регистрации укажите свой действующий email и пароль. Связка email-пароль позволяет вам комментировать и редактировать данные в вашем персональном аккаунте, такие как адрес сайта, ник и т.п. (Письмо с активацией придет в ящик, указанный при регистрации)

(обязательно)


⇑ Наверх
⇓ Вниз