Изменения

Перейти к: навигация, поиск

Highload-2023: Отчёт Виталия Филиппова

2340 байтов добавлено, 22:21, 1 декабря 2023
Нет описания правки
= День 2 =
== Шардирование: с нуля до Яндекс Диска Петабайт в УДБ на ХДД ==
== Реконсиляция от Меликова =='''Антон Барабанов (Яндекс) — Петабайт в YDB over HDD в процессингах Яндекс.Метрики'''
== Хадуп в облаке ==Ну, реально пока не петабайт, а 500 ТБ. Но всё равно неплохо.
== Петабайт Суть - проверяли, как YDB справится с работой на HDD. Справилось в УДБ их применении в целом неплохо, правда, как обычно, всю автоматику поотрубали и распределение запросов написали своё. Хотя на вопрос "почему не YT(saurus)" ответили "так сложилось" :-). Не Clickhouse потому, что Clickhouse плохо работает с синхронной репликацией. Само применение - слияние визитов за сутки в метрике. То есть, на входе большой поток посещений сайтов и покупок (или других действий), на выходе надо посещения сцепить с действием, чтобы было понятно, что конверсия произошла. Для оффлайн-покупок аналогично, но дольше период - не сутки, а 20-30 дней, и данные сливает сам магазин постфактум, возможно даже вручную. Жёстких требований реального времени нет, но некоторые есть - надо, чтобы считалось 10-15 минут, а не сутки. С YDB сначала наткнулись на проблему потребления RAM, добавлять пришлось и RAM и CPU, т.к. сказали, что есть жёсткие профили виртуалок во внутреннем "облаке". В итоге CPU на 90% простаивают. Потом YDB не справилось с чтением блоков с HDD, т.к. читаем целыми блоками и только потом понимает, что данных нет, а bloom фильтр работает по полному первичному ключу, а они запрашивают по одному ID юзера. Для борьбы с этим ключи положили на SSD, данные визитов оставили на HDD. Ещё натыкались на ХДД ==то, что автосплит партици
== Как разрабатывается опенсорс в АЛЬТ ==
== SQL-регэкспы (MATCH_RECOGNIZE) ==
 
== Нагрузка или задержка? ==
== Индексы mail.ru ==
== PATCH в S3 ==
 
 
[[Категория:Конференции]]
[[Категория:VitaliPrivate]]

Навигация