13 651
правка
Изменения
Нет описания правки
** Казалось бы, тут должны быть сосиски, то есть EC-кодирование всего волюма-колбасы а-ля seaweedfs, но этого нет. Кодируется каждый объект отдельно. А чего тогда, писали бы сразу в EC…
* Жёсткая схема распределения места
** Как я понял, это значит, что при добавлении серверы/разделы сразу разбиваются на группы так, чтобы полностью покрыть ими всю ёмкость, и потом бакеты собираются только уже в конкретных заданных сочетания. И, видимо, как-то переоптимизируются при добавлении/удалении дисков. Я в Vitastor со своим lpsolve-ом тоже начинал с подобной идеи...идеи…
* Есть сжатие (zstd), которое позволяет 15 ПБ, превращённые с 2x репликацией в 30 ПБ, превратить обратно в 15 ПБ :).
Итог: ужали хранилище с 3000 серверов до 1500. Используют ещё в облаке (которое mail.ru диск, видимо) - — 80 ПБ данных в x1.5 и в сниппетах для поиска по почте - почте — 2.4 ПБ в x2. Средний размер объекта в почте 40 КБ при времени доступа 10 мс (90% - — 30 мс), средний размер объекта в облаке > 1 МБ при времени доступа 500 мс (90% - — 2 сек), в общем, плюс-минус как у голого HDD.
Что ещё хотят поулучшать: добавить автоматики (её нет в том числе из-за боязни админов - админов — мало ли автоматика сойдёт с ума), что-то придумать с лишними iops-ами при удалении, попробовать сделать гибридную схему хранения (x3 → x2 → x1.5).
В общем, ждём ебилдов (c).