Изменения

Производительность Ceph

2669 байтов добавлено, 16:08, 15 июля 2019

Нет описания правки

== Почему вообще Bluestore такой медленный? ==

{{Note}} ~~По итогам дополнительных изысканий хейтспич несколько подправлен~~Третья редакция hatespeech’а.

Речь о random write iops. Ведь вроде старались-старались, уходили от двойной записи и «журналирования журнала» в filestore…

Все мы держим в уме, что 1x 7200rpm HDD может выдать примерно 100—120 iops. Дальше нам говорят — ну, там типа журналирование. Ну ок, как мы рассуждаем — ну, типа, есть журнал, есть диск. Значит типа вроде как синхронно записало в журнал, потом асинхронно постепенно перенесло на диск. Значит, берём 100, умножаем на число дисков в кластере, делим на фактор репликации (3), делим на 1.5-2 (данные+журнал), мы же держим в уме, что наверняка там всё асинхронно и оптимизировано… Получаем, скажем, 100 * 9 дисков / 1.5-2 / 3 = 150—200 iops. Запускаем fio iodepth=128 на собранном кластере — ОЙ, 30 iops. Как так?

~~Окей, дальше нам говорят — эээ, не~~Отчаиваемся и по советам знатоков прикручиваем туда SSD под wal+db. ~~120 random iops с 1 HDD — это без sync~~И думаем: ну, ~~случайная запись с sync — примерно 50-60 iops. Окей, говорим мы, но во-первых~~ теперь у нас ~~же глубина очереди 128~~быстрая SSD с конденсаторами под журналом, ~~значит, параллелизм~~латенси записи 50 микросекунд, значит~~, операции должны пролезать между sync-ами и~~ должно быть ~~быстрее — а во-вторых~~много иопсов — ну, 50*в устоявшемся режиме хотя бы 300 (9* 100 /13).~~5/3 — это всё равно 100~~Тестируем. ~~Ну хоть 100~~ В 1 поток получаем ну… 60 иопс. Во много — где-то ~~должно у нас быть на запись? А у нас 30~~200. Опять плохо.

~~Дальше мы отчаиваемся и по советам знатоков прикручиваем туда SSD под wal+db. И думаем: ну~~Смысл в том, ~~теперь-то~~ что собственной реализации журнала у ~~нас запись идёт на SSD~~блюстора нет, ~~SSD хорошая~~есть очередь отложенной записи, ~~с конденсаторами~~живущая прямо в RocksDB. ~~Теперь суммарно у нас должно быть не меньше 300 иопс (N * скорость шпинделя / фактор репликации)~~RocksDB — это LSM keyvalue база, ~~да и в 1 поток должно быть столько же. Тестируем~~по сути база-журнал. В ~~1 поток получаем ну… 60 иопс~~принципе, это достаточно разумно, так как всё равно нужно журналировать изменения метаданных, которые там держит блюстор. ~~Во много — где~~Когда очередь отложенной записи засунута туда же, изменение можно коммитить одной транзакцией (соответственно, одним fsync-~~то 200. Опять медленно~~ом).

~~Вариант решения № 1: у наших HDD обнаруживается media cache~~И в этой схеме есть одно большое отличие от filestore — оно заключается в том, ~~мы его включаем~~что в filestore журнал работал как буфер для временного повышения нагрузки на запись. Пока в журнале было место, ~~получаем нормальную производительность~~ случайная запись была очень быстрой, а журналы обычно делали размеров в несколько гигабайт. В bluestore же «очередь отложенной записи» очень маленькая и ~~успокаиваемся~~ сбрасывается через каждые 64 запроса. То есть, bluestore не пишет быстрее, чем в среднем может медленное устройство (~~хотя осадочек-то остался~~HDD)~~. Вариант № 2: медиакэша у наших дисков нет и мы продолжаем ломать голову «почему ж так медленно-то»~~.

~~Так вот~~Плюс к этому на практике (при просмотре strace) оказывается, что fsync-ов на каждую операцию записи делается не 1, а 2. ~~Журнала у блюстора собственного нет~~Второй fsync — это лишняя транзакция записи в журнал BlueFS, ~~вместо него~~ сводящаяся к обновлению размера лог-файла RocksDB. Это ~~как бы keyvalue база, но она же LSM~~нафиг не нужно, ~~она же~~ так ~~и работает — типа до лимита пишет~~ как в ~~память+журнал, потом когда упирается~~ опциях RocksDB в ~~лимит — делает compaction~~ цефе по ~~уровням. По сути как бы БД~~умолчанию стоит wal_recovery_mode=kTolerateCorruptedTailRecords и recycle_log_number=4, но это так, потому что без этого у них из-~~журнал~~за другого бага корраптятся данные при падении OSD. ~~Вот~~ Что на самом деле исправляется легко, я им даже отправил фикс — https://tracker.ceph.com/issues/38559 https://github.com/ceph/ceph/pull/26909 - и они её даже вроде как ~~журнал и юзают~~обещают его влить. ~~В той же RocksDB метаданные~~С фиксом на HDD ускорение случайной записи при глубине очереди 1 — двукратное (с 33 % до 66 % возможностей самого HDD, ~~и их дохрена, ибо виртуальные клоны и всякое такое~~обычно как раз с 33 до 66 иопс). ~~Плюс чексуммы. Плюс два варианта записи — прямой и отложенный~~При глубине очереди 128 — почти нулевое.

~~Теоретически в этом ничего плохого нет. Наоборот~~ОК, ~~хорошо то, что~~ ладно. В конце концов мы решаем — гулять так гулять и ~~метаданные, и данные записываются~~ собираем кластер на серверных SSD (или вообще NVMe). Думаем — ну теперь-то?!… Бенчим в 1 ~~транзакцией~~поток.300 иопс. Охреневаем окончательно и идём гуглить эту статью :)

~~Однако~~ Здесь смысл в том, что в голове у всех сидит мысль «а, ну да, оно медленное, потому что слишком много пишет на ~~практике (при просмотре strace~~диск — диск же относительно медленный, а софт быстрый». А вот хрен. :) оказывается, ~~что~~ Ceph довольно сложно разогнать до latency < 1 ms, и виной тому не диски, а сам Ceph. То есть да, Ceph при записи ~~4к-~~мелкими блоками ~~OSD демонстрируют фактор~~ порождает WA (Write Amplification от ) 3 ~~до 5 плюс делают огромное количество commit-ов~~. ~~Запись делается двумя системными вызовами — pwritev и io_submit~~. ~~Commit — тоже двумя~~5 на каждой OSD — это легко посчитать через тот же strace. Но на хороших SSD это практически не занимает времени, ~~sync_file_range и fdatasync~~одна операция 4кб записи занимает условно 20 микросекунд. Проблема именно в С++ коде Ceph.

~~Например~~Причём даже не до конца понятно, ~~по итогам простого теста с SSD-настройками получается~~что конкретно там тормозит — такое ощущение, что ~~эта тварь на 6193 запроса~~ всё целиком. Выявить какие-то «горячие точки» при профилировании трудно, просто при записи ~~делает 18585 записей (~~выполняется много всякой C++ной мелочи, которая суммарно ~~записывая 21674 4к-блока~~отъедает достаточно много времени. Одно горячее место — вычисление цифровых подписей пакетов (включено по умолчанию, можно отключить) ~~и 24776 коммитов~~ , другое — сериализация/десериализация (~~больше~~код обрабатывает каждое поле пакета, ~~чем запросов записи~~чуть ли не каждый байт, отдельным вызовом функции)~~! Итого Write Amplification = 3~~.5Дальше идут уже malloc-и, которых тоже происходят тонны. Причём всё это происходит в несколько потоков. На это ещё навёрнута какая-то странная смесь буферизованного и прямого I/O.

~~Тот же тест~~ RocksDB не виновата — её я пробовал бенчить быстрая, ~8000 транзакций в секунду на ~~HDD: на 1183 операции 3020 запросов записи суммарным объёмом 4926 * 4 кб~~ NVMe в 1 поток она даёт и ~~3664 sync-а~~даже в 256 потоков масштабируется до ~120000 tps. ~~Итого WA = 4.16 (4926/1183), а sync~~На той же NVMe Ceph OSD даёт только 10-~~ов опять больше, чем запросов записи~~20 тысяч iops даже во много потоков.

~~Причины найдено две:~~Сеть тоже не виновата — её я пробовал бенчить с помощью nbd (network block device). При прямом доступе диск выдаёт 50000 iops, при пробросе диска с одного сервера на другой через nbd — 8000 iops. То есть, добавленная latency сети — примерно 0.1ms. Это не много.* И даже Bluestore не совсем виноват. На ~~HDD — блюстор~~ NVMe Bluestore с некоторыми тюнами всё ~~время «едет на ручнике» из~~-таки осиливает завершить запись примерно за ~~совершенно идиотской проблемы, которую я не далее чем вчера зарепортил сюда https://tracker~~0.~~ceph~~3мс.~~com/issues/38559 - при каждой записи~~ И в ~~журнал RocksDB происходит дополнительная «ненужная» транзакция записи~~ то же время код самого Ceph сжирает ещё 0.4мс. Авторы сейчас пытаются пилить новую реализацию OSD на асинхронном фреймворке Seastar (Crimson OSD). Но проблема в ~~журнал BlueFS~~том, ~~сводящаяся к обновлению размера лог-файла RocksDB. Теоретически это не нужно~~что, ~~так как RocksDB настроена с wal_recovery_mode=kTolerateCorruptedTailRecords и recycle_log_number=4~~скорее всего, это им поможет слабо. ~~Но практически —~~ Проблема не в ~~коде баг~~том, ~~из-за которого журнал при этом не sync~~что многопоточный код плохо работает с вводом-ается. На HDD ускорение случайной записи при глубине очереди 1 — двукратное. При глубине очереди 128 — почти нулевое.* На SSD — блюстор жёстко упирается выводом — проблема в том, что он сам по себе сильно жрёт CPU ~~и блокировки~~. Чтобы всё это работало быстрее, нужно упрощать логику.

== DPDK и SPDK ==

VitaliyFilippov

Бюрократ, администратор

13 494

правки

Изменения

Производительность Ceph

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

разделы

Инструменты