Comments on >рабочие заметки: Cores that don't count: "тихие" производственные дефекты процессоров

Действительно, повезло. В каком-то смысле это можн...

2021-08-01T13:40:22.429+04:00

Действительно, повезло. В каком-то смысле это можно считать идеей для best practice: периодически гонять регрессионные тесты на рабочих серверах.

Ну вот авторы статьи пишут, что планируют что-то такое делать у себя, да. Но одновременно они предупреждают, что многие такие ошибки очень специфичны, проявляются только для конкретной нагрузки -- и гугл не может же предсказать все паттерны

Автоматической перепроверки у нас нет, можно счита...

2021-08-01T13:13:20.283+04:00

Автоматической перепроверки у нас нет, можно считать что 'повезло' заметить: у нас вместе с продакшен трафиком гоняется много тестов/регрессий на тех же машинах/гриде, и где-то через месяц после миграции в GCP один раз(!) сломался один (!) тест - но сломался так опасно, что было решено докопаться, в чем дело. Но в целом, чтобы такое поймать, нужны достаточно параноидальные проверки,

О, это интересно. А у вас все результаты вычислени...

2021-07-05T13:08:30.842+04:00

О, это интересно. А у вас все результаты вычислений автоматически перепроверяются, или это был удачный случай? А то я, когда про свои системы думаю, с трудом могу оценить, насколько далеко мог бы утечь неправильный результат от места, где он получился.

Спасибо за комментарии к оригинальной статье - люб...

2021-07-05T00:14:01.813+04:00

Спасибо за комментарии к оригинальной статье - любопытно был наткнуться на это в своей ленте, так как один из оригинальных кейсов для исследования был наш продакшен в GCP :) Выглядело как нестабильное FPU вычисление, только на одной из машин, и только на одном наборе данных - но для конкретных данных/машины воспроизводилось в 100% случаев. К счастью, результат вычислений был очевидно неправильным

>я пока не видел систем которые одновременно тр...

2021-06-14T21:50:31.002+04:00

>я пока не видел систем которые одновременно требовали и гугловой масштабируемости и не-гугловой надежности

Так авторы отмечают, что /некоторые/ дефекты CPU будут компенсироваться теми же инструментами, которые уже используются для компенсации ошибок дисков и сети и т.п. А /некоторые/ -- нет. Даже в отказоустойчивых распределенных системах с большим резервированием обычно

ошибки в софте - этот подход не раешает, поэтому ....

2021-06-14T21:16:36.481+04:00

ошибки в софте - этот подход не раешает, поэтому ... бывают еще followers, которые могут пропустить запросы на которых завалились leaders :) я бы скорей рассматривал ситуацию в разрезе - как можно существенно увеличить надежность системы без потери производительности. дальше клиент решает - готов он платить или нет

ecc/crc решают задачу лишь от части.. сбойнуть мог...

2021-06-14T21:09:06.759+04:00

ecc/crc решают задачу лишь от части.. сбойнуть могут - процессор, память, сетевая карта, свитч... ну и не так дорого как кажется. кроме того ecc память как-то вот уж СИЛЬНО медленней не-ecc. и возможно мне везло, но я пока не видел систем которые одновременно требовали и гугловой масштабируемости и не-гугловой надежности :)

...но надо еще учитывать, что 3х-кратное резервиро...

2021-06-14T21:06:39.377+04:00

...но надо еще учитывать, что 3х-кратное резервирование с голосованием работает в предположении, что ошибки -- это независимые случайные события. Вообще говоря, это не так: например, софтовые ошибки будут возникать во всех 3 вычислителях одновременно. Поэтому, как я понимаю, в аэрокосмосе по общей спеке 3 команды разрабатывают 3 /разных/ программы -- чтобы ошибки у них были в разных местах. Но

Так это и есть 3х-резервирование с голосованием. С...

2021-06-14T20:55:53.664+04:00

Так это и есть 3х-резервирование с голосованием. Справляются, да (пока есть уверенность, что /логика голосования/ не содержит дефектов :)

Вопрос в цене -- трехкратное дублирование всех вычислений не каждый себе может позволить. Авиация, космонавтика, вероятно, автомобильные автопилоты -- да, конечно. В массе же -- вряд ли.

Ни CRC, ни даже ECC -- для сравнения -- не требуют

мне кажется, что существующие софтверные системы а...

2021-06-14T20:21:13.542+04:00

мне кажется, что существующие софтверные системы автокоррекции железных ошибок прекрасно справляются и с этой проблемой тоже. нечетное количество (3) дублирующих active servers ответ пользователю посылается после получения кворумного количества (2) одинаковых ответов. сервер приславший отличный (от других) ответ - гасится. что-то не так с этой схемой?