У нас есть (не будет так надолго, если власть имущие добьются своего) достаточно большой кластер из примерно 600 узлов, все они под одним и тем же «именем группы», в то время как только часть из них (около dozen) когда-либо попали в список интерфейсов TCP / IP, определенных в hazelcast.xml
Вот наша конфигурация
<hazelcast xsi:schemaLocation="http://www.hazelcast.com/schema/config hazelcast-config-3.1.xsd"
xmlns="http://www.hazelcast.com/schema/config"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<group>
<name>BlappityBlah</name>
<password>blahBlaha</password>
</group>
<management-center enabled="false"/>
<network>
<port auto-increment="true">6401</port>
<outbound-ports>
<!--
Allowed port range when connecting to other nodes.
0 or * means use system provided port.
-->
<ports>0</ports>
</outbound-ports>
<join>
<multicast enabled="false">
<multicast-group>224.2.2.3</multicast-group>
<multicast-port>54327</multicast-port>
</multicast>
<tcp-ip enabled="true">
<interface>10.50.3.101-102,10.50.3.104-105,10.50.3.108-112,10.60.2.20,10.60.3.103,10.60.4.106-107</inter
face>
</tcp-ip>
<aws enabled="false">
<access-key>my-access-key</access-key>
<secret-key>my-secret-key</secret-key>
<!--optional, default is us-east-1 -->
Остальные связаны только с «именем группы», которое, как я понимаю, определяет кластер. Мы не используем многоадресную рассылку в нашей конфигурации. Основное применение нашего кластера - распределенная блокировка. Что мы замечаем в последнее время, так это произвольные тайм-ауты и разрыв соединения между узлами, повторяющееся «повторное разбиение на разделы» и зависание блокировок. Через некоторое время все зависает ... Раньше мы перезагружали узлы, теперь мы используем консоль Hazelcast TestApp, чтобы очистить карту блокировок. Я могу поручиться за то, что код блокировки и разблокировки достаточно водонепроницаем. Мое наблюдение ... У нас не было подобных проблем раньше, пока мы не обновили Hazelcast до 3.1.5 И не увеличили наши узлы с 30 с лишним до 500+, из которых большинство узлов являются JVM, часто до дюжины на одном и том же физический узел. Это произошло не в одночасье, это было постепенно.
a) Влияет ли тот факт, что большинство наших узлов не фигурирует в hazelcast.xml, на их стабильность как членов кластера?
б) Кто-нибудь видел проблемы с масштабированием, это ошибка Hazelcast, или мы делаем что-то ужасно неправильно, в то время как остальные из вас болтают с Hazelcast?