Jak SolarWinds monitoruje krytyczne ścieżki sieciowe poprzez NetPath

Artykuł jest dostępny zarówno w formie filmu Youtube jak i tekstowej poniżej.

Funkcjonalność NetPath jest zaawansowanym narzędziem do monitorowania wszystkich urządzeń sieciowych od punktu początkowego do punktu końcowego, tak zwany Hop-by-hop. Badanie ścieżki odbywa się poprzez wysyłanie małych pakietów TCP do portu w punkcie końcowym, dzięki czemu symulujemy faktyczny ruch sieciowy.

Netpath potrafi zbadać ścieżki w infrastrukturze lokalnej, hybrydowej oraz w chmurze. Możemy monitorować status dowolnej usługi z otwartym portem TCP. Może to być usługa poczty Exchange, dowolna instancja bazy danych, Office 365, Amazon AWS i wiele innych.

W celu stworzenia ścieżki sieciowej, SolarWinds potrzebuje jedynie otwartego portu TCP w punkcie końcowym. Moze to być urządzenie sieciowe (np. port 22 dla SSH) lub usługa (np. port 443 dla HTTPS lub 1433 dla MS SQL).

Netpath potrafi zaprezentować wszystkie połączenia pomiędzy hopami, włącznie z spanning tree oraz innymi metodami redundancji.

Podczas wykrywania wszystkich punktów hop-by-hop, SolarWinds wykorzystuje takie protokoły jak ICMP, SNMP, BGP (Border Gateway Protocol) oraz CDP (Cisco Discovery Protocol).

W danym przypadku możemy zaobserwować badanie usług NetSuite pod kątem sieciowym. Wszystkie połączenia są monitorowane niezależnie. Dostępne są statystyki opóźnień, utraconych pakietów oraz dostępność dla indywidualnych połączeń hop-by-hop.

Przykładowo, pomiędzy urządzeniami Cisco R2 i R3 posiadamy opóźnienie 17 ms, między R3 i R8 12 ms, a między R8 a R9 jest to 4 ms.

W przypadku, kiedy urządzenie sieciowe jest monitorowane przez system SolarWinds z użyciem protokołu SNMP, oprócz badania ścieżki, otrzymamy też informacje, przez które porty sieciowe przechodzi nasz pakiet TCP. Pozwoli nam to uzyskać dodatkowe informacje takie jak przepustowość sieci, błędy na pakietach oraz korelację z pakietami Flow.

Kiedy spojrzymy na punkt końcowy, widzimy problem z dostępem do usługi. Pomiędzy urządzeniami R9 i R1 można zaobserwować problem z podwójnym połączeniem, co sugeruje na problemy w tablicy routingu. Przy urządzeniu R9 widzimy także flagę „Config Change”, co znaczy, że konfiguracja tego urządzenia została zmieniona w momencie pojawienia się problemu z badaniem ścieżki NetSuite.

Po kliknięciu w przycisk, mamy możliwość porównania konfiguracji obecnej z ostatnią konfiguracją, dla której NetSuite działał poprawnie. Poprzez przewijanie konfiguracji, możemy znaleźć różnicę, która wpłynęła na status usługi. Kolorem zielonym oznaczone są wpisy, które zostały dodane do urządzenia. Jak widzimy, pewna osoba dodała wpis do tablicy routingu, co spowodowało problemy sieciowe.

Warto wspomnieć, że SolarWinds może wysłać email lub SMS z informacją o wykryciu takiego problemu lub, jeśli pozwolimy na to, system może sam wrócić do poprzedniej konfiguracji urządzenia poprzez zalogowanie się z użyciem SSH.

Poprzez kliknięcie na dane urządzenie i można sprawdzić wszystkie jego parametry monitorowane poprzez protokoły ICMP oraz SNMP, takie jak jego dostępność z perspektywy czasu. SolarWinds posiada także wbudowany klient SSH, co daje możliwość naprawy aktualnego problemu bezpośredni z przeglądarki internetowej. Performance Analyzer pozwoli na monitorowanie parametrów urządzenia w czasie rzeczywistym, z możliwością dodania dodatkowych obiektów lub kilku urządzeń.

Dla funkcjonalności Netpath większość punktów końcowych jest monitorowanych z więcej niż jednej lokalizacji początkowej. Jest to możliwe, ponieważ SolarWinds obsługuje możliwość monitorowania agentowego z dowolnej lokalizacji. Jeden agent może monitorować do ok. 20-30 ścieżek, bez wpływu na wydajność. Na tą chwilę agenci muszą być zainstalowani na systemie Windows lub Windows Server, jednak SolarWinds pracuje nad wsparciem dla systemów Linux oraz nawet procesorów ARM, czyli np. Raspberry Pi.

Poprzez monitorowanie usługi z wielu lokalizacji, jesteśmy w stanie bardzo szybko określić przyczynę i lokalizację problemu sieciowego.

Dla przykładu usługi Amazon AWS, nie monitorujemy naszych lokalnych urządzeń, zatem nie widzimy portów sieciowych. Jednak nadal możemy badać połączenia między nimi. Wszystkie urządzenia zewnętrzne są grupowane, zależnie od providera. W przykładzie Time Warner Cable Internet LLC jest providerem internetowym, a Amazon.com jest firmą świadczącą usługi w chmurze.  Ścieżka pozwala na zbadanie problemów sieciowych u providera, gdzie widać problem utraconych pakietów.

W przypadku, kiedy urządzenia są dla nas niewidoczne, z powodu zapór sieciowych, nadal otrzymamy informacje, że są dodatkowe elementy na naszej drodze i posiadamy rozgraniczenie zdrowia ścieżki pomiędzy tymi punktami, w naszym przypadku mniej niż 1 ms od Time Warner do punktu nieznanego oraz 23 ms do Amazon.com

Takie badanie naszej ścieżki pozwoli bardzo dokładnie określić, czy problem leży po naszej stronie, providera internetowego lub firmy zewnętrznej, która świadczy dla nasz usługi.

Jeśli dodamy do tego monitorowanie z kilku agentów, otrzymujemy bardzo dokładne statystyki z każdej serwerowni lub biura.

SolarWinds jest także w trakcie tworzenia pełnego wsparcia agentowego dla procesorów ARM, zatem już niedługo będziemy obsługiwać badanie ścieżek sieciowych Netpath hop-by-hop poprzez urządzenia Raspberry Pi. Pozwoli to na bardzo przystępne monitorowanie ścieżek bezpośrednio z danych lokalizacji geograficznych.