ניטור זמן תגובה
איטיות היא השבתה חדשה. דף שנדרש לו 8 שניות להיטען מאבד משתמשים באותה מידה כמו דף שלא נטען כלל – וירידת ביצועים כמעט תמיד קודמת להשבתות.
מדוע זמן תגובה ראוי להתראה משלו
התראות ה-uptime הסטנדרטיות מבוססות על אות בינארי: למעלה או למטה. האזור האפור שבאמצע – פעיל אבל איטי – הוא המקום שבו מתרחשות רוב התקלות המודרניות. שאילתת בסיס נתונים שהוגדרה לא נכון מתחילה להימשך 4 שניות במקום 50 מ"לש. דליפת זיכרון גורמת לקפיצות ב-garbage collection. API חיצוני אליו פונה הבקנד מתחיל להתנדנד. אף אחד מהדברים האלה לא משבית את האתר לחלוטין, אבל הופך אותו לבלתי שמיש – ואלו סימני אזהרה מוקדמים לתקלה שצפויה תוך שעה או שתיים.
ניטור זמן תגובה קולט את ההאטה לפני שהיא הופכת לתקלה. אתה מגדיר סף לכל מוניטור, וכשהתגובה חורגת מהסף במספר בדיקות עוקבות, אתה מקבל התראה. עוד לפני שהתראה נשלחת, יש לך זמן לבדוק את הבעיה, להוסיף משאבים, לאזן קריאות בעייתיות או להחזיר לאחור דיפלוי שגרם לבעיה.
איך עובדים הספים ב-DiagnoSEO Uptime Monitoring
כל מוניטור ניתן להגדרה עם שני פרמטרים: rt_threshold_ms ו-rt_threshold_breaches. הראשון הוא זמן התגובה במילישניות שאתה מחשיב כתקין. השני הוא כמה בדיקות עוקבות חייבות לעבור את הסף להתראה. כברירת מחדל, הסף כבוי, ומספר החריגות הוא שלוש.
העיצוב הדו-פרמטרי מגן מפני false positives. הפרעות רשת קורות. הפסקות garbage collection קורות. קפיצה בודדת לשנייה אחת בזמן בסיסי של 200 מ"לש לא שווה אזעקה ב-3 לפנות בוקר. אבל שלוש פעמים עוקבות של תגובה באורך שנייה – זה כבר האטה מתמשכת, לא הבהוב. בחר סף על בסיס התנהגות רגילה ומרווח נוח: אם p95 בדרך כלל 400 מ"לש, סף 1000 מ"לש. אם p95 הוא 50 מ"לש (API פנימי) – סף 200 מ"לש.
עם אילו כלים זה משתלב היטב
התראות זמן תגובה עובדות הכי טוב בשילוב עם אותות נוספים של המוניטור. תמונה מלאה: סף זמן תגובה מודיע על הדרדרות, קוד HTTP מציין מתי זה באמת קורס, התראת SSL/דומיין – לכשלים המונעים ע"י זמן, והתראות שינוי DNS – לסטיות קונפיגורציה. ארבעה אותות באותו מוניטור מגבירים את השקיפות מחיווי בינארי של "האם זה עובד" לתצפית מלאה.
גם הדשבורד מסייע. כל מוניטור מציג sparkline של זמני תגובה אחרונים – מדד חזותי מהיר לדפוסי דרדור. התצוגה המורחבת מראה ממוצעים ל-24 שעות, 7 ימים ו-30 יום. אם אתה רואה ממוצע מזדחל כלפי מעלה שבוע אחר שבוע – זה סימן מוקדם שכדאי לבדוק, לפני שהסף נחצה ותתקבל התראה.
ספים מומלצים לפי סוג אתר
- עמודי נחיתה שיווקיים: 1500 מ"לש זה סביר. יש הרבה תמונות וסקריפטים; המהירות האבסולוטית פחות חשובה מהיציבות.
- עמודי מוצר/קטגוריה באי-קומרס: 800-1200 מ"לש. אתר איטי מוריד המרות; ספים הדוקים תופסים בעיות מהר יותר.
- דשבורדים של אפליקציה: 500-800 מ"לש. משתמשים מצפים לתגובה מהירה. דשבורדים איטיים גורמים למוצר להיראות שבור.
- API ציבורי: 200-400 מ"לש לנקודות קצה פשוטות, יותר לאלו הכבדים. דרג אותם לפי הצורך.
- בריאות מיקרו-סרוויסים פנימיים: 50-100 מ"לש. הם אמורים להיות כמעט מיידיים; איטיות כמעט תמיד מצביעה על בעיה אמיתית.
לא משנה מה תבחר, אל תקבע פעם אחת ותשכח. הערך מחדש כל רבעון לפי המגמות שאתה רואה בפועל. אם אתה מקבל כל הזמן התראות חציית סף שלא מייצגות בעיות אמיתיות – הסף הדוק מדי. אם מתרחשת תקלה בלי התראת סף לפני כן – הסף היה רפוי מדי.
ניתוב התראות
התראות חציית סף נשלחות באותם ערוצים כמו התראות down/recovery: דוא"ל, טלגרם, Slack, דיסקורד, SMS. הן מכבדות את ההגדרות של "שקט לילה". הן נרשמות באותה טבלת התראות. ההבדל היחיד הוא סוג האירוע ("threshold" במקום "down") ותוכן ההודעה – היא מפרטת את זמן התגובה הנוכחי ואת הסף שהוגדר, כך שתוכל מיד לראות בכמה נעשתה החריגה.
הגדרה
ערוך כל מוניטור שתרצה. בטופס הגדר "סף זמן תגובה (ms)" לערך הרצוי. ניתן להתאים את "מספר החריגות הרצופות" אם ערך ברירת המחדל 3 לא מתאים לך. שמור. מהמחזור הבא, כל בדיקה תשווה את זמן התגובה לסף, וכאשר יגיע למספר החריגות הרצופות שהוגדר – תקבל הודעה.
שאלות נפוצות
-
Time To First Byte (TTFB) — זמן במילישניות מהשליחת הבקשה ועד לקבלת הבייט הראשון של התגובה. בנוסף, הזמן הכולל להורדת התגובה המלאה. TTFB הוא המדד הבודד השימושי ביותר לבריאות השרת.
-
זה תלוי במיקום ובתוכן. לאתר סטטי עם CDN: מתחת ל-100 מ"לש זה מצוין, מתחת ל-300 מ"לש זה בסדר. לאפליקציות דינמיות: מתחת ל-500 מ"לש זה בסדר, מתחת ל-1000 מ"לש סביר, מעל 2000 מ"לש נחשב איטי. השווה לממוצע ההיסטורי שלך ולא למספרים מוחלטים.
-
כן. כל מוניטור כולל סף זמן תגובה אופציונלי. אם 3 בדיקות רצופות חורגות מהסף, תקבל התראת "תגובה איטית". הדרישה לשלוש בדיקות מונעת אזעקות שווא בעקבות ניתוקי רשת בודדים.
-
מ-13 נקודות ביקורת ברחבי העולם (אירופה, צפון אמריקה, אסיה, דרום אמריקה, אוקיאניה). למוניטור single-region – המדידות מהאזור הקרוב ביותר. ל-multi-region – כל אזור נמדד עצמאית, מה שמאפשר לזהות תקלות CDN אזוריות.
-
כן — ממוצע נע 30 יום, מינימום ומקסימום יומי ואחוזונים (p50, p95). מועיל לתכנון קיבולת: אם ה-p95 עלה מ-800 מ"לש ל-1500 מ"לש תוך חודש, השרתים שלך קורסים למרות שאחוז ה-uptime עדיין 100%.
UptimeRobot · Pingdom · BetterStack · Oh Dear · Site24x7 · StatusCake · Sentry · Uptrends · Cronitor · New Relic
ניטור SSL · פג תוקף דומיין · ניטור DNS · Ping (ICMP) · פורט (TCP) · נקודת קצה · מילות מפתח · API · Cron / Heartbeat · קישורים חוזרים · ניטור אזור גיאוגרפי · ניטור אתר אינטרנט