
Self-healing — תקלות לא צריכות להעיר אתכם
Hermes הוא דפוס עבודה (pattern) מבית היצירה של טכנולוגיות self-healing (ריפוי עצמי), שמגדיר איך מערכת תוכנה יכולה לזהות תקלות אצלה ולתקן אותן בעצמה, בלי שאדם יצטרך להתערב. הרעיון נולד מתוך תובנה מרתקת של מהנדסי SRE (Site Reliability Engineers — המומחים שאחראים על יציבות שרתים בחברות כמו גוגל) לגבי תקלות שרתים: 90% מהן הן אותן עשר בעיות שחוזרות על עצמן שוב ושוב (container שקרס, חיבור רשת שנתקע, דיסק שהתמלא) — ובמקום להעיר את איש התורנות כל לילה על אותן תקלות חוזרות, אפשר ללמד את המערכת לתקן את עצמה. אצלי (אלעד) Hermes רץ כשירות רקע על השרת ומטפל אוטומטית ב-Kami וב-OpenClaw (הטכנולוגיה שמפעילה את Kaylee) בכל פעם שהם נתקעים — אבל אצלכם זה דפוס כללי שאפשר לאמץ בכל מערכת תוכנה, לא רק במערכות AI: חמשת השלבים של Hermes (זיהוי, אבחון, תיקון, אימות ולמידה) מתאימים גם למערכות מסחר אלקטרוני, גם ל-SaaS קטן שרץ על שרת יחיד, וגם למערכת הקריטית של ארגון גדול — והתוצאה היא אחת: שינה שלמה בלילה, ללא הפרעות.
90% מהתקלות הן אותן 10 בעיות שחוזרות. Hermes פותר אותן לבד, ומעיר אתכם רק למשהו חדש.
PagerDuty ב-03:00 על docker container שקרס
Hermes ניסה restart, זה עבד, ובבוקר נשלח email 'היה תקלה ותוקן'
להריץ את אותו script תיקון בפעם החמישית השבוע
Hermes שומר 'מה עבד על מה' ומיישם אוטומטית
PagerDuty, BetterStack, Grafana OnCall — 21-100+ דולר לחודש למשתמש
Hermes פתוח, ציבורי, וחוקי תיקון ב-JSON
Monitoring ללא action = רעש
Monitoring + action pipeline = פתרון אמיתי
הנה איך:
Senior שמוצף בתורנויות? Pattern של self-healing מוריד את העומס משמעותית תוך שבוע.
אחד-שניים שרתים, הרבה שירותים. Hermes שומר עליהם גם כשאתם בחופש.
לקוחות לא צריכים לדעת על התקלות שלכם. Hermes דואג שלא ידעו.
Pattern בסיסי לכל agent שמבצע פעולות בעולם האמיתי — צריך fallback ואימות.
לחצו על כל סעיף לפתיחה
Hermes מיושם בתוך Kaylee + delegator
הספר הקלאסי — מאיפה הרעיונות האלה הגיעו
איך לבנות healthchecks טובים בקונטיינרים
הסוכנת שמיישמת Hermes על ה-VPS שלי
המאגר של healing_history — הזיכרון של Hermes
רוצים Hermes ב-infrastructure שלכם?
זה שינוי בגישה — מ-reactive ל-autonomous. מוכנים לראות איך בונים את זה?
מפתח Full-Stack ומומחה AI
Hermes תיקן אצלי 40+ תקלות בחצי שנה — בלי שידעתי שהיה משהו. הגישה הזו הפכה את ה-VPS ל-'fire and forget'. המדריך מבוסס על כישלונות אמיתיים — התחלתי עם whitelist אגרסיבי מדי והיה צריך לרסן אותו.