היי! קוראים לי דולב 👋🏻

אני מדען נתונים, חובב השקעות וחנון רציני של טכנולוגיה

חיזוי ערכים רציפים - מחירי דג הרינג 🐟

במסגרת קורס למידת מכונה (מפוקחת) אצל ד״ר אבשלום אלמלח קיבלנו משימת אמצע לחזות ערכים רציפים באמצעות השוואה בין מספר מודלים רגרסיביים. מטלה זו איפשרה לנו, לראשונה למעשה, להתנסות באופן מעשי בתהליך המחקרי שמאפיין את עבודתו של מדען נתונים – החל מניתוח נתונים ראשוני (EDA), דרך בניית מודלים ועד להשוואת ביצועים. תרגיל חיזוי מחיר קופסת הרינג דני, חובב הרינג, הבחין כי לקוחות שונים משלמים מחירים שונים על קופסת הרינג האהובה עליו. המוכר הסביר לו שהמחיר נקבע לפי סוג ההרינג ולפי התאמה אישית המבוססת על 10 פרמטרים. דני ביקש מיוסי לאסוף נתונים – 1000 תצפיות עם 10 פרמטרים לכל תצפית ועמודת מחיר. ...

מרץ 21, 2025 · דקות 9

בחירת תכונות עם Forward Selection - למה זה חשוב?

בעולם הדינמי של ניתוח נתונים ולמידת מכונה, בחירת המשתנים הנכונים למודל היא שלב קריטי שמשפיע על ביצועי המודל, על פשטותו, ועל משאבי החישוב הדרושים לו. מערכי נתונים מודרניים עשויים לכלול עשרות ואף מאות משתנים, אך לא כולם תורמים בפועל לדיוק החיזוי. Forward Selection היא שיטה מתקדמת לבחירת משתנים, שמאפשרת לבנות מודל פשוט ויעיל תוך התמקדות במשתנים המשמעותיים ביותר. במאמר זה נסקור את השיטה, נבין את היתרונות והחסרונות שלה, ונתמקד ביישום מעשי בתהליך הרגרסיה. ...

ינואר 3, 2025 · דקות 5

מבוא תיאורטי ללמידה מפוקחת

מבוא למידה מפוקחת (Supervised learning) היא סוג של למידת מכונה שבה הערכים שצריך לחזות כבר ידועים, והמטרה היא לבנות מודל שמסוגל לחזות בצורה מדויקת ערכים של נתונים שטרם נראו. למידה מפוקחת עושה שימוש במאפיינים (features) על מנת לחזות את הערך של משתנה המטרה (target variable), כמו למשל חיזוי מיקומו של שחקן כדורסל על פי ממוצע הנקודות שלו למשחק. סוגי למידה מפוקחת ישנם שני סוגים של למידה מפוקחת: סיווג (Classification)- משמש לחיזוי התווית או הקטגוריה של תצפית. לדוגמה, ניתן לחזות האם עסקה בנקאית היא הונאה או לא. מכיוון שיש כאן שני תוצאות אפשריות – עסקה הונאתית או עסקה שאינה הונאתית – זה נקרא סיווג בינארי. רגרסיה (Regression)- משמשת לחיזוי ערכים רציפים. לדוגמה, מודל יכול להשתמש במאפיינים כמו מספר חדרי השינה וגודל הנכס כדי לחזות את משתנה המטרה – מחיר הנכס. שפה שימו לב כי מה שאנחנו מכנים מאפיין (feature), אחרים עשויים לכנות משתנה מנבא (predictor variable) או משתנה בלתי תלוי (independent variable). בנוסף, מה שאנחנו מכנים משתנה מטרה (target variable), אחרים עשויים לכנות משתנה תלוי (dependent variable) או משתנה תגובה (response variable). ...

נובמבר 27, 2024 · דקות 10

איך לייצר סביבת פיתוח וירטואלית בפייתון?

אחת הסיבות שגורמות למפתחים ולמדעני נתונים לבחור בפייתון כשפת פיתוח מובילה נעוצה בעובדה שמדובר באחת משפות הפיתוח הגמישות והעוצמתיות ביותר שיש. אחת מתכונות הגמישות של פייתון היא לאפשר יצירה של סביבת פיתוח וירטואלית בעבור כל פרוייקט בנפרד או כל מטרה שרק נרצה. למה לי סביבה וירטואלית עכשיו? 👨‍🏫 סביבה וירטואלית היא אזור עבודה מבודד ונפרד בתוך סביבת הפייתון שמותקנת במחשב. היא מספקת אפשרות לנהל התקנת חבילות, תלויות והגדרות ייחודיות לכל פרויקט, כך שהחבילות של פרויקט אחד לא ישפיעו או יתנגשו עם פרויקטים אחרים. ניתן לדמות את הסביבה הוירטואלית להתקנה נפרדת לחלוטין שדרכה ניתן לכתוב קוד, לנהל פרוייקט, להתנסות ולפתח בבטחה. וכל זאתמ מבלי לשנות או לפגוע בהתקנה הגלובלית של פייתון במערכת. ...

נובמבר 20, 2024 · דקות 4

ניתוח הגרלות דירה בהנחה - אוקטובר 2024

המאמר הזה עודכן בתאריך 07.10.24 - בשעה 15:20 תיקון תקלה בגרף - פיזור סיכויי הזכיה כפונקציה של מחיר למטר. עדכון כלל הנתונים העלאת קובץ המחברת + קבצי הנתונים ל-Github. בתחילת השבוע נפתחה לציבור הגרלת דירה בהנחה לחודש אוקטובר 2024. בהגרלה זו מוצעות 4,741 דירות ב-14 יישובים שונים. התכנית נועדה להתמודד עם משבר הדיור הקיים בישראל ולהציע פתרון נגיש לאוכלוסיות המתקשות לרכוש דירה בשוק החופשי. זכיה בהגרלה מקנה הזדמנויות לזוגות צעירים ולזכאים אחרים לרכוש נכס במחירי הנחה של עד מיליון שקלים ממחירי השוק החופשי. אבל לא רק, זכיה מאפשרת גם לרכוש את הנכס באמצעות הון עצמי מופחת של 100 אלף שקלים בלבד, ובכך פותרת את בעיית גיוס ההון העצמי - בעיה איתה מתמודדים מרבית הזוגות הצעירים. וכשהחלום לרכוש בית מתרחק מידי שנה בעקבות המחירים הגואים, מחיר למשתכן מסתמנת בתור האלטרנטיבה השפויה בעבור אלה שידם אינה משגת מרכישת דירה יקרה. מדובר בהגרלה משמעותית אשר תעניק פתרונות דיור לאוכלוסיות רבות ברחבי הארץ. ...

אוקטובר 5, 2024 · דקות 14

פרוייקט SQL - מנצחי אולימפיאדת פריז 2024

הפרוייקט הזה נכתב בשותפות עם גילת ר. ושלמה ב. מטעמי פרטיות שמותיהם המלאים לא מפורסמים ברבים. במסגרת הלימודים לתואר שני, נתבקשנו לייצר פרוייקט SQL לפי דאטהסט שאותו אנחנו בוחרים. בזכות ההצלחה הגדולה של נבחרת ישראל באולימפיאדה החלטנו להעמיק את הידע שלנו ב-SQL באמצעות חקירת דאטהסט הקשור למנצחי האולימפיאדה הנוכחית. רגע לפני שמתחילים 🙋 השתמשנו בדאטהסט מהמם מאתר Kaggle- תוכלו לצפות בו בקישור הזה. לאחר שהורדנו את הדאטהסט השמטנו ממנו רשומות שהיו לא רלוונטיות (כמו תחביבים, מקום לידה, שם האבא וכו’) - בכדי ליעל את גודל המסד ולדאוג ששליפות יהיו מהירות יותר. כמו כן נרמלנו את שלושת הטבלאות כך שלא יהיו נתונים שחוזרים על עצמם פרט לקוד הספורטאי שאותו בחרנו בתור Primary Key. ...

אוגוסט 12, 2024 · דקות 13

מבוא לסוגי נתונים ורשימות בפייתון

בפייתון, סוגי נתונים הם אבני הבניין הבסיסיים שמגדירים את סוג המידע אשר משתנה יכול להכיל ואת הפעולות שניתן לבצע עליו. סוגים אלו פועלים כמו תוויות, וקובעים כיצד הנתונים מאוחסנים בזיכרון ואיזה פונקציות או פעולות ניתנות ליישום. הבנת סוגי נתונים היא חיונית לכתיבת תוכניות פייתון יעילות וטובות, מכיוון שהם משפיעים ישירות על האופן שבו התוכנית מטפלת ומעבדת מידע. סוגי נתונים בפייתון יש לנו חמישה סוגי נתונים: str - מחרוזת (String) מייצגת נתוני טקסט ולמעשה רצפים של תווים (הכוללים אותיות, מספרים ותווים מיוחדים). באופן כללי המחרוזת היא הבסיס לאחסון ועבודה עם מידע טקסטואלי. int - מספרים שלמים (Integers) כמו 1, -5 או 0. אין להם נקודות עשרוניות. מה שמיוחד במספרים שלמים בפייתון הוא הגודל שלהם. בניגוד לשפות תכנות אחרות, int בפייתון אינו מוגבל לגודל המספר השלם, כל עוד הזיכרון במחשב מאפשר זאת. float - מספרים עשרוניים (Float) אלו מספרים עם נקודה עשרונית, המאפשרים לאחסן ולעבוד עם ערכים כמו 3.14159 (פיי), 10.5. bool - מערך בוליאני (Booleans) - בפייתון, לעתים קרובות עלינו לענות על שאלות כן או לא. כאן נכנסים לתמונה הערכים הבוליאניים. הם פועלים כמו מקבלי החלטות זעירים, ומאחסנים את הערכים True (אמת) או False (שקר) בהתאם לתנאים שנציב. NoneType - ריק (None) הוא סוג נתונים מיוחד המייצג היעדר ערך. זה בעצם דרך לומר שמשתנה אינו מכיל נתונים כלל או שאין לו ערך מוקצה עדיין. לצורך העניין, אפשר לחשוב עליו כמו מיכל ריק. רשימות כמדעני נתונים, לעתים קרובות אנו עובדים עם פריטי נתונים רבים. נניח שאנו רוצים למדוד את ההכנסה נטו של קבוצת אנשים ולאחסן מידע זה בפייתון, יהיה לא נוח ליצור משתנים מרובים לכל אדם. לכן, מה שאנו יכולים לעשות במקום זאת הוא לאחסן את כל המידע הזה בתוך רשימה. רשימות הן מערכים שבהם ניתן לאחסן פריטי נתונים מרובים מאותו סוג, הכל במקום אחד. בדוגמה הבאה ניתן לראות רשימה שהיא למעשה מערך של נתונים מסוג מספר עשרוני (float), רשימה זו מאחסנת מידע על ההכנסה נטו של 3 אנשים: ...

מאי 13, 2024 · דקות 5

שליפת נתונים מאתרים באמצעות סלניום

במדריך זה נלמד כיצד לבצע גירוד נתונים מאתרים (Web Scraping) באמצעות סלניום (Selenium) בשפת פייתון סלניום? נעים מאוד! 👋 סלניום היא חבילת כלים בקוד פתוח המשמשת לאוטומציה של משימות בדפדפן האינטרנט. היא סוג של שלט רחוק המאפשר לנו לכתוב סקריפטים שיכולים לבצע פעולות וליצור אינטראקציה עם אתרים בדיוק כמו שמשתמש אנושי היה עושה. היתרון הזה הופך אותה לשימושית מאוד בעבור מספר מטרות מרכזיות: בדיקות אוטומטיות - סלניום יכולה להפוך את תהליך הבדיקה של יישומי אינטרנט לאוטומטיים. אתה יכול לכתוב סקריפטים המחקים את האופן שבו משתמשים מקיימים אינטראקציה עם האתר, בודקים פונקציונליות ומזהים באגים כלשהם. גירוד נתונים - ניתן להשתמש בסלניום כדי לחלץ נתונים מאתרים. מה שמאפשר לנו לאסוף מידע על מוצרים, מחירים ולמעשה כל מה שרק נרצה. גירוד אתרים שלמים - בדומה לגרידת נתונים, ניתן להשתמש בסלניום בכדי להעתיק דפי אינטרנט שלמים או חלקים ספציפיים של דף אינטרנט ולאחסן אותם איפה ואיך שרק נרצה סלניום עובדת עם שפות תכנות רבות - ניתן להריץ את סלניום בסביבת Python, Java ו-C#. היא חינמית לגמרי ויש לה קהילת מפתחים ענקית אשר מספקת לה תמיכה ומשאבי מידע שונים. כל היתרונות הללו הופכים את סלניום (המזדקנת) לסוס בלתי מנוצח. במדריך זה נעבוד עם סלניום בסביבת פייתון בלבד. התקנת סלניום קודם כל עלינו לוודא ש-Python 3 מותקן ומעודכן. לאחר מכן, נפתח את המסוף או CMD ונכתוב: ...

אפריל 29, 2024 · דקות 6

אחסון תמונות וסרטונים - הדרכים המומלצות [2023] 📷

תמונות מנציחות רגעים שלא ישובו לעולם. באמצעות תמונות וסרטונים אנחנו יכולים להיזכר באנשים, בחוויות וברגעים משמעותיים. העידן המודרני שאנחנו חיים בו מאפשר לכל אחד מאיתנו להנציח את הרגעים האהובים עליו בקלות, בפשטות ובמהירות. העידן שאנחנו חיים בו הוא קסום, הוא מאפשר לנו לתעד כל רגע ורגע באיכות גבוה מאוד. בשני העשורים האחרונים כמות התיעודים והמידע שכל אחד מאיתנו צורך עלתה בצורה מעריכית (אקספוננציאלית) ומהפחד לאבד מידע נוצר הצורך הטבעי שלנו לגונן ולשמור על התמונות והסרטונים שצילמנו. תמונות הן הרבה מעבר למעט צבע על נייר או קובץ על המחשב, הן יצירות אמנות ורגעים שנלכדו מחיינו. למרות שההדפסים דקים, והקבצים הדיגיטליים קטנים, המשמעות שהן מייצגות עבורנו היא כבדת משקל. ולכן אין דבר גרוע יותר מאשר לאבד את התמונות והסרטונים שלך. מניסיון - זו חוויה קורעת לב. מה גם שעבור אנשי מקצוע, איבוד תמונות עלול לפגוע בצורה קשה בקריירה או במוניטין. לכן לפני שאנחנו רצים לזרוק את התמונות והסרטונים שלנו על גבי המחשב או על גבי שירות שאנחנו לא מכירים כדאי לעצור לכמה רגעים ולקרוא את המאמר הבא. גם אם אתם לא צלמים מקצועיים, כשזה מגיע לאחסון עליכם לנקוט בגישה מקצועית בכדי לוודא את תקינות המידע שלכם לאורך זמן. ...

אפריל 1, 2023 · דקות 5