התמונה הגדולה: על הקשר בין מחקר חברתי ו-Big Data

מאת: נופר גואטה

ממחקר שהתפרסם במאי האחרון עולה כי 90% מהמידע בעולם נוצר במהלך השנתיים האחרונות. בהתסכלות על ציר הזמן הנמתח משחר ההיסטוריה נראה כי מדובר בנתון מופרך, אך לאור המציאות הטכנולוגית שסביבנו, האם עובדה זו אכן מצליחה להפתיע?

יחד עם השינויים שהביאה מהפכת המידע, שהחלה במחצית השנייה של המאה ה-20, נולדה גם שפה חדשה לתיאור המציאות. אחד המונחים בשפה זו הפך בשנים האחרונות לשגור בפיהם של חוקרים ומפתחים טכנולוגיים באשר הם והוא המונח ""Big Data. מונח זה מתייחס למאגר נתונים שהגיעו ממגוון מקורות – אתרי אינטרנט, רשתות חברתיות, מחקרים אקדמים, מאגרי לקוחות ועוד – בכמויות שונות ובאיכויות משתנות. פעמים רבות הנתונים אף מגיעים בצורה של מידע בלתי מובנה, כלומר טקסט חופשי. לרוב משתמשים במונח כדי לתאר טכנולוגיה המיישמת שימוש במאגר מסוג זה.

מעקב אחר מגמות השוק הטכנולוגי מגלה כי זאת תופעה רחבה, המשתרשת באופן עמוק במגוון תחומי החיים: צריכת הבידורניהול כוח האדםאבטחת מידע ותשתיות קריטיותהתמודדות עם מצבי חירום רפואיים, ויש עוד אינספור דוגמאות.

ניתן למצוא ביטוי נוסף להתחזקות מגמה זו בפעולה שנקטה חברת IBM, אחת מענקיות השוק. לפני חודשיים, החברה הודיעה כי היא מקימה מעבדה שיתופית ל-Big Data שנועדה להאיץ תהליכי חדשנות בעולם בתחומים: רפואה, קמעונאות ופיננסיים. החברה השכילה להפנים את הפוטנציאל הטמון במחקר על בסיס מסדות נתונים והחליטה לפתוח שעריה לכל חוקר השואף להישען על חכמת הכלל.

בכתבה זו אנסה לתאר על קצה המזלג את הקשר בין Big Data ומחקר חברתי ואת התועלת שצומחת, בעיניי, משילוב התחומים. אתחיל בהצגת סיפורה של חוקרת טכנולוגית שזכתה לאחרונה להכרה ציבורית, ד"ר קירה רדינסקי.

רדינסקי נולדה בשנת 1986 בקייב ועלתה ארצה כשהייתה בת 4. בילדותה היא התגוררה בנשר עם אמה וסבתה. כשהייתה בת 15 היא החלה את לימודיה בטכניון ובגיל 26 סיימה את עבודת הדוקטור שלה. במסגרת עבודה זו, רדינסקי פיתחה שיטה לניבוי אירועים על סמך שכיחותם של חיפושים אינטרנטיים ועל בסיס ניתוח סמנטי של כמות עצומה של טקסטים מה-500 שנים האחרונות. במסגרת התמחותה בחברת Microsoft, רדינסקי פיתחה מערכת המוצאת דפוסים באירועים היסטוריים ומסיקה מהם מגמות עתידיות. אחת הדוגמאות המפורסמות לפעילות המערכת הייתה חיזוי מחלת הכולרה בקובה לאחר מציאת הדפוס הבא: כולרה מתפרצת לרוב לאחר בצורת שקדם לה שיטפון. המערכת הצליחה גם לחזות את ההתקוממויות במדינות ערב וכן עלייה במחיריהם של מוצרים שונים בעולם.

מוקדם יותר השנה הכריזו חוקרים מ-Microsoft כי בכוונתם להשקיע בתכנה שפיתחה ד"ר רדינסקי על כדי לחזות "אסונות טבע, אלימות גוברת, מגיפות, אי שקט חברתי ועוד אירועים שהתוצאה שלהם מוות המוני".

בכנס שנערך לפני כחודשיים מצטטת רדינסקי את משפטו המפורסם של הסופר מארק טווין, לפיו "ההיסטוריה לא תמיד חוזרת על עצמה, אך היא מתחרזת". חמושה בטכנולוגיה ושאפתנות, קירה מעידה על עצמה שכוונתה המרכזית היא ליצור עולם טוב יותר. כדוגמה לכך היא משתמשת במיגור מחלות על ידי מתן ההתראה המתאימה. להערכתה, בהינתן מספיק נתונים אפשר לספק התראה מתאימה, שכן גם אם אי אפשר למצוא את הדפוס המדויק – התוצאה עדיין "תתחרז", כלומר תהיה מספיק דומה. כמעט לפי בקשה, מוקדם יותר החודש התפרסמה כתבה לפיה לראשונה אי פעם מודל ממוחשב הצליח לחזות שיא בהתפרצות שפעת בערים בארצות הברית.

נראה כי שיתופי הפעולה עובדים גם בכיוון ההפוך: מארי גריי (Gray), חוקרת טכנולוגית במעבדת המחקר של Microsoft שבעברה למדה מדעי החברה, בוחנת את הצומת שבין מחקר חברתי ו-Big Data. בהרצאות שמעבירה גריי החל משנת 2011 היא טוענת בדבר הקריטיות של שילוב אתנוגרפיות בביצוע מחקרים בשדה הטכנולוגי. היא מדגישה את חשיבות המעבר בין תמונת  הבזק, ה-Snapshot הכמותני, לבין הצילום הממושך של המחקר – האתנוגרפיה האיכותנית.

מתוך הזדהות עם אמונתן של חוקרות אלו בדבר הפוטנציאל הגלום בשיתוף נתונים ובמפגש הדיסציפלינות, ניסיתי להבין היכן פוגש העולם הטכנולוגי את הסוציולוגיה המודרנית. גיליתי עולם רחב של חדשנות ויצירתיות שאותו אנסה לתאר על קצה המזלג.

הגילוי המשמעותי ביותר עבורי היה התחום המרתק של הסוציולוגיה החישובית (Computational sociology). זהו ענף בסוציולוגיה אשר עושה שימוש במתודות מחשוביות על מנת לנתח וליצור מודלים של תופעות חברתיות. מחקר זה עושה שימוש בסימולציות, בטכנולוגיות של בינה מלאכותית, בשיטות סטטיסטיות מורכבות ובגישות מעולם הניתוח של רשתות חברתיות. ענף זה, אשר סובב סביב ההכרה בקיומם של סוכנים חברתיים (agents), חוקר את האינטראקציה בין אותם סוכנים וכן את ההשפעה שלהם על מושאי המחקר. חלק גדול מהמתודות שבהן נעשה שימוש נוצרו בשדות מחקר "מדעיים" יותר, כמו מדעי הרשת ("Network Science"). אחד השמות המפורסמים בתחום הוא פרופסור בארי ולמן (Wellman), סוציולוג ונשיא הפקולטה למידע באוניברסיטת טורונטו, המתמחה בסוגיות כמו סוציולוגיה וקהילה,  אינטרקצית אדם-מחשב והמבנה החברתי כפי שהוא בא לידי ביטוי בארגונים ורשתות חברתיות.

דוגמה לשימוש בטכנולוגיות מסוג אלו ניתן למצוא במחקר פורץ הדרך של ד"ר ניקולס כריסטאקיס ופרופ' ג'יימס פולר. מחקרם קבע כי קיימות שלוש דרגות השפעה של האדם על סביבתו, במגוון תחומים כגון משקל, מצב נפשי, עושר ואף תוחלת חיים. הספר אשר מאגד את מסקנות המחקר (Connected), תואר על ידי העיתון New York Times כ"משהו שעלול לשנות את הדרך שבה אנו תופסים את העולם".

נראה כי הנושא מעסיק את קהילת המחקר החברתי רבות: בכתבה שהתפרסמה באפריל האחרון במגזין הסוציולוגי "The Society Pages" שואלת הכותבת האם Big Data היא החזית המתודולוגית בעולם הסוציולוגי או שמא מדובר בסיוט הכי גדול שלה. בכתבתה, היא מעלה את הביקורת הקשה על התחום של יבגני מורוזוב, אשר חוקר את ההשפעות החברתיות והפוליטיות של הטכנולוגיה. לדבריו, מאגרי נתונים כאלו נוטים לעוור את צרכן המידע והם אף מדכאים תהליכים דמוקרטיים ומנצלים פלטפורמות כמו האינטרנט לפעולה נגד מתנגדי שלטון.

לאור ביקורת זו ואחרות עולה השאלה האם אכן שימוש במתודות כאלו יכול לתרום למחקר איכותי בדיסציפלינה הסוציולוגית או שמא מדובר בפתרון קסם לקיצור הדרך, מהסוג שהטכנולוגיה רגילה למכור לנו?

מאמר אקדמי שהתפרסם בשנה שעברה עוסק בשאלה זו בדיוק. במאמר, החוקרים מציעים שימוש במודלים מתמטיים כדי להשוות פעילות של תופעות ברשתות לעומת פעילותן ב"עולם האמיתי". הם מתייחסים למחקרים קודמים בתחום שהגיעו למסקנות יוצאות דופן, לדוגמה המסקנה כי תפוצתן של תת-קבוצות בתוך הרשתות נצמדת לחוק החזקה (Power law), לפיו הגידול תמיד יהיה בכפולות של העלאה בחזקה.

הטענה העיקרית אשר עולה ממאמר זה היא שניתוח Big Data יוכל אכן להראות קורלציות בין מספר משתנים, אך יתקשה להסביר את הסיבתיות ההתנהגותית. על כן, יש לשים דגש על שילוב המתודה עם יתר השיטות.

כדוגמה לגוף הממלא פונקציה זו, מוצג פרויקט FutureICT, המגדיר עצמו כ"מאיץ ידע מולטי-דיסציפלינרי המתמקד בתחומי טכנולוגיה-חברה-כלכלה-סביבה". מטרתו לעודד שימוש במסות הנתונים ובכוח החישובי שקיימים היום על מנת לחקור את החברה וליצור אפשרות לעתיד בר-קיימא. מטרה זו תושג על ידי מינוף המידע מהמערכות הגלובליות של הפרויקט לכדי יצירת מודלים על מערכות חברתיות-כלכליות. תובנות ממודלים אלו יעצבו את קיומם של מערכות חברתיות-ארגוניות-טכנולוגיות עתידיות. הפרויקט מתבסס על פלטפורמת סימולציה שנקראת – "The living earth platform" ונועדה לזהות משברים, וכן על פלטפורמת השתתפות שתבחן את השפעותיהם של מקבלי ההחלטות.

מי מכם שניסיונות מהסוג הנזכר לעיל מזכירים להם בעיקר תסריטי מדע בדיוני אינם נמצאים בדעת מיעוט. כתב העת האנתרופולוגי Ethnography Matters הקדיש כתבה בת שלושה חלקים למחקר Big Data אל מול מה שזכה לכינוי "Small Data", והוא מחקר איכותני, עמוק וממוקד. אחד הכותבים אף מעיד על עצמו שפעמים רבות הוא מוצא את עצמו מוותר על ההזדמנות לקבל עוד מידע, על מנת לעסוק בצורה מעמיקה במידע שכבר בידיו.

מטבע הדברים ובדומה למקרים רבים, התועלת, בעיניי, תצמח מסינתזה של הדעות. נראה כי בקצב הדינאמי של העולם המודרני, שהולך והופך יותר ויותר שטוח, זה שמשתנה הוא דווקא זה ששורד. הדינמיות ויכולת הסתגלות הם במקרים רבים מפתח להצלחתם של גופים ואף אנשים פרטיים, ולא מן הנמנע שגם תחומי הידע האנושי ושיטות המחקר יפעלו בצורה דומה.

הסטטיסטיקן ג'ורג' א.פ. בוקס צוטַט באומרו כי "כל המודלים שגויים, אך חלקם שימושיים". גם אם כיום קיים פער בין השדה הסוציולוגי לזה הטכנולוגי, גם אם ישנם חסרונות לשיתופי הפעולה בין הדיסציפלינות, וגם אם מחקר כזה אינו תואם את הרעיון הרומנטי של מחקר אנושי של אנשים, כאלו השואפים לקדם את הידע, מחובתנו לדון בשאלות, לעמת אותם אל מול המציאות, ובתקווה גם להרוויח את המיטב משני העולמות.