שתפו בפייסבוק
שתפו כתבה במיילשליחת הכתבה באימייל

קרב-מדע: האם אפשר לסמוך על מחקרים?

ובכן, מחקר חדש קובע: אי אפשר לסמוך על מחקרים חדשים. שיחזור של 100 ניסויים בפסיכולוגיה, שהתפרסמו בכתבי עת מובילים, הניב תוצאות דומות למקור בפחות מ–40% מהמקרים. אז מה שווה כל המדע הזה? תלוי את מי שואלים

שתפו כתבה במיילשליחת הכתבה באימייל
מעבר לטוקבקיםכתוב תגובה
הדפיסו כתבה
איור של ארבעה מדענים צופים בצמחים צומחים
איור: נטעלי רון-רז
דורון חלוץ

כמחצית מהאמריקאים חושבים שלאסטרולוגיה יש תוקף מדעי מסוים. מחציתם השנייה חושבים שהאסטרולוגיה היא קשקוש. כך עולה מהסקר האחרון בנושא שערכה הקרן הלאומית למדע בארצות הברית. מי צודק?

לפני 30 שנה התפרסם בכתב העת היוקרתי "Nature" מחקר שבחן את השאלה בכלים מדעיים, תוך שיתוף פעולה בין פסיכולוגים, סטטיסטיקאים ואסטרולוגים מוערכים. כל אסטרולוג קיבל מפת לידה של נבדק רנדומלי והתבקש להכריע בעזרתה איזה משלושה ניתוחי אישיות, המבוססים על מבחן פסיכולוגי סטנדרטי, שייך לבעל המפה. הסיכוי לענות נכונה על סמך ניחוש מקרי: שליש. שיעור ההתאמות המוצלחות במחקר: שליש. המדע קובע: אסטרולוגיה זה חארטה.

בשלהי הקיץ האחרון התפרסם בכתב עת מקביל, "Science", מאמר שסיכם פרויקט מחקר בן ארבע שנים, שבחן בכלים מדעיים את מידת הדיוק של מחקרים מדעיים. התוצאות, אפעס, לא מעודדות.

"פרויקט הרפליקציות", בראשותו של פרופ' בריאן נוסק, פסיכולוג חברתי מאוניברסיטת וירג'יניה, הזמין חוקרים לבחור מאמר, שפורסם באחד משלושה כתבי עת מובילים לפסיכולוגיה ב–2008 ("כך שהם עדיין חדשים יחסית ורלוונטיים", אומרת ד"ר נינה סטרומינג'ר, שהיתה חברה בצוות ההיגוי לצד נוסק, "אבל גם היה למחברים מספיק זמן לעדכן אם הם גילו בעצמם טעויות בינתיים") — ולהריץ מחדש את הניסוי האחרון המתואר בו. 270 החוקרים שהתנדבו למשימה התבקשו להיצמד ככל הניתן למערך המחקר המקורי.

השורה התחתונה: רק כ–40% מהשיחזורים (רפליקציות, בז'רגון) הניבו תוצאות דומות לאלה שדווחו במאמרים המקוריים. השורה שאחרי התחתונה: "משבר הרפליקציה", עם מרכאות ולפעמים גם סימן שאלה, הפך מנושא שחובבי סטטיסטיקה ושיטות מחקר דנים עליו בנימוס באקדמיה לסערה שסחפה גם את האגפים גבוהי המצח של העיתונות הפופולרית, בלי מרכאות ובלי סימני שאלה. כי אם פחות ממחצית מהמחקרים המדווחים בספרות המקצועית — אבני הפינה של מה שנחשב ל"אמת" מדעית — מניבים תוצאות עקביות בהרצות חוזרות, עד כמה ניתן לסמוך עליהם? ואם לא ניתן לסמוך עליהם, מה בכלל שווה כל המדע הזה?

רמאויות ומוזרויות

בעיית השיחזור של תוצאות מחקרים קיימת לא רק במדעי החברה, אלא גם בתחומים נוספים, כולל ביולוגיה ורפואה, "וגם בתעשיית התרופות, שתוצריה קשורים בחיי אדם", אומר פרופ' יעקב שול מהמחלקה לפסיכולוגיה באוניברסיטה העברית. "ב–2012 חוקר הסרטן גלן ביגלי ניסה לשחזר 53 ממצאים מרכזיים בתחום, והצליח רק בשישה מקרים".

דידריק סטאפל
דידריק סטאפלצילום: Koos Breukel

"אבל עד היום לא היה אף ניסיון מקביל, בסדר גודל כזה, לבחון את שיעור הרפליקציות המוצלחות בדיסציפלינות אחרות", מוסיפה סטרומינג'ר.

פרסום ממצאי הפרויקט היה השיא של משבר הרפליקציות, ולא תחילתו. כבר ב–2005 התפרסם מאמר מאת ג'ון איונידיס (Ioannidis), פרופסור לרפואה מסטנפורד, שכותרתו "למה רוב ממצאי המחקרים המתפרסמים הם שגויים" מתמצתת היטב את תוכנו. אבל איונידיס הציע בעיקר מודלים סטטיסטיים ותובנות תיאורטיות, וכך גם מרבית נביאי הזעם המתודולוגיים שעסקו בנושא בשנים הבאות. כדרכם של נביאי זעם, הם נותרו בשולי הדיון. ממצאים "מהשטח" על שיעור הרפליקציות המוצלחות כמעט שלא היו עד לפרויקט השאפתני של נוסק.

את קריאת ההשכמה הנחוצה סיפקו כמה מקרי הונאה שנחשפו בתחילת העשור, ועוררו סערה רבתי באקדמיה ומחוצה לה. השם הבולט ביותר בהקשר זה הוא דידריק סטאפל, פסיכולוג חברתי שהיה דיקאן בית הספר למדעי החברה באוניברסיטת טילבורג בהולנד. באביב 2011 דיווח סטאפל ב"סיינס" על תוצאות ניסוי שערך בתחנת הרכבת של אוטרכט, שלפיהן סביבה מלוכלכת מגבירה גזענות. שני סטודנטים שלו חשדו שמדובר בפברוק ודיווחו לממונים. ועדת חקירה שהקימה האוניברסיטה קבעה כי סטאפל אכן זייף נתונים ולא רק במחקר הרכבת. עשרות מאמרים שלו נפסלו בדיעבד על ידי כתבי העת שפירסמו אותם וסטאפל הוכתר כאחד הזייפנים הגדולים בהיסטוריה של הפסיכולוגיה (וגם טרח לכתוב על כך ספר).

לכך הצטרף המקרה המוזר והמעניין של דריל בם, פרופסור ותיק ומהולל לפסיכולוגיה מאוניברסיטת קורנל, שפירסם ב"JPSP" (אחד משלושת כתבי העת מהם נדגמו מחקרים לפרויקט הרפליקציות) באותם חודשים ממש מאמר הטוען כי אנשים ניחנו ביכולות פאראפסיכולוגיות "לחוש את העתיד". בם הציג במאמר תוצאות של תשעה ניסויים שערך, התומכים בכך, לטענתו. אלה היו ניסויים פסיכולוגיים סטנדרטיים, בטוויסט אחד: בם הריץ אותם מהסוף להתחלה. קודם מדד את התוצאה, ורק לאחר מכן הציג למשתתפים בניסוי את הגירוי, שהיה אמור להיות הסיבה שלה.

למשל, ידוע כי שינון משפר זיכרון. בניסוי סטנדרטי מוצגות לנבדקת מילים, היא מתבקשת לשנן אותן או את חלקן, ולאחר מכן בוחנים כמה ואילו מילים היא זוכרת. באחד הניסויים במאמר של בם, הוצגו לכל נבדקת ונבדק 48 מילים, אחת בכל פעם. מיד לאחר מכן נערך מבחן זיכרון, שאחריו המחשב בחר באקראי 24 מהמילים, הציג אותן שוב על המסך במרוכז וערך תרגילי שינון עבורן. כלומר, מבחן הזיכרון נערך לפני תרגילי השינון, וכיוון שהמילים נבחרו באקראי, לכל מילה היה סיכוי שווה להופיע או לא להופיע בסט השינון המאוחר. עם זאת, נמצא כי במבחן הנבדקות והנבדקים זכרו בממוצע יותר מילים שהופיעו בתרגילי השינון (שנערכו אחריו!) לעומת מילים שלא הופיעו בתרגילי השינון הללו.

נשמע הזוי, כמובן, אבל בעבר גם הרעיון שאולקוס נגרם מחיידקים נשמע הזוי, כי האמינו שחיידקים לא יכולים להתקיים בחומציות הקיבה. שמא בם עלה על פריצת דרך ביחס ללינאריות הזמן ויחסי סיבה־תוצאה? רבים מעמיתיו הרימו גבה, כי "זה נראה כמו מדע בדיוני", אומר אחד מהם. "אין הוכחה שבם זייף נתונים, אבל כמה מאמרי תגובה הראו כי ניתוח קפדני וזהיר יותר של הנתונים היה מאתר בעיות מתודולוגיות ומדליק נורות אדומות לפני הפרסום, בטח כשמדובר בטענות כל כך קונטרוברסליות".

ד"ר נינה סטרומינג'ר
ד"ר נינה סטרומינג'ר. הפרויקט התחיל בעקבות הסקנדלים של סטאפל ובם

"אם מאמר כזה יכול להתפרסם בכתב עת מוביל, סימן שטעינו איפשהו", מוסיפה סטרומינג'ר, שבאותה עת היתה דוקטורנטית לפסיכולוגיה באוניברסיטת מישיגן. "הפרויקט שלנו התחיל בעקבות הסקנדלים של סטאפל ומאמר ניבוי העתיד של בם", היא מספרת. נוסק הפיץ מייל בנושא. היא שוחחה עמו על כך, והצטרפה לצוות המנווט (נוסק שהה בחופשה כשפנינו אליו, והפנה לסטרומינג'ר).

הסאגה לא תמה. שלושה צוותי מחקר שונים ניסו לשחזר את ניסוייו של בם, ונכשלו. לא מפתיע, כנראה. מאמר משותף שבו סיכמו את ממצאיהם נדחה על ידי כל כתבי העת המרכזיים בפסיכולוגיה שאליהם פנו. פרופ' כריס פרנץ', אחד החוקרים, פירט ב"גרדיאן" את התלאות שעברו: עורך ה"JPSP" דחה את המאמר על הסף, "בנימוק שאינו מפרסם רפליקציות". כתב עת אחר שלח את המאמר לשיפוט של מומחים חיצוניים — חלק שגרתי מהליך הקבלה לפרסום בכתבי עת מדעיים, המתנהל באנונימיות כדי למנוע לחצים וניגוד עניינים. אחד השופטים המליץ לפרסם, השני המליץ לדחות. "חשדנו שהשופט הזה הוא בם עצמו", דיווח פרנץ', "חשד שהפרופסור אישר לנו בחביבותו". וכך, מאמר הפרה־קוגניציה מעורר המחלוקת התפרסם והיכה גלים, ואילו לפרנץ' ולעמיתיו כמעט יצאה הנשמה עד שמצאו היכן לחלוק עם הקהילה המדעית את ממצאיהם הסותרים.

רמאות גורפת ומאמרים שנויים במחלוקת במידה כה קיצונית הם יחסית נדירים, אולם העשב השוטה מלמד על תנאי המחיה בערוגה: עד כמה קל לפרסם בכתבי עת, המתהדרים בסינון קפדני, מחקרים מזויפים או פגומים, תוך ניצול האמון והתמימות של העמיתים; ועד כמה קשה לאחר מכן לקרוא תיגר על אותם מחקרים.

תמונת מציאות מעוותת

כדי להבין איך זה קרה, אין ברירה אלא לדבר רגע על סטטיסטיקה. בניסוי סטנדרטי בפסיכולוגיה יוצרים במתכוון הבדל בין שתי קבוצות של נחקרים (למשל, לאחת משמיעים מוזיקת מטאל רועשת ולאחרת להיט פופ קצבי) ומודדים איך הוא משפיע על משתנים אחרים (למשל, ביצוע במשחק מחשב אלים). החוקרת מתעניינת בהשפעה של "כעס" על "הישגים", אבל מודדת ביטויים ספציפיים וחלקיים שלהם, ועושה זאת לרוב בקרב מדגם קטן יחסית של מתנדבים.

ונניח שמאזיני המטאל צברו בממוצע 50 נקודות יותר ממאזיני הפופ. האם הפער גדול דיו כדי להסיק שהמוזיקה השפיעה על הביצועים? ואם כן, מה ואיך אפשר להסיק מהבדל במדגם של כמה עשרות סטודנטים על אוכלוסייה גדולה יותר?

המדד המקובל לבחינת שאלות אלה נקרא "מובהקות סטטיסטית", והוא מבוסס על ההסתברות לקבל תוצאות שונות במדגם, בהנחה שאין קשר בין המשתנים. כלומר, אם כעס לא משפיע על הישגים, מה ההסתברות לקבל פער של 50 נקודות או יותר במדגם כזה? הסתברות זו מכונה p-value, וניתנת לחישוב בלחיצה על כפתור וחצי בכל תוכנה סטטיסטית. אם היא נמוכה מ–5%, מקובל לומר שהתוצאה "מובהקת סטטיסטית", ולהסיק שקיים קשר בין המשתנים.

איילת פישבך
איילת פישבךצילום: Booth School of Business

משמעות השימוש בשיטה זו היא שגם אם לא חל ליקוי בהתנהלות החוקרים, קיימת הסתברות של 5% שהם טועים — כלומר, שהתוצאה מובהקת, אף שכעס לא משפיע על הישגים. זה סיכון שהקהילה המדעית מוכנה לקבל, חלק אינהרנטי משיטת צבירת הידע. ככל שיותר שיחזורים של הניסוי יניבו תוצאות דומות, ניתן יהיה להסיק בביטחון רב יותר שהתוצאות "אמיתיות" ולא מקריות.

למחקר שתוצאותיו אינן מובהקות סטטיסטית, כמעט אין סיכוי להתפרסם. כיוון שטיפוס בסולם הדרגות האקדמי והשגת מענקי מחקר שמנים תלויים בכמות הפרסומים, חלק לא מבוטל מקריירה באוניברסיטה מוקדש למאמץ להשחיל כמה שיותר מאמרים לכתבי עת יוקרתיים. לכן חוקרים יעשו הכל, לפעמים אפילו בלי להיות מודעים לכך, כדי לרדת אל מתחת לסף חמשת האחוזים. "אף אחד לא פועל בכוונה בצורה לא מוסרית, אבל השיטה מאפשרת לך לעבוד על עצמך", אומר ד"ר יואב בר־ענן מהחוג לפסיכולוגיה באוניברסיטת בן־גוריון. "החוקרים רוצים לתרום למדע, אבל גם צריכים להשיג עבודה וקביעות ולקדם את הפרויקטים שלהם. חוץ מזה, גם למדענים יש אגו, והם רוצים שיעריכו אותם. לכן למדענים יש נטייה טבעית להציג את התרומה שלהם כחשובה יותר ממה שהיא באמת, וכך קורה לפעמים שמאמרים מדעיים מתארים ממצאים שחוטאים לאמת. כתוצאה מכך, במקום שהמאמרים יקדמו את המדע, הם מקדמים את המדען".

חוץ מאגו ומרצון למצוא עבודה, גם הטיות קוגניטיביות עשויות לתרום לכך. למשל, הנטייה הרווחת לבחון טיעון באמצעות חיפוש מידע שתומך בו, והתעלמות, לעתים לא מודעת, ממידע סותר (הטיית האישוש). בר־ענן: "לחוקר יש המון סיבות שגורמות לו לחשוב שתיאוריה מסוימת היא נכונה. ולכן p של 0.052 לא ישכנע אותו שהוא טועה". הוא פשוט ימשיך לשחק עם הנתונים, עד שימצא איך לגלח את ה–0.052 אל מתחת לסף המקודש של 0.05.

כך השתרשו פרקטיקות שונות של איסוף וניתוח נתונים ודיווח על תוצאותיהם, שמטרתן להתאים את התוצאות המצויות לתוצאות הרצויות. הפרקטיקות הללו, שזכו לכינוי p-hacking, כוללות בין היתר דיווח חלקי של נתונים, הגדלת המדגם בניסוי עד שהתוצאה נעשית מובהקת סטטיסטית, וניסיון לאתר טעויות לאחר מעשה ולנתח מחדש בלעדיהן.

מרבית החוקרים, כפי שמעידים סקרים ומחקרים שבחנו זאת, אינם מודעים לעיוותים ששימוש בפרקטיקות אלה כופה על ממצאיהם. "הבעיה", מסבירה סטרומינג'ר, "היא שערך המובהקות המקובל של 5% מניח שמנתחים רק פעם אחת את הנתונים. ניתוחים חוזרים ונשנים מגדילים את ההסתברות לקבל תוצאה מובהקת באופן כוזב ליותר מ–5%".

רפליקציות הן כאמור אחת הדרכים שבהן המדע מתקן את עצמו. אולם כיוון שכתבי העת המדעיים מקדשים חדשנות, שיחזורים ישירים של מחקרים שכבר פורסמו מתקשים להתפרסם. אם השיחזורים מניבים תוצאות דומות — למה לחזור על מה שכבר ידוע? ועל אחת כמה וכמה אם התוצאות שונות: הרפליקציות מוצבות בעמדת נחיתות ביחס לניסוי המקורי, שכבר קיבל עם פרסומו חותמת כשרות מדעית. "תחשוב שבודקים יעילות של דיאטה נטולת חלב", אומרת פרופ' נירה ליברמן מבית הספר לפסיכולוגיה באוניברסיטת תל אביב, "עורכים כמה מחקרים בנושא, מדווחים רק על אלה שממצאיהם תומכים בדיאטה — ומתעלמים מהשאר. התוצאה היא שהקוראים מקבלים תמונה מעוותת של המציאות".

"כתבי העת נוטים להעדיף תוצאות מפתיעות, מעניינות או פיקנטיות, והשאלה היא עד כמה אלה תוצאות אמיתיות, או שהן יצאו במקרה והתקבלו לפרסום משום שהן פיקנטיות ומעניינות", מוסיפה ד"ר דנה גנאור־שטרן, ראש המחלקה לפסיכולוגיה במכללה האקדמית אחווה, שמחקר שלה על קוגניציה מספרית דווקא שוחזר בהצלחה בפרויקט. "עד עכשיו הדגש בפרסום היה על חידוש, אבל מבינים שצריך גם מחקרים שמטרתם לשחזר, ולפחות חלק מכתבי העת יותר פתוחים לכך עכשיו".

"כיוון שחוקרים נתונים בלחץ לפרסם כמה שיותר, הפרסומים הפכו ליותר שטחיים", אומר שול. "לפני 30 שנה, מאמרים מדעיים בעיתונים המובילים כללו לרוב סדרת ניסויים, שהכילו רפליקציה של האפקט המרכזי. בעשור האחרון היתה נטייה של עיתונים מובילים לפרסם מאמרים שמתארים רק ניסוי אחד. זה שירת את החוקרים שיכלו לפרסם לפני שחוקרים אחרים יקפצו על אותה עגלה, ובייחוד אם זה ניסוי שמציג תופעה 'סקסית', מפתיעה, מעניינת. זה שירת גם את העיתונים בכך שתוצאות מפתיעות הגבירו את המידה שבה הם מצוטטים בפרסומים אחרים".

ד"ר יואב בר־ענן
ד"ר יואב בר־ענןצילום: דני מכליס / אוניברסיטת בן גוריון

מה בעצם המשמעות של 40% שיחזורים מוצלחים? זה מעט או הרבה? לשמוח או להתאכזב?

שול: "ראשית עולה השאלה, מה זה שיחזור? מה מצפים שיקרה כשמריצים ניסוי פעמיים? נשמע טריוויאלי אולי, אבל אנחנו לא בדיוק יודעים איך למדוד שיחזור. בפרויקט של נוסק, הם מדווחים בעצמם שהשתמשו בכמה מדדים. כלומר, אין דרך יחידה וחד־משמעית לקבוע אם שיחזור הצליח או לא".

אחר כך, מוסיפה פרופ' מאיה תמיר, פסיכולוגית חברתית מהאוניברסיטה העברית, "צריך לשאול מה זה אומר אם אפקט לא משתחזר. אפשרות אחת היא שהממצא המקורי שגוי. סביר שבחלק מהמקרים זה אכן המצב. לא מתוך זדון, אלא כי לפעמים חושבים שמצאנו משהו בעל ערך, אבל קיבלנו אותו באופן מקרי. אפשרות אחרת היא שהאפקט קיים במציאות, אך כיוון שגם השיחזור הוא תהליך הסתברותי, לא בהכרח נאתר אותו בכל הרצה מחודשת של הניסוי. איננו יודעים מה ההסתברות שזה יקרה, אך היא אינה 100%".

גבולות האגרסיביות הגרמנית

הגברת המודעות לחשיבות הרפליקציות בפרט, והגברת שקיפות מדעית בכלל, הפכו למפעל חייו של נוסק בשנים האחרונות. עוד לפני פרסום המאמר הנוכחי ערך נוסק גיליון של כתב העת "Social Psychology", שהוקדש כולו לשיחזורים. במיזם אחר שלו, "Many Labs", מספר גדול יותר של מעבדות ניסו לשחזר במקביל מספר קטן יותר של ניסויים פסיכולוגיים קלאסיים (והצליחו בעשרה מ–13 מקרים).

פרויקט הרפליקציות לא ביקש לשפוט כל מאמר לגופו, אלא לספק תמונת מצב כללית של היתכנוּת השיחזורים בדיסציפלינה, ולהסביר מה משפיע על סיכוייו של מחקר להשתחזר בהצלחה בהמשך. התברר, למשל, כי ותק ומידת מומחיות של החוקרים אינם קשורים לכך, אולם תחום המחקר — כן. כמעט מחצית מהניסויים בפסיכולוגיה קוגניטיבית (העוסקת בהבנת תהליכי חשיבה ועיבוד מידע) שוחזרו בהצלחה, לעומת שליש בלבד בפסיכולוגיה חברתית.

"הרבה תופעות בפסיכולוגיה חברתית הן תלויות־הקשר", מסבירה תמיר, "ובמובן מסוים, זו מהות התחום, שהתפתח מהתובנה שלא מספיק לחקור אישיות כדי להבין התנהגות של אנשים, אלא צריך להביא בחשבון גם את ההקשר החברתי. אחת התופעות המוכרות בפסיכולוגיה חברתית נקראת קידום־עצמי (self enhancement). היא מתייחסת למניע העמוק שיש לאנשים לראות את עצמם באור חיובי. למשל, רוב האנשים חושבים שהם נהגים טובים יותר מהנהג הממוצע. אם תבדוק את זה בסין — האפקט חלש יותר. האם זה אומר שהאפקט המקורי שנמצא הוא קשקוש, או שיש סיבה לכך שהממצא הזה מופיע במקומות מסוימים ולא באחרים? למשל, שתרבות אחת מדגישה את האינדיבידואל לעומת תרבות אחרת שמדגישה הרמוניה חברתית, ולכן אנשים שחיים בה חושבים על עצמם כחלק מקולקטיב ומעריכים את עצמם כדומים יותר לאחרים. לכן גם עדיף לא לזרוק את השיחזורים הלא־מוצלחים לפח, אלא להתייחס אליהם כאל סימני שאלה חדשים".

אחת הביקורות שהועלו נגד הפרויקט של נוסק, היא שלמרות הצהרת הכוונות, הצוותים המשחזרים לא נצמדו מספיק למערכי המחקר המקוריים, ולעתים גם החמיצו הבדלים בקונטקסט, שעשויים להשפיע על התוצאות ולהקשות על פירוש הממצאים. מחקר של ליברמן (עם ינס פירסטר ושטפני קושל) ששוחזר במסגרת הפרויקט הוא דוגמה מעניינת לכך. ליברמן ועמיתיה עסקו בהשפעה של תהליכי אסימילציה (דמיון) וקונטרסט (הנגדה), המתרחשים בעקבות מניפולציה ניסויית המכונה הטרמה (Priming), על שיפוטים חברתיים. לא זה המקום לצלול לנבכי המושגים והדקויות הקוגניטיביות; הנקודה העיקרית היא שמדובר בתופעה שנחקרה והודגמה עוד לפני כן בספרות המקצועית. החידוש של ליברמן ועמיתיה היה בזיהוי התנאים שבהם יתרחש דווקא התהליך האחד ולא האחר — ממצא שלא התקבל בשיחזור.

"אבל כדי לבחון מתי מתרחשת יותר אסימילציה לעומת קונטרסט, צריך שקודם כל יהיו אסימילציה וקונטרסט", אומרת ליברמן, "ואילו בשיחזור לא מצאו גם את זה. להגיד שפריימינג בכלל לא משפיע — אולי, יכול להיות, אבל זה מוזר, כי מדובר בתופעה רווחת. בכל מקרה, זה כבר לא קשור לטיעון הספציפי שלנו כאן, אלא לטיעון אחר, בסיסי יותר".

לאחר שעודכנו בתוצאות השיחזור, שלחו ליברמן ועמיתיה תגובה מפורטת, שבה תהו שמא הבדלים רבים מדי בין הניסוי המקורי שנערך בגרמניה לשיחזור שנערך בארצות הברית עשויים להסביר את התוצאות השונות, ולאו דווקא אי־קיומה של התופעה הנחקרת.

ליברמן: "המשתתפים בניסוי קראו תיאור של סיטואציה, והתבקשו לדרג עד כמה היא אגרסיבית בעיניהם. השפעה של פריימינג צריך לבחון במצב עמום. אם תספר שג'ון בעט לדונלד בראש, ברור שמדובר בסיטואציה אגרסיבית, ולפריימינג לא תהיה השפעה על האופן שבו הנבדקים מעריכים את ג'ון — כולם יגידו שהוא אגרסיבי. אחד הסיפורים שמשתמשים בהם בניסויים מסוג זה מתאר סוכן מכירות מדלת לדלת, שמישהו מסרב להכניס לביתו. בעיני אמריקאים, הסיטואציה הזאת נתפסת לרוב כעמומה מבחינת האגרסיביות המתוארת, אבל בגרמניה סירוב כזה הוא לגיטימי, לכן הסיטואציה אינה עמומה מספיק. כדי להפוך את הסיטואציה לעמומה, הגברנו את מידת האגרסיביות המתוארת. בשיחזור הם תירגמו את הסיפור שלנו לאנגלית כפי שהוא, אך לא התאימו בחזרה את מידת האגרסיביות למקובל בארצות הברית".

למה לא הערתם על כך בזמן אמת?

ליברמן: "נגיד שעל פניו הכל נראה לי בסדר. זה לא פוטר את החוקרים מלערוך בדיקות מקדימות (pre-tests) כדי לוודא שתנאי הסף הנחוצים לניסוי מתקיימים. אין לי ידע פריבילגי ביחס להגדרות-המצב שאמורות לעבוד בווירג'יניה. גם אנחנו עשינו פרי-טסטים, ואולי הלקח הוא שזאת התשובה שהיינו צריכים לתת – שיעשו פרי-טסטים לפני שיוצאים לדרך".

גם ד"ר נורית שנבל מאוניברסיטת תל אביב נתקלה בבעיה דומה בשיחזור המחקר שלה כששיחזור המחקר שלה הניב תוצאות שונות מהמקור. "המחקר טען כי במצבי קונפליקט, הצד הנפגע יגיב טוב יותר למסר של העצמה, בעוד הצד הפוגע יגיב טוב יותר למסר של קבלה מצד הנפגע", היא אומרת."סיפרנו למשתתפים בניסוי, שנערך בישראל, על אשה שיצאה לחופשת לידה או על גבר שיצא למילואים, ובינתיים מקום העבודה שלה או שלו נתפס. השיחזור נערך בארצות הברית, ולכן החליפו את סיבת החופשה לירח דבש. שאלו אם זה נראה לי, והשבתי בחיוב. בדיעבד, הבנתי שאולי בגלל הבדלים תרבותיים בין ישראל לארצות הברית, הסיפורים אינם מקבילים. בישראל, לתפוס לקולגה את מקום העבודה נחשב כהפרה של לויאליות. בארצות הברית אין ציפייה כזו, ולכן זה גם לא נתפס כהפרה שלה. ייתכן גם שקונפליקטים הקשורים למקום העבודה פחות מובנים לסטודנטים אמריקאים. כדי להבין באיזה סיפור עלינו להשתמש בניסוי, ערכנו מחקרי פיילוט שבהם אנשים תיארו לנו קונפליקטים. לפני השיחזור לא נערכו פיילוטים דומים, אלא השתמשו בסיפור שלנו, בשינויים האמורים".

סטרומינג'ר, למה לא הקפדתם שהשיחזורים ייערכו באותן מדינות ושפות שבהן נערכו המחקרים המקוריים? זה היה מפחית "רעש" ומקל על פרשנות השיחזורים הכושלים.

"נכון, אך במקרה של שיחזורים מוצלחים, היה קשה יותר להסיק עד כמה האפקט אוניברסלי, כך שבכל מקרה נשאר מקום לפרשנות הממצאים. יש תופעות שהן תלויות־תרבות, ויש גם הבדלים תרבותיים שלא אמורים להשפיע על הטיעון התיאורטי. הרעיון של רפליקציות יעיל ולו בשביל למצוא את הגבולות שמגדירים את האפקטים הללו: האם זה תופס תמיד, או רק במעבדה מסוימת, רק לסטודנטים בני 18 עד 20 באוניברסיטת ייל, רק כשהנסיינית שמריצה את הניסוי היא אשה, וכו'".

"אף שכתוב שהצוותים המשחזרים עבדו יחד עם צוותי המחקר המקוריים", מעיד פסיכולוג שביקש להישאר עלום, "דן גילברט וסימון שנאל (פסיכולוגים חברתיים מהרווארד ומקיימברידג' בהתאמה), אספו עדויות שגרמו להם לתהות אם אכן כך היה בכל המקרים. גם מניסיוני, לא תמיד הצוות המשחזר הסכים לשמוע ביקורת או להתחשב בה. בחלק מהמקרים היה שם אנטי, שמקורו לא ברור לי. מה שעשו לאיילת פישבך, למשל, הוא חמור".

פישבך, פרופסור למדעי ההתנהגות ולשיווק באוניברסיטת שיקגו, פירסמה ב–2008 מאמר ב"JPSP" (עם עמיתתה מינג'ונג קו), שבחן היבטים שונים של מוטיבציה ומחויבות למטרה. הניסוי האחרון ממאמר זה נכלל בפרויקט הרפליקציות. הרעיון שלו מבריק ומגניב, אך השיחזור שלו נחל כישלון חרוץ.

הניסוי המקורי נוהל בצמוד לקמפיין גיוס תרומות ליתומים אפריקאים שהוריהם מתו מאיידס, שערך סניף קוריאני של ארגון צדקה נוצרי. החוקרות שלחו לתורמים הקבועים של הארגון ולאנשים שהביעו עניין בפעילותו אך טרם תרמו מכתבי הסבר על הקמפיין, שבהם הובהר גם כי מטרתו לגייס 10 מיליון וון ( כ–10,000 דולר). בחלק מהמכתבים נכתב, כי עד כה "גייסנו כבר 4,920 דולר בערוצים שונים", ובאחרים — "עלינו לגייס עוד 5,080 דולר להשלמת המשימה". המידע אותו מידע. ההבדל הוא רק בדגש על מה שכבר הושג לעומת מה שעוד יש להשיג.

12% מהנמענים הרימו תרומה בתגובה למכתב. בהתאם להשערתן, פישבך וקו מצאו כי תורמים חדשים תרמו סכום גבוה יותר בממוצע אם קיבלו מכתב מהסוג הראשון ("כבר 4,920") לעומת השני ("עוד 5,080"), ואילו בקרב תורמים ותיקים, בעלי מחויבות גבוהה יותר לארגון, הדפוס היה הפוך: הם תרמו יותר בממוצע בעקבות מכתב ה"עוד" בהשוואה למכתב ה"כבר". השיחזור, לעומת זאת, לא מצא דפוס דומה — פשוט משום שמלכתחילה המכתבים שנשלחו לא הצליחו לדרבן אנשים לתרום.

"הם לגמרי פישלו עם הרפליקציה של המחקר שלי", מאשרת פישבך במייל משיקגו, "קמפיין הצדקה — השונה מאוד שלהם — נכשל. הם פנו במייל ליותר מ–700,000 איש בארצות הברית, אבל רק 15 מהם תרמו (שיעור תרומה של 0%). זה לא מספיק בשביל לערוך את הניתוחים הסטטיסטיים הרלוונטיים. בדוח הסיכום, הם כתבו 'שיעור התגובה קרוב ל–0%, ומשמעות הדבר שהתוצאות שהתקבלו בלתי ניתנות לפירוש'. ובכל זאת, משום מה הם החשיבו את המחקר הכושל שלהם ככישלון בשיחזור, אף על פי שאלה שני דברים שונים. ייתכן שבקשת תרומה במייל היא בעייתית ועלולה לעורר חשד, מה שעשוי להסביר מדוע הקמפיין שלהם נכשל באופן גורף. אין לדעת, וזה גם לא משנה. ברגע שהקמפיין נכשל ואין מספיק תורמים, תהא הסיבה לכך אשר תהא, לא ניתן להשתמש בו כדי לבחון היפותזות על הגורמים שמובילים אנשים לתרום יותר או פחות".

גם מחקר של תמיר שוחזר בפרויקט, וגם איתו הצליחו לפשל. תמיר בחנה אם אנשים ירצו לחוש כעס לפני ביצוע משימה אלימה (לעומת נייטרלית), ואם תחושת הכעס אכן תשפר את הביצועים. לשם כך היא נתנה לנבדקים לשחק במשחק מחשב לוחמני אחרי האזנה למוזיקה מסוגים שונים, וחישבה את היחס בין מספר היריבים שהשחקן הרג למספר הפעמים שהוא נהרג במהלכו כמדד לטיב הביצוע שלו.

"מצאנו שאכן, נבדקים ביקשו לחוות כעס לפני ביצוע המטלה האלימה, אך לא לפני המטלה הלא אלימה, ושהכעס תרם לביצוע במשחק האלים", אומרת תמיר. "הממצא הראשון והמרכזי שוחזר ברפליקציה. את הממצא השני לא הצליחו לשחזר בגלל טעות שעשה צוות השיחזור בהרצה. אני הסברתי להם מילה במילה, והמידע גם מופיע במאמר שלי, אבל היתה להם איזושהי בעיית תקשורת. הם לא מדדו כמה יריבים השחקן הרג וכמה פעמים הוא נהרג, אלא רק אחד מהשניים, כך שלא יכלו לחשב את היחס ביניהם. לא יודעת מה בדיוק קרה שם, לא קיבלתי על זה מידע מדויק, הם רק אמרו שבגלל טעות חסרו להם נתונים".

סטרומינג'ר אומרת שלא שמעה במהלך העבודה על הפרויקט על בעיות בתקשורת בין הצוותים, אך היא מודה ש"הדוגמאות האלה אכן נשמעות בעייתיות".

"אולי גם פרויקט הרפליקציה צריך לעבור רפליקציה", מסכמת שנבל.

אוטופיה רדיקלית

הביקורת של תמיר על הפרויקט מגיעה מכיוון אחר. "הפרדיגמה של נוסק, לחזור שוב ושוב על ניסוי כמה שיותר צמוד למקור — היא בעיני בזבוז משאבים. אם חוקרים רק ישחזרו ניסויים מעכשיו, התרומה למדע תהיה קטנה. צריך לעשות שיחזורים קונספטואליים, כלומר לא אחד לאחד, אלא לשחזר את הרעיון. למשל, לבדוק רגשות אינסטרומנטליים לא במשחק מחשב, אלא במשא ומתן שבו רוצים לנצח מישהו לעומת מצב שבו רוצים לשתף פעולה. אם הרעיון שגוי ביסודו, ממילא לא נמצא אפקט דומה בקונטקסט אחר. אם כן מוצאים אפקט — לא רק שיחזרנו, אלא הרחבנו את הבנתנו את הנושא. מה זה משנה אם ממצא ספציפי שוחזר בהצלחה או לא? מה שמשנה זה אם הרעיון התיאורטי שמאחוריו תקף".

חלק מהמסתייגים מודים שבסופו של דבר היו לפרויקט השלכות חיוביות: הדיון שהתעורר בעקבותיו הגביר את המודעות לפרקטיקות המחקר הבעייתיות ולצורך בשקיפות. חלק מכתבי העת ריעננו נהלים והנחיות ואף תנאי קבלה של מאמרים לפרסום. המדע הגביר את מאמציו לבדוק את עצמו. "כך שלמרות הבעיות", אומרת ליברמן, "זה אפילו נחמד להיות חלק מתחום שמתייחס ברצינות לביקורת ומנסה להשתפר".

בר־ענן, שכתב את עבודת הדוקטורט שלו באוניברסיטת וירג'יניה בהנחייתו של נוסק, חושב שתהליך השינוי הוא עניין דורי. "חלק גדול מהמחקר מתבסס באופן טבעי על שיחזורי ממצאים קיימים, בניסיון להוסיף עליהם ידע. כיוון שחלק גדול מהמחקר נעשה על ידי סטודנטים לתארים מתקדמים, כשהם לא מצליחים לשחזר, אין להם איך להמשיך במחקר. הדוקטורנטים האלה נמצאים במצב מאוד עדין: יש עליהם לחץ כבד במיוחד להראות ממצאים חדשים, כי אחרת לא תהיה להם עבודה כשיסיימו את הלימודים. זו חוויה נפוצה, שגם אני חוויתי כדוקטורנט, וגם היא תרמה להולדת התנועה הזאת.

"עכשיו לחוקרים צעירים יש עוד אופציה: הם לא חייבים להציג תוצאות מושלמות ולא ריאליסטיות, אלא יכולים להשתייך ל'מתקנים'. אולי יש לפער הדורי גם הסבר פסיכולוגי. חוקרים צעירים יכולים לומר לעצמם: נכון, שש שנים עשיתי טעויות, אך מעכשיו אפעל נכון. לחוקרים מבוגרים, לעומת זאת, אימוץ נורמות מחקר חדשות כרוך במחיר פסיכולוגי כבד, של הודאה בטעות שנמשכה הרבה יותר שנים. עד לא מזמן חשבתי שבריאן מחולל מהפכה, אבל אני עכשיו בשבתון באוניברסיטת ניו יורק, יש פה הרבה חוקרים ותיקים וחשובים, ואני מתרשם שבהם זה בקושי נוגע".

ב–2012 פירסמו בר־ענן ונוסק מאמר משותף, "שהציע שינוי רדיקלי בתחום", תחת הכותרת "אוטופיה מדעית". בשיחת טלפון מניו יורק בר־ענן מפרט: "צריך לשנות את מערך התגמולים, ולתגמל על עבודה מדעית טובה בלי קשר לתוצאותיה, מתוך הבנה שטיבו של מחקר נקבע גם לפי חשיבות השאלה שהוא עוסק בה, ההיגיון שבהשערות ורמת התחכום של המדידה. קריטריונים כאלה יורידו את הלחץ למצוא תוצאות כאלה או אחרות, ויעודדו אנשים לפרסם תוצאות מדויקות ולא רק תוצאות יפות, כפי שהתרגלנו עד כה".

לשם כך, בר־ענן קורא לרפורמה גם בחשיבות המיוחסת לכתבי העת במנגנון האקדמי: "אנשים בהחלט מתלהבים אם מאמר פורסם ב'סיינס' ובדומיו, אבל כיום אין בכלל צורך בכתבי עת כמו 'סיינס', שלפחות בפסיכולוגיה מפרסם שטויות לפעמים, ולא צריך להתנות פרסום בכך ששלושה עמיתים אנונימיים יגידו שהמאמר בסדר. הנורמות האלה מבוססות על תקופה שבה היו צריכים להדפיס מאמרים, אבל כיום ממילא יש דבר כזה שנקרא אינטרנט, שבו אין בעיה של עמודים. עדיף להיפטר מכתבי העת, ולפרסם הכל באינטרנט".

אכן אוטופיה, כי אולי רוצים לפרסם ב"סיינס" ובדומיו דווקא מפני שמספר העמודים מוגבל והסלקציה אכזרית?

בר־ענן: "ההיררכיה של כתבי העת משרתת רק את המו"לים שלהם. חשיבות של מאמר אפשר לבחון לפי מספר הציטוטים שלו, בלי קשר למקום שבו הוא פורסם. כרגע דווקא הגבירו את השיטור בתגובה לבעיות שהתגלו בשיחזור, כדי להקשות עוד יותר לפרסם מאמרים. אבל התקדמות המדע תלויה בשיתוף מידע, ולכן היא תיפגע מכך".

שול: "בהחלט יש עכשיו אווירה חדשה של 'צריך נורא להיזהר' — שלא ירמו אותנו, שלא יעשו מחקרים גרועים. האם זה טוב לפסיכולוגיה? יצירתיות דורשת אווירה של פתיחות, ונפגעת משמרנות ומאווירה של הימנעות מסיכון. נצטרך למצוא את האיזון".

עמדה קצת פילוסופית

ואולי בכלל כל הדרמה מוגזמת ומיותרת? "ממצאי הפרויקט פורסמו באופן שהוציא לתחום מוניטין לא טוב, כאילו אנחנו טוחנים מים", מצרה שנבל. "אבל הטענות המבוססות והמקובלות, המיינסטרים של הדיסציפלינה, נבדקו ואוששו פעמים רבות. לעומת זאת, רעיונות ומודלים שלא מצליחים לשחזר דועכים עם הזמן באופן טבעי, כי מפסיקים לצטט אותם ולהשתמש בהם".

איך אפשר לדעת באילו ממצאים לבטוח ובאילו לא? מותר לצעוק על הילדים שהם לא יקבלו שוקולד אם לא יאכלו חסה בלי לחשוש שיפתחו הפרעות אכילה, או שחייבים לחכות קודם לשיחזור?

סטרומינג'ר: "אין דרך לדעת. כלל אצבע פשוט הוא שעל ממצאים שנמצאים איתנו כבר הרבה זמן אפשר לסמוך ברמה גבוהה יותר של ביטחון. אבל אי אפשר לדעת בוודאות".

אולי נתָנו יותר מדי קרדיט למדע?

סטרומינג'ר: "זו תמימות להתייחס לתוצאות מדעיות כאל 'אמת' לפני שהצטברו כל העדויות הרלוונטיות, ובהחלט צריך להתייחס בחשדנות גם לממצאים שמתפרסמים בכתבי עת מדעיים. וכן, גם כלפי פרויקט הרפליקציה. אבל מה האלטרנטיבה? פשוט לנחש? השיטה המדעית אינה מושלמת, אבל מבין האלטרנטיבות, היא הטובה ביותר".

ליברמן: "אם מאמצים עמדה קצת פילוסופית, אז שום דבר שנאמר במדע אינו נכון. זה תמיד 'נכון לעכשיו' ובחזקת היפותזה. כל הפיזיקה של לפני 100 שנה לא נכונה, וגם דברים רבים בביולוגיה. אבל המשבר אינו על נכונות או אי נכונות הממצאים, אלא על הפרקטיקה. השאלה הרלוונטית היא אם אנחנו עורכים ניסויים ומפרסמים את ממצאיהם בצורה מיטבית".

כשהתפרסמו המחקרים ההם על אסטרולוגיה, האסטרולוגים הגיבו שלא משנה מה, הם יודעים שהם צודקים.

ליברמן: "אסטרולוגיה מעולם לא התעניינה בבדיקת השערות על סמך נתונים, ולכן היא גם לא תחווה משבר. מי שחושב שיש משמעות לבדיקת נתונים, המקום שלו במדעים".

תגובות

הזינו שם שיוצג באתר
משלוח תגובה מהווה הסכמה לתנאי השימוש של אתר הארץ