עוד התקדמות בדרך לאל הממוחשב ששומע הכל ורואה הכל

בפינתנו היום אני רוצה לסקור פיתוח חדש של מיקרוסופט, שבמבט ראשון אינו נראה מרשים במיוחד. בראייה רחבה יותר, אני מאמין שהוא מרמז על כוחה של הבינה המלאכותית לשנות את העולם.

הרעיון עצמו פשוט למדי: חוקרים במעבדות מיקרוסופט פיתחו מערכת חדשה לתמלול פגישות בעולם הפיזי. במקום להסתמך על מיקרופון אחד בלבד, המערכת מתחברת לכל הסמארטפונים והמחשבים הניידים בחדר, ומקבלת מידע מהמיקרופונים שלהם בזמן אמת. המידע הזה עובר אינטגרציה, כך שבסופו של דבר, המערכת מסוגלת להבין ולתמלל את הדיבור בחדר, טוב יותר מכפי שהייתה יכולה לעשות זאת בהסתמך על מיקרופון אחד בלבד[1].

למה זה חשוב? מכיוון שאנו רואים כאן את ההתחלה של תפישה חדשה, שמסתמכת על 'מוח' ממוחשב המסוגל לקבל מידע ממספר רב של ערוצים בו-זמנית, ולהפיק ממנו משמעות. אנו איננו יכולים לעשות זאת: אנו מוגבלים למידע שמיעתי המגיע משני ערוצים בלבד – אוזן ימין ואוזן שמאל. אבל 'מוחות' ממוחשבים אינם ניחנים במגבלה דומה, והם מסוגלים לקבל מידע שמיעתי מעשרות, מאות ואפילו אלפי ערוצים. כל עוד הם ניחנים בכוח המחשוב הנחוץ, הם מסוגלים להפיק תובנות בעלות משמעות מכל המידע הזה.

יש השלכות עצומות לתפישה הזו. דמיינו שאתם מגיעים להרצאה בעוד חמש שנים. ברגע שאתם נכנסים לאולם, הטלפון שלכם מצטרף אוטומטית לרשת הרחבה שכוללת את הסמארטפונים של כל המאזינים האחרים. כל הטלפונים מקשיבים ביחד למרצה, ובסוף ההרצאה תקבלו את התמליל המדויק של כל מה שהוא אמר.

אבל למה לעצור במידע שמיעתי בלבד? בפעם הבאה שתלכו לקונצרט רוק עם אלפי אנשים בקהל, תוכלו לשתף גם את המידע החזותי המתקבל מהסמארטפון שלכם. כלומר, את קטעי הווידאו שאתם מצלמים. כל קטע וידאו כזה בפני עצמו אינו מעניין במיוחד, אבל זכרו שעשרות אנשים מצלמים כל הזמן, כל אחד מנקודה אחרת בקהל. אלגוריתמים מתקדמים יוכלו לאחות את כל הצילומים הללו כדי להפיק סרטים של האירוע השלם.

התפישה הזו פותחת גם צוהר לעולם העבודה החדש. באחת מהופעותיי האחרונות על הבמה באוסטרליה, טכנאי הסאונד גיחך קלות כששמע שאני סבור שהבינה המלאכותית יכולה לגזול מקומות עבודה מבני-אדם.

"ומי יחבר לך את המיקרופון לדש?" הוא שאל, תוך שידיו עוברות על גופי במיומנות. "מי ישחיל את הכבלים מתחת לחולצה שלך, ויחבר את הסוללה והמקלט לחגורה? מי יפעיל את המצלמה שמתעדת אותך על הבמה?"

והנה, אחת התשובות היא שפשוט לא יהיה צורך בכל המכשירים הייעודיים האלו. הם יוחלפו בכוח ההמון: בעשרות או מאות סמארטפונים שישתפו את המידע השמיעתי והחזותי ברמה שעולה על זו המתקבלת ממיקרופון בודד או מצלמה בודדת – משוכללים ככל שיהיו.

כמובן, אי אפשר שלא לחשוב גם על הבעיות הטמונות בתפישה זו. גופי ביון, למשל, יגירו ריר לנוכח האפשרות לשמוע הכל ולראות הכל. כבר עכשיו מקבלים גופי ביון רבים מידע מהסמארטפונים שלנו (לממשלת ארצות הברית, למשל, יש גישה לכל מה שאתם מקליטים ומעלים לענן של גוגל או פייסבוק). מה יקרה כשהם יוכלו לאחות את כל פיסות המידע הנפרדות האלו, כדי להרכיב תמונה גדולה וברורה יותר של העולם? והאם אנו רוצים באמת לתת בידיהם את הכוח הזה?

ייתכן שבעיה זו תיפתר בכוחן העתידי של טכנולוגיות הבלוקצ'יין, שאמורות ליצור רשתות תקשורת שיהיו חסינות לפריצה ולרחרוח מצד הממשלות. אולי. אבל יש עוד זמן עד אז. בינתיים, אפשר להסתפק בכך שהתפישה החדשה – זו שמספקת לבינה המלאכותית יכולת הצלבת מידע – אמורה לשרת את הציבור באמצעות שילוב הציבור עצמו. כולנו נצטרך 'לנדב' את כוח השמיעה, הראייה והתקשורת של הסמארטפונים שלנו, כדי לתת לבינה המלאכותית את המידע שהיא צריכה כדי לסייע לכולנו. כולם למען כולם.

זה בהחלט עתיד שאני יכול להתחבר אליו.

[1] https://www.microsoft.com/en-us/research/uploads/prod/2019/05/DenmarkTechReport-5ccb8b095c8f3.pdf

2 מחשבות על “עוד התקדמות בדרך לאל הממוחשב ששומע הכל ורואה הכל

  1. פינגבק: רועי צזנה: עוד התקדמות בדרך לאל הממוחשב ששומע הכל ורואה הכל - ייצור ידע

  2. פינגבק: רועי צזנה: עוד התקדמות בדרך לאל הממוחשב ששומע הכל ורואה הכל - ייצור ידע

להשאיר תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת /  לשנות )

תמונת גוגל

אתה מגיב באמצעות חשבון Google שלך. לצאת מהמערכת /  לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת /  לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת /  לשנות )

מתחבר ל-%s