בכל זאת, לא יכולתי להתאפק - שנייה לפני שאני עולה למטוס, החלטתי לשתף בכמה מסקנות לגבי הכנס ולגבי שימור דיגיטלי בעולם.
1. המסקנה הכי חשובה - שימור דיגיטלי (=אירכוב לטווח ארוך של אובייקטים דיגיטליים, בין אם כאלה שעברו דיגיטיזציה או שנולדו דיגיטלית) הוא בעיה "חמה" בעולם מוסדות המורשת - ספריות, ארכיונים, מוזיאונים.
כולם עושים את זה, או לפחות חושבים בכיוון.
2. יש הרבה מאוד פרויקטים - חלקם הגדול (לפחות בשל "הפוקוס האירופי" של הכנס) ממומן ישירות או בעקיפין דרך ה-EU, מה שלא אומר שיש שיתוף מידע או ניסיון ביניהם. יש פרויקטים שעוסקים רק בשכבות מסוימות של ארכיב דיגיטלי (ולכן הן יותר תיאורטיות בשלב זה), ויש כאלה שמנסים לבנות מערכת שלמה אבל רק עבור פורמטים מסוימים (כתב, למשל, ב-CINES שהוא ה"מחב"א" הצרפתי). אני משער שהכנס הוא הזדמנות טובה לשיתוף פעולה, אבל בכל זאת -
3. יש הבדל גדול בין התפיסה האירופאית לאמריקאית בנושא ה-digital preservation. מבחינת (חלק) מהגופים הגדולים באמריקה, תפיסת LOCKSS - Lots of copies keep stuff safe משמעותה שימור דיגיטלי. כלומר, מתקיימת המשוואה גיבוי = שימור. בעיני האירופאים (אני יותר קרוב לדעתם, אולי בשל ההיבט הגיאוגרפי?) משוואה זו אינה מתקיימת, ויש לתמוך במערכת שימור ארוכת טווח "באמת".
למה אני חושב כך? מספיק שתחשבו מה קרה לקבצים ב-Wordstar, אולי אחד ממעבדי התמלילים הראשונים בעולם. גם אם היו שמורים לנו במאגרים שונים ובלתי תלויים עשרות עותקים של ספרים (קבצים...) הכתובים בפורמט זה - עדיין כיום לא היה מה לעשות איתם.
במילים אחרות - מערכת LOCKSS טובה לגיבוי, אבל לא מספיק טובה לשימור.
4. הרבה מהפרויקטים העוסקים בשימור, מתחבטים בשאלות מ-3 תחומים עיקריים:
* מדיניות - מה מדיניות השימור של הארגון? איך מזהים סיכונים (סיכון בהקשר זה הוא, למשל, שמירת קבצי PDF שאינם מכילים את הגופן בתוך הקובץ, ולכן תלוים בהימצאות הגופן במחשב שבו נמצא ה-viewer) ומתמודדים עמם, אילו פורמטים הם פורמטי שימור, (למשל jpeg2000) לעומת פורמטים להצגה (jpeg רגיל, ואחרים)
* אחסון - איך לתכנן נכון מערכת איחסון? איך שומרים על סקלביליות - בהנחה הסבירה שכמות האיחסון הנדרשת תגיע בעשור הקרוב ל-Petabytes. בהרצאה אחת (לא מעניינת) - החלק המענין היה survey שערכו בגופי מורשת באירופה, ומעל 70% טענו שהם הולכים לעבור את ה-Petabyte במהלך השנים הקרובות. מעבר לתכנון האיחסון, ישנן שאלות כגון מה עושים לגבי bit rot ("שינוי" של 0 ו-1 על הדיסק), איך שומרים מפני בעיות של אמינות אחרות, מה התמהיל הרצוי בין דיסקים סיבוביים (קשיחים, רגילים) לטייפ גיבוי (יותר אמין ושריד, גישה יותר בעייתית).
* תוכנה - מי ינהל את כל החומר המאוחסן, את המדיניות ואת האיחזור? איך מנגישים? (בהנחה שיש ארכיטקטורה טובה לאיחסון - עדיין יכולים לדרוש חומר שנמצא רק בטייפ גיבוי, כי הוא בשימוש לעיתים נדירות - מערכת ניהול טובה יכולה להיות ההבדל בין הנגשה שאורכת מספר שניות - למספר שעות ואפילו יותר מכך!.
עולה לטיסה - כנראה שכדאי לי להפסיק...
1. המסקנה הכי חשובה - שימור דיגיטלי (=אירכוב לטווח ארוך של אובייקטים דיגיטליים, בין אם כאלה שעברו דיגיטיזציה או שנולדו דיגיטלית) הוא בעיה "חמה" בעולם מוסדות המורשת - ספריות, ארכיונים, מוזיאונים.
כולם עושים את זה, או לפחות חושבים בכיוון.
2. יש הרבה מאוד פרויקטים - חלקם הגדול (לפחות בשל "הפוקוס האירופי" של הכנס) ממומן ישירות או בעקיפין דרך ה-EU, מה שלא אומר שיש שיתוף מידע או ניסיון ביניהם. יש פרויקטים שעוסקים רק בשכבות מסוימות של ארכיב דיגיטלי (ולכן הן יותר תיאורטיות בשלב זה), ויש כאלה שמנסים לבנות מערכת שלמה אבל רק עבור פורמטים מסוימים (כתב, למשל, ב-CINES שהוא ה"מחב"א" הצרפתי). אני משער שהכנס הוא הזדמנות טובה לשיתוף פעולה, אבל בכל זאת -
3. יש הבדל גדול בין התפיסה האירופאית לאמריקאית בנושא ה-digital preservation. מבחינת (חלק) מהגופים הגדולים באמריקה, תפיסת LOCKSS - Lots of copies keep stuff safe משמעותה שימור דיגיטלי. כלומר, מתקיימת המשוואה גיבוי = שימור. בעיני האירופאים (אני יותר קרוב לדעתם, אולי בשל ההיבט הגיאוגרפי?) משוואה זו אינה מתקיימת, ויש לתמוך במערכת שימור ארוכת טווח "באמת".
למה אני חושב כך? מספיק שתחשבו מה קרה לקבצים ב-Wordstar, אולי אחד ממעבדי התמלילים הראשונים בעולם. גם אם היו שמורים לנו במאגרים שונים ובלתי תלויים עשרות עותקים של ספרים (קבצים...) הכתובים בפורמט זה - עדיין כיום לא היה מה לעשות איתם.
במילים אחרות - מערכת LOCKSS טובה לגיבוי, אבל לא מספיק טובה לשימור.
4. הרבה מהפרויקטים העוסקים בשימור, מתחבטים בשאלות מ-3 תחומים עיקריים:
* מדיניות - מה מדיניות השימור של הארגון? איך מזהים סיכונים (סיכון בהקשר זה הוא, למשל, שמירת קבצי PDF שאינם מכילים את הגופן בתוך הקובץ, ולכן תלוים בהימצאות הגופן במחשב שבו נמצא ה-viewer) ומתמודדים עמם, אילו פורמטים הם פורמטי שימור, (למשל jpeg2000) לעומת פורמטים להצגה (jpeg רגיל, ואחרים)
* אחסון - איך לתכנן נכון מערכת איחסון? איך שומרים על סקלביליות - בהנחה הסבירה שכמות האיחסון הנדרשת תגיע בעשור הקרוב ל-Petabytes. בהרצאה אחת (לא מעניינת) - החלק המענין היה survey שערכו בגופי מורשת באירופה, ומעל 70% טענו שהם הולכים לעבור את ה-Petabyte במהלך השנים הקרובות. מעבר לתכנון האיחסון, ישנן שאלות כגון מה עושים לגבי bit rot ("שינוי" של 0 ו-1 על הדיסק), איך שומרים מפני בעיות של אמינות אחרות, מה התמהיל הרצוי בין דיסקים סיבוביים (קשיחים, רגילים) לטייפ גיבוי (יותר אמין ושריד, גישה יותר בעייתית).
* תוכנה - מי ינהל את כל החומר המאוחסן, את המדיניות ואת האיחזור? איך מנגישים? (בהנחה שיש ארכיטקטורה טובה לאיחסון - עדיין יכולים לדרוש חומר שנמצא רק בטייפ גיבוי, כי הוא בשימוש לעיתים נדירות - מערכת ניהול טובה יכולה להיות ההבדל בין הנגשה שאורכת מספר שניות - למספר שעות ואפילו יותר מכך!.
עולה לטיסה - כנראה שכדאי לי להפסיק...