יום חמישי, 25 ביוני 2009

מחשבות ראשוניות מהכנס

בכל זאת, לא יכולתי להתאפק - שנייה לפני שאני עולה למטוס, החלטתי לשתף בכמה מסקנות לגבי הכנס ולגבי שימור דיגיטלי בעולם.

1. המסקנה הכי חשובה - שימור דיגיטלי (=אירכוב לטווח ארוך של אובייקטים דיגיטליים, בין אם כאלה שעברו דיגיטיזציה או שנולדו דיגיטלית) הוא בעיה "חמה" בעולם מוסדות המורשת - ספריות, ארכיונים, מוזיאונים.
כולם עושים את זה, או לפחות חושבים בכיוון.

2. יש הרבה מאוד פרויקטים - חלקם הגדול (לפחות בשל "הפוקוס האירופי" של הכנס) ממומן ישירות או בעקיפין דרך ה-EU, מה שלא אומר שיש שיתוף מידע או ניסיון ביניהם. יש פרויקטים שעוסקים רק בשכבות מסוימות של ארכיב דיגיטלי (ולכן הן יותר תיאורטיות בשלב זה), ויש כאלה שמנסים לבנות מערכת שלמה אבל רק עבור פורמטים מסוימים (כתב, למשל, ב-CINES שהוא ה"מחב"א" הצרפתי). אני משער שהכנס הוא הזדמנות טובה לשיתוף פעולה, אבל בכל זאת -

3. יש הבדל גדול בין התפיסה האירופאית לאמריקאית בנושא ה-digital preservation. מבחינת (חלק) מהגופים הגדולים באמריקה, תפיסת LOCKSS - Lots of copies keep stuff safe משמעותה שימור דיגיטלי. כלומר, מתקיימת המשוואה גיבוי = שימור. בעיני האירופאים (אני יותר קרוב לדעתם, אולי בשל ההיבט הגיאוגרפי?) משוואה זו אינה מתקיימת, ויש לתמוך במערכת שימור ארוכת טווח "באמת".

למה אני חושב כך? מספיק שתחשבו מה קרה לקבצים ב-Wordstar, אולי אחד ממעבדי התמלילים הראשונים בעולם. גם אם היו שמורים לנו במאגרים שונים ובלתי תלויים עשרות עותקים של ספרים (קבצים...) הכתובים בפורמט זה - עדיין כיום לא היה מה לעשות איתם.

במילים אחרות - מערכת LOCKSS טובה לגיבוי, אבל לא מספיק טובה לשימור.

4. הרבה מהפרויקטים העוסקים בשימור, מתחבטים בשאלות מ-3 תחומים עיקריים:

* מדיניות - מה מדיניות השימור של הארגון? איך מזהים סיכונים (סיכון בהקשר זה הוא, למשל, שמירת קבצי PDF שאינם מכילים את הגופן בתוך הקובץ, ולכן תלוים בהימצאות הגופן במחשב שבו נמצא ה-viewer) ומתמודדים עמם, אילו פורמטים הם פורמטי שימור, (למשל jpeg2000) לעומת פורמטים להצגה (jpeg רגיל, ואחרים)

* אחסון - איך לתכנן נכון מערכת איחסון? איך שומרים על סקלביליות - בהנחה הסבירה שכמות האיחסון הנדרשת תגיע בעשור הקרוב ל-Petabytes. בהרצאה אחת (לא מעניינת) - החלק המענין היה survey שערכו בגופי מורשת באירופה, ומעל 70% טענו שהם הולכים לעבור את ה-Petabyte במהלך השנים הקרובות. מעבר לתכנון האיחסון, ישנן שאלות כגון מה עושים לגבי bit rot ("שינוי" של 0 ו-1 על הדיסק), איך שומרים מפני בעיות של אמינות אחרות, מה התמהיל הרצוי בין דיסקים סיבוביים (קשיחים, רגילים) לטייפ גיבוי (יותר אמין ושריד, גישה יותר בעייתית).

* תוכנה - מי ינהל את כל החומר המאוחסן, את המדיניות ואת האיחזור? איך מנגישים? (בהנחה שיש ארכיטקטורה טובה לאיחסון - עדיין יכולים לדרוש חומר שנמצא רק בטייפ גיבוי, כי הוא בשימוש לעיתים נדירות - מערכת ניהול טובה יכולה להיות ההבדל בין הנגשה שאורכת מספר שניות - למספר שעות ואפילו יותר מכך!.

עולה לטיסה - כנראה שכדאי לי להפסיק...

מה שקרה אתמול, קצת באיחור


כיוון שחשבתי שאנוח בחו"ל אני מוכרח להגיד - זה באמת לא קרה לי -
ההרצאות אתמול היו back to back משמונה וחצי עד רבע לשש, ושש וחצי כבר היתה ארוחת ערב ו-reception (כלומר משקאות) - כך שהרבה זמן לנשום (ולכתוב פוסטים - לא היה).

ההרצאות המעניינות של אתמול היו -

* הרצאה של טום קריימר (האחראי על הספרייה הדיגיטלית בסטנפורד) - על Stanford Digital Repository 2.0 - על המגמות שהם מזהים, והצרכים שמובילים אותם להתייעלות בכוח אדם ותוכנה (משמע - הקיצוצים הנרחבים שהיו בסטנפורד).

* הרצאה של
Giunti Labs (חלק מההוצאה לאור שהזכויות על הספר "פינוקיו" שייכות אליה. פרט טריוויה: הם טוענים שזה הספר השני הכי נמכר בעולם אחרי התנ"ך... האף שלו לא התארך ולכן אני מסיק שהוא כנראה מדבר אמת) - הראו דרך נחמדה לבצע re-use לאובייקטים למטרות חינוכיות (e-learning) - בוראים "מוזיאון ווירטואלי" אליו אפשר לגרור (ממש!) לינקים לתמונות וספרים שיופיעו על קירות ומדפים. נחמד...
הם גם מנגישים ערכות לימוד באמצעים ניידים, כולל ב-iPhone...

* הרצאה של סטיב נייט מהספרייה הלאומית של ניו זילנד, מהמובילות (להבנתי) בתחום השימור הדיגיטלי בעולם. ההרצאה, המעניינת כצפוי - נסובה סביב על לקחים שנלמדו מפרויקט ה-NDHA. לא היה שם שום דבר מחדש (צריך לתכנן בקפידה, צריך לחשוב על פורמטים ולהתייעץ עם שותפים מספריות בעולם ובתעשייה כדי להימנע מטעויות מחד ומעבודה מיותרת על דברים שבר עשו אחרים מאידך) - למעט העובדה שהם מרגישים צורך לשכנע אחרים "לא להתייאש" ולהתחיל לחשוב על שימור דיגיטלי.

* הרצאה של הספרייה הלאומית הסלובקית - שעתידה להשקיע ב-20 השנים הבאות (התכנית היא עד - יתכן 2030) כ- 1.17 מיליארד יורו (!...) בשיפור תשתיות המידע הלאומיות - כולל מבצע דיגיטיזציה ענק המתוקצב במאות מיליוני יורו, ושיפור משמעותי של פעילות הספרייה. הם הבטיחו לשלוח תוכניות מפורטות, אבל אני מתרשם שמדובר במפעל (טכנולוגי) מרשים. כמובן שחלק ממה שהם עושים הוא שימור דיגיטלי - אבל זה לא היה הפוקוס של ההרצאה. אגב, משיחה איתם לאחר מכן, הם סיפרו שמטרת הדיגיטיזציה שלהם ב-5 השנים הקרובות היא להגיע ל-500,000 ספרים, ולכ-10,000 כותרי עיתונות. לשם כך הם מקימים מפעל (literally) עם פסי ייצור, שיעבדו בו כ-70 עובדים במשמרות. פרויקט מרשים מאוד - מקווה שהם ישלחו חומר.

* ההרצאה המעניינת של היום היתה, ללא ספק, של נציג הכנסייה המורמונית, שהציג את Family Search,
שירות הגינאולוגיה המקוון הגדול בעולם. הם תומכים במעל 10,000 מחפשים בו זמנית, ומבצעים דיגיטיזציה של מעל 20TB בשבוע(!!), ושואפים עד סוף השנה להכפיל את הקצב לכ-40TB. הקיטלוג והמיון - נעשים על ידי מתנדבים מורמונים (וגם אחרים...) - כולל אסירים שיושבים בבתי סוהר ומסייעים להם מרחוק במשימות אלה.

כשאחזור באופן סופי לארץ הקודש אסדר את הדברים שכתבתי במהלך היממה האחרונה ואכתוב את חוויות היום.

יום רביעי, 24 ביוני 2009

על דיסקים קשיחים ועננים

העדכון הזה יהיה קצר - לא רוצה להפסיד את ההרצאות.

אתמול נכחתי בהרצה בנושא Open Archive Storage Architectures for Cloud Computing
שמעבר לשם המפוצץ היתה בעצם סקירה של חלק מפתרונות ה-Open Storage של חברת SUN,
יתרונותיהם וחסרונותיהם, בייחוד בהקשר של אירכוב ארוך טווח.

היתרון - התפיסה של Sun מאפשרת לארגון לבחור את המוצרים והפתרונות ולהתרחב עם הזמן בצורה חופשית - אם מערך אחסנה של 500 TB לא מספיק, אפשר להוסיף עוד אחד ולחבר אותם בצורה שקופה. כל המוצרים מכילים פרוטוקולים ומערכות פתוחות (כולם מבוססים solaris) ומערכות קצבים פתוחות - ZFS / SAM-QFS.

למי שמתעניין בפתרון לדוגמא - אפשר להוריד סימולטור למערכת האחסנה המתקדמת ביותר של Sun שנידונה בפגישה.


מעבר לפתרונות האחסון, הועברה גם סקירה קצרה על "תפיסת הענן" של SUN, שהיא יחסית מעניינת. ושווה התייחסות:
מבחינת Sun, שנכנסת מעט באיחור למגמת המחשוב הענני, יש 4 תפיסות לפיהן הארגון יכול להיכנס לתחום:

א. להשתמש בענן
ב. לבצע מינוף של הענן
ג. לבנות ענן (בתוך ה data-center הארגוני)
ד. להיות ענן (כלומר - לשנות את המחשבה הארגונית על מנת לספק את כל השירותים בצורה "עננית").


Sun מתכוונים לתת שירותי עננות החל מהשנה, ומוכנים להציע "יעוץ ענני" לארגונים שרוצים לספק (או להשתמש) בשירותי ענן כחלק מהתפיסה הארגונית שלהם. שווה לעקוב...

יום שני, 22 ביוני 2009

מילות פתיחה וקצת רקע ומשאבי מידע

כל הפוסטים בבלוג זה (לפחות בשלב ראשון) יעסקו בכנס של
Sun Preservation and Archiving Special Interest Group (PASIG)
קבוצה שאת הקמתה יזמו חברת Sun ו-Michael Keller, הספרן האוניברסיטאי בסטנפורד והאחראי על המיחשוב המדעי וההוצאה לאור באוניברסיטה.

הקבוצה, שקיימת כשנתיים, נכון להיום, עוסקת בבעיות הטכנולוגיות הבוערות בתחומי האירכוב בכלל והשימור הדיגיטלי בפרט המעסיקות את עולם מוסדות המורשת, בפתרונות המיושמים שלהם ברחבי העולם.

הכנס, שנערך במלטה, יארח מעל 100 משתתפים ממוסדות מורשת מרכזיים בעולם, ונציגים של חברת SUN ושל מספר חברות מסחריות בתעשייה כגון אקס ליבריס. האג'נדה של הכנס ניתנת לעיון כאן.

במהלך הכנס, אצרף רשמים מרכזיים שלי מההרצאות והדיונים, בתקווה שיהיו הרבה כאלה, כמו גם סיכומים קצרצרים על נקודות מרכזיות שעלו בהרצאות.