נתוני אימון לבינה מלאכותית נושאים תג מחיר גבוה עקב העלויות האדירות של רכישת נתונים וזכויות יוצרים, כך שנוצר מצב שהדבר מתאים בעיקר לחברות טכנולוגיה בעלות כיס עמוק. מסיבה זו, אוניברסיטת הרווארד מתכננת לשחרר מאגר נתונים הכולל כמיליון ספרים מנחלת הכלל, המקיפים מגוון ז'אנרים, שפות וסופרים כולל ספרים קלאסים של סופרים ידועים, אשר אינם מוגנים עוד בזכויות יוצרים בשל השנים הרבות שעברו מאז חוברו הספרים.
המאגר החדש עדיין אינו זמין, ולא ברור מתי או כיצד הוא ישוחרר. עם זאת, הוא מכיל ספרים שנגזרו מפרויקט סריקת הספרים הוותיק של גוגל, Google Books, ולכן גוגל תהיה מעורבת בשחרור ה"אוצר לכל".
הארוורד רמזה לראשונה על יוזמת הנתונים המוסדית (IDI) במרץ, כשהציגה את תוכניותיה ליצור "צינור מהימן לנתונים חוקיים עבור בינה מלאכותית". עם זאת, לא נשמע עליה הרבה עד להשקתה הרשמית היום, שהגיעה עם אישור שה-IDI כולל גיבוי כספי ממיקרוסופט ו-OpenAI.
גרג לפרט, המנהל המבצע של ה-IDI, אומר כי מאגר הנתונים מתוכנן "להכין את הקרקע" על ידי פתיחת מאגר נתונים עצום שכזה לכל מי שמעוניין - ממעבדות מחקר ועד סטארטאפים של בינה מלאכותית - לאמן את מודלי השפה הגדולים (LLMs) שלהם.