Штучний інтелект дедалі активніше проникає в наше повсякденне життя — від пошукових систем до генерації текстів і перекладів. Але які джерела формують його фундамент? Про те, як Вікіджерела впливають на розвиток українськомовного ШІ та яка їх роль в еру штучного інтелекту, розповідає активний дописувач Вікіджерел користувач Arxivist у замітці для «Вікімедіа Україна».

Існує цікавий факт, який зазвичай прослизає повз увагу: близько 2% (за даними SimilarWeb) трафіку у Вікіджерелах генерують чат-боти: користувачі переходять за посиланнями.
В основі будь-якої мовної моделі лежить фундаментальний принцип: «сміття на вході — сміття на виході». Штучний інтелект навчається на текстах, які йому надають, і якість цих текстів безпосередньо визначає його здатність генерувати осмислені, точні та стилістично адекватні відповіді. Величезні масиви даних з відкритого інтернету є проблематичними — вони сповнені помилок, упереджень, дезінформації та мовного «шуму».
Саме тут можуть допомогти Вікіджерела. Цей проєкт — не тільки онлайн-бібліотека, а й колосальний, ретельно верифікований корпус текстів, що є справжнім золотим стандартом для навчання ШІ. І у нього є власна цінність.
Достовірність, забезпечена людьми. На відміну від автоматично зібраного контенту, кожен текст у Вікіджерелах проходить процес вичитки та коректури спільнотою волонтерів. Багато сторінок існують паралельно зі сканами оригінальних видань, що дозволяє досягти майже абсолютної точності. Для розробників це означає доступ до чистого, надійного датасету, який мінімізує ризик навчання моделі на хибних даних.
Стилістична та семантична глибина. Вікіджерела містять не дописи з форумів, а літературну класику, історичні хроніки, філософські трактати та юридичні документи. Це тексти зі складною структурою, вивіреною аргументацією та багатою лексикою. Навчаючись на таких зразках, ШІ отримує не лише слова, а моделі якісної мови, логіки та стилю.
Критична маса для локальних мов. Для українського сегмента ШІ цей ресурс має і стратегічне значення. В умовах, коли глобальні датасети непропорційно насичені англійською, українські Вікіджерела є одним із найбільших та найякісніших джерел для навчання моделей українською.
Літературно-джерельна база даних. Наразі штучний інтелект вже може робити глибокі дослідження. Щоправда, коли ви почнете шукати вибірку творів певного автора — ШІ буде звертатись і до сторінок авторів у Вікіджерелах. Автор цього допису перевірив на практиці, що додана бібліографія у проєкт — формує зовсім інші відповіді, аніж тоді, коли така інформація відсутня. Це непогана реабілітація забутих робіт має потенціал для комплексних досліджень.
Реконструкція. Потенціал реконструкції лексики чи стилю автора наразі не перевірений автором. Проте можна помітити, що такий прогрес має західна аудиторія. Хто знає, можливо ми скоро будемо мати Івана Франка у смартфоні з питомим аватаром та вимовою його мови.
Отже, коли чергова мовна модель вражає вас своєю ерудицією або здатністю витримати стиль певного автора, варто пам’ятати про її «освіту». Цілком імовірно, що в її основі лежить тиха і кропітка праця волонтерів та волонтерок Вікіджерел.
Долучайтесь і ви — дізнайтеся більше про Вікіджерела та як стати їх частиною переглянувши серію відеоуроків за посиланням.