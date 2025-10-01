$41.140.18
Ексклюзив
12:21 • 6086 перегляди
Парламентські вибори в Чехії: політолог пояснив, як вони вплинуть на Україну
10:38 • 8484 перегляди
Веніславський пояснив, чим корисний для держави дозвіл на виїзд з України чоловіків до 22 років і як він вплинув на мобілізацію
09:34 • 10457 перегляди
Президент доручив повну перевірку після загибелі 9 людей через негоду в Одесі
Ексклюзив
1 жовтня, 06:00 • 41683 перегляди
Чи зростуть тарифи на електроенергію для населення у листопаді – відповідь Міненерго
1 жовтня, 05:57 • 35775 перегляди
Уряд США призупинив роботу вперше з 2019 року: хто отримає зарплату під час шатдауну, а хто - ні
1 жовтня, 05:47 • 28572 перегляди
Восьмиденний блекаут: в ЄС закликали рф вивести негайно всі свої сили із ЗАЕС та всієї України
1 жовтня, 05:00 • 46649 перегляди
Нова категорія отримувачів базової соціальної допомоги, призначення субсидій, вилучення монет: нововведення із першого жовтня
30 вересня, 17:35 • 25304 перегляди
Важливо, щоб світ знав, які можуть бути наслідки: Зеленський обговорив із генсеком ООН найдовший блекаут на окупованій ЗАЕС
Ексклюзив
30 вересня, 16:26 • 34647 перегляди
Коли робити щеплення від грипу і як довго триває захист: на початку епідемсезону лікар відповів на основні питання
Ексклюзив
30 вересня, 13:32 • 63057 перегляди
Замість міністрів - підприємці: що не так із кримінальними провадженнями НАБУ
В Одесі майже добу ліквідовують наслідки негоди: 9 людей загинули, у тому числі дитина
1 жовтня, 05:18
Зірка серіалу "Ейфорія" Ерік Дейн бореться з БАС: актор з'явився в інвалідному візку
07:33
Орбан може отримати несподівану підтримку у спробах не допустити Україну до ЄС - Politico
08:02
У Німеччині зафіксовано масові польоти дронів над об'єктами критичної інфраструктури - Spiegel
08:09
Перша ШІ-акторка Тіллі Норвуд викликала скандал у Голлівуді
09:58
Парламентські вибори в Чехії: політолог пояснив, як вони вплинуть на Україну
Ексклюзив
12:21 • 6136 перегляди
Ціни на ліки ростуть, довіра падає: чому "Дарниця" програє бій за споживача
11:02
Всесвітній день шоколаду: топ-5 солодких рецептів, які варто приготувати сьогодні
10:37
Чи зростуть тарифи на електроенергію для населення у листопаді – відповідь МіненергоPhoto
Ексклюзив
1 жовтня, 06:00 • 41706 перегляди
Нова категорія отримувачів базової соціальної допомоги, призначення субсидій, вилучення монет: нововведення із першого жовтняPhoto1 жовтня, 05:00 • 46662 перегляди
Перша ШІ-акторка Тіллі Норвуд викликала скандал у Голлівуді
09:58
Зірка серіалу "Ейфорія" Ерік Дейн бореться з БАС: актор з'явився в інвалідному візку
07:33
Памела Андерсон здивувала Париж новим образом під час Тижня моди
30 вересня, 18:48
Названо 50 найкращих ресторанів США та Канади: в яких містах вони розташовані
30 вересня, 14:16
Маєток режисера Девіда Лінча виставлено на продаж за 15 мільйонів доларів
30 вересня, 09:59
Wikimedia зробила дані Вікіпедії зручнішими для штучного інтелекту

Київ • УНН

 • 950 перегляди

Wikimedia представила проєкт у Німеччині, що дозволяє системам ШІ легше працювати з Вікіпедією та Вікіданими. Завдяки семантичному пошуку майже 120 мільйонів записів тепер доступні за змістом, а не лише за ключовими словами.

Wikimedia зробила дані Вікіпедії зручнішими для штучного інтелекту

У Німеччині представили новий проєкт, який дозволить системам штучного інтелекту легше працювати з Вікіпедією та Вікіданими. Завдяки семантичному пошуку майже 120 мільйонів записів тепер можна буде знаходити за змістом, а не лише за ключовими словами, пише УНН із посиланням на TechCrunch.

Деталі

"Система під назвою "Проєкт вбудовування Wikidata" застосовує векторний семантичний пошук - техніку, яка допомагає комп’ютерам розуміти значення та зв’язки між словами - до існуючих даних у Вікіпедії та її сестринських платформах, що складаються з майже 120 мільйонів записів", - пише видання.

Поєднанні з підтримкою нового протоколу контексту моделі (MCP) - стандарту, який дозволяє системам штучного інтелекту ефективніше працювати з джерелами даних, - "проєкт відкриває можливість виконувати запити природною мовою безпосередньо до LLM". Ініціативу, як вказано, реалізувало німецьке відділення Wikimedia у співпраці з компанією нейронного пошуку Jina.AI та DataStax, що спеціалізується на технологіях обробки даних у режимі реального часу.

Як це працювало раніше

Вікідані роками пропонували машинозчитувані дані з ресурсів Вікімедіа, але попередні інструменти дозволяли лише пошук за ключовими словами та запити SPARQL - спеціалізовану мову запитів. Нова система краще працюватиме із системами доповненого пошуку (RAG), які дозволяють моделям штучного інтелекту отримувати зовнішню інформацію, надаючи розробникам можливість базувати свої моделі на знаннях, перевірених редакторами Вікіпедії.

Дані також структуровані таким чином, щоб забезпечити важливий семантичний контекст. Наприклад, запит до бази даних за словом "вчений" видасть списки видатних вчених-ядерників, а також вчених, які працювали в Bell Labs. Також є переклади слова "вчений" різними мовами, зображення вчених за роботою та осіб, пов’язаних поняттям "дослідник" та "науковець".

Суть нового проєкту

Новий проєкт з’являється на тлі того, що розробники штучного інтелекту намагаються знайти високоякісні джерела даних, які можна використовувати для точного налаштування моделей. Самі навчальні системи стали складнішими - часто вони збираються як складні навчальні середовища, а не як прості набори даних, але для належного функціонування вони все ще потребують ретельно відібраних даних.

Для систем штучного інтелекту, які вимагають максимальної точності, потреба у перевірених і надійних даних є особливо гострою. І хоча Вікіпедію іноді недооцінюють, її інформація значно більш фактологічно орієнтована, ніж загальні масиви даних на кшталт Common Crawl - величезної збірки вебсторінок з усього інтернету, ідеться у публікації.

Втім, пошук якісних даних може мати високу ціну для лабораторій ШІ. Так, у серпні компанія Anthropic погодилася врегулювати позов групи авторів, чиї твори використовувалися як навчальні матеріали, і виплатити 1,5 мільярда доларів, щоб уникнути подальших претензій.

Керівник проєкту Wikidata AI Філіп Сааде у заяві для преси підкреслив незалежність ініціативи від великих ШІ-лабораторій та технологічних корпорацій.

Запуск цього проєкту Embedding Project показує, що потужний штучний інтелект не обов’язково повинен контролюватися жменькою компаній. Він може бути відкритим, спільним та створеним для обслуговування всіх

- сказав Сааде журналістам.

У TikTok ширяться відео, згенеровані ШІ, які просувають наратив "миру за будь-яку ціну" - ЦПД РНБО
01.10.25, 13:41

Альона Уткіна

