Эксклюзив
12:21 • 2524 просмотра
Парламентские выборы в Чехии: политолог объяснил, как они повлияют на Украину
10:38 • 5602 просмотра
Вениславский объяснил, чем полезно для государства разрешение на выезд из Украины мужчин до 22 лет и как оно повлияло на мобилизацию
09:34 • 8610 просмотра
Президент поручил полную проверку после гибели 9 человек из-за непогоды в Одессе
Эксклюзив
1 октября, 06:00 • 39517 просмотра
Вырастут ли тарифы на электроэнергию для населения в ноябре – ответ Минэнерго
1 октября, 05:57 • 34900 просмотра
Правительство США приостановило работу впервые с 2019 года: кто получит зарплату во время шатдауна, а кто - нет
1 октября, 05:47 • 28142 просмотра
Восьмидневный блэкаут: в ЕС призвали рф немедленно вывести все свои силы из ЗАЭС и всей Украины
1 октября, 05:00 • 45300 просмотра
Новая категория получателей базовой социальной помощи, назначение субсидий, изъятие монет: нововведения с первого октября
30 сентября, 17:35 • 25270 просмотра
Важно, чтобы мир знал, какие могут быть последствия: Зеленский обсудил с генсеком ООН самый долгий блэкаут на оккупированной ЗАЭС
Эксклюзив
30 сентября, 16:26 • 34615 просмотра
Когда делать прививку от гриппа и как долго длится защита: в начале эпидсезона врач ответил на основные вопросы
Эксклюзив
30 сентября, 13:32 • 63020 просмотра
Вместо министров - предприниматели: что не так с уголовными производствами НАБУ
Главная
Политика
Война в Украине
Экономика
Общество
Криминал и ЧП
Наши за границей
Новости Мира
Киев
Киевская область
Здоровье
Технологии
Спорт
Культура
Лайфхаки
УНН Lite
Авто
Образование
Погода и окружающая среда
Недвижимость
Финансы
Кулинар
Новости Бизнеса
В Одессе почти сутки ликвидируют последствия непогоды: 9 человек погибли, в том числе ребенок
Звезда сериала "Эйфория" Эрик Дэйн борется с БАС: актер появился в инвалидной коляске
Орбан может получить неожиданную поддержку в попытках не допустить Украину в ЕС - Politico
В Германии зафиксированы массовые полеты дронов над объектами критической инфраструктуры - Spiegel
Первая ИИ-актриса Тилли Норвуд вызвала скандал в Голливуде
Парламентские выборы в Чехии: политолог объяснил, как они повлияют на Украину
Эксклюзив
12:21 • 2572 просмотра
Цены на лекарства растут, доверие падает: почему "Дарница" проигрывает битву за потребителя
Всемирный день шоколада: топ-5 сладких рецептов, которые стоит приготовить сегодня
Вырастут ли тарифы на электроэнергию для населения в ноябре – ответ Минэнерго
Эксклюзив
1 октября, 06:00 • 39550 просмотра
Новая категория получателей базовой социальной помощи, назначение субсидий, изъятие монет: нововведения с первого октября
Первая ИИ-актриса Тилли Норвуд вызвала скандал в Голливуде
Звезда сериала "Эйфория" Эрик Дэйн борется с БАС: актер появился в инвалидной коляске
Памела Андерсон удивила Париж новым образом во время Недели моды
Названы 50 лучших ресторанов США и Канады: в каких городах они расположены
Поместье режиссера Дэвида Линча выставлено на продажу за 15 миллионов долларов
Wikimedia сделала данные Википедии более удобными для искусственного интеллекта

Киев • УНН

 • 864 просмотра

Wikimedia представила проект в Германии, который позволяет системам ИИ легче работать с Википедией и Викиданными. Благодаря семантическому поиску почти 120 миллионов записей теперь доступны по содержанию, а не только по ключевым словам.

Wikimedia сделала данные Википедии более удобными для искусственного интеллекта

В Германии представили новый проект, который позволит системам искусственного интеллекта легче работать с Википедией и Викиданными. Благодаря семантическому поиску почти 120 миллионов записей теперь можно будет находить по смыслу, а не только по ключевым словам, пишет УНН со ссылкой на TechCrunch.

Детали

"Система под названием "Проект встраивания Wikidata" применяет векторный семантический поиск - технику, которая помогает компьютерам понимать значение и связи между словами - к существующим данным в Википедии и ее сестринских платформах, состоящих из почти 120 миллионов записей", - пишет издание.

В сочетании с поддержкой нового протокола контекста модели (MCP) - стандарта, который позволяет системам искусственного интеллекта эффективнее работать с источниками данных, - "проект открывает возможность выполнять запросы на естественном языке непосредственно к LLM". Инициативу, как указано, реализовало немецкое отделение Wikimedia в сотрудничестве с компанией нейронного поиска Jina.AI и DataStax, специализирующейся на технологиях обработки данных в режиме реального времени.

Как это работало раньше

Викиданные годами предлагали машиночитаемые данные из ресурсов Викимедиа, но предыдущие инструменты позволяли только поиск по ключевым словам и запросы SPARQL - специализированный язык запросов. Новая система будет лучше работать с системами дополненного поиска (RAG), которые позволяют моделям искусственного интеллекта получать внешнюю информацию, предоставляя разработчикам возможность базировать свои модели на знаниях, проверенных редакторами Википедии.

Данные также структурированы таким образом, чтобы обеспечить важный семантический контекст. Например, запрос к базе данных по слову "ученый" выдаст списки выдающихся ученых-ядерщиков, а также ученых, работавших в Bell Labs. Также есть переводы слова "ученый" на разных языках, изображения ученых за работой и лиц, связанных с понятиями "исследователь" и "научный сотрудник".

Суть нового проекта

Новый проект появляется на фоне того, что разработчики искусственного интеллекта пытаются найти высококачественные источники данных, которые можно использовать для точной настройки моделей. Сами обучающие системы стали сложнее - часто они собираются как сложные обучающие среды, а не как простые наборы данных, но для надлежащего функционирования они все еще нуждаются в тщательно отобранных данных.

Для систем искусственного интеллекта, требующих максимальной точности, потребность в проверенных и надежных данных особенно остра. И хотя Википедию иногда недооценивают, ее информация значительно более фактологически ориентирована, чем общие массивы данных вроде Common Crawl - огромной подборки веб-страниц со всего интернета, говорится в публикации.

Впрочем, поиск качественных данных может иметь высокую цену для лабораторий ИИ. Так, в августе компания Anthropic согласилась урегулировать иск группы авторов, чьи произведения использовались в качестве учебных материалов, и выплатить 1,5 миллиарда долларов, чтобы избежать дальнейших претензий.

Руководитель проекта Wikidata AI Филипп Сааде в заявлении для прессы подчеркнул независимость инициативы от крупных ИИ-лабораторий и технологических корпораций.

Запуск этого проекта Embedding Project показывает, что мощный искусственный интеллект не обязательно должен контролироваться горсткой компаний. Он может быть открытым, совместным и созданным для обслуживания всех

- сказал Сааде журналистам.

В TikTok распространяются видео, сгенерированные ИИ, которые продвигают нарратив "мира любой ценой" - ЦПД СНБО01.10.25, 13:41 • 1268 просмотров

Алена Уткина

Новости МираТехнологии
Германия