Telegram Group & Telegram Channel
Незаметное, но существенное одно из последствий AI хайпа последних лет в том что некоммерческий проект независимого открытого поискового индекса Common Crawl в 2023 году привлек 1.3 миллиона долларов [1] пожертвований из которых $500 тыс от его основателя Gil Elbaz, а ещё по $250 тыс. от ИИ компаний OpenAI и Anthropic, $100 от Andreessen Horowitz и ещё $50 от DuckDuckGo.

Для сравнения, в 2022 году бюджет CC оставлял $450 тыс, а в 2020 всего $75 тысяч.

В последнее время Common Crawl используется для обучение LLM и их индекс неоднократно обвиняли в том что в нем содержатся материалы под копирайтом, а также в том что 40% проиндексированных текстов на английском языке.

Важнее то что весь их проект основан на экосистеме инструментов WARC и, кстати, DuckDB и файлов Parquet.

В планы на 2025 год они закладывали создание инструментов с открытым кодом для лучшего понимания их датасетов [3], что интересно поскольку инструментов визуализации и навигации по WARC файлам веб архивов явно нехватает.

Ссылки:
[1] https://commoncrawl.org
[2] https://projects.propublica.org/nonprofits/organizations/261635908
[3] https://commoncrawl.org/blog/august-september-2024-newsletter

#digitalpreservation #webarchives #opendata



group-telegram.com/begtin/6380
Create:
Last Update:

Незаметное, но существенное одно из последствий AI хайпа последних лет в том что некоммерческий проект независимого открытого поискового индекса Common Crawl в 2023 году привлек 1.3 миллиона долларов [1] пожертвований из которых $500 тыс от его основателя Gil Elbaz, а ещё по $250 тыс. от ИИ компаний OpenAI и Anthropic, $100 от Andreessen Horowitz и ещё $50 от DuckDuckGo.

Для сравнения, в 2022 году бюджет CC оставлял $450 тыс, а в 2020 всего $75 тысяч.

В последнее время Common Crawl используется для обучение LLM и их индекс неоднократно обвиняли в том что в нем содержатся материалы под копирайтом, а также в том что 40% проиндексированных текстов на английском языке.

Важнее то что весь их проект основан на экосистеме инструментов WARC и, кстати, DuckDB и файлов Parquet.

В планы на 2025 год они закладывали создание инструментов с открытым кодом для лучшего понимания их датасетов [3], что интересно поскольку инструментов визуализации и навигации по WARC файлам веб архивов явно нехватает.

Ссылки:
[1] https://commoncrawl.org
[2] https://projects.propublica.org/nonprofits/organizations/261635908
[3] https://commoncrawl.org/blog/august-september-2024-newsletter

#digitalpreservation #webarchives #opendata

BY Ivan Begtin




Share with your friend now:
group-telegram.com/begtin/6380

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights.
from us


Telegram Ivan Begtin
FROM American