Telegram Group & Telegram Channel
​​В результате почти полугодовой забастовки, WGA удалось добиться «выдающейся» сделки, обеспечив защиту своим авторам в той или иной степени по всем ключевым пунктам, в том числе в вопросе использования ИИ.

• Сценаристам гарантируется вознаграждение и компенсация за работу над сценариями, даже если при их создании использовался искусственный интеллект.

• Сгенерированные ИИ материалы не считаются «исходным материалом».

• Компания не может обязать сценариста использовать ИИ и должна информировать, если этот инструмент использовался.

Но есть в договоре одна интересная оговорка:

«Гильдия оставляет за собой право утверждать, что использование материалов писателей для обучения искусственного интеллекта запрещено минимальным базовым соглашением или другим законом».

«Оставляет за собой право»
. Не «использование материалов писателей для обучения ИИ запрещено», а «Гильдия оставляет за собой право утверждать, что это запрещено». Улавливаете разницу?

Гильдии может быть и хотелось бы запретить использование материалов писателей для обучения ИИ, но у нее нет для этого юридических инструментов — существующие правовые нормы не дают определенности в вопросе нарушения авторских прав искусственным интеллектом. А когда появятся новые — неизвестно.

Вероятно, множественные индивидуальные иски к большим компаниям от авторов, которых не устраивает использование их материалов для обучения ИИ, ускорят модернизацию законодательства, но важно понимать, что этот вопрос гораздо шире одной только юридической плоскости. Потому что проблема не в том, как именно компании используют материалы авторов для обучения нейросетей. А в том, что они делают это тайно.

Мы все уже давно уяснили, что ChatGPT, например, учится на условном множестве загруженных в нее текстов из Интернета. «Нейросеть не придумывает ничего нового, а обрабатывает уже имеющуюся информацию». Но какую именно? Какие именно тексты в нее были загружены? Ведь кажется довольно очевидным, что для обучения настолько продвинутых инструментов нужны не мои правки «Википедии», а более качественный материал.

И вот я наткнулся сегодня совершенно случайно на статью, которая и заставила меня написать этот пост: 183 000 спираченных книг (и еще 8 000, информация о которых отсутствует в книжной базе данных), которые были использованы для обучения GPT-J, EleutherAI, BloombergGPT, LLaMA и, вероятно, других генеративных ИИ-программ, внедренных в сайты по всему Интернету.

Точнее, это даже не одна статья, а серия материалов про Books3 — довольно известную, как выяснилось, в кругах разработчиков (Books1 была опубликована еще в 2020-м году), но скрытую от глаз обывателей базу данных из книг для обучения генеративных ИИ-программ. Нобелевские лауреаты, «Подземелья и драконы», христианская литература и эротика — все это служит точками отсчета для машины.

Вот здесь можно почитать про историю этой базы данных и тех, что были до нее, с комментариями от ее разработчика и компаний, которые ее использовали. Вот здесь — чуть подробней про ее содержание с конкретными цифрами (236 инструкций от Шекспира, не менее 175 из Библии и 46 книг Буковски).

А вот здесь самому проверить, нет ли вдруг в этой базе вашей книги (или просто поиграться и проверить любую другую).

#essay | #read



group-telegram.com/lookmomicanscript/780
Create:
Last Update:

​​В результате почти полугодовой забастовки, WGA удалось добиться «выдающейся» сделки, обеспечив защиту своим авторам в той или иной степени по всем ключевым пунктам, в том числе в вопросе использования ИИ.

• Сценаристам гарантируется вознаграждение и компенсация за работу над сценариями, даже если при их создании использовался искусственный интеллект.

• Сгенерированные ИИ материалы не считаются «исходным материалом».

• Компания не может обязать сценариста использовать ИИ и должна информировать, если этот инструмент использовался.

Но есть в договоре одна интересная оговорка:

«Гильдия оставляет за собой право утверждать, что использование материалов писателей для обучения искусственного интеллекта запрещено минимальным базовым соглашением или другим законом».

«Оставляет за собой право»
. Не «использование материалов писателей для обучения ИИ запрещено», а «Гильдия оставляет за собой право утверждать, что это запрещено». Улавливаете разницу?

Гильдии может быть и хотелось бы запретить использование материалов писателей для обучения ИИ, но у нее нет для этого юридических инструментов — существующие правовые нормы не дают определенности в вопросе нарушения авторских прав искусственным интеллектом. А когда появятся новые — неизвестно.

Вероятно, множественные индивидуальные иски к большим компаниям от авторов, которых не устраивает использование их материалов для обучения ИИ, ускорят модернизацию законодательства, но важно понимать, что этот вопрос гораздо шире одной только юридической плоскости. Потому что проблема не в том, как именно компании используют материалы авторов для обучения нейросетей. А в том, что они делают это тайно.

Мы все уже давно уяснили, что ChatGPT, например, учится на условном множестве загруженных в нее текстов из Интернета. «Нейросеть не придумывает ничего нового, а обрабатывает уже имеющуюся информацию». Но какую именно? Какие именно тексты в нее были загружены? Ведь кажется довольно очевидным, что для обучения настолько продвинутых инструментов нужны не мои правки «Википедии», а более качественный материал.

И вот я наткнулся сегодня совершенно случайно на статью, которая и заставила меня написать этот пост: 183 000 спираченных книг (и еще 8 000, информация о которых отсутствует в книжной базе данных), которые были использованы для обучения GPT-J, EleutherAI, BloombergGPT, LLaMA и, вероятно, других генеративных ИИ-программ, внедренных в сайты по всему Интернету.

Точнее, это даже не одна статья, а серия материалов про Books3 — довольно известную, как выяснилось, в кругах разработчиков (Books1 была опубликована еще в 2020-м году), но скрытую от глаз обывателей базу данных из книг для обучения генеративных ИИ-программ. Нобелевские лауреаты, «Подземелья и драконы», христианская литература и эротика — все это служит точками отсчета для машины.

Вот здесь можно почитать про историю этой базы данных и тех, что были до нее, с комментариями от ее разработчика и компаний, которые ее использовали. Вот здесь — чуть подробней про ее содержание с конкретными цифрами (236 инструкций от Шекспира, не менее 175 из Библии и 46 книг Буковски).

А вот здесь самому проверить, нет ли вдруг в этой базе вашей книги (или просто поиграться и проверить любую другую).

#essay | #read

BY look mom i can script




Share with your friend now:
group-telegram.com/lookmomicanscript/780

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

For tech stocks, “the main thing is yields,” Essaye said. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals.
from cn


Telegram look mom i can script
FROM American