Telegram Group & Telegram Channel
​​В результате почти полугодовой забастовки, WGA удалось добиться «выдающейся» сделки, обеспечив защиту своим авторам в той или иной степени по всем ключевым пунктам, в том числе в вопросе использования ИИ.

• Сценаристам гарантируется вознаграждение и компенсация за работу над сценариями, даже если при их создании использовался искусственный интеллект.

• Сгенерированные ИИ материалы не считаются «исходным материалом».

• Компания не может обязать сценариста использовать ИИ и должна информировать, если этот инструмент использовался.

Но есть в договоре одна интересная оговорка:

«Гильдия оставляет за собой право утверждать, что использование материалов писателей для обучения искусственного интеллекта запрещено минимальным базовым соглашением или другим законом».

«Оставляет за собой право»
. Не «использование материалов писателей для обучения ИИ запрещено», а «Гильдия оставляет за собой право утверждать, что это запрещено». Улавливаете разницу?

Гильдии может быть и хотелось бы запретить использование материалов писателей для обучения ИИ, но у нее нет для этого юридических инструментов — существующие правовые нормы не дают определенности в вопросе нарушения авторских прав искусственным интеллектом. А когда появятся новые — неизвестно.

Вероятно, множественные индивидуальные иски к большим компаниям от авторов, которых не устраивает использование их материалов для обучения ИИ, ускорят модернизацию законодательства, но важно понимать, что этот вопрос гораздо шире одной только юридической плоскости. Потому что проблема не в том, как именно компании используют материалы авторов для обучения нейросетей. А в том, что они делают это тайно.

Мы все уже давно уяснили, что ChatGPT, например, учится на условном множестве загруженных в нее текстов из Интернета. «Нейросеть не придумывает ничего нового, а обрабатывает уже имеющуюся информацию». Но какую именно? Какие именно тексты в нее были загружены? Ведь кажется довольно очевидным, что для обучения настолько продвинутых инструментов нужны не мои правки «Википедии», а более качественный материал.

И вот я наткнулся сегодня совершенно случайно на статью, которая и заставила меня написать этот пост: 183 000 спираченных книг (и еще 8 000, информация о которых отсутствует в книжной базе данных), которые были использованы для обучения GPT-J, EleutherAI, BloombergGPT, LLaMA и, вероятно, других генеративных ИИ-программ, внедренных в сайты по всему Интернету.

Точнее, это даже не одна статья, а серия материалов про Books3 — довольно известную, как выяснилось, в кругах разработчиков (Books1 была опубликована еще в 2020-м году), но скрытую от глаз обывателей базу данных из книг для обучения генеративных ИИ-программ. Нобелевские лауреаты, «Подземелья и драконы», христианская литература и эротика — все это служит точками отсчета для машины.

Вот здесь можно почитать про историю этой базы данных и тех, что были до нее, с комментариями от ее разработчика и компаний, которые ее использовали. Вот здесь — чуть подробней про ее содержание с конкретными цифрами (236 инструкций от Шекспира, не менее 175 из Библии и 46 книг Буковски).

А вот здесь самому проверить, нет ли вдруг в этой базе вашей книги (или просто поиграться и проверить любую другую).

#essay | #read



group-telegram.com/lookmomicanscript/780
Create:
Last Update:

​​В результате почти полугодовой забастовки, WGA удалось добиться «выдающейся» сделки, обеспечив защиту своим авторам в той или иной степени по всем ключевым пунктам, в том числе в вопросе использования ИИ.

• Сценаристам гарантируется вознаграждение и компенсация за работу над сценариями, даже если при их создании использовался искусственный интеллект.

• Сгенерированные ИИ материалы не считаются «исходным материалом».

• Компания не может обязать сценариста использовать ИИ и должна информировать, если этот инструмент использовался.

Но есть в договоре одна интересная оговорка:

«Гильдия оставляет за собой право утверждать, что использование материалов писателей для обучения искусственного интеллекта запрещено минимальным базовым соглашением или другим законом».

«Оставляет за собой право»
. Не «использование материалов писателей для обучения ИИ запрещено», а «Гильдия оставляет за собой право утверждать, что это запрещено». Улавливаете разницу?

Гильдии может быть и хотелось бы запретить использование материалов писателей для обучения ИИ, но у нее нет для этого юридических инструментов — существующие правовые нормы не дают определенности в вопросе нарушения авторских прав искусственным интеллектом. А когда появятся новые — неизвестно.

Вероятно, множественные индивидуальные иски к большим компаниям от авторов, которых не устраивает использование их материалов для обучения ИИ, ускорят модернизацию законодательства, но важно понимать, что этот вопрос гораздо шире одной только юридической плоскости. Потому что проблема не в том, как именно компании используют материалы авторов для обучения нейросетей. А в том, что они делают это тайно.

Мы все уже давно уяснили, что ChatGPT, например, учится на условном множестве загруженных в нее текстов из Интернета. «Нейросеть не придумывает ничего нового, а обрабатывает уже имеющуюся информацию». Но какую именно? Какие именно тексты в нее были загружены? Ведь кажется довольно очевидным, что для обучения настолько продвинутых инструментов нужны не мои правки «Википедии», а более качественный материал.

И вот я наткнулся сегодня совершенно случайно на статью, которая и заставила меня написать этот пост: 183 000 спираченных книг (и еще 8 000, информация о которых отсутствует в книжной базе данных), которые были использованы для обучения GPT-J, EleutherAI, BloombergGPT, LLaMA и, вероятно, других генеративных ИИ-программ, внедренных в сайты по всему Интернету.

Точнее, это даже не одна статья, а серия материалов про Books3 — довольно известную, как выяснилось, в кругах разработчиков (Books1 была опубликована еще в 2020-м году), но скрытую от глаз обывателей базу данных из книг для обучения генеративных ИИ-программ. Нобелевские лауреаты, «Подземелья и драконы», христианская литература и эротика — все это служит точками отсчета для машины.

Вот здесь можно почитать про историю этой базы данных и тех, что были до нее, с комментариями от ее разработчика и компаний, которые ее использовали. Вот здесь — чуть подробней про ее содержание с конкретными цифрами (236 инструкций от Шекспира, не менее 175 из Библии и 46 книг Буковски).

А вот здесь самому проверить, нет ли вдруг в этой базе вашей книги (или просто поиграться и проверить любую другую).

#essay | #read

BY look mom i can script




Share with your friend now:
group-telegram.com/lookmomicanscript/780

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields. He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety.
from in


Telegram look mom i can script
FROM American