Notice: file_put_contents(): Write of 8808 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50 NLP Wanderer | Telegram Webview: nlpwanderer/50 -
Провел работу над ошибками, на которые мне указал @YallenGusev.
- Сделал дедубликацию с помощью e5 поверх всего датасета - Добавил информацию о языках в промптах и ответах - Добавил датасет системных промптов abacusai/SystemChat-1.1 - следовательно модели обученные на таком датасете смогут и с ним работать - Добавил пофильтрованные промпты из переведенного d0rj/OpenHermes-2.5-ru - Улучшил пайплайны фильтрации и постобработки промптов и ответов
Все так же, из всех новых датасетов я беру только промпты и генерирую ответы заного используя промпты-надстройки для управления качеством и языком ответа. Больше подробностей в карточке датасета.
Итого получилось 119398 пар, меньше, чем было изначально, зато куда более чистые. Датасет будет пополнятся и дальше, цель - 200к с большим количеством сильно диверсифицированных русских и английских промптов.
Провел работу над ошибками, на которые мне указал @YallenGusev.
- Сделал дедубликацию с помощью e5 поверх всего датасета - Добавил информацию о языках в промптах и ответах - Добавил датасет системных промптов abacusai/SystemChat-1.1 - следовательно модели обученные на таком датасете смогут и с ним работать - Добавил пофильтрованные промпты из переведенного d0rj/OpenHermes-2.5-ru - Улучшил пайплайны фильтрации и постобработки промптов и ответов
Все так же, из всех новых датасетов я беру только промпты и генерирую ответы заного используя промпты-надстройки для управления качеством и языком ответа. Больше подробностей в карточке датасета.
Итого получилось 119398 пар, меньше, чем было изначально, зато куда более чистые. Датасет будет пополнятся и дальше, цель - 200к с большим количеством сильно диверсифицированных русских и английских промптов.
BY NLP Wanderer
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. Anastasia Vlasova/Getty Images
from pl