Ворчливый редактор aka Пытливый нейроредактор
Начав ковырять Mixtral на предмет помощи в редактуре, хотел было написать, мол, «и у нас новый игрок», но это, увы, не так. Mixtral — это редкий случай, когда современная LLM доступна российским пользователям безо всяких хитровымученных танцев с бубном (даже…
И-и-и вот оно! У нас новый игрок — Gemini 2.0 Flash Experimental. Как уже упоминал выше, для доступа к этой нейросети нужен аккаунт Google и американский IP-адрес, иначе не заработает.
Gemini очень успешно справляется и с переводом, и с редактированием текстов (однако и тут напомню: доверяй, но проверяй). Проверял на переводах En-Ru по буровому оборудованию и Ru-En по теме "судостроение+ВПК". Формат: обычные xliff-ы экспортировал в двуязычные текстовые документы Word.
Промты (запросы) лучше писать на английском. Для вычитки использовал следующий:
Точно не подсчитывал, но по субъективным ощущениям в результатах примерно 20% фигни на 80% не-фигни.
Промт для перевода:
Качество оценю как высокое, но проверять всё равно надо. Если планируете использовать полученные результаты не сразу, их лучше копировать из окна чата куда-нибудь в текстовый документ, потому что иначе они могут не сохраниться.
#вр
Gemini очень успешно справляется и с переводом, и с редактированием текстов (однако и тут напомню: доверяй, но проверяй). Проверял на переводах En-Ru по буровому оборудованию и Ru-En по теме "судостроение+ВПК". Формат: обычные xliff-ы экспортировал в двуязычные текстовые документы Word.
Промты (запросы) лучше писать на английском. Для вычитки использовал следующий:
Check through the translation of the text into Russian. The text to be translated is in the column "Source". The translated text is in the column "Target". Check these columns only. Find all possible mistakes and troubles (vocabulary use, inconsistencies, typos, incorrectly build sentences, punctuation, etc.), list them here (no general descriptions, be clear and precise). Keep in mind the differences between punctuation in English and Russian numerical values. If everything is OK with the translated segment, do not mention it in your answer. If there's anything wrong with the segment, write the segment number from the first column, then write the source text and describe the problem. Consider the context of the whole document. Your changes must be consistent throughout the whole document.
Точно не подсчитывал, но по субъективным ощущениям в результатах примерно 20% фигни на 80% не-фигни.
Промт для перевода:
This is a series of documents partly translated from Russian into English. The source is given in the "Source" column. I want you to translate what is not translated in column "Target". If there is no translation in the "Target" segment, translate it into English. But, if the font colour in the segment is grey, ignore the segment. If the segment is already translated, do not mention it in your answer. The result I want is as follows: the untranslated segment number, the source text, and the translation of it.
Consider the context of the whole documents and already existing translations. Your translation must be uniform and consistent with them.
Качество оценю как высокое, но проверять всё равно надо. Если планируете использовать полученные результаты не сразу, их лучше копировать из окна чата куда-нибудь в текстовый документ, потому что иначе они могут не сохраниться.
#вр
Ворчливый редактор aka Пытливый нейроредактор
И-и-и вот оно! У нас новый игрок — Gemini 2.0 Flash Experimental. Как уже упоминал выше, для доступа к этой нейросети нужен аккаунт Google и американский IP-адрес, иначе не заработает. Gemini очень успешно справляется и с переводом, и с редактированием текстов…
Кстати, в гугловской справке удалось случайно обнаружить, в каких таких попугаях измеряется токен, часто фигурирующий в описаниях нейросетей.
Один токен равняется примерно четырем символам текста.
Соответственно, если модель поддерживает, например, контекст в 500 тысяч токенов, это примерно 2 миллиона символов.
#нейросетевое
Один токен равняется примерно четырем символам текста.
Соответственно, если модель поддерживает, например, контекст в 500 тысяч токенов, это примерно 2 миллиона символов.
#нейросетевое
Channel name was changed to «Ворчливый редактор aka Пытливый нейроредактор»
Ребёнок просит включить аудиосказку «Королевство кривых зеркал».
Пишу в поиске на сайте «Мишкины книжки»: Королевство... кривых...
Дальше клавиатура услужливо подсказывает: «рук».
#нмп
Пишу в поиске на сайте «Мишкины книжки»: Королевство... кривых...
Дальше клавиатура услужливо подсказывает: «рук».
#нмп
Круассаны с ветчиной и сыром, булочки с шоколадом, зерновой багет, пицца Маргарита...
Про это и многое другое (но такое же вкусное) я сегодня переводил тексты полдня. Полдня :(
#вр
Про это и многое другое (но такое же вкусное) я сегодня переводил тексты полдня. Полдня :(
#вр
Ночные диалоги с Gemini. Какой же контраст с хамящей по любому поводу Алисой (сравнение несколько из серии "оранжевое с вертикальным", но).
#нейросетевое
#нейросетевое
Ворчливый редактор aka Пытливый нейроредактор
Не поймите меня неправильно: я уважаю школу перевода «Лингвоконтакт» и то, чем она занимается — в конце концов, будь организованное ей обучение плохого качества, оно бы давно уже свернулось. Но примерно каждая ее рекламная рассылка вызывает ассоциации в первую…
Очередное увиденное в ящике письмо от «Лингваконтакта» напомнило: именно после этого поста кринжовые противоречивые анонсы курсов прекратились и с тех пор все письма придерживаются умеренного делового стиля.
Совпадение? Конечно, совпадение. Но всё же приятно почувствовать себя хоть на чуть-чуть лидером общественного мнения.
#вр
Совпадение? Конечно, совпадение. Но всё же приятно почувствовать себя хоть на чуть-чуть лидером общественного мнения.
#вр
Ворчливый редактор aka Пытливый нейроредактор
И-и-и вот оно! У нас новый игрок — Gemini 2.0 Flash Experimental. Как уже упоминал выше, для доступа к этой нейросети нужен аккаунт Google и американский IP-адрес, иначе не заработает. Gemini очень успешно справляется и с переводом, и с редактированием текстов…
С генерацией субтитров на русском языке Gemini, увы, не справилась. Пытался перевести фрагмент вступления обучающего курса режиссёра Вернера Херцога с английского на русский. После того, как в выводимых субтитрах в третий раз стал появляться один и тот же текст (с разными таймкодами), я заподозрил неладное.
Возможно, если разбить задачу на две — сгенерировать субтитры и перевести их на русский — нейросеть справится с этим лучше. А пока для распознавания речи в видео не устану рекомендовать инструмент, про который уже писал в этом канале. Просто, бесплатно, а главное - качественно.
#нейросетевое
Возможно, если разбить задачу на две — сгенерировать субтитры и перевести их на русский — нейросеть справится с этим лучше. А пока для распознавания речи в видео не устану рекомендовать инструмент, про который уже писал в этом канале. Просто, бесплатно, а главное - качественно.
#нейросетевое
www.videoindexer.ai
Azure AI Video Indexer - Cognitive Video Indexing
Search within videos and find the exact moments by advanced cognitive indexing : Audio Transcript, Face Detection, Speaker Indexing, Visual Text Recognition, Face Identification, Voice Activity Detection, Contextual Search, Sentiment Analysis, Secured Streaming…
Ну что, коллеги. Спасибо за то, что вы тут, и за то, что вас стало в несколько раз больше, чем было (удивительно, честное слово).
Как вы заметили, ворчать я в последнее время стал меньше, чем раньше (и тому есть причина (но я вам пока её не расскажу)), зато нашёл новую тему (для ворчания, бгг).
В общем, вы классные, но давайте уже после праздников!
#вр
Как вы заметили, ворчать я в последнее время стал меньше, чем раньше (и тому есть причина (но я вам пока её не расскажу)), зато нашёл новую тему (для ворчания, бгг).
В общем, вы классные, но давайте уже после праздников!
#вр
Кофе без коньяка (или хотя бы бальзама) – деньги на ветер, конечно.
Но всё же доброе утро, коллеги.
#вр
Но всё же доброе утро, коллеги.
#вр
Ворчливый редактор aka Пытливый нейроредактор
Вот и я связался с зелёной совой. #лингвошутка
Шутки шутками, а приложение Duolingo, что называется, реально работает. Я с его помощью начал учить испанский и без пропусков держусь уже 26 дней.
Ловишь себя на мысли, что в нём действительно интересно заниматься. Вроде бы уделяешь всего несколько минут в день, а и лексика запоминается благодаря многократному повторению и разным способам использования (составить фразу, написать слово, выбрать нужное слово, произнести в микрофон слово/фразу, найти соответствие пар слов на русском и иностранном языках), и фразы простые уже без проблем складываться начинают...
Есть мелкие ошибки в произношении (например, одна из персонажей упорно произносит encantada как «энкантава») и переводе («сестра» (hermana) легким движением превращается в «подругу» (amiga)), но, чтобы их не повторять, достаточно просто сохранять внимательность. Даже слегка истеричные пуш-уведомления не напрягают («О нет! Вы упустили место в Малахитовой лиге!»). Не Python, конечно, но разве Python даст вам возможность сказать на ещё одном иностранном языке «Я так устал» (Estoy muy cansado)?
В общем, рекомендую (а о том, что не очень рекомендую, попозже расскажу).
#вр #ПользуюсьСам
Ловишь себя на мысли, что в нём действительно интересно заниматься. Вроде бы уделяешь всего несколько минут в день, а и лексика запоминается благодаря многократному повторению и разным способам использования (составить фразу, написать слово, выбрать нужное слово, произнести в микрофон слово/фразу, найти соответствие пар слов на русском и иностранном языках), и фразы простые уже без проблем складываться начинают...
Есть мелкие ошибки в произношении (например, одна из персонажей упорно произносит encantada как «энкантава») и переводе («сестра» (hermana) легким движением превращается в «подругу» (amiga)), но, чтобы их не повторять, достаточно просто сохранять внимательность. Даже слегка истеричные пуш-уведомления не напрягают («О нет! Вы упустили место в Малахитовой лиге!»). Не Python, конечно, но разве Python даст вам возможность сказать на ещё одном иностранном языке «Я так устал» (Estoy muy cansado)?
В общем, рекомендую (а о том, что не очень рекомендую, попозже расскажу).
#вр #ПользуюсьСам
Telegram
Ворчливый редактор aka Пытливый нейроредактор
Доброе утро, коллеги. Если давно хотели вкатиться в IT, то давайте уже после праздников сейчас вполне подходящее время. Особенно если бесплатно.
Не реклама (только рекламы мне еще тут не хватало), просто сам наткнулся на ссылку в одном из соседних каналов…
Не реклама (только рекламы мне еще тут не хватало), просто сам наткнулся на ссылку в одном из соседних каналов…
Большой проект по переводу с русского на английский, который идёт уже пару лет и будет идти как минимум столько же.
В инструкциях по эксплуатации всякого чуть ли не через предложение встречаются обороты типа «Уравновешивающее устройство поз. 20 представляет собой...», которые так и переводятся: «Balancing device pos.20 is...».
Но вот в очередном комплекте документов переводчица, ведомая чувством прекрасного, решает заключить все эти «поз.» в скобочки. И я даже могу её понять. Но всё равно все эти скобочки мне придётся удалять. Потому что иначе тексты будут отличаться от уже сданных, дав заказчику повод спросить: «А чойта, собсна?».
Не занимайтесь улучшайзингом на крупных (да и на любых, в общем-то) проектах, если вас об этом не просят. Одно дело — фактические ошибки в терминологии, другое — оформление. Не вы придумали список требований к оформлению, не вам и менять.
#вр
В инструкциях по эксплуатации всякого чуть ли не через предложение встречаются обороты типа «Уравновешивающее устройство поз. 20 представляет собой...», которые так и переводятся: «Balancing device pos.20 is...».
Но вот в очередном комплекте документов переводчица, ведомая чувством прекрасного, решает заключить все эти «поз.» в скобочки. И я даже могу её понять. Но всё равно все эти скобочки мне придётся удалять. Потому что иначе тексты будут отличаться от уже сданных, дав заказчику повод спросить: «А чойта, собсна?».
Не занимайтесь улучшайзингом на крупных (да и на любых, в общем-то) проектах, если вас об этом не просят. Одно дело — фактические ошибки в терминологии, другое — оформление. Не вы придумали список требований к оформлению, не вам и менять.
#вр
В родительском чате нашей группы в детском саду идёт живейшее обсуждение: дарить шикарный подарок младшему воспитателю группы на день рождения или ограничиться чем-то символическим – ведь она вроде как собирается увольняться.
Помимо самой по себе бл*дски циничной постановки вопроса, под суммой, выделяемой на шикарный подарок, имеются в виду меньше чем 4 тысячи рублей с группы, или по 150 рублей с человека.
#нмп
Помимо самой по себе бл*дски циничной постановки вопроса, под суммой, выделяемой на шикарный подарок, имеются в виду меньше чем 4 тысячи рублей с группы, или по 150 рублей с человека.
#нмп
Есть CAT, разработанные для исполнителей. С удобным продуманным интерфейсом, с конкордансным поиском по нажатию сочетания клавиш, с возможностью самостоятельного создания, импорта и экспорта ТМ и термбаз, анализа файлов... Много с чем. Самый очевидный пример: Trados Studio.
Есть CAT, разработанные ламантинами для ламантинов. Пример: Transit NXT.
А есть CAT, разработанные прежде всего для эффективных проект-менеджеров и заказчиков переводов. Потому что здесь исполнитель имеет только огрызок редактора, требующий постоянного подключения к серверу и не предлагающий почти никаких возможностей настройки под себя. Это, конечно, SmartCAT и Phrase (бывший Memsource). Про последний хочется подробнее поворчать.
Есть CAT, разработанные ламантинами для ламантинов. Пример: Transit NXT.
А есть CAT, разработанные прежде всего для эффективных проект-менеджеров и заказчиков переводов. Потому что здесь исполнитель имеет только огрызок редактора, требующий постоянного подключения к серверу и не предлагающий почти никаких возможностей настройки под себя. Это, конечно, SmartCAT и Phrase (бывший Memsource). Про последний хочется подробнее поворчать.
Ворчливый редактор aka Пытливый нейроредактор
Есть CAT, разработанные для исполнителей. С удобным продуманным интерфейсом, с конкордансным поиском по нажатию сочетания клавиш, с возможностью самостоятельного создания, импорта и экспорта ТМ и термбаз, анализа файлов... Много с чем. Самый очевидный пример:…
Интерфейс в целом, конечно, приятнее, чем у Смартката. И десктопный "редактор" есть, даже мобильное приложение было до недавнего времени, но его закрыли.
Но вот не работает у тебя интернет/серверная ТМ по каким-то причинам — сиди ковыряй в носу. Всё равно больше делать нечего. Ведь ты сам не можешь сделать локальную ТМ, чтобы закинуть туда уже переведенные сегменты и худо-бедно продолжить работу. Ишь чего удумал!
Не подгрузил проект-менеджер анализ проекта — сиди гадай, сколько у тебя там чего совпадает/не совпадает с ТМ. Ведь, кроме общего количества слов и сегментов, ты ничего не видишь.
Хочешь проверку качества выполненного перевода сделать? Изволь выполнить ее несколько раз, потому что с первого раза модуль проверки все ошибки не вылавливает, и сдать ты ее не сможешь. А как завершишь задание, так сможешь смотреть на него в режиме "только для чтения" — чтоб опосля не вздумал никаких правок вносить, охальник!
И вообще, если у тебя заданий нет, то твоя учетная запись на сервере будет автоматически отключена до получения следующего задания. Ибо нефиг.
Зато проект-менеджер видит всё. Я вижу, вы не работаете, говорит — у вас за 2 дня три эффективных страницы сделано при норме в 10 эффективных страниц в день! А ты смотришь на 28 тысяч переведенных к этому моменту слов (больше частью состоящих из 100% совпадений и повторов, но тем не менее!) и такой: «чивобл*дь?» ©
Кстати, то, как эффективно 211 страниц исходных документов превращаются в 35 эффективных страниц в статистике, вы можете оценить на скриншоте. А заодно поделить количество эффективных символов на 1800 и получить ещё меньше страниц, чем в статистике. Потому что они, вестимо, считаются без пробелов. Если интересно, конечно.
#вр_ворчит
Но вот не работает у тебя интернет/серверная ТМ по каким-то причинам — сиди ковыряй в носу. Всё равно больше делать нечего. Ведь ты сам не можешь сделать локальную ТМ, чтобы закинуть туда уже переведенные сегменты и худо-бедно продолжить работу. Ишь чего удумал!
Не подгрузил проект-менеджер анализ проекта — сиди гадай, сколько у тебя там чего совпадает/не совпадает с ТМ. Ведь, кроме общего количества слов и сегментов, ты ничего не видишь.
Хочешь проверку качества выполненного перевода сделать? Изволь выполнить ее несколько раз, потому что с первого раза модуль проверки все ошибки не вылавливает, и сдать ты ее не сможешь. А как завершишь задание, так сможешь смотреть на него в режиме "только для чтения" — чтоб опосля не вздумал никаких правок вносить, охальник!
И вообще, если у тебя заданий нет, то твоя учетная запись на сервере будет автоматически отключена до получения следующего задания. Ибо нефиг.
Зато проект-менеджер видит всё. Я вижу, вы не работаете, говорит — у вас за 2 дня три эффективных страницы сделано при норме в 10 эффективных страниц в день! А ты смотришь на 28 тысяч переведенных к этому моменту слов (больше частью состоящих из 100% совпадений и повторов, но тем не менее!) и такой: «чивобл*дь?» ©
Кстати, то, как эффективно 211 страниц исходных документов превращаются в 35 эффективных страниц в статистике, вы можете оценить на скриншоте. А заодно поделить количество эффективных символов на 1800 и получить ещё меньше страниц, чем в статистике. Потому что они, вестимо, считаются без пробелов. Если интересно, конечно.
#вр_ворчит