Telegram Group Search
​​Чтение книг для практики иностранных языков

Чтение книг на иностранных языках - это отличный способ набрать словарный запас. Есть много способов прокачивания языка, но практика в любом виде просто необходима - это может быть чтение текстов, просмотр фильмов, слушание подкастов/аудиокниг/чего-угодно, разговоры и так далее. При чтении мне проще всего трекать прогресс, чем и хочу поделиться.

Недавно я закончил читать серию из четырёх книг на немецком - это перевод русский серии "Страж" Алексея Пехова. Кстати, это один из моих любимых авторов современного фэнтези. Я читал эту серию очень давно (последняя книга вроде как была опубликована лет 10 назад), но вот несколько месяцев назад мне попался на глаза немецкий перевод, и я решил перечитать её - на этот раз не только по фану, но и для языковой практики. Пехов пишет отличные книги, богатые на описания, но от этого получается высокая сложность текста, когда читаешь их в переводе.

На чтение первой книги у меня ушло больше месяца, и на Kindle я отметил примерно 1.5к слов как неизвестные (смотрел их перевод). Первая треть книги шла совсем с трудом, но постепенно становилось легче и легче. Вторую книгу я читал немного быстрее, но всё равно потребовался примерно месяц, и было примерно 1.1к новых слов. А дальше стало лучше - где-то три недели на третью книгу (~900 слов) и всего дней десять на четвёртую (~500 слов). Естественно, на скорость чтения влияли внешние факторы, но прогресс очевиден.
Кстати, все эти слова я потом переносил в Anki с помощью того приложения, о котором я писал раньше: https://www.group-telegram.com/datastorieslanguages.com/59 Правда я в свою локальную версию добавил возможность делать перевод с помощью gpt-4o :)

Дальше планирую почитать что-нибудь в оригинале на немецком (в дополнение к другим способам практики).

P. S. Обложки к немецких изданий просто шикарные.

#languages
​​Leetcode теперь может автоматически считать асимптотику алгоритмов

Теперь на Leetcode появилась новая удобная фича. После сабмита решения можно нажать на кнопочку "Analyze Complexity" и увидеть какая сложность у написанного кода. Прикольно, так будет легче запомнить разные асимптотики тем, кто ещё в них путается

#datascience
​​GPT-4 is "smarter" at temperature=1 than temperature=0, even on deterministic tasks.

Я наткнулся на любопытное обсуждение в твиттере - оказалось, что если поставить temperature=1 в GPT-4, он будет работать немного получше.
Что забавно - попробовали такое же с затюненой LLama3 - и там полный разброс.
Тюнинг и инференс LLM остаётся алхимией :)

#datascience
Обзор книги "Accelerate Model Training with PyTorch 2.X"

Недавно мне написали из Packt и сам автор книги Maicon Melo Alves и предложили почитать книгу и опубликовать отзыв.

Мой англоязычный отзыв можно почитать тут: https://www.linkedin.com/posts/andlukyane_accelerate-model-training-with-pytorch-2-activity-7207747253212483585-n7np?utm_source=share&utm_medium=member_desktop

Неофициально скажу, что книга вполне неплохая... но хз на кого нацеленная. Для новичков будет слишком много технических деталей, проще взять официальные туториалы pytorch. Для опытных людей новое будет, но я не уверен в том, что они подчерпнут достаточно полезного. Плюс весь код в открытом доступе

Наверное, полезнее всего будет тем, кто не хочет гуглить, а предпочитает читать книги. Сам стиль хороший, объяснения качественные, материал покрывает всё нужное.

Ссылка на книгу

#datascience
​​ChatGPT is bullshit

https://link.springer.com/article/10.1007/s10676-024-09775-5

Я так и не понял, что в этой статье нового, но название порадовало.

#datascience
​​Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

Только недавно NVIDIA натренировала SSM Mamba-2 на 8B параметров на 3.5T токенов, как в Microsoft решил не ударить в грязь лицом и натренировали Samba (Mamba + MLP + Sliding Window Attention) на 3.8B параметров и 3.2T токенов. Получили модельку лучше, чем Phi3-mini - MMLU 71.2, 71.9 при intruction-tuning. Из главных плюшек - большой контекст. Например, тренировали на контексте 4к, и Samba успешно экстраполировала на 256к с почти идеальным memory recall. Плюс шустрый инференс. Выглядит очень любопытно. Но весов пока нет.

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
​​Курс испанского языка на Duolingo пройден. Опять

Я уже рассказывал, что использую Duolingo для дополнительной практики языков. Вчера вот я снова завершил курс испанского. До этого я уже проходил его полностью пару раз, но каждый раз через какое-то время компания делала редизайн курса и добавляла новые материалы.

Впечатления от курса такие же как и прежде - чем ближе к концу, тем меньше польза. По субъективным ощущениям, я делал ошибки примерно в 10% вопросов, и большинство было либо из-за моих глупых опечаток, либо из-за случаев, когда Duolingo ожидал какой-то специфичный ответ вместо моего (который тоже подходил).

В качестве дополнительного усложнения, везде где это было возможно, я старался использовать микрофон для голосового ввода. Кстати, с этим было интересно: обычно iPhone отлично распознавал мой голос и выдавал именно то, что я говорил; а когда я использовал приложение на Android, те же самые фразы часто распознавались криво и приходилось исправлять их ручками.

Теперь не знаю забрасывать ли Duolingo, или поддерживать почти 900-дневный streak.

#languages
​​I Will Fucking Piledrive You If You Mention AI Again

Блогпост от австралийского DS - вопль от глубины души. Очень эмоционально, но при этом вполне адекватно. Основные тезисы:

• Многие проекты проваливаются потому, что кто-то наверху решил "делать AI-проект" не понимая реальных ограничений и сложностей. Очень многое упирается в инфраструктуру
• В компаниях на высоких уровнях слишком много "grifters", которые пропагандируют использование AI лишь для личной пользы без заботы о результатах
• Есть серьёзно задуматься, большинству компаний совершенно не нужно разрабатывать AI, чтобы оставаться конкурентоспособными. Плюс, у многих компаний этот самый AI уже есть - ибо они купили какие-то решения у компаний, которые умеют и понимают как это делать
• Недавно был опубликован большой отчёт о том, как идёт внедрение AI. Там много красивых чисел, но большинство - явный буллшит.
• Просто впихивание "AI" в любые проекты не поможет решить проблемы. Надо вначале выстраивать процессы и обучать людей.

Blogpost

#datascience
​​ПРЯМ В ТЕМУ ПРЕДЫДУЩЕГО ПОСТА (И ЭТО НЕ КАПС, А ШИФТ)
​​Auto-import от fastai

Библиотека fastai - холиварная штука. С одной стороны, полно SOTA штук (по крайней мере так было несколько лет назад), с другой стороны полно очень спорных архитектурных решений и сам код очень спорный. Плюс создатели библиотеки любят пропагандировать стиль типа import *.

К чему я вообще вспомнил это? Сейчас увидел твит от Jeremy Howard, где он называет требования нормальных импортов "pointless busywork" и предлагает решение - делать import * по-прежнему, а потом запускать новую либу "fastcore", которая заменит импорты на правильные. Что может пойти не так...

#datascience
​​JetBrains Grazie

JetBrains, как и многие другие компании, пытается впихнуть невпихуемое AI в свои продукты. Какое-то время назад зарелизили AI Assistant, который работает в целом неплохо, теперь вот "AI writing companion".

Доступно для обладателей Pro подписки.

Мне вот интересно, многие ли используют продукты JetBrains для написания текстов? Я публикую блогпосты в интерфейсе JetBrains, но обычно сами тексты пишу в Typora или других инструментах.

Plugin

#datascience
ВНИМАНИЕ: начиная с 26.08.2024 Slack начнёт удалять сообщения старше года в бесплатных workspace

Раньше в бесплатных workspace можно было видеть историю до 90 дней (если без ухищрений в виде закладок), но при оплате становилась доступной история за всё время.
Slack, видимо, понял, что большинство бесплатных workspace платить не будут, поэтому скоро он начнёт удалять старые сообщения:

> We will be reducing our data storage offering for the free version of Slack; starting 26th August 2024, we’ll begin deleting messages and files more than one year old from free workspaces on a rolling basis.

Link

Discussion
​​Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning

Husky - универсальный open-source language agent, который решает разнообразные сложные задачи, включая numerical, tabular и knowledge-based reasoning. Husky работает в два этапа: генерирует следующее действие для решения задачи и выполняет его с помощью expert models, обновляя текущее состояние решения. В экспериментах Husky превосходит предыдущие language agents на 14 датасетах.

Ещё авторы создали свой собственный датасет, и, конечно, показали, что на нём их подход отлично работает.

Из забавного: почему Husky? Потому что подход использует несколько эскспертных моделей, которые подобны упряжке хаски, тянущих сани.
Ну и, вначале попробовали разные базовые модели, а потом оказалось, что есть взять Llama-3-8B и тюнить её, то получится лучше всего.

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
​​Подход к запоминанию слов - генерация историй с помощью ChatGPT

В изучении языков один из ключевых моментов - приобретение и поддержка словарного запаса. Существует много "стандартных" подходов к этому:
• Зубрение списков слов (как по мне, это самое нудное)
• Придумывание фраз/предложений с этими словами
• Флешкарточки со словами (либо слова сами по себе, либо с контекстом)
• Пассивный вариант - поглощение контента
И так далее, есть множество вариантов.

Как я уже рассказывал, я активно использую Anki (флешкарточки) для повторения слов, но бывает так, что какие-то слова ну никак не откладываются в памяти - слишком часто в них ошибаюсь. Иногда я такие слова просто отбрасываю (если они очень редкие), иногда придумываю фразы с ними. Недавно я решил попробовать новый подход - беру 5-10 таких слов и прошу ChatGPT придумать историю с этими словами. В целом получается прикольно (пример на скриншоте), но даже в таких коротких текстах он иногда теряет нить повествования и забывает про то, что было сказано пару абзацев назад.

#languages
​​Исследование профессионального ML-сообщества в России от Университета ИТМО

ИТМО проводит анализ профессионального сообщества ML- и DS- в России.

Вы можете приложить руку к честной статистике и высказать свое мнение о состоянии индустрии, лидерах рынка и в целом ML-карьере в России.

Чтобы поучаствовать, нужно просто пройти опрос (это займет примерно 5 минут). Конфиденциальность гарантируется. Ваше участие поможет сформировать полную картину.

Делитесь своим мнением тут: https://forms.gle/dHRsqQJteuty51Bp7


#datascience
Горячие споры в научном сообществе о полезности и бесполезности билингвизма

Иногда я просматриваю статьи не только по ML, но и на другие темы, например, про изучение иностранных языков. Бывает интересно посмотреть, как разные исследования дают весьма противоречивые результаты. Сегодня хотел бы написать про несколько статей о билингвизме. Как понятно из названия, билингвизм - когда человек может говорить на двух языках на нативном уровне. Если же человек владеет тремя языками и больше, то уже называется полиглотом.

Есть статья 2012 года "An Effect of Bilingualism on the Auditory Cortex". Авторы сравнивают две группы людей - монолингвов с испанским языком и билингвов с испанским и каталонским. Представители обеих групп схожи по образованию, социально-экономическому положение и... по музыкальному опыту. Приходят к выводу о том, что у вторых стабильно больше серого вещества в мозге.
В статье меня смутило несколько вещей. Первое - выбранные языки. Каталонский всё же очень похож на испанский, интереснее было бы взять билингвов с сильно различающимися языками. Второе - маленький размер выборки, всего 44. Третье - удивил акцент на музыке, но это было объяснено тем, что какое-то время назад вышла статья о том, что занятия музыкой увеличивают серое вещество, поэтому авторы этой статьи решили это учесть.

Есть пара статей о том, что изучение языков помогает предотвратить деменцию, или хотя бы её отсрочить. Хотя, как мне кажется, это могло бы быть объяснено любой качественной мозговой активностью.

А вот в 2020 году вышла статья с противоположным постулатом. Авторы исследовали 11041 человек, дали им 12 разных тестов, и не обнаружили какого-либо стабильно высокого уровня у билингвов. Билингвы были лучше на одном тесте, монолингвы на четырёх.

Естественно, есть ещё много статей в поддержку той или иной точки зрения. Лично мне кажется, что любое изучение чего-то нового - это отлично. Но считать билингвов/полиглотов какими-то супер людьми не стоит. Достаточно просто осознать, что во многих странах мира люди с детства знают 2-3 языка - и это не делает их гениями в чём-либо другом.

#languages
​​Kaggle теперь выдаёт сертификаты за соревнования

Вышла новость, что теперь на каггле можно получить "сертификат" с подтверждением своего места в соревновании. Сделали это потому, что проходящие курсы Kaggle Learn очень любили сертификаты.

Теперь можно зайти на leaderbord закончившегося соревнования и по кнопочке "View Certificate" получить красивую картинку с подтверждением. После завершения новых соревнований, ссылку на сертификат будут присылать прямо на почту.

#datascience
Сегодня выложили трек Reliable ML в котором я делал доклад на Data Fest 2024.
2025/06/30 16:29:59
Back to Top
HTML Embed Code: