Telegram Group & Telegram Channel
Интересно, как в борьбе за хайп уживаются большие команды с мегатоннами вычислительной мощности, и те что поменьше, университетские группы и маленькие стартапы или компании с небольшими R&D отделами. Эту тему на своем примере подняли ребята из Tinkoff Research в недавнем интервью. Учитывая, что видеокарты не бесконечны, важнейший исследовательский трек для них — повышение эффективности моделей, и выбор неочевидных направлений, в которые копает чуть меньше групп, но которые, по их мнению, могут быть намного перспективнее.

И действительно, пока читаешь все эти пейперы и релизы, нет нет да замечаешь интересный, но казалось бы, очевидный паттерн. Небольшие исследовательские группы генерируют более креативные идеи. Особенно с точки зрения оптимизации. Что в конечном счете и крупным компаниям позволяет клепать модельки быстрее и лучше. А еще маленькие команды кажется чаще рады поделиться исходным кодом.

В мире AI сейчас доминируют технологические гиганты, такие как Google, Meta, OpenAI и DeepMind. У них есть огромные ресурсы - тысячи инженеров и исследователей, а тонны GPU для тренировки моделей с сотнями миллиардов параметров. Но значит ли это, что небольшим исследовательским группам и стартапам нечем заняться в AI? Вовсе нет!

C дивана мне в голову пришло сразу несколько направлений, где небольшие команды могут проявить себя и сделать значимый вклад:

- Тюнинг и адаптация открытых моделей вроде LLaMA, Stable Diffusion под конкретные прикладные задачи. Большие foundation модели дают отличную базу, но для многих реальных применений их нужно дообучать на специфичных данных.

- Дистилляция знаний (distillation) и сжатие моделей - позволяет уменьшить размер моделей в разы и даже на порядки без существенной потери качества. Это критично для многих сценариев использования AI на мобильных устройствах и в реальном времени.

- Исследование ошибок и уязвимостей больших моделей, разработка методов для их детекции и устранения. Даже лучшие модели вроде GPT-4 могут выдавать неверные факты, проявлять предвзятость, быть подвержены adversarial атакам. Здесь огромное поле для исследований.

- Разработка новых архитектур, механизмов внимания, техник обучения, которые позволяют эффективнее обучать модели. Яркий пример - техника chain-of-thought prompting, которая значительно улучшает способности LLM к рассуждению, при этом не требуя дообучения модели. Статья с ее описанием, уже набрала более 4500 цитирований! То есть не нужны тысячи видеокарт, чтобы создать что-то влиятельное.

- Применение AI в узких предметных областях, где нужна глубокая экспертиза в конкретной сфере - медицине, биологии, физике, экономике и т.д. Большие универсальные модели не всегда лучше работают, чем модели обученные на специфичных данных.

Есть немало примеров небольших групп, которые успешно конкурируют с гигантами индустрии. Например, парижский стартап Mistral, где изанчально было 3 человека (да, соглашусь, не совсем корректный пример, потому что компания подняла $115 млн в первые недели существования). Из близкого многим читателям, опять же, Tinkoff Research - команда из 12 человек (20 со студентами) в компании, которая никогда AI-ресерчем до этого не занималась, умудрилась опубликовать 4 статьи на NeurIPS 2023 (об одной из них писал тут). Или вот Midjourney с командой менее 50 человек (а инженеров и того меньше) создали и дальше двигают одну из лучших в мире технологий генерации изображений по тексту - восхищаюсь их результатами. Все благодаря фокусу на конкретной задаче и хитрым идеям.

Поэтому не стоит думать, что если у вас нет ресурсов тренировать гигантские модели, то вам нечем заняться в AI (я часто слышу такое от студентов, с которыми общаюсь). Наоборот, именно небольшие креативные команды зачастую делают прорывы и открывают новые направления, которые потом подхватывают большие компании. Главное - выбрать правильный фокус и упорно работать над решением важных проблем на стыке AI и конкретных предметных областей.

@ai_newz



group-telegram.com/ai_newz/2651
Create:
Last Update:

Интересно, как в борьбе за хайп уживаются большие команды с мегатоннами вычислительной мощности, и те что поменьше, университетские группы и маленькие стартапы или компании с небольшими R&D отделами. Эту тему на своем примере подняли ребята из Tinkoff Research в недавнем интервью. Учитывая, что видеокарты не бесконечны, важнейший исследовательский трек для них — повышение эффективности моделей, и выбор неочевидных направлений, в которые копает чуть меньше групп, но которые, по их мнению, могут быть намного перспективнее.

И действительно, пока читаешь все эти пейперы и релизы, нет нет да замечаешь интересный, но казалось бы, очевидный паттерн. Небольшие исследовательские группы генерируют более креативные идеи. Особенно с точки зрения оптимизации. Что в конечном счете и крупным компаниям позволяет клепать модельки быстрее и лучше. А еще маленькие команды кажется чаще рады поделиться исходным кодом.

В мире AI сейчас доминируют технологические гиганты, такие как Google, Meta, OpenAI и DeepMind. У них есть огромные ресурсы - тысячи инженеров и исследователей, а тонны GPU для тренировки моделей с сотнями миллиардов параметров. Но значит ли это, что небольшим исследовательским группам и стартапам нечем заняться в AI? Вовсе нет!

C дивана мне в голову пришло сразу несколько направлений, где небольшие команды могут проявить себя и сделать значимый вклад:

- Тюнинг и адаптация открытых моделей вроде LLaMA, Stable Diffusion под конкретные прикладные задачи. Большие foundation модели дают отличную базу, но для многих реальных применений их нужно дообучать на специфичных данных.

- Дистилляция знаний (distillation) и сжатие моделей - позволяет уменьшить размер моделей в разы и даже на порядки без существенной потери качества. Это критично для многих сценариев использования AI на мобильных устройствах и в реальном времени.

- Исследование ошибок и уязвимостей больших моделей, разработка методов для их детекции и устранения. Даже лучшие модели вроде GPT-4 могут выдавать неверные факты, проявлять предвзятость, быть подвержены adversarial атакам. Здесь огромное поле для исследований.

- Разработка новых архитектур, механизмов внимания, техник обучения, которые позволяют эффективнее обучать модели. Яркий пример - техника chain-of-thought prompting, которая значительно улучшает способности LLM к рассуждению, при этом не требуя дообучения модели. Статья с ее описанием, уже набрала более 4500 цитирований! То есть не нужны тысячи видеокарт, чтобы создать что-то влиятельное.

- Применение AI в узких предметных областях, где нужна глубокая экспертиза в конкретной сфере - медицине, биологии, физике, экономике и т.д. Большие универсальные модели не всегда лучше работают, чем модели обученные на специфичных данных.

Есть немало примеров небольших групп, которые успешно конкурируют с гигантами индустрии. Например, парижский стартап Mistral, где изанчально было 3 человека (да, соглашусь, не совсем корректный пример, потому что компания подняла $115 млн в первые недели существования). Из близкого многим читателям, опять же, Tinkoff Research - команда из 12 человек (20 со студентами) в компании, которая никогда AI-ресерчем до этого не занималась, умудрилась опубликовать 4 статьи на NeurIPS 2023 (об одной из них писал тут). Или вот Midjourney с командой менее 50 человек (а инженеров и того меньше) создали и дальше двигают одну из лучших в мире технологий генерации изображений по тексту - восхищаюсь их результатами. Все благодаря фокусу на конкретной задаче и хитрым идеям.

Поэтому не стоит думать, что если у вас нет ресурсов тренировать гигантские модели, то вам нечем заняться в AI (я часто слышу такое от студентов, с которыми общаюсь). Наоборот, именно небольшие креативные команды зачастую делают прорывы и открывают новые направления, которые потом подхватывают большие компании. Главное - выбрать правильный фокус и упорно работать над решением важных проблем на стыке AI и конкретных предметных областей.

@ai_newz

BY эйай ньюз


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/ai_newz/2651

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. False news often spreads via public groups, or chats, with potentially fatal effects. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram.
from fr


Telegram эйай ньюз
FROM American