Notice: file_put_contents(): Write of 11325 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
AbstractDL | Telegram Webview: abstractDL/302 -
Telegram Group & Telegram Channel
Forwarded from эйай ньюз
Mixture of Parrots: Experts improve memorization more than reasoning

Авторы замечают, что когда они проводили абляции моделей с одинаковым количеством параметров на разных задачах, MoE модель при таком же количестве параметров, как и dense модель, показывает себя хорошо на World Knowledge, но сильно проседает по математике и reasoning по сравнению с dense моделью.

Чтобы объяснить, почему возникает такое расхождение на бенчмарках для разных задач, авторы тренируют ряд моделей на синтетических тасках. Для оценки того, как модель может запоминать, генерируется синтетическая телефонная книга, и оценивается какую её часть модель может запомнить. Возможности к рассуждению оцениваются через поиск кратчайшего пути на графе.

Авторы доказывают, что достаточно широкая dense модель может решить задачи на графах, которые параметрически и по глубине заматченная MoE решить не может из-за недостаточной широты, что подтверждают и эксперименты. В то же время способность к запоминанию телефонной книги у модели с таким же количеством параметров не страдает из-за малой широты модели.

Лично мне хотелось бы чуть больше абляций с разной глубиной плюс абляций reasoning с одинаковой широтой модели, но время у авторов пейпера не бесконечное. Скорее всего, увидим это в каких-то follow-up.

Пейпер

@ai_newz



group-telegram.com/abstractDL/302
Create:
Last Update:

Mixture of Parrots: Experts improve memorization more than reasoning

Авторы замечают, что когда они проводили абляции моделей с одинаковым количеством параметров на разных задачах, MoE модель при таком же количестве параметров, как и dense модель, показывает себя хорошо на World Knowledge, но сильно проседает по математике и reasoning по сравнению с dense моделью.

Чтобы объяснить, почему возникает такое расхождение на бенчмарках для разных задач, авторы тренируют ряд моделей на синтетических тасках. Для оценки того, как модель может запоминать, генерируется синтетическая телефонная книга, и оценивается какую её часть модель может запомнить. Возможности к рассуждению оцениваются через поиск кратчайшего пути на графе.

Авторы доказывают, что достаточно широкая dense модель может решить задачи на графах, которые параметрически и по глубине заматченная MoE решить не может из-за недостаточной широты, что подтверждают и эксперименты. В то же время способность к запоминанию телефонной книги у модели с таким же количеством параметров не страдает из-за малой широты модели.

Лично мне хотелось бы чуть больше абляций с разной глубиной плюс абляций reasoning с одинаковой широтой модели, но время у авторов пейпера не бесконечное. Скорее всего, увидим это в каких-то follow-up.

Пейпер

@ai_newz

BY AbstractDL





Share with your friend now:
group-telegram.com/abstractDL/302

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements.
from us


Telegram AbstractDL
FROM American