Telegram Group & Telegram Channel
Как я читаю Arxiv, и как справляюсь с количеством статей

Я вернулся в Цюрих, а значит пора искать новые статьи!

Читать голый arxiv.org в поисках новых статей за неделю подвластно лишь, наверное, полубогам. Каждый день ребята из Поднебесной заливают десятки, а то и сотни статей на архив. И, конечно, 99% из них – шлак или на абсолютно не релевантные темы. Хотелось бы иметь возможность искать статьи похожие по тематике и в идеале сортировать их по качеству, что довольно нетривиально сделать.

Раньше я использовал Arxiv-sanity от Карпатого для поиска похожих статей. Механика там довольно примитивная. Для каждой статьи обучается Exemplar-SVM на tf-idf фичах из абстракта, а затем статьи ранжируются по похожести. Текстовый поиск только по ключевым словам. Соответственно и качество поиска выходит не очень.

Раньше там ещё был счётчик количества упоминаний статьи в Твиттер, что говорило об уровне хайпа вокруг работы, но в новой версии его больше нет.

Сейчас кто-то наконец сделал толковый поиск по статьям на Arxiv, который удостоен технологиями 2023 года — https://arxivxplorer.com. В разделе CS – около 500к статей, и для каждой статьи посчитали текстовые эмбеддинги по абстракту, используя API к текстовым моделькам от OpenAI, о которых я писал тут. Это обошлось автору в $50. Зато теперь в строку поиска можно ввести любые фразы либо даже вопросы, по которым будет считаться эмбеддинг и выдаваться наиболее релевантные статьи из базы. Я очень рад таким инновациям и уже пересел на этот сервис!

@ai_newz



group-telegram.com/ai_newz/1695
Create:
Last Update:

Как я читаю Arxiv, и как справляюсь с количеством статей

Я вернулся в Цюрих, а значит пора искать новые статьи!

Читать голый arxiv.org в поисках новых статей за неделю подвластно лишь, наверное, полубогам. Каждый день ребята из Поднебесной заливают десятки, а то и сотни статей на архив. И, конечно, 99% из них – шлак или на абсолютно не релевантные темы. Хотелось бы иметь возможность искать статьи похожие по тематике и в идеале сортировать их по качеству, что довольно нетривиально сделать.

Раньше я использовал Arxiv-sanity от Карпатого для поиска похожих статей. Механика там довольно примитивная. Для каждой статьи обучается Exemplar-SVM на tf-idf фичах из абстракта, а затем статьи ранжируются по похожести. Текстовый поиск только по ключевым словам. Соответственно и качество поиска выходит не очень.

Раньше там ещё был счётчик количества упоминаний статьи в Твиттер, что говорило об уровне хайпа вокруг работы, но в новой версии его больше нет.

Сейчас кто-то наконец сделал толковый поиск по статьям на Arxiv, который удостоен технологиями 2023 года — https://arxivxplorer.com. В разделе CS – около 500к статей, и для каждой статьи посчитали текстовые эмбеддинги по абстракту, используя API к текстовым моделькам от OpenAI, о которых я писал тут. Это обошлось автору в $50. Зато теперь в строку поиска можно ввести любые фразы либо даже вопросы, по которым будет считаться эмбеддинг и выдаваться наиболее релевантные статьи из базы. Я очень рад таким инновациям и уже пересел на этот сервис!

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/1695

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations.
from tr


Telegram эйай ньюз
FROM American