🧩🤖 Нейросети против воскресных головоломок: неожиданные результаты
Исследователи из американских университетов и стартапа Cursor протестировали модели искусственного интеллекта, используя задачи из еженедельной радиовикторины Sunday Puzzle на NPR. Целью было оценить способности ИИ к логическому мышлению и рассуждению.
Ключевые выводы исследования:
Ограниченная точность: Ни одна из протестированных моделей не достигла точности выше 60% при решении головоломок.
"Сдача" ИИ: Некоторые модели, столкнувшись с трудностями, буквально "сдавались". Например, нейросеть от DeepSeek в случае затруднений писала: "Я сдаюсь", а затем предлагала случайный ответ.
Повторяющиеся ошибки: Некоторые ИИ многократно пытались исправить свои ошибки, но безуспешно, иногда "застревая" в бесконечных размышлениях или генерируя бессмысленные ответы.
Это исследование подчеркивает текущие ограничения искусственного интеллекта в области критического мышления и решения нестандартных задач.
🧩🤖 Нейросети против воскресных головоломок: неожиданные результаты
Исследователи из американских университетов и стартапа Cursor протестировали модели искусственного интеллекта, используя задачи из еженедельной радиовикторины Sunday Puzzle на NPR. Целью было оценить способности ИИ к логическому мышлению и рассуждению.
Ключевые выводы исследования:
Ограниченная точность: Ни одна из протестированных моделей не достигла точности выше 60% при решении головоломок.
"Сдача" ИИ: Некоторые модели, столкнувшись с трудностями, буквально "сдавались". Например, нейросеть от DeepSeek в случае затруднений писала: "Я сдаюсь", а затем предлагала случайный ответ.
Повторяющиеся ошибки: Некоторые ИИ многократно пытались исправить свои ошибки, но безуспешно, иногда "застревая" в бесконечных размышлениях или генерируя бессмысленные ответы.
Это исследование подчеркивает текущие ограничения искусственного интеллекта в области критического мышления и решения нестандартных задач.
One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%.
from jp