Etiket

#multimodal

4 içgörü bu etikette.

Yapay Zeka · arxiv/cs.AI · 4 dk

KuaiLive: First Real-Time Live Streaming Recommendation Dataset

Researchers release a 21-day interaction log from Kuaishou covering 23,772 users and 452,621 streamers to enable dynamic recommendation research.

27 Nisan 2026 Oku → →
Yapay Zeka · arxiv/cs.AI · 6 dk

AD-Copilot: Vision-Language Model Trained for Factory Defect Detection

Researchers built a specialized multimodal AI that compares paired industrial images to spot subtle manufacturing flaws, outperforming general-purpose models and human inspectors on benchmark tasks.

22 Nisan 2026 Oku → →
Yapay Zeka · arxiv/cs.AI · 4 dk

MERRIN: Benchmark for Multimodal Search in Noisy Web Data

New benchmark reveals AI agents struggle with real-world web search, achieving only 22% accuracy when retrieving and reasoning across mixed media sources.

17 Nisan 2026 Oku → →
Yapay Zeka · arxiv/cs.AI · 8 dk

Vision-Language Models Fail on Dense Visual Grids

A new benchmark reveals VLMs collapse sharply on simple grid-reading tasks, exposing a gap between visual encoding and language output called Digital Agnosia.

17 Nisan 2026 Oku → →

astrobobo

Bu site JavaScript gerektirir. Tarayıcında JavaScript'i etkinleştir.

This site requires JavaScript. Please enable it in your browser.