Heti AI-hírek: Kína támad, videó-forradalom, GPT-5 a láthatáron?

Aug 4, 2025
4 min read

A Google DeepMind bemutatta a Gemini 2.5 Deep Think modellt

A Gemini 2.5 Deep Think változat halkan, de annál erősebben robbant a szakmában: a Google DeepMind új modellje egymillió token kontextusablakot kezel, és akár 192 000 token hosszúságú választ is képes adni – ez példátlan az elérhető topmodellek között. Ez a változat jelenleg azonban csak a Gemini Ultra előfizetőknek érhető el.

A bejelentés különösen figyelemre méltó az elért benchmark-eredmények miatt:

HLE (hard logical exams): 34.8%, ami a legkeményebb logikai nyelvi tesztek közé tartozik
Live Code Bench: 86.6%
AIME 2025 (AI reasoning benchmark): 99.2%

A számok alapján a modell potenciálisan előzi a GPT-4o-t logikai és programozási feladatokban. Bár a GPT-5 körül megy a találgatás, a Google közben csendben elhelyezett egy új mércét az LLM-fejlesztésben.

A Microsoft Edge Copilot kapott egy új asszisztenst

A Microsoft Edge böngésző immáron egy beépített AI-asszisztenssel rendelkezik, amely nem külön fülön, hanem közvetlenül az ablak bal felső sarkában működik. Az újragondolt Copilot Mode nem csak kinézetre frissült: mostantól támogatja a hangvezérlést, automatikusan értelmezi a kereséseket, URL-eket vagy chat-utasításokat, és képes több aktív fül kontextusát is értelmezni egyszerre.

Ez jelentősen leegyszerűsíti az olyan felhasználási módokat, mint például szállodák összehasonlítása, utazási tervek szervezése vagy étteremválasztás, anélkül, hogy az oldalakról ki kellene lépni.

A Microsoft célja, hogy az Edge böngészőből ügynök-alapú termék legyen, ahol az AI nem csak passzívan válaszol, hanem kezdeményez is. A jövőbeli frissítések közé tartozik a projekt-alapú előzmények kezelése és a proaktív ajánlások.

Úgy néz ki a böngésző háború újraindul. Bár a legszuperebb az lenne, ha ezekhez a funkciókhoz nem kellene mindnekinek saját atomerőművet üzemeltetnie, mert egyes böngészők indokolatlanul sokat esznek.

Runway Aleph — szöveggel vezérelt videószerkesztés új szinten

A Runway bemutatta új Aleph modelljét, amely egyszerű szöveges utasításokkal képes meglévő videókat módosítani, új tárgyakat hozzáadni, vagy régieket eltüntetni. Különösen lenyűgöző, hogy a rendszer képes teljesen új kameraállásokat generálni a kép alapján, illetve megváltoztatni a videóban szereplő karakterek korát vagy ruházatát.

A felhasználók akár napszakot, időjárást vagy fényviszonyokat is módosíthatnak, mintha csak egy videojátékban lennének. Az AI ezen kívül képes a mozgást átvinni videóból képre, ami új távlatokat nyit a tartalomgyártásban.

Az Aleph egyelőre csak vállalati partnereknek érhető el, köztük a Lionsgate hollywoodi stúdiónak. A Runway a nyílt hozzáférést fokozatosan tervezi.

Huawei CloudMatrix 384 – az Nvidia kihívója

A sanghaji AI világkonferencián a Huawei bemutatta az új CloudMatrix 384 szuperszámítógépet, amely 384 Ascend 910C AI-chipen fut, és több metrikában is túlszárnyalja az Nvidia GB200 NVL72 konfigurációját, amely „csak” 72 B200 chipet használ. Lassan az Nvidia típusszámokat érettségin is kérdezni fogják.

Annak ellenére, hogy az egyes chipek teljesítménye alacsonyabb, a rendszer optikai hálózatot és innovatív skálázási megközelítést alkalmazva hoz ki extrém teljesítményt. A rendszer teljesen integrálva van a Huawei Cloud infrastruktúrájába, ahonnan már valós számítások is futnak.

Ez a fejlesztés komoly üzenet az amerikai félvezető-dominanciának, különösen az USA-Kína technológiai rivalizálás fényében.

Alibaba Quark – AI-szemüveg valós idejű fordítással

Az Alibaba bejelentette első okosszemüvegét, a Quark AI Glasses-t, amely a Qualcomm AR1 chippel fut, és valós idejű hangalapú kommunikációs élményt nyújt. A szemüveg a Qwen LLM-re és Quark AI-asszisztensre épül, működik többnyelvű fordítóként, híváskezelőként, zenelejátszóként, ráadásul össze van kötve az Alipay, Amap és Taobao platformokkal is.

A dizájn 40%-kal vékonyabb a hasonló versenytársaknál (pl. Meta/Ray-Ban), ami jelentős előrelépés a hordható AI-eszközök terén. A készülék megjelenése Kínában 2025 végén várható.

AI–művész a streaminglisták élén: Imoliver első lemezszerződése

A Hallwood Media aláírta az első klasszikusan kiadott lemezszerződést egy AI-alkotóval: Imoliver, azaz Oliver McCann, a Suno legsikeresebb felhasználója az első, "Stone" című dalával már 3 millió lejátszásnál jár.

A dal augusztus 8-án érkezik Spotify-ra, Apple Musicra és más platformokra. Októberben pedig egy komplet saját album jön ki, kizárólag AI-eszközökkel generált tartalommal.

A szerződés mérföldkő az iparág számára, vitát nyitva arról, hogy hol húzódik a vonal a valódi műalkotás és az automatizált tartalom között. A Hallwood kiadó "zenei tervezőként" (music designer) hivatkozik Imoliverre, ezzel hangsúlyozva az ember- és AI-kreativitás együttesét.

Perplexity Comet Shortcuts: AI-automatizáció természetes nyelven

A Perplexity kiadta új Comet Shortcuts funkcióját, amely lehetővé teszi egyedi parancsok létrehozását természetes nyelvi promptokból. A “/” billentyűvel aktiválható eszköz automatizálja a webes munkafolyamatokat – a bevásárlástól a kalendárkezelésig. A jövőben tervben van a shortcutok megosztása és monetizálása is.

Amúgy javaslom kipróbálni a Comet-et. Nem rossz.

OpenAI Stargate Norway: első európai gigagyár

Az OpenAI bejelentette első európai adatközpontját Norvégiában, Narvik városában. A 230 MW kapacitású létesítmény 2026 végére 100 000 NVIDIA GPU-t fog tartalmazni, teljes mértékben megújuló energiával működve. A projekt 1 milliárd dolláros befektetéssel valósul meg az Nscale és Aker partnerségében.

Ollama desktop alkalmazás Windows és MacOS-re

Az Ollama kiadta hivatalos GUI alkalmazását Windows és MacOS rendszerekre, amely egyszerűsíti a helyi LLM modellek használatát. Az app támogatja a drag-and-drop fájlkezelést, PDF feldolgozást és multimodális képességeket. Ezzel megszűnik a parancssoros használat kényszere.

FLUX1.1 Krea Dev: vége a “műanyag kinézetnek”

A Black Forest Labs és Krea AI közös FLUX1.1 Krea Dev modellje megoldja a túltelített textúrák problémáját. Az nyílt súlyokkal elérhető text-to-image modell természetesebb, fotorealisztikusabb képeket generál, megszüntetve a jellegzetes “AI-look” hatást.

Horizon Alpha: titkos GPT-5?

Az OpenRouter Horizon Alpha nevű rejtélyes modellje spekulációkat váltott ki, hogy ez lehet a GPT-5 korai verziója. A 256k kontextusablakkal rendelkező modell az EQ-Bench kreatív írás tesztben vezeti a ranglistát, ingyenesen elérhető tesztelésre.

További jelentős hírek a héten:

A hét legfontosabb tanulsága szerintemaz, hogy az AI-eszközök robbanásszerű fejlődése mellett a biztonsági kérdések egyre kritikusabbá válnak. A vibe-coding platformok sorozatos sebezhetőségei rámutatnak, hogy a gyors innováció mellett az alapvető védelem sem maradhat háttérben.

Több info a 127..0.0.1:8000-n 😂