Applen viimeisin AI

Apple on juuri ravistanut AI -tutkimusyhteisöä uraauurtavalla paperilla, jonka otsikko on ”Ajattelun illuusio: päättelymallien vahvuuksien ja rajoitusten ymmärtäminen ongelman monimutkaisuuden linssin kautta". Sen sijaan, että luottaisi mahdollisesti vinoihin vertailuarvoihin, kuten matematiikkaan tai GSM8K: hen - joita epäillään muistettavan monia malleja - Apple valitsi hallittuja, skaalautuvia logiikkapelejä (kuten Hanoin torni, joen ylitys ja lohkomaailma) todellisen päättelykäyttäytymisen eristämiseksi.

Ja tulokset? He eivät maalaa kaunista kuvaa nykypäivän hyped-malleille, kuten Claude-3.5 Sonnet-ajatteleva, DeepSek-R1, Gemini 1.5 Pro Ajattelu tai Openai's O1/O3-Mini.

Apple on torjunut hype
ohellau/gamingvortex01sisä-ainutlaatuisuus

Tärkeimmät havainnot

Applen kokeet paljastavat kolme erillistä ”päättelyjärjestelmää”, jotka perustuvat tehtävän monimutkaisuuteen:

  • Matala monimutkaisuus: Säännölliset LLM: t (ilman perustelutekniikoita, kuten ketjun ketju) todellakin suoriutuivat paremmin kuin malleja, joita markkinoitiin päättelyä varten.
  • Keskipitkä monimutkaisuus: Tämä on makea paikka, jossa päättelemallit loistavat - parannettua suorituskykyä esittämällä nimenomaisesti välivaiheet.
  • Korkea monimutkaisuus: Kaikki mallit epäonnistuivat. Ei vain hieman - mutta katastrofaalisesti. Suorituskyky laski melkein nollaan, kun ongelman monimutkaisuus osui tiettyyn kynnykseen.

Vielä huolestuttavammat, päättelymallit todella vähensivät heidän päättelyään tehtävien, kun tehtävät vaikeutuivat. Apple havaitsi, että palapelien skaalattuina mallit käyttivät vähemmän merkkejä ajatellut vastauksissaan, jopa silloin, kun heillä oli enemmän kuin tarpeeksi rahakonbudjetti jäljellä. Tämä viittaa ydinrajoitukseen - ei resurssikysymykseen.

Claude 4

Nämä mallit eivät oikeastaan ​​ajattele

Ehkä kaikkein kirottavin näkemys: Kun malleille annettiin askel askeleelta algoritmi ja pyysivät seuraamaan sitä, ne epäonnistuivat silti samalla monimutkaisuuskappaleessa. Tämä tarkoittaa, että he eivät voineet edes jäljitellä nimenomaista loogista menettelyä luotettavasti. He eivät vain kompastuneet - he eivät pohjimmiltaan eivät pystyneet yleistä tai toteuttamaan peruslogiikkaa työnnettäessä.

Lyhyesti sanottuna: He eivät ole perusteltua. Ne matkivat.

Redditin, Hacker Newsin ja LinkedInin yli tuomio oli nopea:

"Nämä mallit eivät oikeastaan ​​ole perusteltuja merkityksellisessä merkityksessä. Ne ovat vain erittäin hienostuneita kuvioiden sovittajia, jotka kirjoittavat" ajatuksensa "ennen vastauksia."

"Tehtavan ketju on illuusio. Se on kuin antaa papukaijalle laskin ja vaikutelmana se kertoo matematiikkaongelmista."

Nämä reaktiot ovat yhdenmukaisia ​​sen kanssa, mitä Yann Lecun (META: n päällikkö AI-tiedemies) ja muut ovat varoittaneet: nykypäivän LLM: ää rajoittavat heidän automaattisen regressiivisen arkkitehtuurinsa. Ne voivat simuloida älykkyyttä matalasta keskiaikaisessa monimutkaisuustehtävissä-mutta murenevat, kun todellista yleistystä vaaditaan.

Miksi tällä on merkitystä AI: n tulevaisuudelle

Tekoäly

Applen tutkimus on enemmän kuin vain kritiikki. Se on korkearesoluutioinen tilannekuva siitä, missä päättelykeskeiset AI-mallit seisovat-ja missä ne eivät ole. Se kyseenalaistaa koko ajatetun trendin hallitsevan mallikoulutuksen viimeisen 18 kuukauden aikana.

Vaikutukset:

  • AGI ei ole vain skaalausongelma: Lisää parametreja, rahakkeita tai koulutustietoja ongelmassa ei tuota yleistä älykkyyttä.
  • Hybridijärjestelmät voivat olla välttämättömiä: Applen tulokset tukevat kasvavaa malleja, jotka yhdistävät hermoverkot symbolisiin päättelyihin, pitkäaikaiseen muistiin ja jäsenneltyihin maailmamalleihin.
  • Tuotesuunnitteluriskit: Kehittäjien vedonlyönnissä voimakkaasti päättelykerroksen parannuksiin (kuten hakuvalmistetun sukupolven tai monen agenttisuunnittelu) on tunnustettava nämä suorituskykykalliot-ja suunniteltava niiden ympärillä.

"Illuusio", jonka AI on valmis ajattelemaan

Lehden otsikko ei ole vain provosoiva - se on tarkka. Mitä omena paljastaa, on hauras rakennusteline suuren osan päättelymallin hypeistä. Jopa huipputekniset LLM: t eivät sovelleta niiden osoitettuja algoritmeja, ymmärtävät väärin monimutkaisten palapeleiden rakennetta ja vähentävät heidän ajattelupyrkimyksiään tehtävien vaikeutuessa. Se ei ole älykkyys. Se on esitysteatteri.

Vaikka tutkimus ei väitä, että päättely on toivoton, se muistuttaa meitä tiukasti siitä, että nykypäivän mallit eivät kiipeä tikkaat AGI: lle. He ovat erittäin hyviä näyttämään siltä, ​​että he ajattelevat - kunnes sillä on todella merkitystä.

Tämän pitäisi olla käännekohta - ei vain tutkijoille, vaan kaikille, jotka luottavat monimutkaisten tehtävien LLM: iin.

Lue lisää:Apple Watch -sykevyöhykkeet: selitetty

1. Token-Effort-erittely ja ”luopuminen” -vaikutus

Kun palapelin monimutkaisuus kasvaa, päättelymallit (LRMS) käyttävät aluksi enemmän merkkejä - hoitaen syvempää ajatusta -, mutta kun ne osuvat monimutkaisuuteen kattoon, niiden päättelyjäljet ​​kutistuvat dramaattisesti. Toisin sanoen he "luopuvat" pikemminkin kuin jauhaa ratkaisua.

Apple tulkitsee tätä ei budjetin säästöä, vaan luontaisena skaalaushäiriönä, jossa mallin arkkitehtuuri estää jatkuvan päättelyn kuorman alla.

2. kolme erillistä monimutkaisuusjärjestelmää

Applen päättelyesityksen luokittelu osoittaa karkean siirtymisen tehtävän monimutkaisuuden välillä:

  1. Matala monimutkaisuus
    • Tavalliset LLM: t ilman uskotun ketjun ylittämistä LRMS: ää.
    • Perustelemallit ymmärtävät yksinkertaisia ​​tehtäviä: he löytävät vastauksen, sitten kaksinkertaistavat väärät polut, menettäen suorituskyvyn ja tehokkuuden.
  2. Keskipitkä monimutkaisuus
    • LRMS saa reunan täältä. He käyttävät strategisesti tunnuksia kuluttavia päättelyvaiheet lopulta saadakseen oikeat vastaukset.
  3. Korkea monimutkaisuus
    • Äkillinen romahtaminen: melkein nolla tarkkuus kaikissa malleissa, päättely- ja ei.
    • Monimutkaiset tehtävät aiheuttavat täydellisen epäonnistumisen riippumatta ajatetun ketjun syvyydestä.

3. Algoritmiset sokeat täplät

Vaikka mallit toimitetaan täydellisen palapelinratkaisun algoritmin (esim. Hanoi-torni), mallit epäonnistuivat edelleen tietyn kynnyksen yli. He eivät pystyneet toteuttamaan nimenomaista logiikkaa luotettavasti. Tämä on ristiriidassa ajatuksen kanssa, että ajatusketju tarvitsee yksinkertaisesti enemmän rakennetta menestyäkseen.

4. Laajemmat konteksti- ja yhteisöreaktiot

Verkkofoorumeiden ja AI -keskustelujen välillä tuomio on ollut johdonmukainen:

"Nämä mallit eivät oikeastaan ​​ole perusteltuja merkityksellisessä merkityksessä. Ne ovat vain erittäin hienostuneita kuvioiden sovittajia, jotka kirjoittavat" ajatuksensa "ennen vastauksia."

"Tehtavan ketju on illuusio. Se on kuin antaa papukaijalle laskin ja vaikutelmana se kertoo matematiikkaongelmista."

Nämä reaktiot ovat yhdenmukaisia ​​sen kanssa, mitä monet AI-asiantuntijat ovat varoittaneet: nykypäivän LLM: ää rajoittaa niiden automaattinen regressiivinen arkkitehtuuri. Ne voivat simuloida älykkyyttä matalasta keskiaikaisessa monimutkaisuustehtävissä-mutta murenevat, kun todellista yleistystä vaaditaan.

5. Yhteydet muihin mallin havaintoihin

DeepSeek-R1: llä, vaikka sitä kiitetään suorituskyvyn ja merkkien käytöstä vertailuarvoissa, se osoittaa saman kriittisen pullonkaulan logiikkatehtävissä, joissa vaaditaan todellista yleistämistä.

Viimeaikaiset edistysaskeleet, kuten pakattujen ketjun tekniikoiden, pyrkivät virtaviivaistamaan päättelyä menettämättä suorituskykyä, mutta Applen tulokset viittaavat siihen, että syvyyden ja monimutkaisuuden vuoksi on todennäköisesti kovaa arkkitehtonista kattoa.

Miksi tällä on merkitystä

Paperi korostaa, että:

  • Perusteluvoima on rajoitettu - enemmän kerroksia tai merkkejä ei takaa parempaa logiikkaa.
  • AGI ei ilmene raa'an kiehtovan ketjun avulla. Vaihtoehtoiset strategiat - symboliset moduulit, muistijärjestelmät, hybridiaineet - vaaditaan.
  • Tuotevaikutukset: Pinnasängyn (kuten monivaiheinen suunnitteluasiamiehet) luottavat järjestelmät epäonnistumistilat eivät ole vain mahdollisia-ne ovat väistämättömiä mittakaavassa.

Yhteenvetotaulukko

VaiheVakio LLMPäättelymalli (LRM)
Matala monimutkaisuusNopea ja tarkka - voittaa oletuksenaYlenmääräiset, vähemmän tarkka
Keskipitkä monimutkaisuusTaisteluExcels, vipuvaihe ja pohdinta
Korkea monimutkaisuusLähes nolla tarkkuusKaatuu, päättely pyrkimykset romahtavat

Parhaat AI -työkalut PC: lle vuonna 2025

AI-työkalut tietokoneisiin ovat muuttuneet dramaattisesti vuonna 2025. Kehittyneiltä avustajilta, kuten ChatgPT-4O ja Microsoft Copilot, innovatiivisiin uusiin tulokkaisiin, kuten GROK-3 ja hämmentyneisyys AI, nykypäivän AI-ohjelmisto ei ole vain hyödyllinen-se on määritelty uudelleen, kuinka toimimme, luomme, koodia ja oppia. Jopa ilmaiset työkalut kilpailevat nyt premium-vaihtoehtoja, ja monet on optimoitu Windows 11: n uusille Copilot+ -ominaisuuksille ja uusimmalle Ryzen AI: lle ja Snapdragon X -käyttöiselle tietokoneelle.

AI -maisema on myös henkilökohtaisempi. Työkalut, kuten Braina ja Sider, juoksevat paikallisesti täydellä hallinnalla, kun taas hämmentys ja Kaksoset tarjoavat nopeaa, pilvivoimaa koskevaa tutkimusta ja multimodaalista syöttöä. Olitpa opiskelija, kehittäjä, sisällöntuottaja tai yrityskäyttäjä, tarpeitasi on räätälöity työkalu - ja ne ovat vain älykkäämpiä.

Uudet kohokohdat vuonna 2025

  • Windows 11 25H2:AI-First-päivitys, jossa kopilotti on syvästi integroitu sovelluksiin
  • AI-optimoidut tietokoneet:Snapdragon X, Ryzen AI Max+ja RTX 5090 Boost Local AI -virta
  • Hämmennys AI:Luokan parhaat AI-haku- ja avustajayhdistelmät-nyt Windows and Mobile
  • Grok-3 kirjoittanut Xia:Elon Muskin malli ylittää GPT-4O: n perustelujen vertailuarvoihin
  • Mistrali ai:Avoimen lähdekoodin johtaja, jolla on voimakas uusi devstral-koodausassistentti
  • Braina:Täysin varustettu virtuaaliassistentti, joka toimii paikallisesti ja kunnioittaa yksityisyyttä

PC: n parhaat AI -työkalut (päivitetty 2025)

  • Chatgpt-4o:Nopea, multimodaalinen ja nyt käytettävissä ilmaisten käyttäjien avulla Windows Desktop -sovelluksen kautta
  • Microsoft Copilot:Windows 11- ja Office-sovelluksiin upotettu saumattomasti palautus- ja AI-käyttöinen tiedostohaku
  • Hämmennys AI:Yhdistää web -haku ja avustaja yhdessä työkalussa; Käyttää GPT-4O: ta, Claude 3: ta, Kaksoisia ja sen omia malleja
  • Jasper ai:Silti ylimmän tason työkalu markkinoijille ja joukkueille, jotka luovat tuotemerkki sisältöä mittakaavassa
  • Braina:Yksityisyyden suojaan liittyvä avustaja, jolla on offline-ominaisuudet ja älykäs työpöydän integrointi
  • Grok-3:Multimodaalinen, verkkoon kytketty AI XAI: sta syvällä päättelyllä ja voimakkaalla reaalimaailman tiedoilla
  • Mistral DevStral:Avoimen lähdekoodin koodausassistentti, joka kilpailee Github Copilot ja Devin
  • Sivut ai:Sivupalkkityylinen avustaja, joka tukee useita malleja (GPT-4O, Claude, Gemini) ja tiedostokeskustelu
  • Gemini 1.5 Ultra:Googlen paras AI, joka on vielä tunnettu nopeasta vastauksesta, syvän kontekstin muistista ja multimodaalisista tuloista

AI -työkalut on optimoitu uusille PC -laitteille

Erikoistuneen NPU: n (hermojen prosessointiyksiköt) ansiosta AI -suorituskyky PCS: llä on nouseva. Viimeisimmät Copilot+ PC: t, joissa on Snapdragon X -eliitti, Ryzen AI 9 HX370, ja Intel Core Ultra -prosessorit tarjoavat yli 45 yläosaa paastolle paikalliselle prosessoinnille, mikä tarkoittaa työkaluja, kuten Copilot, Braina ja Sider, voivat nyt suorittaa enemmän tehtäviä tarvitsematta pilviä. Laitteet, kutenAsus ProArt P16-Microsoft Surface -kannettava tietokonejaHP ZBook Ultrajohtavat maksua AI-valmiissa laitteistoissa.

Uudet trendit: mikä muuttuu AI: ssa tietokoneelle

  • Multimodaaliset mallit:GPT-4O, Gemini 1.5 Ultra ja Grok-3-kahva ääni, kuva, teksti ja video samanaikaisesti
  • Tietosuoja ja paikallinen AI:Brainan ja Mistral -työkalujen avulla voit suorittaa tehtäviä ilman pilviyhteyksiä
  • AI haussa:Hälytys, bing copilotin kanssa, ja sinä.com tarjoaa rikkaat, hankitut, reaaliaikaiset vastaukset
  • AI-koodaava puomi:Työkalut, kuten kohdistin, Devstral ja Devin, määrittelevät ohjelmistokehityksen tietokoneissa

Oikean AI -työkalun valitseminen tietokoneellesi

Valitsema työkalu riippuu tarvitsemastasi. Kirjailijat ja markkinoijat voivat siirtyä kohti Jasperia ja Chatgpt-4O: ta. Kehittäjät kääntyvät kohdistimen, Mistral's Devstral ja Brainan puoleen paikallisille työnkulkuille. Jos haluat älykkäämmän tavan etsiä ja tutkia, hämmennys ja GROK-3 ovat sinun valintasi. Ja syvästi integroituun, all-in-one-ratkaisuun Windowsissa, Copilot pysyy vertaansa vailla Microsoft-ekosysteemeissä.

Suositellut parit (2025)

  • Paras AI yleiseen käyttöön:Chatgpt-4o, copilot
  • Paras tutkimukselle:Hämmennys AI, Grok-3
  • Paras koodaamiseen:Devstral, kohdistin, kognitio AI (Devin)
  • Paras yksityisyyden kannalta:Braina, Mistral AI
  • Paras markkinointi:Jaspis
  • Paras kuvalle/videolle:Kiitotie, sider, adobe firefly

Kun AI-työkalut ovat nyt syvästi integroituneita käyttöjärjestelmiin ja rakennetaan paikalliseen suorituskykyyn, tietokoneesi voi tehdä enemmän kuin koskaan-pitempää, älykkäämpiä ja turvallisempaa. AI -aseiden kilpailu ei enää tapahdu vain pilvessä. Se on oikein työpöydälläsi.