Sg.hu - Az MI nem a legjobb társ a hibakeresésben.

A Microsoft kutatása rámutatott, hogy a mesterséges intelligencia modellek továbbra is nehézségekkel küzdenek a szoftverhibák azonosításában.

Az OpenAI, az Anthropic és más vezető mesterséges intelligencia laboratóriumok által kifejlesztett modellek egyre inkább elterjedtek a programozási feladatok támogatásában. Sundar Pichai, a Google vezérigazgatója októberben bejelentette, hogy a vállalat újonnan írt kódjainak 25%-át mesterséges intelligencia állítja elő. Eközben Mark Zuckerberg, a Meta vezetője, hangsúlyozta, hogy célja a közösségi média platformon belüli MI-alapú kódgeneráló modellek széleskörű alkalmazása. Ennek ellenére, még a legfejlettebb modellek is gyakran kudarcot vallanak olyan szoftverhibák kijavításában, amelyeket a tapasztalt fejlesztők rutinszerűen megoldanak.

A Microsoft Research, a vállalat kutatás-fejlesztési ágának legújabb tanulmánya rávilágít, hogy az Anthropic Claude 3.7 Sonnet és az OpenAI o3-mini modelljei nem képesek megfelelően teljesíteni a SWE-bench Lite néven ismert szoftverfejlesztési teszt során. Az eredmények figyelmeztető jelként szolgálnak, emlékeztetve arra, hogy még a legnagyobb technológiai cégek, mint az OpenAI, bátor állításaik ellenére is, a mesterséges intelligencia jelenlegi állapota nem tudja felvenni a versenyt az emberi szakemberekkel, még a kódolás területén sem.

A tanulmányban kilenc különböző modellt vizsgáltak, mindegyik a prompt-alapú ügynök központi elemére építve, amely számos hibakeresési eszközhöz, például egy Python hibakeresőhöz is hozzáférést kapott. Ezt az ügynököt a SWE-bench Lite 300 szoftverhibakeresési feladat megoldására bízták. A kutatók megállapították, hogy még a legújabb és legerősebb modellek alkalmazása mellett is ritkán sikerült az ügynöknek a hibakeresési feladatok több mint felét eredményesen teljesítenie. A legmagasabb sikerességi arányt a Claude 3.7 Sonnet produkálta, amely elérte az 48,4%-ot, ezt követte az OpenAI o1 modellel (30,2%) és az o3-mini (22,1%).

Miért mutatott ez a teljesítmény gyenge eredményeket? Egyes modellek számára kihívást jelentett a rendelkezésre álló hibakeresési eszközök hatékony alkalmazása, és nem voltak képesek megérteni, miként segíthetnek a különböző eszközök a felmerülő problémák megoldásában. A helyzet súlyosbító tényezője, ahogyan a társszerzők rámutattak, az adatok korlátozottsága volt. Véleményük szerint a jelenlegi modellek képzési adathalmazában nem található elegendő információ, amely a "szekvenciális döntéshozatali folyamatok" – azaz az emberi hibakeresési technikák – megfelelő reprezentációját nyújtaná.

"Határozottan hisszük, hogy a modellek képzése vagy finomhangolása jobb interaktív hibakeresővé teheti őket" - írták tanulmányukban a társszerzők. "Ehhez azonban speciális adatokra lesz szükség az ilyen modellképzés teljesítéséhez, például olyan adatokra, amelyek rögzítik a hibakeresővel interakcióba lépő ágenseket, hogy összegyűjtsék a szükséges információkat, mielőtt hibajavítást javasolnának."

Az eredmények nem meglepőek. Számos kutatás rámutatott, hogy a kódgeneráló mesterséges intelligenciák gyakran biztonsági hiányosságokat és hibákat hoznak létre, főként a programozási logika megértésének korlátozottsága miatt. A Devin népszerű kódoló eszköz legutóbbi értékelése alapján a 20 programozási tesztből mindössze hármat tudott sikeresen teljesíteni.

A Microsoft által végzett munka kétségtelenül az egyik legátfogóbb elemzés a modellek egy kritikus aspektusáról. Valószínű, hogy ez nem fogja csökkenteni a befektetők érdeklődését a mesterséges intelligenciával támogatott programozási asszisztensek iránt. Azonban, ha kedvező fordulatot vesz a helyzet, talán a fejlesztők – és a vezetőségük – alaposabban átgondolják, mennyire érdemes rábízni a programozási folyamatokat az MI-re.

A közelmúltban egyre inkább teret nyer az a nézet, hogy a mesterséges intelligencia nem fogja teljesen átvenni a kódolási feladatokat. Bill Gates, a Microsoft társalapítója, határozottan kijelentette, hogy a programozás szakmája továbbra is releváns marad. Ezen a vonalon Amjad Masad, a Replit vezérigazgatója, Todd McKinnon, az Okta vezérigazgatója, valamint Arvind Krishna, az IBM vezetője is hasonló érveket hoztak fel, hangsúlyozva, hogy az emberi kreativitás és szakértelem továbbra is elengedhetetlen a technológiai fejlődéshez.

Related posts