Generativní umělá inteligence je považována za technologický vývoj, který nás přenese do nového věku. Každý, kdo používá chatbota, jako je ChatGPT nebo Google Bard, může souhlasit, ale žádná nová technologie není bez svých vehementních odpůrců. Válka probíhající mezi chatboty s umělou inteligencí, jako je ChatGPT, a weby, které škrábou, není něco, co byste slyšeli v klíčových poznámkách nebo viděli v příspěvcích na blogu. Nicméně se to děje a je to jen intenzivnější.
Masová většina lidí, kteří používají chatboty, ve skutečnosti neví, co je pohání. Chatboti jsou obrovské rezervoáry informací, které mohou zahanbit jakoukoli encyklopedii. No a odkud si myslíte, že berou informace? Jednoduše řečeno, získávají informace z internetu; získávají informace z vašich oblíbených webových stránek.
Společnosti s umělou inteligencí vypálily první ránu seškrabováním dat
Nejde o šíření strachu, ale pokud o seškrabování dat nevíte, je na čase, abyste to zjistili. Chatboti mají oceán informací téměř o všem, ale tyto informace musí někde existovat; nevytvářejí informace jen tak ze vzduchu (s výjimkou halucinací). Své rozsáhlé znalosti získávají z informací získaných z celého webu.
Společnosti s umělou inteligencí používají kousky softwaru zvané prohledávače, které cestují na různé webové stránky a sbírají z nich data. Vytvoří kopie informací na stránkách a vloží je do svých LLM (velkých jazykových modelů), které pohání chatboty. Nyní si představte, kolik informací mohou prohledávače shromáždit s celým internetem jako svým hřištěm. To je důvod, proč má ChatGPT odpověď na téměř vše, co do něj zadáte.
V případě, že vás to zajímá, ano, to zahrnuje informace, které vytvoříte VY. Pokud napíšete článek, prohledávač může přejít k tomuto příspěvku, zkopírovat tyto informace a vložit je do svého LLM. I když nejste spisovatel, stále nechtěně přispíváte chatbotům. S největší pravděpodobností byly vaše tweety, příspěvky na Facebooku a další příspěvky na sociálních sítích seškrábány, aby vycvičili chatbota.
To se top webům nelíbí, a tak vedou válku s AI chatboty
Na první pohled se zdá, že většina podniků přijímá generativní umělou inteligenci. Všichni jsou pro nabízení služeb umělé inteligence, ale otázka zní: jak se dívají na to, že jsou jejich data seškrabována? Mnoho z největších webů na internetu z toho ve skutečnosti nemá dobrý pocit. Ve skutečnosti si dali záležet na tom, aby blokovali prohledávače chatbotů, aby škrábali jejich stránky. Odhaluje to zpráva od Originality.AI.
7. srpna OpenAI odhalila způsob, jak společnostem zablokovat prohledávač GTPBot v získávání dat z jejich webových stránek. Po pouhých dvou týdnech, 69 z 1 000 nejlepších webových stránek (asi 7 %) to blokovali. Rychle vpřed k 17. září a toto číslo se více než zdvojnásobilo. O 25,9 % z 1000 nejlepších webů, které se rozhodly zablokovat GPTBot. Celkem 242 z nejlepších webů na světě blokují prohledávače.
Jedna věc, kterou je třeba si zapamatovat, je, že tato čísla se týkají pouze 1 000 nejlepších webů. Existuje nespočetné množství webových stránek; 1000 je ve srovnání s tím nekonečně malé. Počet webových stránek, které obecně blokují prohledávače, je mnohem MNOHEM větší! Při pohledu na výše uvedený graf můžete vidět, že čísla neustále rostou. Stále více webů bojuje proti ChatGPT blokováním svého prohledávače.
Jaké stránky blokují ChatGPT?
Tento seznam zahrnuje weby jako Amazon, Pinterest, Quora, Tumblr, Indeed, Dictionary.com, Shutterstock, WikiHow a několik dalších. Není také žádným překvapením, že velké množství serverů se zpravodajskými médii je také ve válce proti chatbotům AI. Patří mezi ně CNN, The NY Times, The Verge, Reuters, CNBC News, Insider, The Washington Post, Wired, Polygon a mnoho dalších.
Spisovatelé mediálních stránek se všichni do značné míry bojí o svou práci. Chatboti mají schopnost vygenerovat celý článek v časovém rozpětí, které je potřeba k přečtení názvu. Tato technologie má potenciál připravit o práci tuny novinářů. To je důvod, proč jsou mediální stránky zásadně proti seškrabávání chatbotů.
Několik zkušených zpravodajských serverů také v průběhu let publikovalo průlomové žurnalistické články. Tyto kusy jsou chráněny autorským právem a jsou považovány za vrcholné úspěchy publikací. Těmto stránkám nesedí, že prohledávače jsou schopny tyto články seškrábat.
A jako by potřebovali více důvodů, proč se postavit prohledávačům chatbotů, mají schopnost skutečně seškrábat i placený obsah.
Do bitvy však vstoupilo více chatbotů
Když byl ChatGPT poprvé spuštěn, existoval pouze jeden chatbot, o který se člověk musel starat. Od té doby, co tato technologie explodovala, se však stále více společností snaží webové stránky zlikvidovat.
Na grafu výše jste si všimli, že nebyl zablokován pouze jeden prohledávač, ale byly čtyři. Dva z nich jsou z ChatGPT; další dva jsou CCBot a Anthropic AI. Vidíme, že GPTBot je ten, který je blokován nejvíce, ale webům svá data sbírá více chatbotů najednou.
Vidíme, že CCBot je druhý nejvíce blokovaný prohledávač, který je blokován 13,9 % z nejlepších webových stránek. ChatGPT-User, další bot OpenAI, je blokován asi 7 % z 1000 nejlepších webů. Anthropic.AI je blokován nejméně. Pouze dva weby na tomto seznamu blokují tohoto robota a jsou to Reuters a Corrier.it.
Kromě čtyř uvedených v grafu jsou zde také prohledávače pro Google Bard a Vertex AI. Díky tomu je minimálně šest prohledávačů chatbotů, které by mohly sbírat data webových stránek. Ano, Amazon blokuje GPTBot, ale to je jen zlomek chatbotů, o které se musí starat.
To platí i pro všechny weby. Lidé spouštějící své nové stránky budou muset vzít v úvahu prohledávače spolu s provozováním webu. Naštěstí Google nedávno uvolnil způsob, jak zablokovat Bard a Vertex AI ve stahování dat z webových stránek s názvem Google-Extended.
Tato válka bude zuřit až do vládní regulace
Je tedy zřejmé, že přechod do této nové éry umělé inteligence není ladný. Za závěsy se odehrává skutečné drama. Mezi AI a weby, ze kterých se učí, probíhá válka. To je druh budoucnosti, které jsme se nemohli vyhnout s tím, jak funguje generativní AI.
To bude pokračovat, až se na povrch dostane více chatbotů. Nevíme, kolik prohledávačů bude ode dneška získávat data ročně. A co za 5 let nebo za 10 let? Zdá se, že jediná věc, která by mohla zvrátit vývoj, je vládní intervence.
Právě teď mají společnosti s umělou inteligencí volnou ruku ve vývoji svých technologií, jak chtějí. To není uklidňující, protože mluvíme o velkých a spíše chamtivých korporacích. Ve svých klíčových poznámkách a příspěvcích na blogu hovoří o zajištění bezpečnosti umělé inteligence, ale konečným cílem je pro většinu společností vždy znak dolaru. To znamená, že společnosti budou mít tendenci přehánět svou technologii, aby mohly konkurovat. To je důvod, proč mohou volně procházet a získávat data, která chtějí; jsou na šílené pomlčce, aby jejich chatbot byl chytřejší než konkurence.
Vstupte, vláda
V době psaní tohoto článku se však několik vládních orgánů a zákonodárců snaží přijít na to, jak tuto revoluci AI zvládnout. Například vláda Spojeného království bojuje za větší transparentnost v tom, jak AI funguje.
Klíčové slovo je zde „Nařízení“. Pokud vláda zasáhne a bude regulovat, jak mohou společnosti získat jejich data, bude bitva spíše ve prospěch vymazání stránek. Pro chatboty nebude tak snadné seškrábat stránky bez povolení.
Válka zuří dál
Právě teď jsme v bodě, kdy je budoucnost technologického průmyslu stále záhadou. Technologie AI se implementuje do více služeb a technologií, které považujeme za samozřejmé. Jak se umělá inteligence neustále vyvíjí, vždy se najdou společnosti, které budou proti jejímu pokroku. 25,9 % nejlepších stránek blokuje ChatGPT a toto číslo roste. To číslo by se mohlo za měsíc znovu zdvojnásobit, pokud víme. Co víme, je, že dokud budou existovat chatboti s umělou inteligencí, vždy bude probíhat válka.
Zdroj: androidheadlines.com