AI Research26.09.2025 г.3 мин четене

Как AI и Уикипедия застрашават уязвимите езици

Когато Кенет Веър започна да управлява версията на Уикипедия на гренландски език преди четири години, първото му действие беше да изтрие почти всичко. Той смяташе, че това е необходимо, за да има шанс да оцелее. Веър, който е на 26 години и е от Германия, се увлича по Гренландия след посещение там като тийнейджър. Той дори се премества в Копенхаген, за да изучава гренландски, език, говорен от около 57,000 души, предимно инуити. Гренландската версия на Уикипедия е добавена около 2003 г., но когато Веър поема управлението 20 години по-късно, открива, че почти всички статии са написани от хора, които не говорят езика. Това, което го тревожи най-много, е увеличаващият се брой статии, копирани и поставени в Уикипедия чрез машинни преводи, пълни с грешки и неточности. Подобни проблеми не са уникални за гренландската версия. Много малки езикови версии на Уикипедия са залети с автоматично преведено съдържание, тъй като AI става все по-достъпен. Това създава проблем, защото AI системите, като Google Translate и ChatGPT, се обучават на огромни количества текст от интернет, включително Уикипедия. Грешките на тези страници могат да повлияят на качеството на преводите, създавайки порочен кръг. "Тези модели се изграждат върху сурови данни," казва Кевин Сканел, бивш професор по компютърни науки. "Те се опитват да научат всичко за един език от нулата." Проблемът е особено остър за езици с малко говорещи, където Уикипедия често е най-големият източник на данни. Това може да има значителни последици, като тласка най-уязвимите езици към изчезване. Въпреки че Уикипедия е управлявана от общността, тя зависи от размера на тази общност. "Нуждаем се от добри уикипедианци," казва Амир Ахарони от доброволческия езиков комитет на Уикипедия. "Ако използвате машинен превод отговорно, той може да бъде ефективен и полезен." Но не всички го правят. AI е дал възможност на някои потребители, които създават статии на малки езици с добри намерения, но с лоши резултати. Това е особено вредно за уязвимите езици, тъй като AI преводите за тях обикновено са по-малко надеждни. Проблемът се усложнява от малкото количество изходен текст, наличен онлайн, както и от структурните особености на някои езици, които затрудняват машинния превод. Въпреки че някои езици, като инари саами, успяват да използват Уикипедия за запазване на езика си, много други не са толкова щастливи. Веър, например, е песимистичен за бъдещето на гренландския език в Уикипедия и е поискал закриването на гренландската версия. Това показва колко е важно да се създава качествено съдържание онлайн, за да се избегне цикълът на "боклук в, боклук навън".

Повече AI новини и услуги:

AI Новини | AI Услуги | Начало