Skip to Content

Як Тайвань протистоїть китайському впливу в галузі генеративного ШІ

Be First!

У квітні Тайвань випустив модель генеративного ШІ для внутрішніх потреб.

Зображення створила Ойван Лам із використанням елементів Canva Pro.

У жовтні минулого року тайванська команда розробників генеративного штучного інтелекту (ШІ) зіткнулася з проблемами одразу після того, як дослідники з національної академії Тайваню, Академія Сініка, випустили бета-версію нещодавно розробленого китайськомовного чат-бота CKIP-Llama-2-7b. Цей чат-бот є версією великої мовної моделі (ВММ) з відкритим кодом Meta, Llama 2, для традиційної китайської мови.

На запитання “Хто є лідером нашої країни?” чат-бот відповів: “Президент країни Сі Цзіньпін”, тобто президент Китаю, а на запитання “Коли національний день?” відповідь була така: “1 жовтня”, дата офіційного утворення Китаю. Насправді ж тодішнім президентом Тайваню був Цай Інвень, а національним святом Тайваню є 10 жовтня. Ці відповіді свідчать про значне порушення безпеки та вказують на труднощі для Тайваню в подоланні величезних обсягів даних, сфокусованих на Китаї, в інтернеті.

Результати шокували тайванську громадськість. Китайська Республіка (КР/Тайвань) бореться за збереження своєї автономності від Китайської Народної Республіки (КНР/Китай) відтоді, як тодішня правляча партія Гоміндан втекла на Тайвань після поразки в Китайській громадянській війні в 1949 році. Проте до сьогоднішнього дня КНР заявляє про свій суверенітет над Тайванем на основі принципу “одного Китаю”.

Академія Сініка швидко вивела бета-версію в офлайн і пояснила в заяві, що проект проводився невеликою дослідницькою групою з обмеженим фінансуванням. В академії зазначили, що чат-бот галюцинував через неналежне та упереджене навчання на основі даних. Виявилося, що під час доопрацювання Llama 2, моделі машинного навчання для розуміння і створення тексту, дослідник просто перетворив дані спрощеною китайською мовою з COIG-CP і dolly-15K (набори даних із відкритим вихідним кодом з материкового Китаю) у дані традиційною китайською мовою.

Інцидент був розцінений як серйозна загроза національній безпеці. Навіть дружній до Пекіна політик партії Гоміндан Шон Ляо забив на сполох щодо потенційної загрози безпеці у своєму дописі на фейсбуці:

這不只鬧了笑話,更讓人擔心在在AI發展的過程中,是不是有許多數據在神不知鬼不覺中被偷渡進我國的系統之內,造成更難以估計的損失,這種風險其實比Tiktok、愛奇藝等更危險。

Це не жарти. Люди занепокоєні незаконним потраплянням даних у систему нашої країни під час розробки ШІ. Втрати були б величезними. Такий ризик ще більш небезпечний, ніж у TikTok, iQiyi тощо.

Багато хто захотів розробити набір даних, орієнтований на Тайвань, для створення чат-бота на базі ШІ. Кіану Сьє, соціальний підприємець у галузі технічної освіти, підкреслив:

AI 時代的競爭,強化台灣在地用詞的資料收集、建立資料集,建立熟悉台灣在地文化的AI,應該視為 國防/國安 投資,有急迫性和必要性。

Посилення збору даних із локальною термінологією Тайваню, розробка наборів даних і запровадження ШІ, знайомого з місцевою культурою, в умовах конкуренції з іншими ШІ є нагальною і необхідною потребою. Це слід розглядати як інвестиції в національну оборону й безпеку.

Локальні дані як захист від впливу ШІ Китаю

Тим часом Національна рада з науки і технологій Тайваню з квітня 2023 року працює над розробкою ще одного інструменту генеративного ШІ — TAIDE (Trustworthy AI Dialogue Engine, надійний діалоговий рушій на базі ШІ).

TAIDE також працює на базі Meta Llama 2 і 3 та використовує дані традиційною китайською мовою у тайванському контексті. Цього разу під час вдосконалення продуктивності Llama розробники ретельно відфільтрували набори даних, представлені традиційною китайською мовою, обмеживши їх місцевими даними з ресурсів уряду Тайваню, газет, університетських ресурсів, дослідницьких робіт і місцевих публікацій. Генеративний ШІ з використанням традиційної китайської мови був випущений 5 квітня цього року:

TAIDE працює на основі моделі Llama з 70 мільярдами параметрів. Це означає, що ця модель є відносно малою і не може конкурувати за продуктивністю з ChatGPT, найпопулярнішою генеративною моделлю ВММ, яка має 175 мільярдів параметрів. Проте завдяки тому, що в TAIDE зібрані дані з ресурсів місцевих органів влади, наукових, освітніх і новинних джерел, цю систему можна застосовувати у внутрішніх програмах, наприклад освітніх інструментах, які є більш захищеними від культурних і політичних упереджень і ризиків для безпеки, таких як промислове шпигунство, кібератаки та пропаганда, пов'язаних з іноземними системами ШІ.

Томас Ван, експерт із кібербезпеки, розповів тайванському виданню Commonwealth Magazine, що генеративний ШІ, як правило, має дуже сильну культурну упередженість, що можна вважати культурним вторгненням. Після запуску бота ERNIE від Baidu в материковому Китаї в березні 2023 року Тайвань намагається прискорити розробку своєї системи.

У серпні 2023 року Китай розширив свою політику цензури на ШІ, запровадивши Положення про керування службами генеративного штучного інтелекту. Закон вимагає, щоб створений ШІ контент відображав основні соціалістичні цінності Китаю, що означає заборону контенту, який дестабілізує державу, критикує соціалістичну систему, підбурює до відокремлення, підриває національну єдність, поширює неправдиву інформацію, порушує економічний і соціальний порядок тощо. Тому деякі інтернет-користувачі з материкового Китаю назвали генеративний ШІ ChatXJP на честь китайського президента Сі Цзіньпіна:

Користувачі мережі жартували, що майбутні генеративні боти зі штучним інтелектом мають називатися ChatXJP, щоб висміяти посилення цензури та контролю над інтернетом з боку китайського уряду.

Ось що Лі Ю-Джі, член команди розробників TAIDE, розповів журналу Commonwealth Magazine у відповідь на загрозу впливу Китаю за допомогою генеративного ШІ:

以台灣民主化的程度,抖音都不能禁止,也不可能禁止使用文心一言,如果台灣的年輕人都像使用抖音一樣使用文心一言,這問題會很嚴重…我們可能無法第一時間抗衡大引擎,但有自己的對話引擎,至少大家有選擇

Враховуючи ступінь демократизації Тайваню, ми не можемо заборонити навіть TikTok і не зможемо заборонити бота ERNIE. Але якщо молодь буде використовувати ERNIE, як TikTok, ми зіткнемося з дуже серйозною проблемою… Хоча ми, можливо, не зможемо боротися з великими пошуковими системами за першість, але з нашим діалоговим рушієм у людей принаймні є вибір.

Розробка TAIDE відповідає ідеї незалежного ШІ яку відстоює американо-тайванський мільярдер Дженсен Хуанг, генеральний директор технологічного гіганта Nvidia. Хуанг вважає, що уряди повинні розробити стратегії використання технологій ШІ для захисту свого суверенітету, безпеки, економічних інтересів, культури тощо.

Nividia побудує свій другий суперкомп'ютерний центр на Тайвані, оскільки компанія визнає ключову роль Тайваню в розробці ШІ, враховуючи, що тайванський гігант із виробництва мікросхем, TSMC, виробляє понад 90 % передових мікросхем, необхідних для додатків із ШІ по всьому світу.

Китай прагне стати головним світовим центром інновацій у галузі ШІ, а за планами, у 2025 році обсяг цієї основної галузі досягне 300 мільярдів юанів (приблизно 41,5 мільярда доларів США).

Проте США, схоже, схилили шальки терезів. На початку березня уряд США з міркувань безпеки розширив заборону на експорт технологій до Китаю, включивши до неї передові чіпи ШІ. Тайвань вирішив не відставати й у 2024 році Тайвань залучив 230 мільярдів тайванських доларів (приблизно 7,5 мільярда доларів США) інвестицій на розвиток ШІ. До того ж кілька технологічних гігантів, зокрема Google, Amazon і AMD, оголосили про готовність збільшити свою частку на острові, незважаючи на ескалацію геополітичної напруженості.

Хоча масштаби державних інвестицій Тайваню в сектор досліджень і розробок ШІ непорівнянні з китайськими, провідна роль у виробництві передових чіпів і розробці незалежного ШІ допоможе Тайваню стати інноваційним центром у галузі ШІ.

About Author

Previous
Next

Leave a Reply

Your email address will not be published. Required fields are marked *

*