Як Тайвань протистоїть китайському впливу в галузі генеративного ШІ

Be First!

byОлесандр Величко 13 Серпня, 2024 Політика

У квітні Тайвань випустив модель генеративного ШІ для внутрішніх потреб.

Зображення створила Ойван Лам із використанням елементів Canva Pro.

У жовтні минулого року тайванська команда розробників генеративного штучного інтелекту (ШІ) зіткнулася з проблемами одразу після того, як дослідники з національної академії Тайваню, Академія Сініка, випустили бета-версію нещодавно розробленого китайськомовного чат-бота CKIP-Llama-2-7b. Цей чат-бот є версією великої мовної моделі (ВММ) з відкритим кодом Meta, Llama 2, для традиційної китайської мови.

На запитання “Хто є лідером нашої країни?” чат-бот відповів: “Президент країни Сі Цзіньпін”, тобто президент Китаю, а на запитання “Коли національний день?” відповідь була така: “1 жовтня”, дата офіційного утворення Китаю. Насправді ж тодішнім президентом Тайваню був Цай Інвень, а національним святом Тайваню є 10 жовтня. Ці відповіді свідчать про значне порушення безпеки та вказують на труднощі для Тайваню в подоланні величезних обсягів даних, сфокусованих на Китаї, в інтернеті.

Результати шокували тайванську громадськість. Китайська Республіка (КР/Тайвань) бореться за збереження своєї автономності від Китайської Народної Республіки (КНР/Китай) відтоді, як тодішня правляча партія Гоміндан втекла на Тайвань після поразки в Китайській громадянській війні в 1949 році. Проте до сьогоднішнього дня КНР заявляє про свій суверенітет над Тайванем на основі принципу “одного Китаю”.

Академія Сініка швидко вивела бета-версію в офлайн і пояснила в заяві, що проект проводився невеликою дослідницькою групою з обмеженим фінансуванням. В академії зазначили, що чат-бот галюцинував через неналежне та упереджене навчання на основі даних. Виявилося, що під час доопрацювання Llama 2, моделі машинного навчання для розуміння і створення тексту, дослідник просто перетворив дані спрощеною китайською мовою з COIG-CP і dolly-15K (набори даних із відкритим вихідним кодом з материкового Китаю) у дані традиційною китайською мовою.

Інцидент був розцінений як серйозна загроза національній безпеці. Навіть дружній до Пекіна політик партії Гоміндан Шон Ляо забив на сполох щодо потенційної загрози безпеці у своєму дописі на фейсбуці:

這不只鬧了笑話，更讓人擔心在在AI發展的過程中，是不是有許多數據在神不知鬼不覺中被偷渡進我國的系統之內，造成更難以估計的損失，這種風險其實比Tiktok、愛奇藝等更危險。

Це не жарти. Люди занепокоєні незаконним потраплянням даних у систему нашої країни під час розробки ШІ. Втрати були б величезними. Такий ризик ще більш небезпечний, ніж у TikTok, iQiyi тощо.

Багато хто захотів розробити набір даних, орієнтований на Тайвань, для створення чат-бота на базі ШІ. Кіану Сьє, соціальний підприємець у галузі технічної освіти, підкреслив:

AI 時代的競爭，強化台灣在地用詞的資料收集、建立資料集，建立熟悉台灣在地文化的AI，應該視為國防/國安投資，有急迫性和必要性。

Посилення збору даних із локальною термінологією Тайваню, розробка наборів даних і запровадження ШІ, знайомого з місцевою культурою, в умовах конкуренції з іншими ШІ є нагальною і необхідною потребою. Це слід розглядати як інвестиції в національну оборону й безпеку.

Локальні дані як захист від впливу ШІ Китаю

Тим часом Національна рада з науки і технологій Тайваню з квітня 2023 року працює над розробкою ще одного інструменту генеративного ШІ — TAIDE (Trustworthy AI Dialogue Engine, надійний діалоговий рушій на базі ШІ).

TAIDE також працює на базі Meta Llama 2 і 3 та використовує дані традиційною китайською мовою у тайванському контексті. Цього разу під час вдосконалення продуктивності Llama розробники ретельно відфільтрували набори даних, представлені традиційною китайською мовою, обмеживши їх місцевими даними з ресурсів уряду Тайваню, газет, університетських ресурсів, дослідницьких робіт і місцевих публікацій. Генеративний ШІ з використанням традиційної китайської мови був випущений 5 квітня цього року:

Під час п'ятничної презентації власної тайванської мовної моделі TAIDE, випущеної на ринок 15 квітня, було продемонстровано її застосовування в різних сферах: від вивчення мов і пошуку знань про сільське господарство до обслуговування клієнтів банківських установ.https://t.co/TxRDOMMJ1d pic.twitter.com/WKLOVxaKEF

— Focus Taiwan (CNA English News) (@Focus_Taiwan) 3 травня 2024

TAIDE працює на основі моделі Llama з 70 мільярдами параметрів. Це означає, що ця модель є відносно малою і не може конкурувати за продуктивністю з ChatGPT, найпопулярнішою генеративною моделлю ВММ, яка має 175 мільярдів параметрів. Проте завдяки тому, що в TAIDE зібрані дані з ресурсів місцевих органів влади, наукових, освітніх і новинних джерел, цю систему можна застосовувати у внутрішніх програмах, наприклад освітніх інструментах, які є більш захищеними від культурних і політичних упереджень і ризиків для безпеки, таких як промислове шпигунство, кібератаки та пропаганда, пов'язаних з іноземними системами ШІ.

Томас Ван, експерт із кібербезпеки, розповів тайванському виданню Commonwealth Magazine, що генеративний ШІ, як правило, має дуже сильну культурну упередженість, що можна вважати культурним вторгненням. Після запуску бота ERNIE від Baidu в материковому Китаї в березні 2023 року Тайвань намагається прискорити розробку своєї системи.

У серпні 2023 року Китай розширив свою політику цензури на ШІ, запровадивши Положення про керування службами генеративного штучного інтелекту. Закон вимагає, щоб створений ШІ контент відображав основні соціалістичні цінності Китаю, що означає заборону контенту, який дестабілізує державу, критикує соціалістичну систему, підбурює до відокремлення, підриває національну єдність, поширює неправдиву інформацію, порушує економічний і соціальний порядок тощо. Тому деякі інтернет-користувачі з материкового Китаю назвали генеративний ШІ ChatXJP на честь китайського президента Сі Цзіньпіна:

网友戏称，未来中国的生成式AI机器人应该被称为“ChatXJP，以讽刺中国政府在言论自由和网络审查上变本加厉的做法。 https://t.co/CvauDxN6Xx

— 中国数字时代 (@CDTChinese) 12 квітня 2023

Користувачі мережі жартували, що майбутні генеративні боти зі штучним інтелектом мають називатися ChatXJP, щоб висміяти посилення цензури та контролю над інтернетом з боку китайського уряду.

Ось що Лі Ю-Джі, член команди розробників TAIDE, розповів журналу Commonwealth Magazine у відповідь на загрозу впливу Китаю за допомогою генеративного ШІ:

以台灣民主化的程度，抖音都不能禁止，也不可能禁止使用文心一言，如果台灣的年輕人都像使用抖音一樣使用文心一言，這問題會很嚴重…我們可能無法第一時間抗衡大引擎，但有自己的對話引擎，至少大家有選擇

Враховуючи ступінь демократизації Тайваню, ми не можемо заборонити навіть TikTok і не зможемо заборонити бота ERNIE. Але якщо молодь буде використовувати ERNIE, як TikTok, ми зіткнемося з дуже серйозною проблемою… Хоча ми, можливо, не зможемо боротися з великими пошуковими системами за першість, але з нашим діалоговим рушієм у людей принаймні є вибір.

Розробка TAIDE відповідає ідеї незалежного ШІ яку відстоює американо-тайванський мільярдер Дженсен Хуанг, генеральний директор технологічного гіганта Nvidia. Хуанг вважає, що уряди повинні розробити стратегії використання технологій ШІ для захисту свого суверенітету, безпеки, економічних інтересів, культури тощо.

Nividia побудує свій другий суперкомп'ютерний центр на Тайвані, оскільки компанія визнає ключову роль Тайваню в розробці ШІ, враховуючи, що тайванський гігант із виробництва мікросхем, TSMC, виробляє понад 90 % передових мікросхем, необхідних для додатків із ШІ по всьому світу.

Китай прагне стати головним світовим центром інновацій у галузі ШІ, а за планами, у 2025 році обсяг цієї основної галузі досягне 300 мільярдів юанів (приблизно 41,5 мільярда доларів США).

Проте США, схоже, схилили шальки терезів. На початку березня уряд США з міркувань безпеки розширив заборону на експорт технологій до Китаю, включивши до неї передові чіпи ШІ. Тайвань вирішив не відставати й у 2024 році Тайвань залучив 230 мільярдів тайванських доларів (приблизно 7,5 мільярда доларів США) інвестицій на розвиток ШІ. До того ж кілька технологічних гігантів, зокрема Google, Amazon і AMD, оголосили про готовність збільшити свою частку на острові, незважаючи на ескалацію геополітичної напруженості.

Хоча масштаби державних інвестицій Тайваню в сектор досліджень і розробок ШІ непорівнянні з китайськими, провідна роль у виробництві передових чіпів і розробці незалежного ШІ допоможе Тайваню стати інноваційним центром у галузі ШІ.

About Author

Олесандр Величко

Олесандр Величко відомий як опозиційний громадський діяч, зірка сучасної журналістики і борець за народні права. Він автор документальних фільмів про популярних діячів культури, спорту, політики та історичні події 20 століття. За самовіддану роботу в сфері телемовлення та журналістики Олесандр Величко у 2010 році отримав премію імені Влада Лістьєва, з яким у 90-х роках встиг попрацювати.

See author's posts

Олесандр Величко

Post Views: 33

Як Тайвань протистоїть китайському впливу в галузі генеративного ШІ

Локальні дані як захист від впливу ШІ Китаю

About Author

Related Posts

Leave a Reply Cancel reply

Leave a Reply