Регулирование
отношений
в
сфере
технологий
искусственного
интеллекта
и
робототехники
______________________________________________________________________________________________________________________
36
4.
Федеральный
закон
от
31
июля
2020
г.
№
258
-
ФЗ
«
Об
эксперименталь-
ных
правовых
режимах
в
сфере
цифровых
инноваций
в
Российской
Федерации
//
СПС
«
КонсультантПлюс»
[Электронный
ресурс].
–
URL:
5.
Распоряжение
Правительства
Российской
Федерации
от
19
августа
2020
г.
№
2129
-
р
«
Об
утверждении
Концепции
развития
регулирования
отношений
в
сфере
технологий
искусственного
интеллекта
и
робототехники
до
2024
года»
//
СПС
«
КонсультантПлюс»
[Электронный
ресурс].
–
URL:
6.
Кутейников
Д.
Л.,
Ижаев
О.
А.,
Зенин
С.
С.,
Лебедев
В.
А.
Ключевые
подходы
к
правовому
регулированию
использования
систем
искусственного
ин-
теллекта
//
Вестник
Тюменского
государственного
университета.
Социальноэко-
номические
и
правовые
исследования.
–
2022.
–
Т.8.
–
№
1
(29).
–
С.
209
–
232.
7.
DARPA
и
наука
Третьего
рейха
:
оборонные
исследования
США
и
Гер-
мании
/
Под
общ.
ред.
А.Е.
Суворова.
–
М.:
ТЕХНОСФЕРА,
2020.
–
С.
122
–
123.
8.
Егорова
Н.
Е.,
Торжевский
К.
А.
Методологические
основы
принятия
стратегических
решений.
Секция
1.
«
Теоретические
проблемы
стратегического
планирования
на
микроэкономическом
уровне».
Стратегическое
планирование
и
развитие
предприятий:
материалы
ХХ
III
Всероссийского
симпозиума.
Москва,
12
–
13
апреля
2022
г.
/
под
ред.
чл.
-
корр.
РАН
Г.
Б.
Клейнера.
М.:
ЦЭМИ
РАН,
2022.
–
C.
25–
28.
9.
Варшавский
Л.
Е.
Социально
-
экономические
проблемы
развития
ин-
формационно
-
коммуникационных
технологий
(ИКТ):
монография.
–
М.:
ЦЭМИ
РАН,
2022.
10.
Самбурова
Т.
Методологические
вопросы
анализа
цифровой
экономи-
ки
[Электронный
ресурс]
//
URL:
https://delyagin.ru/articles/191
И.
Г.
Ильин,
аспирант,
Санкт
-
Петербургский
государственный
университет
СОЗДАНИЕ
БОЛЬШИХ
ЯЗЫКОВЫХ
МОДЕЛЕЙ
И
ИХ
ВЛИЯНИЕ
НА
РЕАЛИЗАЦИЮ
И
ЗАЩИТУ
КОНСТИТУЦИОННО
ГАРАНТИРОВАННЫХ
ПРАВ
Аннотация.
Статья
посвящена
исследованию
некоторых
правовых
аспек-
тов
создания
больших
языковых
моделей
в
контексте
цифрового
неравенства
и
языковой
дискриминации.
В
результате
анализа
было
установлено,
что
приме-
нительно
к
большим
языковым
моделям
цифровое
неравенство
возникает
из
-
за
неравномерного
уровня
цифровизации
языков
и
проявляется
в
ограниченном
до-
ступе
к
технологии
обработки
естественного
языка.
Ключевые
слова:
право,
большие
языковые
модели,
языковая
дискрими-
нация,
цифровые
технологии,
цифровое
неравенство,
искусственный
интеллект,
технология
обработки
естественного
языка
Регулирование
отношений
в
сфере
технологий
искусственного
интеллекта
и
робототехники
______________________________________________________________________________________________________________________
37
CREATION OF LARGE LANGUAGE MODELS
AND THEIR IMPACT ON THE REALIZATION AND PROTECTION
OF CONSTITUTIONALLY GUARANTEED RIGHTS
Abstract.
The
lecture
notes
focus
on
the
results
of
research
examining
the
co
n-
stitutional
and
legal
aspects
of
large
language
model
development
in
the
context
of
the
digital
divide
and
linguistic
discrimination.
The
study
concludes
that,
in
relation
to
the
development
of
large
language
models,
the
digital
divide
arises
due
to
the
uneven
digi-
talization
of
languages,
resulting
in
limited
access
to
natural
language
processing
tech-
nology.
Keywords:
law,
large
language
models,
language
discrimination,
digital
tech-
nologies,
digital
divide,
artificial
intelligence,
natural
language
processing
technology
Большие
языковые
модели
(англ.
Large
Language
Models,
LLM
)
–
это
гене-
ративные
модели
искусственного
интеллекта
используемые
в
технологии
обра-
ботки
естественного
языка
(англ.
Natural
language
processing,
NLP).
Наличие
та-
ких
моделей
позволяет
компьютеру
эффективно
обрабатывать
текстовые
дан-
ные,
демонстрируя
способность
к
«пониманию»
текста
на
глубоком
уровне,
со-
здавать
связные
и
контекстуально
релевантные
ответы
на
запросы,
осуществлять
перевод
текста
между
языками,
а
также
генерировать
текст,
который
соответ-
ствует
определенным
стилевым
и
содержательным
требованиям
[18.
С.
24–
34].
Большие
языковые
модели
обучаются
на
обширных
массивах
языковых
данных.
Структура
и
репрезентативность,
их
объем
и
формат
определяют
про-
цесс
обучения
и
точность
понимания
контекста
[21.
С.
36
–
56],
а
наличие
дефек-
тов
или
недостаточность
данных
может
приводить
к
некорректной
работе
моде-
ли
и
в
целом
препятствовать
развитию
технологии
[20.
С.
260].
Параметры
обу-
чающих
данных
будут
завесить
от
уровня
цифровизации
конкретного
языка.
Цифровизация
языка
в
широком
смысле
представляет
собой
процесс
пре-
образования
данных
в
соответствующие
лингвистические
корпуса.
Для
этого
применяются
текстовые
данные
(такие
как
файлы,
транскрипции,
аннотации),
речевые
данные
(например,
аудиозаписи,
фонетические
и
интонационные
анно-
тации)
и
мультимодальные
данные,
которые
объединяют
несколько
типов
ин-
формации,
например
видео
с
текстом,
изображения
с
текстом
и
т.
д.
[12.
С.
291].
Процесс
цифровизации
языка
выполняет
не
только
техническую
функцию,
спо-
собствуя
созданию
больших
языковых
моделей
и
развитию
технологий
обработ-
ки
естественного
языка,
но
и
играет
важную
общественно
-
социальную
роль,
со-
действуя
сохранению
национальной
и
культурной
идентичности
[28.
С.
126
–
139].
Например,
цифровизация
миноритарных
языков
может
значительно
по-
мочь
в
сохранении
культурного
наследия
малых
народов.
Разные
языки
имеют
различный
уровень
цифровизации,
что
может
быть
обусловлено
рядом
факторов,
включая
экономические,
технические
и
правовые.
Экономические
факторы
связаны
с
тем,
что
языки
имеют
разный
экономический
потенциал
[6.
С.
173;
32.
С.
1
–
8],
а
процесс
цифровизации
требует
значительных
ресурсов,
в
том
числе
временных,
финансовых
и
т.
д.
К
техническим
факторам
может
отнести
ошибки
при
сборе
данных,
недостатки
в
конструкции
корпусов
и
Регулирование
отношений
в
сфере
технологий
искусственного
интеллекта
и
робототехники
______________________________________________________________________________________________________________________
38
ограничения
существующих
наборов
данных,
ошибки
в
метаданных
и
т.
д.
[39.
С.
193
–
204;14.
С.
5751
–
5767;
30.
С.
26–
37].
Правовые
факторы
связаны
с
суще-
ствованием
нормативных
барьеров
на
доступ
к
обучающим
данным,
связанных
с
необходимостью
соблюдения
соответствующего
правового
режима
при
исполь-
зовании
данных
[21.
С.
36
–
56;
1.
С.
123
–
140;
22.
С.
99
–
123;
23.
С.
367
–
376;
24.
С.
17
–
27;
25.
C.
2–
26].
Преодоление
таких
барьеров
требует
мер
как
на
концепту-
альном
уровне
–
устранения
нормативных
ограничений
с
учетом
баланса
част-
ных
и
публичных
интересов,
так
и
на
практическом
–
создания
условий
для
об-
мена
и
распространения
языковых
данных.
Среди
таких
мер
можно
выделить
развитие
института
повторного
использования
данных,
накопленных
в
государ-
ственных
информационных
системах,
а
также
привлечение
высших
учебных
за-
ведений
к
созданию
лингвистических
корпусов
и
цифровизации
языка.
Невозможность
создания
полноценной
языковой
модели
для
определен-
ных
языков
или
диалектов
делает
многие
цифровые
продукты
недоступными
для
их
носителей
либо
ухудшает
их
работу
по
сравнению
с
теми,
что
доступны
для
носителей
языков
с
высоким
уровнем
цифровизации.
Это
приводит
к
цифро-
вому
неравенству,
когда
доступ
к
технологии
распределяется
неравномерно
сре-
ди
языковых
сообществ,
тем
самым
создавая
риск
дискриминации.
Национальная
стратегия
развития
искусственного
интеллекта
на
период
до
2030
года
подчеркивает,
что
защита
прав
и
свобод
человека
является
одним
из
ос-
новных
принципов
развития
и
использования
технологии
искусственного
интел-
лекта,
а
«недискриминация»
выделена
в
качестве
одного
из
основного
принципа
развития
нормативно
-
правового
регулирования
общественных
отношений,
связан-
ных
с
развитием
и
использованием
технологий
искусственного
интеллекта.
Статья
2
Всеобщей
декларации
прав
человека
(1948)
устанавливает
запрет
на
дискриминацию,
в
том
числе,
по
языковому
признаку.
Аналогичное
положе-
ние
содержится
и
в
статье
1
(3)
Устава
ООН,
а
также
находит
свое
отражение
в
пункт
2
статьи
19
Конституции
РФ,
согласно
которому
государство
гарантирует
равенство
прав
и
свобод
человека
и
гражданина
независимо
от
языка.
В
контек-
сте
создания
больших
языковых
моделей
представляется
целесообразным
толко-
вать
это
понятие
максимально
широко,
рассматривая
языковую
дискриминацию
не
только
как
необоснованные
различия
или
ограничения,
которые
могут
сни-
жать
или
исключать
возможность
реализации
прав
на
основе
языковой
принад-
лежности,
но
и
как
действия,
которые
могут
препятствовать
сохранению
или
развитию
языков
меньшинств.
Комитет
ООН
по
правам
человека
неоднократно
рассматривал
проблему
языковой
дискриминации,
однако
его
судебная
практика
недостаточно
развита
и
не
всегда
обеспечивает
надежной
защиты
языковых
меньшинств
[31.
С.
27
–
56].
Например,
дискриминация
по
признаку
голоса
часто
остается
незамеченной
[7.
С.
167
–
177],
что
может
оказаться
критичным
при
взаимодействии
с
техноло-
гией
распознавании
речи
и
голоса
и
связанных
цифровых
продуктов:
систем
ин-
терактивного
ответа
и
голосовых
помощников.
Анализ
существующей
практики
позволяет
выделить
ряд
ключевых
критериев
для
определения
языковой
дис-
криминации.
Во
-
первых,
это
численность
носителей
языка,
поскольку
степень
дискриминации
часто
зависит
от
уровня
распространенности
языка
в
обществе
Регулирование
отношений
в
сфере
технологий
искусственного
интеллекта
и
робототехники
______________________________________________________________________________________________________________________
39
[29.
С.
3
–
15].
Во
-
вторых,
значимым
критерием
является
уровень
государствен-
ной
поддержки
многоязычия:
активные
государственные
программы
по
обуче-
нию
и
использованию
различных
языков
способствуют
снижению
риска
языко-
вой
дискриминации
[36.
С.
39
–
53].
В
-
третьих,
важен
уровень
использования
языков
меньшинств
в
общественной
жизни,
что
также
способствует
более
точ-
ной
оценке
случаев
языковой
дискриминации.
Однако,
несмотря
на
возможность
выделить
критерии
для
оценки
языко-
вой
дискриминации,
правовая
квалификация
таких
случаев
в
контексте
цифро-
вых
технологий
вызывает
определенные
трудности.
Например,
дискриминация
в
языковых
моделях
может
быть
вызвана
как
алгоритмической,
так
и
человече-
ской
предвзятостью.
Алгоритмическая
предвзятость
возникает
из
-
за
искажений
в
данных,
на
которых
обучается
модель,
в
то
время
как
человеческая
предвзя-
тость
может
проявляться
на
этапе
разработки
алгоритмов
[5.
С.
337
–
358].
Оба
типа
предвзятости
могут
существенно
влиять
на
точность
и
справедливость
при-
нимаемых
решений,
что
усугубляет
социальное
неравенство.
Важно
отметить,
что
данные
формы
предвзятости
не
всегда
очевидны
и
могут
проявляться
на
различных
стадиях
работы
модели,
что
затрудняет
их
обнаружение
и
минимиза-
цию.
В
связи
с
этим
правовая
квалификация
таких
ситуаций
требует
особого
внимания,
поскольку
не
всегда
ясно,
следует
ли
расценивать
ошибки
в
языковых
моделях
как
проявление
дискриминации,
и
какие
меры
ответственности
могут
быть
применимы
к
разработчикам
и
владельцам
технологий.
Список
литературы
1.
Ильин
И.
Г.
Персональные
данные
в
системах
искусственного
интел-
лекта:
технология
обработки
естественного
языка
//
Journal
of
Digital
Tech
nologies
and
Law.
–
2024.
–
Т.
2,
№
1.
–
С.
123
–
140.
2.
Миронова
М.
В.
Становление
термина
«
языковая
дискриминация»
в
со-
временной
социолингвистике
//
New
Language.
–
New
World.
–
New
Thinking.
–
2019.
С.
555–
558.
3.
Мушаков
В.
Е.
Конституционные
права
человека
в
контексте
проблемы
преодоления
цифрового
разрыва
//Вестник
Санкт
-
Петербургского
университета
МВД
России.
–
2022.
–
№
1(93).
–
С.
69
–
73.
4.
Талапина
Э.
В.
Обработка
данных
при
помощи
искусственного
интел-
лекта
и
риски
дискриминации
//
Право.
Журнал
Высшей
школы
экономики.
–
2022.
–
№
1.
–
С.
4–
27.
5.
Харитонова
Ю.
С.
Правовые
средства
обеспечения
принципа
прозрач-
ности
искусственного
интеллекта
//
Journal
of
Digital
T
echnologies
and
Law.
–
2023.
–
Т.
1,
№
2.
–
С.
337
–
358.
6.
Alarcón
A.
A.
The
economics
of
language
//
Catalan
Sociolinguistics:
State
of
the
art
and
future
challenges.
–
2022.
–
Т.
32.
–
С.
173.
7.
Baugh
J.
Linguistic
profiling
across
international
geopolitical
landscapes
//
Dædalus.
–
2023.
–
Т.
152,
№
3.
–
С.
167
–
177.
8.
Bosco
F.
et
al.
Profiling
technologies
and
fundamental
rights
and
values:
regulatory
challenges
and
perspectives
from
European
Data
Protection
Authorities
//
Reforming
European
data
protection
law.
–
2015.
–
С.
3
–
33.
Регулирование
отношений
в
сфере
технологий
искусственного
интеллекта
и
робототехники
______________________________________________________________________________________________________________________
40
9.
Browning
M.,
Arrigo
B.
Stop
and
risk:
Policing,
data,
and
the
digital
age
of
discrimination
//American
Journal
of
Criminal
Justice.
2021.
Т.
46
,
№
2.
С.
298
–
316.
10.
Chasalow
K.,
Levy
K.
Representativeness
in
statistics,
politics,
and
m
a-
chine
learning
//
Proceedings
of
the
2021
ACM
Conference
on
Fairness,
Accountabil-
ity,
and
Transparency.
–
2021.
–
С.
77
–
89.
11.
Chilingaryan
K.,
Meshkova
I.,
Sheremetieva
O.
International
legal
prote
c-
tion
of
linguistic
minorities
//
International
Journal
of
Psychosocial
Rehabilitation.
–
2020.
–
Т.
24
,
№
6.
–
С.
9750
–
9758.
12.
Dash,
N.
S.,
&
Arulmozi,
S.
History,
features,
and
typology
of
language
corpora.
–
Springer
Singapore,
2018.
–
С.
1
–
291.
13.
Devlin
J.
et
al.
Bert:
Pre
-
training
of
de
ep
bidirectional
transformers
for
la
n-
guage
understanding
//
a
rXiv
preprint
arXiv:1810.04805.
–
2018.
14.
Doğruöz
A.
S.,
Sitaram
S.,
Yong
Z.
X.
Representativeness
as
a
forgotten
lesson
for
multilingual
and
code
-
switched
data
collection
and
preparation
//
arXiv
pr
e-
arXiv:2310.20470.
–
2023.
–
С.
5751
–
5767.
15.
Drożdżowicz
A.,
Peled
Y.
The
complexities
of
linguistic
discrimination
//
Philosophical
Psychology.
–
2024.
–
С.
1
–
24.
16.
Egbert
J,
Biber
D,
Gray
B.
Approaches
to
Representativeness
in
Previous
Corpus
Linguistic
Research.
In:
Designing
and
Evaluating
Language
Corpora:
A
Practical
Framework
for
Corpus
Representativeness.
Cambridg
e
University
Press.
–
2022.
–
C.
28
–
51.
17.
Engel
C.,
Linhardt
L.,
Schubert
M.
Code
is
law:
how
COMPAS
affects
the
way
the
judiciary
handles
the
risk
of
recidivism
//
Artificial
Intelligence
and
Law.
–
2024.
–
C.
1
–
23.
18.
Glauner
P.
Technical
foundations
of
generative
AI
models.
In:
Legal
Tech –
Zeitschrift
für
die
digitale
Anwendungб
Nomos.
–
C.
24–
34.
19.
Hacker
P.
A
legal
framework
for
AI t
raining
data
—
from
first
principles
to
the
Artificial
Intelligence
Act
//Law,
Innovation
and
Technology.
–
2021.
–
Т.
13,
№
2.
–
С.
257
–
301.
20.
Hacker
P.
et
al.
Generative
Discrimination:
What
Happens
When
Genera-
tive
AI
Exhibits
Bias,
and
What
Can
Be
Done
Abou
t It
//arXiv
preprint
arXiv:2407.10329.
–
2024.
–
C.
1
–
51
21.
Ilya,
I.
Progress
in
Natural
Language
Processing
Technologies:
Regulating
Quality
and
Accessibility
of
Training
Data
//
Legal
Issues
in
the
digital
Age.
–
2024.
–
№
2.
–
С.
36
–
56.
22.
Ilya
I.
The
Voice
and
Speech
Processing
within
Language
Technology
Ap-
plications:
Perspective
of
the
Russian
Data
Protection
Law
//
Legal
Issues
in
the
digital
Age.
–
2020.
–
№
1.
–
С.
99
–
123.
23.
Ilin
I.
Legal
Regime
of
the
Language
Resources
in
the
Context
of
the
Euro-
pean
Language
Technology
Development
//
Language
and
Technology
Conference.
–
Cham:
Springer
International
Publishing,
2019.
–
С.
367
–
376;
24.
Ilin
I.,
Kelli
A.
The
use
of
human
voice
and
speech
in
language
technolo-
gies:
the EU
and
Russian
intellectual
property
law
perspectives
//
Juridica
Int'l.
–
2019.
–
Т.
28.
–
С.
17
–
27.
Регулирование
отношений
в
сфере
технологий
искусственного
интеллекта
и
робототехники
______________________________________________________________________________________________________________________
41
25.
Ilin,
I.,
&
Kelli,
A.
Natural
Language,
Legal
Hurdles:
Navigating
the
Co
m-
plexities
in
Natural
Language
Processing
Development
and
Application.
The
Journal
of
the
University
of
Latvia.
Law.
–
C.
2–26
(forthcoming
2024).
26.
Ilin
I.,
Dedova
M.
Academic
Entrepreneurship
in
the
Field
of
Language
Re-
source
Creation
and
Dissemination.
The ESU
2019
Conference
and
Doctoral
Programme,
Naples
(Italy),
8
–
14
September
2019.
Ed.
Angelo
Riviezzo,
Maria
Rosaria
Napolitano,
Antonella
Garofano.
Electronic
Conference
Proceedings.
–
С.
193−200.
27.
Jiang
X.
et
al.
Large
Language
Models
in
Healthcare
Current
Development
and
Future
Directions
//
Generative
AI
Research.
–
2023.
№
2.
–
С.12
28.
Kelli
A.
et
al.
Constitutional
values
as
a
basis
for
the
limitation
of
copyright
within
the
context
of
digitalisation
of
the
estonian
language
//Constitutional
Values
in
Contemporary
Legal
Space
II.
–
2017.
–
С.
126
–
139.
29.
Kome
D.
Legal
protection
of
linguistic
minority
under
discrimination:
the
case
of
anglophone
Cameroon.
–
2023.
–
С.
3
–
15
30.
Li
X.
et
al.
Corpuslm:
Towards
a
unified
language
model
on
corpus
for
knowledge
-
intensive
tasks
//
Proceedings
of
the
47th
International
ACM SIGIR
Co
n-
ference
on
Research
and
Development
in
Information
Retrieval.
–
2024.
–
С.
26–
37.
31.
Möller
J.
T.
Case
Law
of
the UN
Human
Rights
Committee
relevant
to
Members
of
Minorities
and
Peoples
in
the
Arctic
Region
// The
Yearbook
of
Polar
Law
Online.
–
2011.
–
Т.
3,
№
1.
–
С.
27
–
56.
32.
Monteith
B.
et
al.
Unleashing
the
Economic
Potential
of
Large
Language
Mod-
els:
The
Case
of
Chinese
Language
Efficiency
//
Authorea
Preprints.
–
2023.
–
С.
1
–
8.
33.
Morin
S.
L.
AI
Discrimination
in
Hiring
//
Innovations,
Securities,
and
Case
Studies
Across
Healthcare,
Business,
and
Technology.
– IGI
Global,
2024.
–
С.
64–
74.
34.
Orwat
C.
Algorithmic
Discrimination
From
the
Perspective
of
Human
Dig-
nity
//
Social
Inclusion.
–
2024.
–
Т.
12.
–
С.
1
–
18.
35.
Ozkul
D.
Artificial
Intelligence
and
Ethnic,
Religious,
and
Gender
‐
Based
Discrimination
//
Social
Inclusion.
–
2024.
–
Т.
12.
С.
1
–
3.
36.
Page
C.
Academic
language
development
and
linguistic
discrimination:
Perspectives
from
internationally
educated
students
//
Comparative
and
International
Education.
–
2023.
–
Т.
52,
№
2.
–
С.
39
–
53.
37.
Rogers
S.
E.
Bridging
the
21st
century
digital
divide
//
TechTrends.
–
2016.
–
Т.
60
,
№
3.
–
С.
197
–
199.
38.
Sohail
A.,
Zhang
L.
Using
large
language
models
to
facilitate
academic
work
in
psychological
sciences.
–
2024.
–
С.
2–
21.
39.
Solovyev
V.
D.,
Akhtyamova
S.
Linguistic
Big
Data:
Problem
of
Purity
and
Representativeness
//
DAMDID/RCDL.
–
2019.
–
С.
193
–
204.
40.
Vaswani
A.
Attention
is
all
you
need
//
Advances
in
Neural
Information
Processing
Systems.
–
2017.
41.
Yenduri
G.
et
al.
Generative
pre
-
trained
transformer:
A
comprehensive
r
e-
view
on
enabling
technologies,
potential
applications,
emerging
challenges,
and
future
directions
//
arXiv
preprint
arXiv:2305.10435.
–
2023.
