Родной язык занимает полтора мегабайта памяти

07.04.2019 14:55:15

Для овладения родным языком, люди нуждаются в объеме памяти, не более чем имеет дискета, вычислили ученые. Согласно данным, англоязычный взрослый в среднем нуждается в 12,5 миллиона битов для информации, что дает ему возможность разговаривать на родном языке и его понимать. Это соответствует примерно 1,5 мегабайтам данных. Поэтому, в первые 18 лет жизни мозг запоминает между 120 и 2 000 битов ежедневно, обнаружили ученые.

Несмотря на невероятный прогресс компьютерной техники и искусственного интеллекта, наш мозг все еще остается более эффективным и более продуктивным, чем всякая другая мыслительная машина. Он обрабатывает одновременно множество раздражителей и дает нам возможность мыслить инновативно и абстрактно, прибегать к комплексному социальному поведению и коммуницировать. Существуют компьютерные системы, понимающие разговорную речь и даже могут считывать речевую информацию с мозговых волн человека. Однако, по сравнению с человеческим мозгом, они еще отстают.

Возникает вопрос: во скольких битах и байтах нуждается наш мозг, чтобы овладеть родным языком и его понимать? Вообще, возможно ли перевести в количественные показатели способность разговаривать и знание языка, присущее людям?

Именно этими вопросами задались Френсис Молика (Francis Mollica) из Рочестерского университета и Стивен Пянтадоси (Steven Piantadosi)из Калифорнийского университета в Беркли. «До сих пор остается противоречивым объем знаний, необходимый для овладения человеческой речью, – минимальный или, наоборот, необъятный?» – объясняют ученые. Для своего исследования они намеренно выбрали скорее обобщенный подход, позволивший прийти к выводам о нужном для языкового овладения количестве данных и не основываться ни на одной из известных теорий.

«Мы не берем во внимание, как происходит изучение языка, а сосредоточились на вопросе, сколько информации нужно запомнить тем, кто учится и не имеет никаких предварительных знаний о языке», – подчеркнули ученые.

Чтобы оценить количество данных, ученые начали с наименьшей единицы языка – звуков и фонем. «Наши фонетические знания позволяют отфильтровать и идентифицировать важные для языка звуки в речевых сигналах», – пояснили они. Согласно подсчетам, в английском языке существует около 50 различных фонем – и каждая из них как информация охватывает примерно 15 битов. То есть фонемы нуждаются в 750 битах памяти.

Следующим шагом было оценить слова – сложные элементы языка. «Исследования, которые анализировали, сколько слов ребенок изучает, усваивая язык, указывают на цифру, которая колеблется от 20 000 до 80 000», – говорят Молика и Пянтадоси. Для своего исследования они исходили из среднего показателя – около 40 000 слов для типичного молодого человека.

С помощью базы данных и лингвистической модели, ученые определили: чтобы усвоить фонетическую последовательность в слове, нужно в среднем 10 битов памяти. Умножив эту цифру на количество слов (около 40 000), ученые выяснили: лексическое знание фонетической последовательности требует примерно 400 000 битов памяти.

Существенно сложнее было определить, какое количество данных требуют люди, чтобы изучить значение слова - то есть для так называемой лексической семантики. «Проблема заключается в том, что до сих пор нет ни одной обще принятой теории о семантическом содержании или объеме», – объяснили ученые. Поэтому они обошлись обобщенными данными, которые определяют вероятное пространство словесных значений как пространственную величину. Чем больше измерений имеет пространство, тем больше данных необходимо, чтобы идентифицировать конкретное значение слова.

«Когда семантическое пространство одномерное, достаточно от 0,5 до двух битов памяти на слово, – сказали ученые. – Если оно имеет 100 измерений, лексическая семантика требует 50-200 битов на каждое слово». В своих подсчетах ученые определили средний показатель и выяснили, что для того, чтобы выбрать корректное из возможных значений, нужно примерно 550 000 битов.

Затененные области представляют неопределенность в семантическом пространстве, сосредоточенном вокруг определенного слова (зеленое).
(a) неопределенность относительно самой дальней связи слова в семантическом пространстве (желтое), R.
(b) неопределенность в отношении n-го соседнего слова (красное), R.
Уменьшение неопределенности от R до r отражает объем семантической информации, передаваемой зеленым словом.

Дополнительно Молико и Пянтадоси определили информационные затраты на частоту слов и синтаксис.

На основании всех подсчетов, ученые вывели общую сумму: «За нашими лучшими оценками, взрослая англоязычный человек нуждается в 12,5 миллиона битов памяти, чтобы освоить родной язык – большую часть этого объема занимает лексическая семантика», – рассказали ученые.

Полученные цифры соответствуют 1,5 мегабайтам. «Может, и неожиданно, но, преобразовав это в цифровую память, станет видно, что наши языковые знания почти в полном объеме могут поместиться на дискете».

Чтобы собрать необходимые данные для изучения языка, в течение первых 18 лет жизни человек должен хранить и запоминать в среднем 1 000 – 2 000 битов информации ежедневно, то есть в такой , примерно, последовательности:

«Наше исследование первое, которое перевело в цифры то количество информации, которое нужно выучить, чтобы освоить язык, – сказал Пянтадоси. – Оно показывает, что дети и подростки – прекрасные ученики, потому что для того, чтобы выучить язык, они сохраняют более тысячи битов информации каждый день».

Однако ученые отмечают: их результаты полученные в процессе грубого обобщения, то есть их можно было бы назвать расчетами «back-of-the-envelope» (грубая оценка). Тем не менее, они кажутся вполне пригодными для того, чтобы указать примерные величины.

Удивительно, отмечают авторы, что эти полтора мегабайта позволяют оперировать семантическими сочетаниями, потенциальное число которых можно оценить в 10²¹⁰, что превышает число атомов во Вселенной (10⁸⁰). Результаты показывают, подытоживают исследователи, когда какое-то знание языка является действительно врожденным, оно скорее поможет решить огромную проблему изучения лексической семантики, а не, скажем, синтаксиса, что требует на порядок меньше информации.

 


0
7 наград
1.09188 Ƶ
Отобразить форму комментирования
Комментарии