Вебинар «Санскритский корпус», 2025

*https://www.youtube.com/live/DD0fAK6ZwW8
**https://300.ya.ru/v_exHsikIv

таймкоды

00:00:00 Введение

  • Обсуждение режимов экрана в Zoom.
  • Переход к теме видео: обсуждение корпусов.

00:00:50 Начало обсуждения корпусов

  • Объяснение, что будет рассказано о корпусах.
  • Упоминание о неудобстве работы без мышки.

00:02:02 Демонстрация экрана

  • Начало демонстрации экрана с «летописью».
  • Упоминание о параллельном санскритско-русском корпусе, начатом 12 лет назад.

00:03:14 Проблемы поиска информации

  • Обсуждение недостатка информации о санскрите в интернете.
  • Сравнение с современными ресурсами на английском языке.

00:04:53 История сайта библиотеки Машкова

  • Рассказ о сайте библиотеки Машкова как примере электронной библиотеки.
  • Опыт работы с сайтом и предложение по улучшению дизайна.

00:08:19 Проблемы статичных страниц

  • Обсуждение проблем статичных страниц в интернете.
  • Важность динамичности и обновления контента.

00:09:12 Компьютерная лингвистика и санскрит

  • Применение навыков программирования в санскритологии.
  • Уникальность разработки компьютерной лингвистики в России.

00:10:09 Проблемы цитирования

  • Трудности цитирования стихотворений без дополнительных данных.
  • Необходимость исследования источников для цитирования.

00:11:41 Устойчивость интернет-ресурсов

  • Проблема исчезновения ссылок в интернете.
  • Задача создания устойчивых ресурсов.

00:13:34 Метаданные и электронные библиотеки

  • Ограничения электронных библиотек: отсутствие метаданных.
  • Пример сайта Машкова как опережающего своё время ресурса.

00:14:56 Цель создания корпуса

  • Цель создания корпуса для научного цитирования.
  • Сравнение с Национальным корпусом русского языка.

00:16:46 Применение корпуса

  • Использование корпуса для аргументации выбора названий книг.
  • Анализ истории слов и их изменения в русском языке.

00:18:51 Употребление слова и национальный корпус русского языка

  • Употребление слова в последнее время снизилось, но с 1800 года оно не вышло из употребления.
  • Институт русского языка под руководством Плунгина разрабатывает национальный корпус русского языка.
  • Подкорпус берестяных грамот включает тысячи писем из Великого Новгорода, древнейшим из которых более тысячи лет.

00:20:13 Берестяные грамоты и их значение

  • Показан свиток бересты возрастом 950 лет.
  • Берестяные грамоты являются древнейшим источником истории русского языка.
  • Раскопки в Великом Новгороде продолжаются, и ещё много писем может быть найдено.

00:21:32 Квантитивные методы в лингвистике

  • Квантитивные методы позволяют анализировать данные и изучать историю языка.
  • Данные из подкорпуса берестяных грамот дают новое понимание истории Руси.

00:22:33 Конкорданс и поиск слов

  • Конкорданс позволяет видеть контексты слов, что удобно для поиска.
  • Пример поиска существительных в романе и их характеристик.

00:23:29 Параллельный санскритско-русский корпус

  • В параллельном санскритско-русском корпусе около 120 тысяч шлоков.
  • Развитие корпуса требует поддержки и усилий, но основные данные уже собраны.

00:26:09 Портрет слова и дата первого упоминания

  • Портрет слова позволяет анализировать контексты и характеристики слов.
  • Дата первого упоминания слова важна для понимания его истории.

00:26:51 Доступность санскрита

  • Цель — сделать санскрит более доступным, используя методы XXI века.
  • Морфемный разбор слов представляет большой интерес для исследователей.

00:27:39 Обновление Ригведы

  • Ригведа обновлена усилиями трёх добровольцев за 12 лет.
  • Обновлённый текст содержит меньше ошибок, чем бумажное издание 20-летней давности.

00:29:35 Ошибки в Отхарваведе

  • В Отхарваведе обнаружено более 300 опечаток, которые не были исправлены в бумажном издании.
  • Добровольца из Краснодара выявила и исправила эти ошибки.

00:31:31 Научное добровольчество

  • Научное добровольчество позволяет участвовать в археологических раскопках и других проектах.
  • Пример участия: археологические раскопки в Великом Новгороде.

00:32:29 Параллельный корпус

  • Параллельный корпус содержит санскритский текст и его русский перевод.
  • Возможность проверить достоверность утверждений, ссылаясь на веды.

00:34:18 История индологии

  • История отечественной индологии обширна и долга.
  • Задача корпуса — сделать доступными труды предшественников.

00:35:16 Преимущества онлайн-изданий

  • Онлайн-издания позволяют публиковать комментарии, которые в бумажных книгах находятся в конце.
  • Удобство поиска и копирования текста.

00:38:07 Работа с буфером

  • Объяснение работы с буфером: выделение текста, копирование и вставка.
  • Демонстрация вставки текста в браузере.

00:39:05 Введение в параллельный корпус

  • Параллельный корпус содержит метаданные о книгах, такие как дата издания и страницы.
  • Это зачаток корпуса, который пока не является полноценным.
  • Задача — превратить его в подкорпус национального корпуса русского языка.

00:40:57 Роль добровольцев

  • За 12 лет работы над проектом было несколько волн добровольческих отрядов.
  • Ученики, не знающие санскрит, помогали исправлять неточности в сканах книг.
  • Пример работы добровольцев — исправление ошибок в «Законах Ману».

00:42:38 Проблемы машинного перевода

  • Компьютер может ошибаться, заменяя слова, например, «бог» на «бот».
  • Некоторые ошибки могут быть обнаружены только человеческим глазом.
  • Искусственный интеллект должен работать в паре с человеком для повышения точности.

00:45:44 Процесс создания корпуса

  • Сканирование книг и распознавание текста приводят к потере и изменению букв.
  • Необходимо проверять осмысленность текста после распознавания.
  • Устранение ненужных пунктуационных знаков обогащает корпус.

00:46:31 Преимущества корпуса

  • Возможность ссылаться на конкретные места в книгах для научных исследований.
  • Формат отсылок позволяет вставлять цитаты в научные статьи.
  • Знание страницы и раздела книги облегчает научные исследования.

00:48:18 Новые добавления

  • Добавлены переводы Калидасы, включая перевод Павла Риттера.
  • Перевод Риттера соединён с санскритским маргиналом для спецкурса.
  • Потребность в корпусе возникла в рамках санскритской педагогики.

00:51:13 Санскритский поисковик

  • Создан уникальный санскритский поисковик «Пахта не океана».
  • Поисковик развивается без финансовой поддержки, в отличие от проекта в Оксфорде.
  • Ученики продолжают добавлять новые произведения в корпус.

00:53:42 Нейронные сети и переводы

  • Себастьян Нердлих обучил нейронную сеть переводить с санскрита на русский язык.
  • Эта сеть учитывает особенности русского языка, в отличие от больших нейронных сетей.
  • Демонстрация работы нейронной сети планируется в будущем.

00:54:40 Работа с санскритским текстом

  • Удаление русского перевода для работы с санскритским текстом.
  • Два режима перевода: простой и с грамматическими пояснениями.
  • Возможность получения метаданных для проверки текста.

00:55:50 Перевод санскрита на русский

  • Себастьян Нелик из Беркли обучил систему переводить санскрит на русский.
  • Важность изучения грамматики санскрита для проверки переводов.

00:56:24 Исследования древнеиндийских древностей

  • Использование поисковика для поиска книг по йоге и другим темам.
  • Доступ к первичным и вторичным источникам.

00:57:18 Оффлайн-программа для поиска

  • Программа выдаёт тысячи результатов за несколько секунд.
  • Сравнение переводов разных авторов.

00:58:18 Сложности и стоимость проекта

  • Санскрит — сложный и дорогой язык для перевода.
  • Необходимость 15 лет работы и нескольких десятков тысяч долларов для перевода одной страницы.

01:01:18 Исправление ошибок в сканированных текстах

  • Исправление ошибок, возникающих при сканировании.
  • Планы по оцифровке нескольких десятков книг.

01:02:45 Проблемы с французским текстом

  • Ошибки в отображении французского текста.
  • Возможные причины ошибок: изменение скрипта раскраски.

01:05:28 Компьютерная лингвистика

  • Анализ человеческого языка с помощью языков программирования.
  • Подсчёт количества слов в санскрите: 400 тысяч слов.

01:06:52 Альтернативное отображение текста

  • Возможность добавления альтернативного отображения текста в деванагари.
  • Проблемы с настройкой и нехваткой добровольцев.

01:09:03 Поиск и статистика

  • Запрос на добавление поиска, аналогичного сайту Оливера.
  • Желание иметь статистику по использованию форм в корпусе.

01:09:52 Введение в корпус Оливера Хельвига

  • Корпус Оливера Хельвига не содержит переводов на русский, немецкий или английский языки.
  • В разделе «Куры» можно искать санскритские слова.

01:10:18 Поиск слов в корпусе

  • Пример поиска слова «дхарма» показывает только один вариант.
  • Попытка найти слово «карман» также даёт только один результат.
  • Глагол «отман» имеет два варианта.

01:11:29 Анализ результатов поиска

  • Раздел «Минис» содержит грубо выдранные переводы из словаря Мони Уильямса.
  • Раздел «Номинал ФМС» показывает частотность слов в разных падежах.
  • Пример слова «гарма» в именительном падеже единственного числа мужского рода.

01:12:28 Морфологический разбор

  • Возможность просмотра морфологического разбора в Чандогья-упанишаде.
  • Для полноценного встраивания морфологического разбора в корпус требуются программисты и финансирование.

01:14:11 Возможности корпуса

  • Корпус содержит морфологическую и иногда синтаксическую разметку.
  • Внедрение разметки в санскритско-русский корпус было бы значительной победой.

01:16:11 Использование «Пахта не океана»

  • «Пахта не океана» — программа для перевода и анализа текстов.
  • Доступ к программе предоставляется добровольцам через участие в семинарах.

01:17:54 Поиск слов в «Пахта не океане»

  • Пример поиска слова «щека» в «Пахта не океане».
  • Результаты поиска включают словарные статьи, дополнительные книги и первоисточники.

01:21:35 Анализ значений слов

  • В ведийский период слово «щека» могло означать «жар», а не «печаль».
  • В более поздней литературе «щека» используется в привычном значении «скорбь».

01:23:19 Поиск русских слов

  • Пример поиска русского слова «сави».
  • «Пахта не океан» позволяет быстро находить информацию в различных источниках.

01:25:24 Преимущества использования корпуса

  • Ручное исследование заняло бы десятилетия, в то время как корпус позволяет получить результаты за несколько секунд.

01:25:33 Введение в проект

  • Обсуждение удобства инструментов для научных статей и изысканий.
  • Упоминание о большом объёме работы, проделанной за более чем десять лет.

01:26:04 Начало работы в проекте

  • Вопрос о начале работы и вхождении в коллектив.
  • Объяснение задачи: создание базы для надстроек, таких как нейронные сети и программа «Пахта не океана».

01:27:24 Взаимодействие в чате

  • Переезд переписки из ВКонтакте в Telegram.
  • Необходимость чистки группы в Telegram из-за неактивности участников.
  • Роль чата в определении приоритетов работы.

01:29:24 Распределение работы

  • Разделение крупных произведений на части для работы.
  • Пример работы над «Мг-хау» тремя людьми в разное время.
  • Причины дробления работы: усталость участников и необходимость проверки.

01:31:37 Проверка текстов

  • Необходимость второго и третьего кругов чтения для проверки точности.
  • Использование исправлений для оценки качества текста.

01:33:39 Управление документами

  • Различие между «в работе» и «готово».
  • Пример завершения работы над «Облаком-вестником».
  • Текущая работа над «Философией буддизма».

01:35:23 Работа со словарями

  • Огромный объём работы со словарём по буддизму.
  • Разная степень дотошности в вычитке текстов.
  • Важность правильности словарных статей для поиска.

01:37:40 Работа с диакритиками

  • Отсутствие необходимости в шрифте санскрита.
  • Два способа работы с диакритиками: копирование из заготовки или использование программы «К сэп».
  • Большинство текстов не требуют диакритик, так как работают с русским переводом.

01:39:26 Призыв к добровольцам

  • Призыв попробовать себя в роли добровольца осенью.
  • Возможность получить доступ к программе «Пахта не океана» после успешной работы.

01:39:56 Важность постоянства

  • Постоянство важнее объёма работы.
  • Даже пять минут работы каждый день лучше, чем два часа раз в месяц.
  • Цель — продолжать работу, пока не надоест.

01:40:44 Значение работы добровольцев

  • Наработки добровольцев используются в книгоиздательском процессе.
  • Вторая редакция перевода третьей книги «Махабхараты» сделана с помощью файлов, подготовленных добровольцами.
  • Работа имеет смысл и приносит результаты.

01:41:43 Разнообразие задач

  • Разные люди нужны для разных задач: распознавание, программирование.
  • Для каждого произведения нужно сгенерировать красивую картинку-превьюшку.
  • Творчество и сотрудничество важны для создания ресурса.

01:42:22 Цели и перспективы

  • Создание ресурса на русском языке, аналогичного английскому.
  • Цель — охватить все значимые переводы.
  • Работы хватит на несколько сотен лет.

01:43:24 Вопросы и ответы

  • Обсуждение вопросов от участников.
  • Пример Рады, которая выучила русский язык для изучения санскрита.

01:44:28 Работа с «Панчатантрой»

  • «Панчатантра» доступна в нескольких редакциях.
  • Участие в издании «Панчатантры» пять лет назад.
  • Переговоры с Александром Яковлевичем Сыркиным, самым возрастным санскритологом.

01:46:22 «Беруне» и «Хождение за три моря»

  • «Беруне» — первый индолог, написавший книгу об Индии тысячу лет назад.
  • «Хождение за три моря» — путевые заметки Афанасия Никитича, первого русского путешественника по Индии.
  • Рекомендация посмотреть советский фильм по мотивам путевых заметок.

01:48:23 Работа над упанишадами

  • Остановка работы над переводами упанишад.
  • Иван Толченников будет вести курс по новым переводам упанишад весной 2026 года.

01:50:34 Присоединение к группе

  • Инструкция по присоединению к закрытой телеграм-группе.
  • Необходимость написать куратору общества ревнителя санскрита.

01:51:50 Роль женщин в проекте

  • Большая часть работы выполнена девушками.
  • Мужчины и женщины дополняют друг друга в проекте.

01:52:56 Условия участия

  • Усидчивость и постоянство — ключевые условия участия.
  • Раз в год проводится «резня» для обновления чата.

01:54:57 Завершение обсуждения

  • Обсуждение откликов участников.
  • Подчёркивание старательности и серьёзности подхода участников.

01:57:02 Установка и тестирование кей-свапа

  • Установка кей-свапа: распаковка папки, запуск exe-файла.
  • Проверка работы: ввод буквы «а» латиницей и нажатие знака равенства должно преобразовать букву в «а» с долготой.

01:58:53 Решение проблем с установкой

  • Возможные проблемы при установке: антивирусные программы, проблемы с расширением экрана.
  • Настройка работы кей-свапа в трее: нажатие правой кнопкой мыши на значок, выбор «старт».

02:00:01 Настройка диакритических знаков

  • Использование знака равенства для добавления диакритических знаков: долготы, ударения.
  • Возможность создания собственного конструктора знаков через текстовый файл конфигурации.

02:01:17 Применение кей-свапа для разных языков

  • Кей-свап подходит не только для санскрита, но и для французского языка.
  • Преимущества использования текстовой заготовки вместо отдельных клавиатур.

02:02:22 Завершение эфира

  • Подведение итогов: отсутствие вопросов, анонс повторения эфира через год.
  • Призыв к участию в проектах по переводу древнеиндийской литературы и устранению неточностей в словарях.

02:04:14 Приглашение в корпусную группу

  • Приглашение присоединиться к корпусным чатам и кураторам.
  • Обещание волшебства и совместного пути в проектах.

In this video

Введение
0:00
происходить на вашем экране. Этот режим я особо, ну, избегаю. Чаще я расшариваю,
0:06
например, конкретно там браузер или там PDФУ или вот Telegram. Или можно просто
0:11
вот всё, что будет на экране, будет показываться. Это левый и верхний режим. Так, левый и верхний экран получается.
0:18
Да, да, экран. Дададада. Да, да, да, да, экран. О’кей. Поделиться.
0:23
Вот, собственно, мы тогда мы с этого не начнём, но просто потом, в смысле, когда вы будете когда я немножко расскажу. Ну,
0:29
всё отлично. Вот и пока, соответственно, А где у вас прикреплённое сообщение? А, уже исчезло. Я вот тоже его сегодня
0:35
пыталась на Интересно, оно исчезает? В смысле? Я не знал. Оно может исчезать. Так, хорошо. Сейчас
0:42
я тогда посмотрю его. А, и А если я его сейчас? Так,
0:48
так, так, так. Итак, добрый вечер. Мы сегодня поговорим про корпуса, и я
Начало обсуждения корпусов
0:54
расскажу, что это такое. Так. М. Давайте теперь единственное, я без мышки
1:01
мне придётся без мышки это неудобно, конечно. Неудобно, да. Я просто в отъезде.
1:08
Ясно. Так, у нас есть сообщение. А вот нашла. Вот она.
1:18
Вот я на всякий случай продублировал. Так, хорошо. Вот к нам заглянула Оля, у нас есть
1:24
Александра, так что мы полностью готовы. Так, так, так.
1:31
А я даже второй браузер открыл в часть такого праздника, как у нас сегодня.
1:40
А, ну что ж, тогда сейчас экран буду
1:46
показывать я, но потом мы покажем, как каждый
1:53
может стать частью той истории, которую я хочу сегодня рассказать.
2:02
Итак, демонстрация экрана. летопись.
История параллельного санскритско-русского корпуса
2:10
Итак, добрый вечер ещё раз. 12 лет тому назад,
2:19
а зародился параллельный санскритско-русский корпус.
2:27
Он зародился на примеры ригведы. Первое, что было сделано в
2:33
тринацатом году, это была ригведа. Вот, собственно, все
2:40
10 мандал, они находятся на одной странице.
2:47
Александра, видно, да, то, что я показываю? Да. Да, всё видно. Угу. Вот с этого всё началось. То есть с
2:54
чем я столкнулся 20 лет тому назад,
3:00
что для полноценного поиска в интернете,
3:05
не то что на русском языке, а вообще на тему санскрита
3:11
мизерно мало, а чего бы то не было, да? То есть то, что в последние несколько
Развитие корпуса
3:17
лет появилось на английском языке Wisdom Library,
3:23
а это чудо. Аа это чудо,
3:30
которого изначально не было. То есть то, что они делают на английском языке,
3:38
а сейчас то, что они делают, м это очень здорово. М здесь невероятно,
3:45
а огромная библиотека
3:50
первычных источников часто
3:56
в санскритским параллельным текстом.
4:01
То есть это огромная работа.
4:06
Под этим невзрачным названием Wisdom Library прячется невероятный
4:14
глубокий, а, глубокая разработка,
4:19
параллельный корпус. У нас есть несколько людей, которые в
4:24
корпусе, ну, почти с первых дней. Вот. И один из таких основоположников
4:31
нашего корпуса, а он признался в том, что изначально не понимал, когда я
4:40
употреблял слово корпус, а что это вообще такое?
4:46
А тогда вот начну издалека.
Пример библиотеки Машкова
4:53
А, Александра, вы, например, когда-нибудь видели сайт библиотеки Мошкова?
5:00
Ну, мельком где-то было, да? Ну, вот лет 20 тому назад это был,
5:07
ну, чуть ли не единственный сайт, а, м электронная библиотека
5:14
аа мировой и русской литературы. Вот. То есть, когда зарождался Рунет,
5:22
а это, собственно, был весь, вся литература была здесь. Вот. А
5:31
я даже как-то, я с с девяносто девятого года занимаюсь разработкой сайтов,
5:39
то есть уже 26 лет. И я поехал домой к Максиму в Москве, чтобы сказать ему:
5:46
«Максим, ну как можно такой отвратительный дизайн? Давай, то есть сайт мне нравится, но это дизайн, ну
5:53
даже не из девяносто четвёртого года. Это так тут нельзя так. Давай сделаем
5:58
красиво». И Максим выслушал меня внимательно, посмотрел то, что я ему предлагаю. А я
6:05
сделал набросок того, как можно переделать это. открыл папочку, куда он складывает.
6:13
Оказывается, я был не первым. Предложение о том, как переделать сайт.
6:19
И в той папочке было уже около пся работ до меня. Я понял, ага, так не пойдёт. То
6:25
есть он, а, его устраивает, что здесь нет ничего лишнего.
6:32
Голый текстовый формат без даже там фоновой какой-то заливки.
6:39
Вот я тогда не предлагал каких-то особых украшательств, но какой-то минимум я
6:46
считал разумным. И я понял, что а у людей есть разные взгляды о том, как
6:53
должен должна жить интернет-страничка. Это было в 2000, наверное, треть
6:59
каком-то году. Вот. А так выглядит один из первых сайтов
7:09
Рунета, который для меня был неким эталоном.
7:15
Был ещё такой сайт web.ru.
7:22
А он уже давненько не пополняется.
7:27
фундаментальная электронная библиотека. Это огромная здесь работа проделана.
7:35
Она, увы, остановилась. А,
7:40
но это опять же эталон, если мы делаем мм
7:47
научной публикации. То есть, а, можно оцифровать.
7:54
Ну, вот возьмём, например, русская, так, русская зарубежная поэзия.
8:02
Гейн Генрих. Угу. А стихи.
8:08
Так, перевод Маршака. Аа,
8:14
вот заходим мы в какое-то конкретное произведение. Сейчас. Нет, он просто отматывает вниз.
Проблемы статичных страниц
8:23
Вот, собственно, увидели мы это стихотворение.
8:29
И эта страничка грузится молниеносно.
8:35
Это маленькая, это даже не статичная HTMLная страницка страничка, как обычно
8:41
бывает, когда делают, то есть интернет бывает живой, а бывает мёртвый. Вот это мёртвая часть интернета. То есть мы
8:48
породили страничку, она быстро грузится и она не обновляется. То есть её можно
8:53
обновить, но это как бы целые пляски с бубном. То есть это десятки тысяч
8:59
статичных страниц. Вот этот подход мне близок. Если не нужна динамика,
9:07
то для скорости или лёгкости загрузки достаточно статики, да? То есть я, а,
Компьютерная лингвистика и санскрит
9:14
мой интерес к компьютерной лингвистике, а я занимаюсь санскритской компьютерной
9:19
лингвистикой, и в России помимо нас нет никого, кто разрабатывает эту тему. У
9:26
нас есть свой кружок, свой семинар,
9:33
мм, где горсточка моих учеников и коллег занимается разработкой компьютерной
9:40
лингвистики, но это отдельная тема. Смысл в том, что я подкован в разных
9:46
компьютерных технологиях. Я работал, в том числе и как программист. И,
9:52
соответственно, вот эти навыки программирования я, конечно, применяю и широко применяю в области
9:59
санскритологии. Вот. Чего, в принципе, в мире умеют делать
10:05
несколько людей. Ну, а в России, собственно, мы одни такие. Вот если я
Сложности цитирования
10:12
вот мне понравилось этот стихотворение и я его захочу процитировать,
10:18
то сделать этого легко я не смогу.
10:24
То есть мне придётся искать. Ага. Так. А что у нас известно про эту книгу, из
10:33
которой взято это стихотворение? А тут не так-то, оказывается просто это
10:39
найти. То есть в каком году была издана книга, да? То есть придётся сделать
10:46
отдельное м отдельное расследование,
10:53
чтобы установить источники конкретной бумажной книги, чтобы найти а
11:02
номер страницы, а год издания, а то есть чтобы сослаться, например, в
11:10
научной публикации полноценно вот того, что есть здесь. недостаточно. Да, это
11:16
даёт возможность для молниеносного поиска. Одна задача здесь решена.
11:23
Решена. Хорошо решена. Вот. Вот, например, если мы попробуем найти вот
11:29
откуда она взята, я предполагаю, что эта страничка
11:35
Ага. Ну вот. Аэ, насчёт интернета
Устойчивость интернет-ресурсов
11:41
75% ссылок за 10 лет в интернете умирают.
11:51
То есть интернет — это живой организм. И
11:58
это и хорошо, и не очень, потому что я знаю множество баз данных, которые в
12:04
которые было вложено, а, сотни миллионов, в том числе государственных денег. И всё это потом через несколько
12:13
лет просто исчезало и исчезало бесследно, да? То есть задача не только создать
12:21
эталонный ресурс интернета, но и убедиться, что он
12:27
идёт через, ну, не через века, но хотя бы через десятилетие, да? То есть, а
12:34
этой странички нету. То есть все странички Geo Cities, которые были, а
12:42
20-30 лет тому назад актуальны, они все теперь снесены, их не найти. А в
12:51
лучшем случае на веб-архиве а получится найти слепок этой странице,
12:58
и то это удача будет, если так получится, да? То есть для того, чтобы
13:05
процитировать это стихотворение, потребуется исследование и, возможно,
13:11
длительное исследование. Это называется электронная библиотека.
13:18
То есть то, что сделал Мошков- это, а, опережающее своё время,
13:27
мм, огромная, живая и пополняющаяся электронная библиотека.
13:34
Здесь есть русские буквы и ничего более. То есть здесь не
13:41
сказано, а как как что за часть речи? А,
13:47
радуюсь. Здесь не сказано, что крошка — это существительное,
13:53
то есть нету никаких метаданных. Данные есть,
14:00
а данных о данных нету. И если наш по если нами руководит просто
14:09
любопытство, то для каких-то задач электронной
14:15
библиотеки достаточно. Достаточно. То есть так зарождался
14:22
интернет, а большинство ресурсов до сих пор так
14:27
живут. А может быть красивый сайт, может быть,
14:33
вот как вот этот. Вот тут дизайн не менялся 30 лет.
14:39
Вот. Потому что сам Мошков он юниксойд. Он даже не знает, как винду запустить.
14:44
То есть это человек, который жил до того, как жили динозавры. Но это принципиальный и осознанный его
14:52
выбор. Вот это одна часть. То есть электронные
14:59
библиотеки. Что задумал я
15:04
сделать в мире санскрита? создать не просто библиотеку,
15:11
а библиотеку, которую можно будет использовать для научного цитирования,
15:19
а в дальнейшем, а, чтобы она могла стать частью
15:26
национального корпуса русского языка. Вот у нас есть ресурс, который
15:32
развивается уже 20 лет.
Национальный корпус русского языка
15:40
Так же, как и общество ревнителей санскрита, которое летом двадцать пятого года отметила
15:47
двадцатилетие, а также и двадцатилетие
15:53
отметила отметила национальный корпус русского языка.
15:58
Подобных ресурсов в мире больше не существует. То есть то, насколько профессионально
16:06
и полно заполнен на сегодня национальный корпус — это вне всякой конкуренции.
16:16
Быва было такое, что на несколько лет сайт приходил в упадок, но это всё в
16:24
прошлом. Это образец во всех отношениях.
16:29
Вот, например, ну вот из того же стихотворения, которые из Генриха Гейна,
16:34
мы возьмём, например, слово крошка.
Применение корпуса в книгоиздании
16:46
И что мы видим? Мы видим, в каких произведениях
16:52
встречается это слово. То есть у нас тут есть и статистика. А на английском он
16:59
выдаёт, потому что я забыл, видимо, выключить VPN. Сейчас переключимся на на
17:05
русский язык. То есть, если, например,
17:10
для чего может быть полезен корпус? А я
17:15
издаю книги, я книгоиздатель
17:21
и в том числе часто выступаю в роли главного редактора.
17:27
И у меня возникает часто разногласия
17:32
с разными участниками этого процесса. А, например, как какое название для
17:40
книги выбрать. Вот. То есть, например, очередную книгу моего научного
17:46
руководителя Андрея Анатольевича Залезняка я хотел назвать
17:54
школьные лекции. шко, значит, лингвистика для школьников, это не
18:00
полное название, но а вот и чтобы аргументировать свой выбор, я показывал
18:07
разные страницы из корпуса, чтобы показывать вот это слово вышло из употребления в русском языке последние
18:14
200 лет, оно всё меньше и меньше, меньше. А вот так люди говорят.
18:20
И, собственно, вот так я пытался аргументировать, показывая
18:25
историю слов и как они меняются.
18:30
Ну вот у нас мясной-то плохо ест, с крошками иногда. Ага. Получается, это не
18:36
те крошки, которые я имел в виду, и не те крошки, которые были в том стихотворении. И тут дальше уже можно
Дополнительные возможности корпуса
18:43
играться, можно нырять в эти самые слова.
Употребление слова и национальный корпус русского языка
18:51
Вот мы видим, что употребление этого слова в самое последнее время пришло в
18:56
некоторый упадок. Но если мы уберём самое начало и оставим, допустим, вот с
19:05
1.800, с 1.800, то тут видно, что же это слово
19:11
как минимум не вышло из употребления. Ну вот какой-то незначительный спад, но
19:17
ещё неизвестно, куда это всё придёт. Вот это эталон
19:23
того, как можно уже обрабатывать размеченные данные.
19:30
Этим, в частности, занимается институт русского языка. И вот это направление
19:37
возглавляет а Плугн, ученик залезняка, вот
19:42
разработку национального корпуса русского языка. У этого корпуса
19:49
есть подкорпуса, например, подкорпус берестяных грамот.
19:54
Это а тысячи писем из
20:01
Великого Новгорода. А и древнейшим из этих пис им по а тысяче лет.
20:11
А хотел показать свиток бересты, как
Берестяные грамоты и их значение
20:17
выглядит берестяная грамота, который тысячи лет, сейчас посмотрю, где-то у меня болтается. А тем временем, может
20:23
быть, у вас есть какие-то вопросы из того, что я уже пока показываю?
20:32
Пока вопросов нет. Интересно только к чему к чему всё это сказано. Пока не
20:37
понятно. Вот не подводить. Потребуется, видимо, чуть дольше, чем я думал. Но вот так выглядит, например, кусок бересты,
20:44
которому 950 лет. Вот. И вот на таких кусочках бересты, например, а люди
20:51
раньше писали, и то, что они писали, это, в частности, стало, а, под корпусом
20:59
здесь на сайте, а, национального корпуса русского языка. То
21:05
есть это древнейшая история русского языка. Древнее не бывает и уже не будет.
21:13
То есть Великий Новгород мы будем продолжать раскапывать. На сегодня раскопано 3%
21:21
из того, что возможно, и потребуется ещё несколько тысячелетий, чтобы достать
21:27
часть переписки, которая уже тысячи лет лежит Земле. Вот.
Квантитативные методы в лингвистике
21:33
И вот это будет под корпусом на этом сайте, чтобы изучать истории
21:40
русского языка, потому что, а, это очень благодатный источник, и он носит новое
21:47
понимание истории, ну, в общем-то, да, не только истории
21:53
языка, а истории вообще того, как жили на Руси. Вот
21:59
статистика это не самый интересный слайд. Впрочем,
22:04
мне такое всегда интересно. Я люблю квантитивные методы в лингвистике. В
22:09
общем, видно, что то есть с этими данными уже можно работать, да? То есть это уже А, ну это
22:18
уже вот уже на ну как бы это это то, к чему по-хорошему нужно
22:24
прийти, да? Мы пока находимся далеко от этой стадии, но это возможно.
22:31
Это возможно. Так, Конкорданс был.
Конкорданс и поиск слов
22:37
Квик — это когда мы видим, э, это искомое нами слово посередине, а все
22:42
остальные слова слева и справа, то есть удобно видеть контексты. Ну ладно, крошка пока. Но это вот та
22:49
крошка, которую я вот как раз хотел найти. И вот она. И вот она. Вот нажали на крошку. И что мы видим?
22:57
Существительное, да? Вот я хочу знать, например, я хочу найти, например, все
23:02
существительные в Романе. Потом, допустим, я хочу найти все существительные женского рода,
23:10
а потом я хочу найти все существительные женского рода в множественном числе.
23:16
Вот. То есть я хочу для каких-то своих грамматических изысканий
23:22
в процессе написания корпусной грамматики санскрита, вот я хочу найти какие-нибудь примеры
23:28
себе и вот это искать вручную, ну вот так не делает уже так не делает
Параллельный санскритско-русский корпус
23:34
уже 40 лет около. Вот. И и вот моя задача — приблизить тот день, когда
23:41
э здесь будет много санскритских переводов на русский язык.
23:49
Вот. На сегодня вот туда, куда мы постепенно подходим, вот в параллельном
23:55
санспитско-русском корпусе на сегодня, хотя не всё заполнено и не всё одинаково
24:03
хорошо оформлено, 120.000 шлок, то есть 120.000
24:10
двухший. Это в 10 раз меньше,
24:16
чем чем сейчас на Wisdom Library. Но когда мы начинали, их не было, а мы
24:24
были первопроходцами. Вот. Но наше дело продолжать именно
24:30
развивать а рунет, да? То есть английский прекрасно, немецкий
24:38
как без него, но я хочу развивать рунет. Вот. И если не мы, то никто этого не
24:44
сделает, потому что это долго, муторно, а нудно, но необходимо. Вот. То
24:54
есть вот 120.000 шлок — это вот то, то есть принципиально сильно больше у нас
25:01
никогда не будет. То есть все наши дополнения, ближайшие обозримые
25:06
десятилетия, это там сотен тысяч новых не добавит. Это то есть основной корпус
25:13
он уже сейчас здесь. То есть всё, что то, что мы то, что нам посильно добавить, ну, это
25:21
десятки тысяч шлок вряд ли добавить. То есть это будет измеряться. Ну, это возможно, но это будет возможно только,
25:27
если мы заручимся поддержкой серьёзной ежемесячной,
25:33
ээ, поддержкой мм своих сил в рамках общества вревнителя и санскрита нам не
25:39
хватит, чтобы кардинально изменить эту картину. То есть то, о чём сейчас пойдёт речь — это про такие незначительные, но
25:47
стабильные процессы для каких-то добавления каких-то важных источников,
25:52
но не не по размеру важных, а по именно, ну, качеству, что ли. Вот национальный
25:58
корпус. Так, и мы сюда и мы сюда, получается, портрет слова.
26:04
Вот. То есть, что я хотел показать. То есть на эту крошку можно дойти до портрета слова.
Портрет слова и дата первого упоминания
26:10
Это сделано относительно недавно, и это великолепно.
26:16
И это великолепно. Мы видим, а какие бывают крошки, что вот мы нам
26:25
встретилась там хлебная крошка в одном из контекстов, а у Гейны-то было не
26:30
хлебная, да? То есть, соответственно, здесь можно копаться,
26:37
клацать бесконечно долго нырять, и всё это жутко интересно.
26:47
Вот. А дата первого упоминания. Разве это не
Доступность санскрита
26:54
прекрасно? Разве это не прекрасно? Когда мы знаем, что, оказывается, некоторые русские
27:01
слова встречаются дольше, чем Соединённые Штаты существуют, например. Вот. И они якобы нам указывают, как
27:08
жить. То есть как бы у России есть истории. Эту историю надо красиво преподнести. И у санскрита есть истории.
27:15
Но а я хочу сделать санскрит более доступным,
27:20
то есть показать, э, как с ним можно работать, используя методы XXI века, а не XIX, как
27:30
мы работаем сейчас. Вот. Ну ещё мы только в самом-савмом начале.
27:37
Вот морфемный разбор. Это жутко интересно. То есть, если мы, а, этого смогли бы добиться, а мы к этому
Обновление Ригведы
27:43
постепенно идём. И вместе с высшей школой экономики, я думаю, что мы туда
27:51
частично придём, что у нас будет полуавтоматический,
27:57
а, автоматическая разметка русской части переводов. Вот если мы сейчас посмотрим,
28:04
например, ну вот на ту же Регведу, которая обновилась буквально на днях
28:09
усилиями трёх добровольцев, вот вся огромная регведа,
28:15
это один из сложнейших текстов у нас в корпусе. Сложнее мне, я даже не знаю, что может
28:21
быть сложнее регведу. Вот. И потребовалось несколько месяцев
28:26
ежедневной работы, чтобы просто обновить, не чтобы создать. Вот она уже
28:32
здесь по по этому адресу она доступна уже, а, получается 12 лет. Вот, чтобы
28:38
обновить вот этот файл, потребовалось 12 лет и усилие трёх очень
28:48
внимательных добровольцев. И теперь у нас регведа, наша регведа в интернете,
28:55
она лучше и, а, содержит меньше ошибок,
29:01
чем бумажная книга, изданная 20 лет тому назад в издательстве Наука.
29:08
То есть мы теперь делаем лучше, чем наука. Представляете себе? То есть
29:15
изначальная наша задача была хотя бы соответствовать науке, то есть, в
29:20
смысле, чтобы у нас было не больше ошибок, чем у них
29:25
в а научном бумажном издании.
29:30
А по каким-то отдельным книгам мы превзошли,
Ошибки в Атхарваведе
29:35
и у нас чище, чем бумажные книги. Например, в Атхарваведе.
29:43
В Адхарвоведе. Так, вот Харведе, например, у нас в бумажной
29:51
книге. М. Ну и вот я перед переизданием, а от Харведу недавно переиздали, я
29:59
редактору восточной литературы, это подраздел в издательстве Наука, направил
30:04
список. Там было около 300 опечаток, которые нужно было поправить. То есть от Хароеда изначально выходила в
30:12
трёхтомнике. Недавно её выпустили в одном томе. И вот я указал список из 300
30:18
ошибок, которые нужно было бы поправить. Ну и как вы думаете, а внесли ли они те
30:24
правки, которые я им заблаговременно, за год, за месяц, за неделю, за день
30:30
допосылал? Как вы думаете, они внесли? Нет, конечно. То есть вот то, что нами
30:37
было проделано, а это была работа а добровольца из Краснодара, она несколько
30:44
месяцев сидела с бумажными экземплярами и буковку за буковкой сверяла. Так, где
30:50
у нас там ударение убежало, где у нас циферка пляшет, где вместо
30:58
запятой точка. И она всё это просмотрела, все 10 мандал, буква за буквой. И вот выявило вот там более 300
31:07
опечаток. Вот они, а, в корпусе у нас
31:14
будут исправлены, а в бумажной книге нет. Поэтому, если изначально задача
31:21
была как в книге, то по каким-то произведениям мы лучше,
31:28
чем в книге. И это действительно здорово. То есть то, чем мы занимаемся —
Научное добровольчество
31:33
это научное добровольчество. Вот есть такое понятие, как науч, то есть есть
31:40
добровольцы. Вот, например, если вы захотите, то в августе следующего года
31:47
вы можете поехать в Великий Новгород и принять участие в археологических
31:52
раскопках на Троицком раскопе и доставать эти берестяные грамоты из
31:58
Земли, чтобы увидеть, как создавалась история России. Вот своими руками
32:04
держать то, что в земле лежало тыся лет, а лежит там просто сокровище. Потому что
32:12
это там жили знатные люди. Вот в том участке, которые
32:19
раскапывают, там не крестьяне жили, а знатные люди. Там просто богатство, ну,
32:24
невероятное. Вот это с одной стороны, можно поехать в поле, но у нас есть своё
Параллельный корпус
32:30
поле, не паханное поле, а санскритское поле. Вот. Ну и в том вот как бы и один
32:37
из подразделов этого — это как раз вот поле параллельного корпуса, да? То есть
32:42
смотрите, у нас есть санскритский текст, он записан
32:48
в международной транслитерации Иаст. А впрочем, мы можем сгенерировать тут и
32:55
деванагори, да? То есть всё то же самое, только вот слева будет Даванари, а справа русский
33:02
перевод Татьяны Якольны Елизареньковой. Вот.
33:08
Увы, в интернете в целом и и в рунете, в частности, вот
33:16
когда человек не знает, как предать своим словам авторитет,
33:23
но очень хочется, он говорит: «Веды говорят». И дальше несётся какая-то
33:28
пурга. Вот. А как проверить? Проверить, что говорят Веды? Вот вы заходите на
33:36
страничку параллельного корпуса и в поиске вбиваете, говорят или не говорят.
33:41
То есть, если этого нету в ацхарвоведе или вергведе,
33:47
то вероятность велика, что это просто вымысел. Вот. То есть 30 лет своей жизни
33:53
Татьяна Яколина дала переводу одной только регведы. Вот. А а мы мы
34:01
почти ничего не сделали. Мы всего лишь сделали это доступным в интернете, да? То есть наша работа, хоть она была
34:08
непроста, но она ничтожно мала по сравнению с тем, что делали те
34:13
исследователи, чьими трудами мы пользуемся. Вот. Но история отечественной эндологии
История индологии
34:21
столь обширна и долга, что было бы глупо не воспользоваться
34:26
трудами предшественников. Вот и наша задача в рамках корпуса — это
34:32
именно а осознать и сделать доступным то, что было сделано
34:40
до нас. А где-то мы добавляем будет уже добавляем и будем добавлять новые
34:46
переводы. Ну это такое скорее опять же не приоритетное направление.
34:51
Вот. То есть то, что вы сейчас здесь видите, в том виде, как оно представлено, это на
34:58
самом деле тоже ещё не корпус. Это уже не просто а переводы, как в библиотеке
35:07
Мошкова, например, перевод Гейна с немецкого, это перевод с санскрита.
35:13
И это уже как билингва, то есть билингва. Вот, в частности, я издаю и
Преимущества онлайн-изданий
35:21
билингвы. санскритско-русские. Вот здесь одновременно на Деванагаре и
35:28
рядом русский перевод. Вот, собственно, в Гарртрихари в
35:35
переводе Леонова. Я издаю серию Библиотека санскритика. И в ней есть
35:40
подсерия Опера Минора. Это именно а билингвы. То есть, если взять вот только
35:48
вот эту часть, серединку, то, собственно, вот это то, что издают в
35:54
билинг. Но билингвы издают редко, э, поэтому в интернете мы не ограничены
36:01
местом, и мы можем сделать здесь то, что никогда в бумажной книге напечатано не
36:07
будет. В этом наше преимущество. То есть
36:14
есть, то есть я тут генерирую файлы, которые занимают несколько десятков
36:19
тысяч страниц. Ну и печатать это, конечно, это просто одно разорение и и
36:24
даже избыточно в чём-то. Вот так вот. Белинг обычно это просто вот серединка
36:29
этого. А что мы сделали в рамках корпуса?
36:35
Мы притянули комментарии из конца книги.
36:41
Потому что в рамках серии Литературные памятники сам перевод даётся, допустим, середине
36:49
книги, а относящийся к этому, а переводу
36:56
комментарии общие и частные, он находится в конце
37:02
книги. То есть искать или стать неудобно.
37:08
В рамках интернета мы можем обойти это неудобство
37:14
академической серии А литературные памятники.
37:20
Это самая престижная серия книг
37:25
гуманитарных, а, изданий на русском языке, академии наук. Вот мы можем
37:32
обойти это неудобство и взять и положить комментарий к строке 1б. То есть речь
37:40
про первую строчку здесь. Вот. И у нас всё
37:48
доступно. Мало того, что доступно, если вы нажмёте на эту строчку левой кнопкой мышки,
37:59
она загорится красным пламенем. Что это значит? Она скопировалась в
38:06
буфер. Что такое буфер? Вот когда вы нажимаете, выделяете что-то Ctrl C, а
Работа с буфером
38:12
потом нажимаете Ctrl V, вот это вы оперируете буфером.
38:19
И, соответственно, вам, что мы сделали? Здесь не надо даже нажимать Ctrl C.
38:24
Здесь всего лишь надо клацнуть на то место, которое вам интересно.
38:33
И а сейчас я вам показываю браузер. Если вы возьмёте и на куда-нибудь
38:40
вставить это, сейчас я подумаю, как же продемонстрировать эту вставку. Сейчас попробую просто,
38:50
чтобы вы понимали, что мы сгенерировали.
Введение в параллельный корпус
39:05
И я нажал нажал сейчас здесь в этом а на этой страничке Ctrl Ctrl V. То есть
39:12
здесь уже без Ctrl V мы не обойдёмся, чтобы выгрузить из браузера содержимое.
39:18
И мы получили не просто то, что было сказано в самой книге, но и получили
39:25
метаданные, что это от Харведа, изданное в 2005
39:33
году, 390 страница. Вот этого глазами вы здесь
39:42
не видите. Вот если, например, вы наедете вот на это, а, на эту циферку, то вы увидите,
39:50
что это глава, а, значит, в общем, раздел второй, а, гимн первый, а, первая
39:59
шлока. Вот, то есть не всё, что вы видите. То есть здесь есть больше, чем вы видите, но и это пока не корпус. То
40:07
есть, хотя это и названо гордым именем параллельный корпус, на самом деле пока
40:13
это зачаток корпуса. Хороший, добротный, единственный в мире.
40:22
Конкурентов нет и не будет, но зачаток. Вот. И, соответственно, моя задача
40:27
двигать дальше вот то направление, привлекать программистов,
40:33
чтобы сделать из этого то, что потом можно будет подключить как подкорпус к
40:40
национальному корпусу русского языка. Вот. чтобы вот эта красота, которая
40:46
здесь, вот похожие слова, что зёрнышко — это похожее слово на крошку
40:54
и мякиш тоже. Вот, чтобы вот такие вещи мы могли строить и на основе наших
Роль добровольцев
41:02
русских переводов, академических переводов санскритских произведений. Вот
41:08
это как бы сверхзадача. Сверхзадача стать подкорпусом
41:14
национального корпуса русского языка. За 12 лет, а, ну, мы почти не
41:21
приблизились к этой задаче, но мы начали и очень, ну, мы уже преустали, потому
41:28
что на самом деле, ну, ни один человек бесконечно долго этим заниматься не
41:34
может. Поэтому у нас было несколько волн добровольческих отрядов.
41:39
Всё то, что сделано здесь на на этом сайте, это сделано моими
41:45
учениками. Вот это всё богатство, вот эти все более чем 100 произведений,
41:53
это всё сделано такими же, как вы, простыми русскими девушками, с некоторым
42:01
незначительным украплением русских парней. Вот. То есть приходили люди,
42:07
которые ничего не знали про санскрит, но которым интересна индийская литература.
42:13
И для того, чтобы, с одной стороны удовлетворить их интерес, но сделать это
42:19
с пользой для остальных, вот я просил их, а, находить те
42:25
неточности, которые закрались в сканах книг,
42:31
и поправить их согласно книгам. Вот, например, у нас законы ману.
42:37
Вот законы ману, например. То есть в нашем, например, вот здесь в переводе,
Проблемы машинного перевода
42:44
вот если вы нажмёте Ctrl F, Ctrl F, то у вас выскочит такое вот а
42:53
окошко для поиска. И вот попробуем здесь ввести. Сейчас у меня немножко устал
42:58
браузер, но он сейчас должен, а, раздублиться. Вот мы ищем, например,
43:05
слово Бог. Вот богам богатое
43:11
вот слово Бог. А несколько лет тому назад на зогфских чтениях я делал
43:19
доклад. Это основные индологические научные чтения, которые проходят раз в
43:25
году в мае в Петербурге. их возглавляет Институт восточных рукописей Российской
43:32
академии наук. Вот. И делал я там доклад как раз про параллельный корпус. Вот.
43:39
И, в частности, я привёл пример того, что бывает, если работает машина, то
43:45
есть компьютер, а человеческого глаза не хватило.
43:50
Вместо слова Бог мы получили слово бот.
43:55
И там было, а там, ну, то есть, понимаете, да, то есть можно попасть в
44:01
какую-то неловкую ситуацию. То есть некоторые ошибки, они они похожи на другие слова, и отловить
44:09
их, а, ну, собственно, пока может только человек. То есть, если есть какая-то
44:15
часть ошибок, которые можно найти с помощью регулярных выражений,
44:22
а, то есть таких как бы неких приёмов, вот, то есть вещи, которые может только
44:28
человеческий глаз. То есть, чего я добиваюсь? Я хочу, чтобы искусственный
44:34
интеллект, а я занимаюсь искусственным интеллектом с девяносто девятого года, вот чтобы искусственный интеллект
44:42
работал в паре с человеком.
44:47
А, но так как это огромная работа, кропотливая,
44:53
неблагодарная работа, то на такую работу может пойти только доброволец.
44:59
Если мне необходимо было бы оплатить работу своих учеников,
45:04
я разорился бы к этому моменту. То есть это огромная работа. И с нашей стороны
45:11
здесь много вопросов, которые необходимо решать, но это возможно только в союзе
45:16
компьютеров, то есть нейронок, и добровольцев. То есть мы можем сделать
45:23
доступными труды наших предков. современников, но
45:29
это задача требует усидчивости, да? То есть тут невозможно ничего решить ни за
45:35
день и ни за неделю, не за месяц. Вот здесь таких ошибок ботов и богов, а, ну,
45:43
великое множество было. Поэтому, потому что мы берём книгу, мы её сканируем, а дальше мы распознаём из
Процесс создания корпуса
45:51
картинки делаем буковки. И вот в этом процессе делания из картинки буковки вот
45:56
часть буковок теряется. часть изменяется, и нужно читать русский текст
46:01
и смотреть: «Ага, вот то, что я прочитал, это осмысленно или нет.» И вот
46:07
этот вот таким способом идти. И, может быть, на нескольких страницах вообще не
46:13
будет ни единой ошибки, а потом какая-нибудь одно одна сноска, а,
46:19
окажется вся в каких-то вот ненужных а пунктуационных знаках, которые надо
46:25
убрать и сделать ээ корпус богаче. Вот,
Преимущества корпуса
46:31
собственно, получается, вот мы нажимаем, например, на вот этот отрывок, и я вам
46:36
продемонстрирую, как получается. Вот. А мы получаем
46:42
отсылку к этому месту в формате, который
46:47
необходим нам для комментирования ромаяны. Я возглавляю
46:55
русский перевод, академический перевод ромаины и
47:02
романы на русский язык переведена наполовину. И моя задача сделать так, чтобы она была переведена целиком.
47:08
Вот. И для этого нам нужно иметь разный, ну, целый ворог инструментов, в том
47:13
числе компьютерных. Вот. И, собственно, вот мы получаем
47:19
формат, который, то есть, я могу вот такую вот ставочку уже вставить даже в научную статью. Мне не нужно будет
47:26
ручками там что-то набирать, чтобы, а, сослаться на это место. Понимаете? То
47:32
есть вот первое, чего мы добились, это то, что мы знаем, на какой странице
47:38
бумажной книги, в каком разделе встречается конкретная,
47:43
а цитата. Вот. И и это даёт возможность заниматься
47:51
научными исследованиями на основе того, что уже было проделано. То есть тут
47:57
начинается уже не просто любительский подход. Веды говорят, а мы можем
48:02
сослаться на конкретное место и сделать это безболезненно.
48:09
Безболезненно. А
Новые добавления
48:19
что мы сделали за последнее время?
48:28
Покажу буквально то, что недавно появилось. А
48:34
я даже не знаю, добавлено ли оно. Оно уже вот добавлено. Вот видите, коледаса
48:39
облако везник. У нас в октябре преподаватель,
48:45
бывший преподаватель Санкт-Петербургского университета начинает курс по калидасе, по Мекхадуте.
48:52
То есть человек, который всю жизнь преподавал в Санкт-Петербургском университете, теперь будет вести у нас
48:58
хинди и спецкурсы по санскриту.
49:04
И я в очередной раз задался вопросом: «А какие переводы? Колидасы есть на русский
49:10
язык?» И как вы видите, у нас уже три перевода калидасы добавлены. Коледас —
49:17
это классик древнеиндийской литературы. Это как Пушкин. Вот. И, собственно,
49:25
оказалось, что последний, кто переводил Калидасу целиком на русский язык — это
49:32
Павел Рытер 100 лет тому назад, э, харковский санскритолог Павел Ритер.
49:41
Вот. А и
49:46
не без определённых усилий, но мы соединили его
49:52
изумительный по красоте русский перевод. Мы оставили дореволюционную орфографию и
49:59
соединили её с санскритским оригиналом.
50:04
Вот и получилось некое подспорье
50:11
для нашего спецкурса по калидаси. То есть получить готовый перевод — это
50:19
ещё, а, ну, это не решает все задачи. То
50:24
есть, потому что на самом деле мы не знаем, а, то есть это хорошо, но это ещё не всё, потому
50:32
что здесь можно разворачивать, а углубляться и разбираться
50:38
в формах и смотреть, как их передал тот же рит. Но это как бы такая отдельная задача. То есть перевод
50:46
и разбор мекхадуты и углубление в то, как раньше переводили макхадута, это ещё
50:52
отдельная задача. Но в любом случае вот для того, чтобы проходить какие-то курсы,
50:59
собственно, сама потребность в корпусе как раз возникла а в рамках санскритской
51:04
педагогики. Вот у нас, например, уже пятый год идёт семинар Тысячи имён
51:09
Вишну, которые я веду по субботам в 8 вечера. Он длится 2 часа, и мы за 2 часа
Санскритский поисковик
51:16
разбираем пять имён Вишну. У нас осталось ещё 200 имён Вишну. И если бы
51:22
не эти поисковики, а мы создали ещё и санскритский поисковик, я ещё до этого
51:28
не дошёл. Называется Пахта не океана. На основе этого интернет-ресурса я создал
51:35
санскритский поисковик. Такого в мире больше нету. Вот. А 20 лет
51:42
назад в Оксфорде пытались такое сделать, но они разорились раньше, чем закончили,
51:47
потому что они за свою работу брали деньги. А мы же бессеребрянники, нам же денег не надо. Поэтому наш поисковик
51:56
развивается и процветает, а их даже не запустился, потому что они разорились до того, как его запустили. Вот они
52:03
потратили несколько миллионов долларов и разорились. Вот
52:09
мы ж подвижники, нам-то что? Нам главное, чтобы не надо было доплачивать за свою работу. А денег за
52:17
работу мы не просим. Зачем? Нет, нет. Вот мы к Хадуту добавили, а недавно, а
52:27
вот обновили регведу, получается, вот буквально на днях.
52:33
А так и и и и и и сейчас я не знаю.
52:42
Ну вот опять же вот мы, а, на следующей неделе запускаем спецкурс по кашмирскому
52:49
шиваизму. И в честь этого запуска, а опять же на
52:55
днях был добавлен впервые Апхиновагупта
53:01
у нас на сайт. Так клацнул на Ага. Апхинова губта. Да, я попал. Сейчас
53:07
может быть там ссылочка. Ага, ссылочка не работает, но я вас уверяю, что Апхиновогуб уже есть. Я уже на сайте. То
53:12
есть, в смысле, на него нельзя попасть через главную страницу, но в скрытом
53:18
режиме он уже доступен. Вот. Собственно, то есть это всё делается усилиями таких
53:25
же, как и вы. То есть тут не приходили боги, не боги горшки обжигают, а корпус
53:33
создаётся усилиями учеников Гасунца. Гасунц — это я. Вот они приходят и
53:39
говорят: «А чем я могу помочь?» Вот я говорю: «А у нас есть добровольческие отряды вот по разным
Нейронные сети и переводы
53:46
направлениям, в том числе по корпусным». Вот на основе всех этих переводов
53:54
м мой знакомый Себастьан Нердлих сделал, обучил нейронки. То есть, если
54:02
большие нейронки, они не учитывают особенности русского языка,
54:08
то это на сегодня единственное, вероятно, единственное и останется нейронка в мире, который учитывает вот
54:17
всё то, что мы сделали здесь за 12 лет. И она обучилась
54:24
И она обучилась переводить именно на русский язык, не на
54:30
русский с английского, а именно с санскрита на русский. И я, пожалуй, даже
54:37
сейчас попробую что-то продемонстрирую. Итак, Ромаяна. Вот Палаканда.
Работа с санскритским текстом
54:45
А мне нужен только санскритский текст. Русский перевод мне не нужен.
54:51
Ну, сейчас скопируем сюда. Уберём русский текст, он нам ничему.
55:00
И здесь есть два режима: просто перевод и перевод с грамматическими пояснениями.
55:09
Ну, давайте нажмём Play и покажем, что он может, собственно,
55:15
давать ещё и разбор. Видите? То есть здесь есть разметка, то есть он даёт
55:22
метаданные, они могут быть неверными, но хотя бы
55:27
можно взять это за некой осново и перепроверить. Перепроверить. Вот. То есть это такой
55:33
развёрнутый режим. Для русского такой режим пока недоступен. Доступен только
55:39
простой режим. Но тем не менее. Вот вы видите, вы получили то, что было
55:45
немыслимо ещё год тому назад. На основе параллельного
Перевод санскрита на русский
55:53
санскритско-русского корпуса Себастьян Нертлик из Беркли обучил Дгармометру
56:00
переводить с санскрита на русский.
56:05
Конечно, тут тоже бывают разные казусы, но для этого вы и изучаете грамматику
56:10
санскрита, чтобы вас не водили за нас, чтобы вы сами могли проверить какие-то
56:17
высказывания.
Исследования древнеиндийских древностей
56:24
Так,
56:29
ну вот когда я на это смотрю, мне отрадно. То есть потому что это даёт возможность заниматься исследованием в
56:38
области древнеиндийских древностей. То есть, собственно, часть этой работы
56:44
возникла как ответ на потребности нашего семинара по тысячи именам Вишну. Вот нам
56:50
хотелось, чтобы мы могли искать книги Мирча Илиады про йогу. И мы добавили её
56:55
в наш поисковик. И теперь Мирчиляды мы тоже можем учесть. То есть здесь есть не
57:01
только, значит, на сайте доступны в основном только первычные источники, а в
57:08
поисковике в пахне океана доступны и вторичные источники, то есть книги о
57:14
книгах. Здесь только книги, а там книги о книгах. То есть у нас есть оффлайн
Оффлайн-программа для поиска
57:21
программка, надстройка над этим корпусом, который
57:27
работает поиск. Он работает несколько секунд и выдаёт, допустим, там тысячи
57:33
результатов. Вот. И можно посмотреть, как, например, это слово переводил
57:39
Гринцер, как переводил Васильков.
57:44
Можно сравнить. Это жутко интересно и увлекательно. То есть, э-э, для того,
57:51
чтобы пополнить эту этот раздел Ромаяна, мне необходимо сперва 15 лет работать
57:58
над тем, чтобы была переведена ромаяна, издана в бумаге, а потом я смогу её
58:04
положить сюда вот просто как один файлик, одну страничку. Вот, чтобы вот ещё одну такую страничку добавить,
58:12
мне потребуется 15 лет работы.
Сложности и стоимость проекта
58:18
и несколько десятков тысяч долларов. Вот, чтобы это всё делать. То есть санскрит — это дорого, долго и сложно,
58:25
но каждый может сюда внести свою небольшую лепту, вывеляя эти буковки.
58:31
Кажется, дело малое, но для меня важное, потому что мне хочется создать некий
58:37
островок. Вот интернет — это помойка, но в этой
58:42
помойке я хочу создать оазис. Вот
58:47
такова моя изначальная задумка. А вот, собственно, и здесь я вам
58:54
показываю, что мы сделали за прошлый год. Получается, у нас одно и то же
58:59
произведение Буддачарита есть в двух переводах. Вот
59:04
Леонов, наш современник, переводчик Романы. Он перевёл спустя 100 лет то,
59:10
что Бальмонд переводил не с санскрита, но перевёл. Бальмонт изучал санскрит,
59:18
но он не переводил санскрит. То есть у нас два разных перевода одного того же произведения.
59:24
Опять же можно сравнить вот эту книгу, например, а Бхартрихари я не сканировал.
59:32
Я как издатель взял наш макет и выложил его на сайт бесплатно.
59:39
Вот. А вот шукати мы сканировали, потом распознали, а потом трижды выверяли. То
59:47
есть каждую книгу по возможности читает три разных человека подряд,
59:54
чтобы убедиться, что там всё чисто. Вот
59:59
Романуудже, например, вы даже в бумаге купить его не сможете, а он у нас есть в виде файла.
1:00:06
Вот. Ну вот йога Продипика, да? То есть
1:00:13
получается у нас есть, то есть постоянно, почти ежедневно идёт
1:00:20
фоном работа. Вот, например, до сих пор мы ещё не выложили панчатантру. Потому что не
1:00:27
хватает рук. То есть нам нужны руки. Нам нужен человек, который говорит: «Вот говорите,
1:00:33
что мне делать, я готов». И мы скажем, что нужно сделать, чтобы панчатантры
1:00:38
стала доступно всем. Вот. То есть огромная работа делается. То есть это,
1:00:45
ну, если не не видеть это со стороны, это это непонятно. Ну вот, собственно,
1:00:50
поэтому раз в год я и собираю своих учеников, чтобы рассказать им о том, а
1:00:57
чем же, собственно, мы занимаемся. Вот, кажется, я
1:01:04
я рассказал какие-то вводные сведения. Александр, становится ли понятнее то, чем мы
1:01:11
занимаемся? Я вас как эталон.
1:01:17
А, да, мы исправляем ошибки, а это которые возникли при сканировании.
Исправление ошибок в сканированных текстах
1:01:25
То есть какие-то ошибки мы можем исправлять и в изначальной бумажной книге, но это более редкие случаи. А в
1:01:31
основном мы исправляем то, что, ну, неизбежно возникло, потому что когда картинку преобразуешь в буковке,
1:01:38
неизбежно в какие-то помехи там. Вот. происходит. Вот. И у нас есть планы из
1:01:45
несколько десятков книг, которые мы хотим оцифровать. Вот, чтобы в них,
1:01:50
собственно, сделать поиск. Вот эта часть понятна, да?
1:01:57
Ну, есть ли какие-то вопросы у нас? Давайте посмотрим. Аа
1:02:03
так аа про исправленную регведу,
1:02:10
но ээ там несколько тысяч правок, если не больше, поэтому как коротко
1:02:17
рассказать, как о том, как обновилась Ригведа, даже не знаем. Там проделана, а Павлом и Ириной огромная работа.
1:02:25
Вы можете показать её просто? А показать, как в смысле, что именно показать? корпусе показать.
1:02:32
Так, я же рег уже заходил. В смысле? А как там, как там понять, что изменилось? В смысле? Я имею в виду. А нет, непонятно. Да,
1:02:38
ну дада. Просто как бы простого способа это продемонстрировать нету. Вот.
1:02:43
Агенер. Так, а вот здесь, например, вот я вижу
Проблемы с французским текстом
1:02:50
лажа, то есть она закрасилась. То есть французское слово эмблема, а частично
1:02:57
распалась на части, чего не должно было случиться. То есть, ну вот я вижу здесь
1:03:03
некую оплошность. Вот здесь, например, получается, в общем, как я вижу, проблема у нас с
1:03:09
французским, то есть у нас частично закрашены курсивом, частично нет. Я не
1:03:14
знаю, там исходные книги разве там так? В общем, не знаю, не ручаюсь, надо проверять. Вот. Но мне кажется это
1:03:21
немножко странным, что здесь арать целиком курсивом и цветом, а здесь
1:03:26
частично. То есть может быть и так, но что-то мне подсказываешь. Там там менялся этот скрипт раскраски и
1:03:33
возможно он не подтянулся. Я Ага, ясно. Ну то есть, в общем, незначительный техни рабочий момент, да.
1:03:39
Да. А это уже как бы такие, это такой улушай. Вот.
1:03:45
А а вот здесь я вижу слово, которое невозможно. Влшва невозможно. В санскрите,
1:03:52
я так предполагаю, там не там не виш ли,
1:03:58
Анатолий Мартович, это вот прямо ещё одна ошибка, да? Ну, в общем, меня пускать в корпус
1:04:04
нельзя. Я, как козёл, всё сломаю. Вот, соответственно,
1:04:10
ну, здесь проделана огромная работа, конечно, громадная работа. Здесь можно ещё 20 лет её делать, но на сегодня мне
1:04:17
всё нравится. Вот. А так это было что касается ригведы. То
1:04:24
есть просто так продемонстрировать, что же именно поменялось и невозможно быстро. Так, а
1:04:33
сейчас я хочу показать, я хочу открыть чат. Это не так-то просто.
1:04:42
Так, я даже немножко остановлю наш совместный показ и зайду в чат, иначе я теряюсь. Так. Значит,
1:04:51
мировой пироская литература, да? То есть мы пираты, у нас некоторые из живых, они дали
1:04:57
согласие на то, что мы используем их переводы, а некоторые уже никогда не дадут. Поэтому мы пираты.
1:05:04
Вот пираты мировой литературы. Вот. А
1:05:12
ну вот, ээ, Владислав пишет: «В хлебуста ещё жива». Ну вот я за свою жизнь Флибусто никогда
1:05:19
не пользовался. Я я сторонник Мошкова, поэтому даже и не скажу. Да, у нас своя
1:05:24
секта. Вот. А что такое компьютерная лингвистика?
Компьютерная лингвистика
1:05:32
Ну вот то, что я показал в корпусе, когда мы анализируем человеческий язык с помощью
1:05:40
языков программирования, например, когда мы пытаемся, например, а никто не
1:05:46
знает, сколько в санскрите слов. И я пытаюсь ответить на этот вопрос. Вот
1:05:52
мы посчитали на сегодня, что в санскрите 400.000 слов. Чтобы это сделать, не
1:05:57
потребовалось 15 лет подготовки. чтобы ответить на этот простой вопрос.
1:06:03
Но это ещё не окончательный ответ, это промежуточный ответ. Вот на сегодня так вот. И чтобы это сделать, я сам этим
1:06:11
занимаюсь и обучаю наших учеников, у которых есть навыки программирования, э,
1:06:19
содействовать моим разысканием, да? То есть это практическая подмога для
1:06:26
при переводов, Ольга права. Так, чем мы можем помочь? Ну вот, собственно, мы сейчас на примере Александры. Она, а,
1:06:34
покажет свой экран чуть позже, и мы попробуем продраться через наши
1:06:40
инструкции, чтобы каждый для себя понял, посильна ли ему эта задача.
1:06:48
А Ольга спрашивает: «Можно добавить
Альтернативное отображение текста
1:06:55
альтернативное отображение текста? альтернативной в смысле деванагори
1:07:01
или что такое альтернативная? Да. Да. А, ну, конечно, можно. А, пункт первый.
1:07:07
Не хватает рук. Да, можно. Это Это же не на печатной
1:07:14
машинке надо перенабирать, но даже вот это не на печатной машинке всё равно
1:07:19
затратно по времени. Поэтому не хватает добровольцев. Вот у нас не хватает и
1:07:26
простых смерть. А можно же в автоматическом режиме встроить эту машину.
1:07:31
А кто будет настраивать все эти машины, Оля? Кто будет все эти макросы? Вы
1:07:38
с волонтёрами, программистами. Я просыпаюсь в 4:00 утра и ложусь неизвестно когда. Я не могу больше. Я
1:07:46
вот что могу, то делаю, а больше не могу. Не, ну просто альтернатива тому, чтобы
1:07:51
перенабирать и перепроверять текст на Дванаре. Хотя на самом деле я считаю это прекрасная практика для того, чтобы
1:07:58
быстрописьность, чтобы она в голову вложилась. Но не в размеры из 120.000 лота.
1:08:05
Нет, нет, конечно. А вот как автоматом ист в Даванаре делаем. Марвич, мы уже решили, мы
1:08:11
сделаем кнопку переключения как бы между этим вот золотым между истом и деванагоре и всё решим. Мы
1:08:19
идём к этому. идёт к тому, чтобы для тех, кто уже владеет письменностью Деванагори,
1:08:27
чтобы, ну, в том числе для поиска, да, потому что если вы вобьёте что-то в поиск, что существует только в
1:08:33
Деванагоре, вы это не найдёте, да? То есть вы должны понимать, что интернет он не настолько
1:08:40
умный, да? То есть, если что-то есть в Деванагоре и нету в транслитерации, вы это не найдёте и наоборот. Поэтому
1:08:47
по-хорошему надо представлять по-разному и в Кириллице, и в Даванаре, и латинице.
1:08:55
Вот всеми разными способами, до какихто только можно додуматься.
Поиск и статистика
1:09:03
Так, волонтёры создают историю, да, волонтёры наши пишут историю. И на самом деле я считаю, что, ну, наше наше это
1:09:11
начинание достойно всяческой похвалы. Вот. И хочется, подождите, вы пропустили ещё запросы?
1:09:18
Какие запросы? Мои запросы. Вот добавить, как на сайте Оливера поиск. Если уж у нас
1:09:24
используется корпус как подмога при переводах, подмога при понимании
1:09:31
практики применения тех или иных выражений, то можно ли добавить, вот как на сайте Оливра или как вы
1:09:36
продемонстрировали на сайте Национального корпуса русского языка, вот эту поисковую машину по лексимум и
1:09:43
чтобы ещё выдавало, как у Оливера статистику м по использованию той или
1:09:49
иной формы? А сейчас давайте тогда покажу экран и
Введение в корпус Оливера Хельвига
1:09:55
покажу, о чём, собственно, говорит Ольга. У нас есть такая шайтан машина,
1:10:03
как корпус Оливера Хелвига. Это не параллельный корпус.
1:10:11
Тут нету переводов ни на русский, ни на немецкий, ни на английский.
1:10:17
А в разделе quy есть запрос,
Поиск слов в корпусе
1:10:23
введём простое санскритское слово. Какое слово, например, Ольга? Без диакритик,
1:10:28
только чтобы не дхарму введеть. Вот я я тоже хотел дхарму. Думал, может
1:10:34
быть, кто-то что-то интереснее предложит. Ладно, нажали самые распространённые. Нажали Enter. И вот нам результат
1:10:41
открылся. Только один вариант. Нет, я хочу слово, где больше, чем один вариант. А, например,
1:10:47
карман. Сейчас посмотрим. Тоже будет один. Один. Да, мне интересно.
1:10:56
А, возьмите отман. Отман. Он будет сейчас так
1:11:03
тоже один. Нет, не интересно. Я хочу показать, что там бывает несколько. Ну ладно, возьмём глагол. Вот вы видите,
1:11:08
что хотя бы, в общем, бывает два варианта, то есть бывает больше, чем один. Ну, допустим. Ладно.
1:11:14
Вернёмся к Дгарми. Нажали. То есть встречается она 12.000 раз среди 500.000
1:11:22
предложений.
Анализ результатов поиска
1:11:29
Ой, как-то тут Ага. Нет, всё, сайт просто не сразу весь загрузился. А, и нам интересно
1:11:36
раздел meaning здесь бесполезный. Это совершенно бездарно. Здесь просто из
1:11:42
нашего самого популярного словаря Мония Вильямса взяты грубо выдраны переводы и
1:11:49
отсортированы по алфавиту. Это насилие над э над словарными процессами. То есть
1:11:58
это сюда смотреть не надо, это зло. Вот. А вот раздел, например, nominal forms, а
1:12:05
в случае глагола там был бы verbal forms. Вот это, конечно, то, что интересно. Вот мы видим, что в основном
1:12:12
слово дарма, ну, не в основном, часто встречается в именительном падеже
1:12:18
единственного числа мужского рода. А если что-нибудь чаще, а чаще ничего нету. Частенько ещё она встречается в
1:12:25
винительном падеже, но уже всё равно реже. Вот и хорошо. Значит, мы захотели,
Морфологический разбор
1:12:31
чтобы мы показали веде, где она встречается в в винительном падеже. И
1:12:37
вот в Чандог у Понишады мы клацаем и попадаем
1:12:44
прямо на это конкретное место. Клацаем левой кнопкой мышки на это место. И у
1:12:49
нас здесь мы видим морфологический разбор.
1:12:56
Данные об этом морфологическом разборе нам доступны,
1:13:02
но чтобы полноценно встроить это вот сюда, в частности в Ригведу,
1:13:08
нужны программисты, возможно, нужны деньги. А, да, чистыми
1:13:15
энтузиастскими усилиями. Это нам уже не посильно скрестить. Это возможно. Мы
1:13:21
идём к этому. Но долог путь. Если мы не заручимся поддержкой, ну,
1:13:27
пожалуй, несколько десятилетий потребуется. Вот. То есть тут можно клацнуть на каждое слово.
1:13:33
Соответственно, вот у нас тут написано, а,
1:13:39
сахуча. Вот садху нажали и попали в слово садху. Уже
1:13:45
опять же в раздел forms. Нет, случайно нажал другой раздел. Nominal forms. И мы
1:13:53
видим, что тот же садху, он встречается иногда и в звательной форме, то есть о а
1:14:03
праведник. Вот о праведник. Вот что встречается он,
1:14:08
значит, вот у нас в вокативе. Вот. То есть это отдельный большой а разговор
Возможности корпуса
1:14:15
для тех из вас, кто сейчас начали обучение в группах по грамматике
1:14:21
санскрита с нуля. Эти инструменты вам будут демонстрироваться. Я пока а тут не
1:14:30
показываю все возможности этих ресурсов, но что здесь важно? Здесь есть
1:14:36
морфологическая разметка, изредка даже синтаксическая разметка.
1:14:42
Вот если нам получилось бы её внедрить в наш а
1:14:49
санскритско-русский корпус, это была бы великая победа. Вот
1:14:55
ответил я, Оль, нали на вопрос. Да, раззадорили, как всегда.
1:15:02
Раззадорил. Ну, конечно, я для этого и есть, чтобы вас раззадорить, чтобы ваш аппетит проснулся и вы записались в
1:15:10
отряды добровольцев. Итак, а есть ли какие-то вопросы пока по тому, что было,
1:15:16
устно или письменно?
1:15:21
Есть ли какие-то вопросы из того, что я показывал пока перед тем, как мы переключимся на режим обучения бойца?
1:15:32
Это не океана, вы показали? Нет, я не показывал, потому что я показываю А я даже не знаю сейчас, ну
1:15:41
а я показываю экран браузера же сейчас и подумаю,
1:15:47
что не зависнет ли у меня тут всё. Могу попробовать. Я просто боюсь, что
1:15:56
Ладно, попробую показать наш поисковик. Просто боюсь, что как бы это нас далеко
1:16:02
не не увело. Так, а я включу другой режим показа.
1:16:09
Мм или Оль, у тебя стоит сейчас пак не на твоём компе.
Использование «Пахта не океана»
1:16:16
А ты можешь, пожалуйста, тогда расшарить экран и показать, как ты сама пользуешься пахтаним?
1:16:23
Конечно. Так, сейчас я его найду.
1:16:30
Ну вот он у меня.
1:16:38
Видно, да? Сейчас мой экран видно.
1:16:43
Видно, да? Что-то со звуком слушалось. Видно, видно. Угу. Ну вот, например, я тут недавно
1:16:50
переводила пахнение океана из Махабхарыты историю про пахтание океана с одними из
1:16:57
своими группой учеников. То есть у нас есть а фрагмент из Махабхараты, который называется Пахтани
1:17:03
океана. И сама программа называется пахтание океана. То есть разрабатывала
1:17:08
пахтание пахтанием. Да. Разрабатывала пахтание. пахтанием, поскольку у меня группа йогов, они
1:17:14
пахтают постоянно во всех сферах. Мы решили этот эту историю перевести, и
1:17:19
пахне океана программка в этом деле нам большое подспорье. Вот они, правда, этим
1:17:25
не пользуются. Я им пользуюсь им потом рассказываю, показываю, но по крайней мере они пользуются моими плодами,
1:17:31
потому что программку эту надо, конечно, заслужить ээ активным участием в некоторых семинарах,
1:17:37
да? То есть смотрите, получается, есть вещи, которые можно купить за деньги. Пахта не океана за деньги купить
1:17:43
невозможно. Только, ну, собственно, почему и я вас привлекаю как добровольцев. То есть
1:17:49
добровольцы получают доступ к пахтани океану, а купить доступ невозможно.
Поиск слов в «Пахта не океане»
1:17:55
Да. Почему идём все волонтёрить? Потому что объём информации и плюшек, который сваливается, он иногда невыносим.
1:18:04
Требуется передышка от такого количества больших плюшек. Но пахне того стоит. Ну
1:18:10
вот, например, забила в поисковике слово щёка,
1:18:16
тоска печаль. И, э, выпадает список и в словарных статьях. У меня поставлен
1:18:22
сейчас поиск по всему, что у нас есть в Пахне. Это и словарные, это
1:18:28
дополнительные книги. Вот индийская философия, например, энциклопедия
1:18:35
это первоисточники и всякие разные другие комментарии. Вот
1:18:41
такой большой список, где встречается слово щёка. И дальше мы
1:18:47
начинаем, например, если у нас работа со словарными статьями, мы проходим по интересующимся нам, ну, словарным
1:18:54
статьям. Вот, например, у эра
1:19:00
скорб печаль. Можно пойти дальше. Как это слово укасовича? Причём в словаре укасовича, а самая большая словарная
1:19:08
статья начинается на а. А — это отрицание. И фактически весь словарь через отрицание
1:19:14
запихнут в в у Косовича в одну статью,
1:19:20
потому что можно просто щёка, а можно ащёка. То есть щёка печальный. А щёка без печально. С косой очень можно так
1:19:26
работать. Есть прекрасный словарь Фриша. Он мне очень нравится в последнее время он прямо такой, аэ,
1:19:34
подходящий для махабхарыты, для ромаины и подходящий очень для Рыгведы. Кстати,
1:19:41
тоже такой подбор слов именно та такого периода. Очень интересно. И старые
1:19:48
русские слова тоже попадаются. Вот словарь фриша. Ну, тоже есть варианты. Вот жара, печаль, горе, скорбь. Ну,
1:19:53
пожалуйста, выбираем Кочергина. Расширенный по сравнению с учебником
1:19:59
словарь. Э, ну, он такой очень учебный,
1:20:04
учебный, он мне не очень нравится, но иногда помогает для выполнения домашек по учебнику Кочергиной или Бюлера того
1:20:12
же. Можно заглянуть м другие статьи из первоисточников, как это слово
1:20:18
употребляется в той же регведе. То есть, если слово встречается в
1:20:24
регведе, значит, что оно древнее, да? То есть для нас нету источника древнее
1:20:31
ригведы. И если слово встречается в регведе, нам интересно, в том значении или поменялось значение
1:20:39
со временем? Ну вот, например, в рыгведе щёком явно печаль. Так что у нас тут? Ну, кстати,
1:20:47
не всегда из рыгведы понятно, как означает, что означает это слово. Понятно, да? Да.
1:20:52
А, и когда это непонятно, мы тогда лезем в словари смотреть.
1:20:58
У нас есть отдельный словар для ригведы. Да, смотрите, как словар там.
1:21:05
У нас есть словар Грасмана санскритско-немецкий, поэтому это уже отдельный ещё на
1:21:11
вот. Но, ну, это это не в Пахне, это уже в другом месте. Это уже в браузере надо открывать
1:21:18
другое. Копать можно глубоко и долго. Вот. Но этот результат
1:21:23
он даёт возможность для размышлений. Вот, то есть посмотреть.
1:21:28
Ну, кстати, рядом щёка была как жар. Вот он здесь как жар, кстати.
1:21:33
Угу. Кстати, редкое значение щёка вот в более поздненой литературе оно всё-таки как
Анализ значений слов
1:21:39
печаль употребляется, а в ведейский период это, оказывается употребляется и как жар. Вот тоже интересно. Вот ещё в
1:21:46
регведе в в инструменталисе, плюралисе, да,
1:21:52
по-моему, получается, да? Жаром. Вот опять-таки жаром выжги их сердца. От значение щёка я, кстати, не ожидала. Я
1:22:00
обычно привыкла это слово употреблять в значении печаль. Вот. А тут, оказывается, в регведе в
1:22:05
другом значении употребляется. Вот это вот получается, что печаль печаль это
1:22:11
результат некого поджаривания. Да. Да. Но у нас, кстати, из печали же
1:22:17
шлоки родились. Ну, конечно, у нас в Романе в первой главе сказано, что размер шлока родился
1:22:25
из печали, то есть из шоки. То есть, если не хотя бы поверхностно изучать
1:22:32
санскрит, то красоту этого, а, пояснение
1:22:37
не понять, что одно слово шлока родилось из другого слова шока, а всего лишь
1:22:44
потому, что из-за созвучия, из-за созвучия санскритских слов. Вот
1:22:50
вот уже в более поздней литературе же в классический период щёка используется уже в значении привычным скорбь.
1:22:59
Покажи, пожалуйста, ещё окошко поиска ещё раз и посмотри, покажи какой-нибудь результат именно поиск, например, какого-нибудь русского слова или только
1:23:05
санскритские слова ищешь в корпусе? Да, разные я ищу. Просто у меня тут в истории забиты санскритские слова. Ну
1:23:12
хорошо. А савитри наберём на русском языке савитри.
Поиск русских слов
1:23:19
Саветри. И сколько получается он будет искать сейчас? Несколько секунд. 3 секунды. То есть,
1:23:24
ну, скорость на Оль, чувствительность к регистру букты с маленькой набрала, поэтому
1:23:31
Угу. Видите, у неё галочка стоит, ээ, чувствительность. Покажи, где галочка стоит у тебя.
1:23:37
Да я знаю. Я не знаю, где она у меня стоит. То есть я на неё не смотрю обычно сверищ.
1:23:44
Вот. То есть, в смысле, есть разница тут с большой или с маленькой буквы, если там стоит галочка, да? Ну вот с
1:23:51
маленькой 73 варианта. А с большой буквы, как нормальные люди ищут, вот 176
1:23:56
вариантов. Мы по-взрослому возьмём 176. Вот. Ну, как всегда у нас это слово
1:24:02
попадается в словарных статьях и в в дополнительной литературе, как Мартис Юрьевич выразился, книги о книгах.
1:24:09
Что говорит индуизм, джонизм, секхизм? Ага. Вот вот здесь вот, да, вот здесь вот такая
1:24:16
штучка есть. Ещё можно в внутри других статей попадается савитри. Вот она
1:24:21
жёлтеньким подсвечивается. А можно так вот ещё поскакать и переходить от одного к другому?
1:24:26
Да, поскакать, поскакать, пока вот мы не дойдём до статьи, которая непосредственно савитри посвящена. Её
1:24:33
также можно цитировать, как Март Фюрич показывал на цитате из Ригведы. И она в
1:24:38
итоге м ну куда-нибудь и цтабельно, да, с указанием к книге, откуда она
1:24:46
взята, кто автор непосредственно этой статьи. Э, ну, цитировать удобно. Если
1:24:52
вы смотрели в обществе ревнителя санскрита посты всякие на отвлечённые темы, не про книги, там как раз
1:24:57
использовался вот этот поисковик пахне океана для цитирования. Вот. Так что вот
1:25:03
так вот. Савит можно. Можно также проскакать, посмотреть потом, э, что у
1:25:08
нас написано в Махабхарате. А, кстати, вот мифы о народов мира про Савитри. Это мы там дальше как раз проскакали. Можно
1:25:14
посмотреть, что про Савитри писали в Махабхарате, в Ромаине она упоминается,
1:25:21
ну и в других вот источниках. [музыка] То есть вы понимаете, что а чтобы это
Преимущества использования корпуса
1:25:26
сделать вручную, потребовалось бы десятилетие. Угу. А здесь, а здесь буквально раску
Введение в проект
1:25:33
для научных статей, для каких-то изысканий очень удобный инструмент.
1:25:39
Прямо я радуюсь, не нарадуюсь, что люди этим занимаются и пополняют сокровищницу
1:25:44
текстов. Большое им спасибо. Да, то есть как бы этот корпус он, ну,
1:25:51
тут много сотен людей потели
1:25:57
больше 10 лет. Дюжину лет уже тут много кто голову сложил. Вот.
Начало работы в проекте
1:26:05
Угу. Ну вот это, собственно, поиск. Хорошо. А, наверное, достаточно насчёт факта.Бо.
1:26:12
Спасибо, Оль. А, так, есть ли какие-то вопросы
1:26:19
из того, что было сейчас? То есть или сейчас покажем на примере, как, собственно, а с чего начать, да? То есть
1:26:26
как бы как человеку влиться в наш дружный коллектив, если вопросов нету. Нету вопросов.
1:26:36
Вопросик есть такой. Мы же не будем заниматься пока поиском слов, мы же просто будем смотреть и править. Да,
1:26:43
да, да, да. Как бы это Ольга показала, что из этого можно получить.
1:26:48
Угу. Прекрасно. Надстройки, да? А ваша задача база.
1:26:54
Угу. Создание базы для разных наших надстроек. Вот там нейронки, которые я
1:27:00
показал. Вот наша программка пахтани океана. Это надстройки на основе базы. А
1:27:06
вот как делать базу? Ну вот давайте тогда, Александра, я вас прошу показать экран, а показать наш чат
1:27:13
добровольческий и, собственно, попытаться вместе с вами пройти путь, а
1:27:19
как стать частью этого процесса.
Взаимодействие в чате
1:27:24
То есть у нас переписка. А мы переехали из ВКонтакте в Telegram. Впрочем, и в
1:27:32
группе Телеграма, навероятно нужно будет провести чистку, потому что большинство
1:27:38
участников этой группы перестали подавать признаки жизни. И это создаёт
1:27:46
иллюзию того, что нас много. А на самом деле активность чистов она сегодня
1:27:52
четыре человека. Поэтому нет, нас не 48, нас четыре человека. И именно для того,
1:27:59
чтобы нас было не четыре, а хотя бы восемь, я сегодня и рассказываю о том,
1:28:04
что же мы такое делаем. Итак, Александр, тогда озвучивайте вслух, как вы
1:28:09
рассуждаете. А, в общем, Угу. Хорошо. Ну, вот у нас
1:28:15
Telegram-группа корпус подготовка текстов. Выхожу в закреплённое сообщение, захожу в инструкцию.
1:28:22
Инструкцию я прочитала, правда, ну, достаточно давно, и вроде здесь как и благополучно забыли уже. Угу.
1:28:29
Ну, как забыла, я вроде всё поняла, но я не поняла, откуда брать файлы. Точнее, я
1:28:34
поняла, вот ход работы. И здесь много-много файлов. Угу. Вроде бы
1:28:39
и надо вписать себя напротив какого какой-нибудь части
1:28:44
из того, что сейчас в процессе, да? То есть именно получается в чате можно спросить: «А что сейчас в приоритете?» И
1:28:51
допустим, э кто-то из наших старейшин а подскажет, что сейчас
1:28:58
актуально не буддийский словарь, а, допустим, третья читка, а, драм, а, то
1:29:05
есть пьес бсы. Вот, то есть, допустим, вот такой вот сценарий. То есть как бы чат для того, чтобы знать, а что в
1:29:13
приоритете? Или, например, если вам что-то вот здесь понравилось, то вы сами выбирайте, отмечайте себя напротив этого
1:29:20
и, собственно, приступайте к работе. Один человек работает над одним
Распределение работы
1:29:26
произведением. Так, како нет, мы произведения у нас обычно достаточно крупные,
1:29:32
мы их дробим на части. Один человек работает обычно над частью произведения, не над всем произведением
1:29:39
сразу. Вотхадут — это маленькое произведение. Там один человек, но тоже
1:29:45
один человек, но три разных человека в разное время, чтобы проверить за тем, кто проверял прежде. А здесь как бы
1:29:53
разбивается на меньше единицы. То есть вот сколько строк, столько и частей получается для того, чтобы как раз люди
1:29:59
не пугались. Потому что когда мы изначально, а вот мы распознаём и
1:30:04
словари, например, санскритско-русские словари, и мы столкнулись с тем, что люди устают. Если им сразу выдать
1:30:11
большую порцию, они теряются. И мы стали там дробить там по 100 статей
1:30:17
на человека. И вот такими шажками мы продвинуться смогли. И работу завершили.
1:30:24
А так мы стопорились и тонули. Вот. Угу.
1:30:31
А вот, например, вот этот файл, ну вот у меня здесь Ведор Ведорхасамграха,
1:30:38
предположим, глава один вишишта адвайтавиданта.
1:30:45
Давайте какой-нибудь другой пример. А я сейчас Этот файл у нас создан на основе оцера.
1:30:51
М голос из облака.
1:30:57
Нет, молчит голос из облака. Возьмём, давайте другой-нибудь файл. Давайте проедем куда-нибудь в другое место. Вот.
1:31:03
Дада. Да. Вот где не заполнено. Просто здесь всё заполнено. В смысле? Вот Ксения там всё вычитала. А какой-нибудь
1:31:10
где? Вово. Сейчас вот вернитесь там, где были пустые, а пустые пустоты были.
1:31:15
Здесь всё всё заполнено. А вы можете использовать мой экран? Да, я могу перехватить экран, но сейчас
1:31:21
нет необходимости. Это самое, а просто вот сейчас кроме этого просто будут ещё другие разделы, где есть пустота. Здесь
1:31:28
всё здесь всё пустое, а там было такое, где только частично заполнено. Сейчас смотрю.
1:31:35
А, ну вот, например, здесь, а, Ольга, вот,
Проверка текстов
1:31:40
вернитесь, Ольга, вот она бывала, читала невнимательно,
1:31:46
поэтому за ней можно прочитать второй круг. То есть вот взять, допустим, вот от
1:31:52
редакции эту статью прочитать на второй круг и убедиться в том, хорошо ли Ольга,
1:31:58
внимательно ли она прочитала хитоподдешу. Вот. Угу. Понятно.
1:32:05
А ориентироваться на то, что написано исправление. Исправлений немного, много исправлений,
1:32:11
да. Ну, получается, нам для ориентира, то есть не надо прямо каждую каждую опечатку подсчитывать там.
1:32:18
Это не, ну просто в целом понять, там было ноль правок, две правки или 200
1:32:25
правок. Это разная степень, так сказать, чистоты текста. Вот
1:32:32
я правильно говорю, что здесь аэ по-хорошему нужен второй круг чтений,
1:32:42
да? Ну вот как бы как я, если я правильно всё понимаю, то тут по-хорошему бы три
1:32:47
круга, но хотя бы два. Вот тут получается
1:32:54
три круга у нас обычно для того, что переиздаётся. Ну хотя бы два. В любом случае там один.
1:33:00
Ну да. Соответственно, второй круг там точно не помешает. Вот тут получается сперва читала Лира, а потом читала Анна. Лира
1:33:07
бывает тоже спешит и оставляет какие-то неточности. Поэтому вот как бы два чца
1:33:12
на одно произведение, на одну часть одного произведения. Вот. Становится ли
1:33:18
понятнее, Александра? Не совсем. Вот сейчас страничка. Глава
1:33:23
четыре пусто. То есть сюда теоретически можно вписать себя. Мы предполагаем, что там никто это не
1:33:29
читал ещё. Март Сюрьвич, поднимитесь. А не Март Сюрьвич. Александр, поднимись наверх. Ну
1:33:37
как бы документы. И тут нужно понимать, что вот вот с этим документом уже завершили работу. Просто
Управление документами
1:33:43
наверх вообще наверх. Самый верх от всего документа. Да,
1:33:51
вообще наверх. Да, сейчас 108 страниц не так-то просто пролистать.
1:33:56
Да, я без мышки просто. Ага, всё. Да, вот справа раскрой, слева раскрой
1:34:03
оглавление. Слева там иконочка такая с тремя
1:34:09
с тремя. В общем, там такой кружочек. Ниже, ниже, ниже, ниже, ниже. Вот он. Да, вот это важная вещь. В работе, видишь?
1:34:18
Вижу. Да. Вот то, что в работе, это в работе. И это как раз и прилагает готовое. Вот то, что мы смотрели, это
1:34:23
уже готовое. Оно может быть и не безупречное, но для данной стадии достаточное.
1:34:30
Да. Угу. Да. Да. То есть фактически у нас только вот облако вестник и то с ним уже завершили
1:34:37
работу. Сейчас, в общем-то, философия буддизма, основной документ. Аруни Беруни, а Беруни завершён.
1:34:44
Нет, Беруни у нас отдельная работа. Кто-то там записано, если щёлкнуть на
1:34:50
нём, то вы увидите, там записано, кто работает над Беруни вниз. Кто у нас работает над Беруни?
1:34:56
Елена Трифилова. Что-то она давненько признаков жизни там не подавала. Ну, нужно её спросить,
1:35:03
да. Я поэтому считаю, что туда можно подключить ещё человека, потому что Елена очень внимательный чтец, но боюсь,
1:35:10
что она не скоро туда доберётся до конца. А Беруни огромен. Это эта книга на 1.000 страниц, поэтому там явно нужно
1:35:16
подкрепление.
Работа со словарями
1:35:23
Вот у нас много работы с словарём по буддизму.
1:35:29
Это огромный там пласт работы вот философии буддизма. В работе философии
1:35:34
буддизма это огромный пласт работы. То есть
1:35:40
А, да, вот вижу вот эти вот буковки. Угу. Угу. То есть можно на себя взять буковку
1:35:47
я. Но там требуется не прямо несовершенная
1:35:53
вычитка, да, поскольку мы её будем использовать просто для поиска, да, там,
1:36:00
то есть у нас есть разная степень доточности. Здесь не надо прямо вылизывать,вылизывать, хотя бы так,
1:36:05
чтобы буквы опознавать. Главное, чтобы словарные статьи как бы
1:36:12
совпадали, были правильными. Вот это самое главное.
1:36:20
Ну, в общем, здесь понятно. Находим. А на всякий случай я напишу в чате, когда
1:36:25
что-то най А получается, в чате всегда можно уточнить, собственно, вот согласно этому документе
1:36:31
в процессе, в работе, то есть вот, например, здесь написано в работе облако вестника, а по факту работа над облаком
1:36:36
вестником уже завершена, он висит на сайте. Вот. Хотят, ну, то есть мы не успеваем синхронизировать все процессы,
1:36:44
поэтому здесь попытка синхронизации, но она не всегда актуальная, поэтому она
1:36:51
близка к истине, но не окончательно там находится.
1:36:56
А могу я перейти в инструкцию? А, конечно. То есть здесь было распределение работы.
1:37:02
Вот. Угу. А, ну здесь я поняла, что есть ошибки распознавания, которые мы просто
1:37:09
правим. И есть опечатки, где нужно комментарии добавлять. Да, соответственно, мы исходим из того,
1:37:14
что на 10 на 100 ошибок распознавания
1:37:19
хорошо, если одна опечатка будет настоящая, то есть из изначальной
1:37:25
бумажной книги. А 99 будет именно, ну, нами
1:37:31
привнесённые.
1:37:36
Угу. Здесь понятно. Нужен ли шрифт санскрита для работы?
Работа с диакритиками
1:37:43
Нет. Ну и даже если потребуется, его можно установить, это не проблема. Но нет, не нужен.
1:37:51
Угу. А вот эти буковки, где, например, а с подчёркиванием верхним, оно всё.
1:37:56
А тут есть два варианта. А вы можете их копировать из нашей заготовочки.
1:38:04
Это не очень удобно, но если редко, то не страшно.
1:38:10
А, и вы можете использовать на Windows программку Keys Swap, которая весит
1:38:18
несколько килобайт и позволяет, э, одним нажатием на клавыши вставлять вот все
1:38:25
эти диакритики. То есть есть для винды есть простой способ, как управлять
1:38:30
диакритиками. Но большинство текстов диакритик Александра не требует. Мы же
1:38:36
работаем именно с русским текстом, в основном с русским переводом. Это был там в регведе всё в перемешку. Санскрит
1:38:44
и русский там сложно, но это редкий случай. В основном мы работаем с простыми текстами.
1:38:53
В комментариях небольшое вкрапление ээ латиниц.
1:38:58
Ну, в общем, в конце книг там бывает, да, ну, опять же, не, ну, в общем, ограниченное количество. И
1:39:05
то есть один вариант — это копировать Ctrl C, Ctrl V, но это замучаешься,
1:39:10
если делать долго и много. А так получается, вот у нас есть такая программка, называется Key SWP,
1:39:19
которая даёт возможность работать с разными диакритиками, то есть разными значками особенными.
Призыв к добровольцам
1:39:27
Собственно, вот как раз вы и долистали до этой программы. Угу. В целом всё понятно. Нужно просто
1:39:33
взять, сделать один раз пройти, и станет ещё более понятно. Ну вот, собственно, что к чему я и
1:39:40
призываю этой осенью попробовать себя в рамках добровольца,
1:39:48
чтобы принести пользу для нас, ну и чтобы нам был повод предоставить вам доступ к пахтаннию океана.
Важность постоянства
1:39:57
Можно вопрос? Да. Что по скорости? Если я не располагаю достаточно большим количеством времени,
1:40:02
буду потихонечку делать. Единственное, что меня интересует — это постоянство.
1:40:07
Угу. Вы можете работать 5 минут в день, но каждый день. Это лучше, чем человек, который работает 2 часа раз в месяц.
1:40:16
Постоянство единственное, что меня интересует. Объём работы может быть ничтожно мал и
1:40:24
или велик. Это уже как каждый может и хочет. Меня интересует одно, чтобы из из
1:40:31
месяца в месяц продолжать грызть. Рано или поздно это надоест, но пока не
1:40:37
надоело, грызть. Понятно.
Значение работы добровольцев
1:40:44
А отключаюсь? Да, можно, можно, можно отключить, наверное, да?
1:40:49
А чтобы вы понимали, что эта работа не, ну, просто забава, я вам расскажу
1:40:55
историю, что вот вторую, вторая редакция, новый перевод
1:41:01
третьей книги Махабхараты сделан с помощью тех файлов, которые
1:41:10
подготовили наши добровольцы. То есть иногда наши наработки становятся частью
1:41:18
книгоиздательского процесса. То есть вы можете приблизить день издания
1:41:27
Махабхараты и Романы на русский язык. То, что вы делаете, это не просто
1:41:32
потому, что мне нравится вас гонять. В этом есть некий смысл.
1:41:38
Вот. Аа,
Разнообразие задач
1:41:43
то есть нужны разные люди для разных задач. То есть одна задача распознавание, другая задача тут нужно
1:41:50
программирование. Много много задач. По-хорошему для каждого
1:41:56
этих этих 100 произведений надо было бы сгенерировать красивую картиночку, чтобы
1:42:01
мы, когда рассылаем ссылочкой, чтобы у нас была красивая превьюшка. Вот. Они просто голая текстовая ссылка. То есть
1:42:08
место для творчества найдётся каждому. То есть чем мне нравится санскрит и наша
1:42:14
вот деятельность около санскритская — это возможность быть творческим,
Цели и перспективы
1:42:22
вместе, создать некий такой ресурс.
1:42:27
Я один могу быть умным, могу быть глупым, это ни на что не влияет. Но
1:42:33
когда мы вместе работаем, то получается здорово. Как я уже сказал, нету аналогов
1:42:40
в мире. То то, что начал делать Willd Library, это классно.
1:42:45
А это очень это на самом деле очень здорово, но это на английском языке, а я
1:42:50
хочу на русском. А я хочу, чтобы все основные значимые переводы были нами
1:42:56
усвоены. Вот. Не знаю, если получится, например, постепенно, например, перевод Андрея
1:43:01
Игнатьева сюда включить. Да, то есть потому что это будет ещё один одно
1:43:07
направление, ещё один жанр литературы будет охвачен. Вот работы много. Работы
1:43:14
хватит на несколько сотен лет. Вот наше дело начать.
1:43:21
Вот. Есть ли какие-то вопросы?
Вопросы и ответы
1:43:34
Вот у нас присутствует Юрий, Марина, Елена, Анна, Александра, Рада и Дина. Есть ли какие-нибудь вопросы из того,
1:43:41
что вы услышали, увидели по стало ещё непонятнее? Есть ли кто-то,
1:43:47
кому стало окончательно непонятно, чем мы занимаемся? И так было непонятно, а сейчас ещё хуже.
1:43:53
Всё понятно, Масиви. Ясно. Вот Рада, например, понимаете, она
1:43:58
выучила русский язык для того, чтобы учить санскрит. Вот живя в Болгарии. А вы жалуетесь на то, что вы в Москве
1:44:06
значит что-то там не так. Человек преодолевает такие трудности,
1:44:14
что он знает, что ему это интересно. Он жить без этого не может.
1:44:20
Кроме Александра есть кто-то, кто обладает человеческим голосом?
Работа с «Панчатантрой»
1:44:28
Мартис Юрьевич, а панчатантра отсканирована есть? Да, панчатантры у
1:44:34
нас в нескольких редакциях есть. Я не знаю, какая там сейчас была
1:44:39
выставлена на распознании. У нас две редакции точно, а то и три.
1:44:48
Есть панчатантры у нас разные. В обществе ревнителяй санскрита, в частности в
1:44:55
группе ВКонтакте, если вбить в поиске панчатантра, то одна редакция там точно выложена, а
1:45:02
то и больше, потому что это моя любимая книга, и я
1:45:10
задуваю Панчатантру. Панчатантру недавно, лет
1:45:15
пять тому назад, издавала восточная литература, и я принимал непосредственное участие в этом
1:45:21
процессе. Я вёл переговоры с Александром Яколевичем Сыркиным, с нашим на сегодня
1:45:28
самым возрастным санскритологом. Ему 94. Когда ему было 91, он издал свой
1:45:35
последний перевод на 1.000 страниц. Вот.
1:45:41
Вот он перевёл, он перевёл у Панишады. А первое, что он перевёл с санскрита, это
1:45:47
как раз было Панчатан Тантра. Вот книга вышла, кажется, в общем, в пятьдесятые годы, пятьдесят четвёртом, что ли, не
1:45:53
помню. Вот это перевод. Ну я под я подключу Спанчатан,
1:46:00
да, я думаю, что там спанчатанто всё равно есть что поделать. Если вы закончили,
1:46:08
нет, там всё закончить невозможно. Там, в смысле, в любом случае мы ещё не все редакции включили, поэтому даже если по
1:46:15
одной закончилась работа, всегда можно ещё одну редакцию подключить. Вот.
«Беруне» и «Хождение за три моря»
1:46:22
Ну хорошо, тогда подумаю о Беруни. Да, Беруни — это сокровище. Беруни — это
1:46:28
так интересно. Представляете себе, Беруни — это первый в мире эндолог.
1:46:33
Тысячи лет тому назад на арабском языке он написал книгу про Индию, и она не
1:46:40
устарела ни на йоту. А её так интересно читать. Ну то есть
1:46:45
там, конечно, есть технические разделы, которые нужны для астрологов
1:46:51
и для по древнеиндийской астрономии. Там жуть, конечно. Вот. Но там есть много
1:46:57
общих разделов, которые жутко интересны. Потом каковы индусы? О, просто огонь.
1:47:07
Просто огонь. А хождение за три моря — это уникальное.
1:47:14
Уникальное. Уникальное. Да. Вы вы фильм же смотрели? Да. Да.
1:47:20
И первая, и вторая серия. Да. История главного актёра, который
1:47:25
рассказал. Посмотрите, посмотрите две части советского фильма. про первого русского
1:47:34
путешественника по Индии, который 500 лет тому назад оказался в Индии.
1:47:41
Вот Афанасий Никич. Вот и написал великолепные путевые заметки, просто
1:47:48
восторг. И вот на основе этих путевых заметок есть, э, двухсерийный советский
1:47:53
фильм. Просто радость для глаз. Вот и для уха.
1:47:59
Всячески советую. Ольга спрашивает: «А будет ли Карицкий
1:48:04
продолжать работу над своим переводом?» Нет, думаю, нет, Оль. Но есть много из того, что не выложено. Он же работал над
1:48:12
переводами комментариев к упанишадам. И много из этого просто, в частности, нами
1:48:18
не выложено ещё. Поэтому там огромная работа предстоит. Не знаю, кто бы это сделал, кто бы туда
Работа над упанишадами
1:48:26
пошёл. работа остановилась по направлению понижат.
1:48:32
Очень жалко. Там было вообще интересно в группе участвовать в этой рабочей. Там помимо того, что можно было и Даванари
1:48:40
оттачивать, и русский текст проверять, погружаясь вообще в эту всю философию,
1:48:46
там ещё и дискуссии были очень интересные, и переводческие нюансы
1:48:51
обсуждались. Там вообще была такая информационно очень насыщенная группа. Жалко, что остановилась,
1:48:58
да? Иногда вот годами идёт работа, потом замирает и некому ей продолжить. А, но я
1:49:04
думаю, что наши упонишадные разыскания, они продолжатся весной, а когда как раз
1:49:12
наш Иван Толченников будет вести курс, где он будет показывать и рассказывать
1:49:17
про новые переводы, ещё не переведённых у понишат на русском языке. Это будет 16
1:49:22
занятий, начиная с марта двадцать шестого года. А в октябре двадцать
1:49:28
шестого года он повторит курс традиции толкования упонишад про то, как вообще
1:49:33
работать с упонишадами. Какие ещё отклики?
1:49:40
М только у меня не получается скачать вот этот файл KW. А если совсем не
1:49:47
получится, я продублирую сейчас просто прямую ссылку из ВКонтакте. Давайте прямо сейчас и попробую это сделать.
1:49:54
Он не обнаружен. Вот если из инструкции от Давайте сейчас проверим. Да, сейчас я в смысле попробую альтернативный вам дать
1:50:00
источник. А я обновлю ссылку. Там что-то менялось. Угу.
1:50:07
Ну вот заодно можно выяснить, кто внимательно читает инструкцию Александра. Видите?
1:50:18
Извините,
Присоединение к группе
1:50:35
может быть, я пропустила. Как присоединиться к вашей дружной компании? А, ну, собственно, давайте я вам сейчас
1:50:42
напишу контакт в Телеграме, то есть наш кураторский аккаунт, а, и они выведут уже на меня, а я уже
1:50:50
дам доступ, собственно, в саму закрытую нашу Telegram-группу. То есть вот,
1:50:55
собственно, вам нужно написать, э, куратору общества ревнителей санскрита.
1:51:00
Вот я сейчас вам даю адрес. А, да, кажется, так вот я дал ссылку
1:51:07
Александра на кейс Web и продублирую сейчас её в этом нашем закрытом чате. А,
1:51:13
спасибо. Эта ссылка должна работать.
1:51:18
Вот. Дал. А, Дина, видно ли видна ли вам в зуме
1:51:25
ссылка? Вы её скопируете, потому что Да, я вижу. Это
1:51:31
это обычный наш кураторский чат. Обычный куротор. Да, вы напишите просто слово корпус, и
1:51:36
они направят вас на меня и У. Хорошо. Угу. Спасибо. Угу.
Роль женщин в проекте
1:51:50
Конечно, большая часть работы сделана нашими девушками. На плечах на плечах
1:51:56
русских женщин построена вот эта вся инфраструктура.
1:52:05
Ну, Мартирич, у мужчин другие приоритеты, поэтому,
1:52:11
ну, вот как бы я считаю, что мы дополняем друг друга, в частности, в корпусном строительстве. Вот я так думаю, поэтому
1:52:19
для Макбука есть другие приложения, не CASWB, есть другие более сложные пути
1:52:24
решения, но тоже мо для Макбука тоже можно сделать, но длиннее и сложнее. У
1:52:30
нас есть отдельный чат для санскритологов, которые пользуются Макбуком.
1:52:37
У нас на всякие случаи есть чаты. У нас есть несколько сотен чатов по санскриту для всех мыслимых задач.
Условия участия
1:52:57
Добрый вечер. Добрый вечер. Одним словом, получается, что изучаем
1:53:03
Деванагари и помогаем. А вы можете даже не знать Деванагры, как
1:53:08
бы это уже следующий уровень. То есть вы вообще можете ничего не изучать из
1:53:13
санскрита, но если вы имеете четыре класса образования хотя бы и работаете, умеете
1:53:21
работать с крилицей, то этого достаточно. То есть на самом деле даже деванагори это просто, если вы уже учили
1:53:27
Деванари, то вы уже начинаете видеть какие-то ошибки, которые прежде бы не
1:53:32
замечали, но можно вообще без этого обойтись и просто читать русские буквы, знакомые
1:53:40
русские слова. Всё. Этой работы очень много. Простой
1:53:47
русской работы, да? Ну, с минимальным вкраплением каких-то санскритизмов.
1:53:54
Вот поэтому, да, это плюс, но нет, это не является условием для входа.
1:54:01
Условием является усидчивость. То есть, ну,
1:54:08
наскоками раз в месяц эта работа не делается. Это бесполезно. Можно даже не начинать. Вот именно как бы некое
1:54:16
постоянство, там раз в неделю хотя бы так реже, чем раз в неделю, тут
1:54:22
бессмысленно. Те 48, которые там сейчас в чате есть, они когда-то тоже были активными, но они
1:54:28
когда-то устали. Вот. То есть там нету случайных людей. Вот. Ну, раз в год мы
1:54:34
проводим резню. Вот, видимо, пришло время
1:54:39
очистить чат. Ясно. Наполнить новыми участниками этого процесса.
Завершение обсуждения
1:54:57
Ну, у нас буквально ещё 5 минут. Кто из тех, кто слушал, а имеет ли какой-то ещё
1:55:02
отклик? Да, я убедил их. Нет, это звучит как полная фигня. Я туда не пойду. Есть
1:55:10
какие-нибудь ещё вот какие?
1:55:21
Я боялась, потому что в болгарски некоторые знаки русского языка нет. Я
1:55:27
думала, как справлюсь с этимий. Ну вы очень старательная рада. Вы очень
1:55:33
серьёзно подходите к изучению всего. Поэтому уж бояться можно только за одно,
1:55:39
что времени хватит, а уж в остальном-то вы очень вдумчиво работаете.
1:55:50
Вот Анна, например, убедил ли я вас или вы подумали, что красиво, но не для вас?
1:56:03
Вот. А-а, да,
1:56:09
Марина очень, по-моему, внимательно читает то, что мы, то есть, работает очень прие.
1:56:23
здесь. Ну ещё как бы вот мы захватили, наверное, большую часть уже переводов, какие вообще есть, но те, которые мы уже
1:56:31
захватили, надо ещё доотачивать, а какие-то надо добавлять.
1:56:36
Например, океан сказан, это ещё интереснее, чем Махабхарата.
1:56:45
И большой объём. И мы застряли. Мы увязли.
1:56:52
У нас был один чтец, и тот устал, поступил в аспирантуру.
Установка и тестирование кей-свапа
1:57:02
Извините, пожалуйста, можно задать вопрос? Конечно. Вот я установила CAS SWP, распаковала
1:57:09
папку, как написано в инструкции, в отдельную папку. И надо запустить экзешник.
1:57:14
Я запустила. И где его теперь искать? А, он ушёл в трей, то есть в право
1:57:19
нижний угол. Вот я его вижу. Да. И вот можно попробовать где-то, например,
1:57:24
в браузере написать, например, букву А латинице и после этого нажать сразу знак
1:57:30
равенства на клавиатуре. Поняла. Сейчас попробую. Просто в строке поиска,
1:57:36
где угодно. Оно должно работать везде, хоть в Телеграме, хоть в ворде, хоть на
1:57:41
сайте. Мм, а равно и что должно произойти?
1:57:47
Должна получиться а долгая, то есть а с чёрточкой на должна преобразоваться. Нет, ничего не происходит.
1:57:54
Ну вот, то есть, чтобы убедиться, чтоб правильно установлен, можно нажать, ну, вот агу,
1:57:59
ну или там не а и, у, там, где есть долготы, и сразу после этого нажать знак
1:58:04
равенства. То есть знак равенства должен исчезнуть, а долгота должна появиться.
1:58:15
Не ту же ту же йоговасишку. Я думаю, что мы
1:58:22
частями сможем добавлять тоже как бы, в общем, работы много.
1:58:27
Нужны нужны люди. Мне понравилась фраза, которую я вычитал несколько лет
1:58:34
тому назад. У Бога нет других рук, кроме наших. То есть, в смысле, надо делать,
1:58:39
но никто другой не сделает.
1:58:46
Такая неблагодарная работа никому не нужна, кроме нас. Вот.
Решение проблем с установкой
1:58:53
Могу-то я расшарить экран. Да, конечно, конечно. Бывает, что какие-то проблемы с
1:58:59
Кисвепом возникают при установке, но почти всегда получается решить. Бывает там антивирус ругается или ещё что-то. В
1:59:06
общем, давайте попробуйте расширить экран, посмотрим, что
1:59:14
маленькая. А вы пишете большую.
1:59:21
Нет, не получается. Так, хорошо. А нажмите на на трей. Откройте трей.
1:59:28
И так, сейчас ещё раз, ещё раз нажмите. Секунду. А, так я не
1:59:33
Это он. Да, вот нажмите на неё. А, ничего не происходит. Правую кнопку нажмите.
1:59:39
Так, а TO startup это тоже так. У вас она установилась. Хорошо. Add to
1:59:45
startup. Она тогда каждый раз при запуске компьютера будет сразу работать в трее. Вот это нажмите. Всё, всё у вас
1:59:52
хорошо. Отлично. То есть она будет работать приказа. Ещё раз туда дойдите.
Настройка диакритических знаков
2:00:01
А configur вот у вас знак равенства должен
2:00:07
работать. Так, нажмите apply. Угу. Ну давайте ещё раз. Значит, сразу А
2:00:12
и сразу так и фу и нажмите и изначи
2:00:18
там русская. А сейчас нужно английски. А а раскладка. Ага.
2:00:25
Вон оно что. Вот тогда понятно. Так, от русской А мы не ожидаем, да, что она станет английской, да? То есть всё у
2:00:34
вас работает, Александра, а если вы над русской, если вы над английской А дважды
2:00:39
нажмёте знак равенства, сделайте так. Сейчас вот введите ещё раз А и дважды нажмите.
2:00:45
Видите, у вас получился знак под ударением. Вот. То есть, а если нажмёте три раза,
2:00:51
то ещё получится ещё иначе. Теперь и с долготой, и с ударением.
2:00:58
Угу. Итак, можно прописать, там есть текстовый файл с конфигура, ну, с с
2:01:03
конфигурацией. Туда можно прописать любые знаки с диакритикой. То есть можно себе собрать свой собственный
2:01:09
конструктор локально и туда любой знак вписать и можно что-то убрать или
2:01:15
добавить. Вот это работает не только для санскрита. Это можно хоть для французского использовать.
Применение кей-свапа для разных языков
2:01:22
То есть не надо иметь отдельной клавиатуры, а можно просто иметь вот такую вот заготовочку текстовую. Ну вот,
2:01:30
вот если открыть файл, а config,
2:01:36
вот здесь, собственно, заданы все перемены.
2:01:46
Спасибо большое за помощь. Угу. Угу. Если получается, вы не работаете, например, с видийским, то, допустим, вам
2:01:54
с ударением, может быть, и не нужно будет. Можно даже убрать, чтобы меньше вариантов для перебора. То есть
2:02:01
вот. Ну, я рад, что вы впитываете, я вижу,
2:02:07
быстро понимаете, о чём речь. И я вижу желание разобраться. И мне приятно
2:02:14
видеть, что это кому-то, может быть, помимо меня интересно.
Завершение эфира
2:02:22
Есть ли ещё какие-то вопросы?
2:02:32
Нету вопросов. Хорошо, на сегодня тогда достаточно.
2:02:38
Этот эфир в каком-то виде повторю через год. А я надеюсь, что кто-то из тех, кто
2:02:44
сейчас присутствует, проникнется,
2:02:50
наполнится энтузиазмом и попробует себя и попробует на компе
2:02:57
почитать какуй-то перевод древнеиндийской литературы или какую-то
2:03:03
словарную статью, а из какого-то справочника в поисках каких-то
2:03:09
неточностей, которые можно устранить. для того, чтобы другим было лучше, удобнее и больше всего.
2:03:18
Спасибо за ваше внимание. Мне и правда приятно. Я боялся, что мы будем вдвоём
2:03:24
здесь. А вот потому что у нас так много событий, а особо осенью, что мы не
2:03:31
успеваем оповещать. У нас каждый день по какому-то событию,
2:03:37
и человек ещё не успел прийти в себя от вчерашнего, а ему уже сегодняшнему уже
2:03:44
придавливает. Ну я ничем тут не могу помочь. То есть мы живём очень интенсивно.
2:03:50
Ну как бы и каждый всё охватить не может, каждый что-то своё берёт. То есть
2:03:56
кому-то интересно философии, он идёт на йогосишку и на упанишады, а кому-то
2:04:01
лингвистика, а кто-то готов вот внести свою лепту. Вот все разные. Спасибо вам тогда и до
2:04:09
встречи в нашем корпусном чате. Находите меня, меня зовут Марцис Гасунс. Или
Приглашение в корпусную группу
2:04:15
находите наших кураторов через меня вы попадёте вот это местечко,
2:04:21
ну, в котором происходит волшебство. можете часть стать частью этого
2:04:29
волшебства. Какой-то отрезок путей мы пройдём вместе. Почему бы и нет? Спасибо. До
2:04:37
свидания. Хорошего вечера.

Поделиться: