Что такое регистры в языке

Регистр

Смотреть что такое «Регистр» в других словарях:

Регистр — Регистр: В Викисловаре есть статья «регистр» Регистр (цифровая техника) последовательное или параллельное логическое … Википедия

РЕГИСТР — (фр., от лат. regesta, regestum внесенное. 1) всякая общественная или частная книга, в которую записывают факты и деяния, память о которых нужно сохранить. 2) объем голоса у певцов. 3) в органах: всякий самостоятельный голос. Словарь иностранных… … Словарь иностранных слов русского языка

РЕГИСТР — (позднелатинское registrum список, перечень), 1) участок диапазона певческого голоса или музыкального инструмента, характеризующийся единым тембром. У певческого голоса различают грудной, головной, смешанный регистр; у мужских голосов бывает так… … Современная энциклопедия

Регистр — (позднелатинское registrum список, перечень), 1) участок диапазона певческого голоса или музыкального инструмента, характеризующийся единым тембром. У певческого голоса различают грудной, головной, смешанный регистр; у мужских голосов бывает так… … Иллюстрированный энциклопедический словарь

РЕГИСТР — РЕГИСТР, регистра, муж. (от новолат. registrum из regestum внесенное, записанное). 1. Список чего нибудь, реестр; Указатель, книга для записей (спец.). || Указатель (спец.). Регистр лиц, упомянутых в книге. 2. Степень высоты и силы голоса (муз.) … Толковый словарь Ушакова

регистр — а, м. registre, нем. Register <ср. лат. registrum <лат. regerere регистрировать, записывать. 1. Список, перечень чего л.; книга для записи, учета чего л. БАС 1. И того дня взяли резолюцию и в регистр записали, что ежели какия суда, с… … Исторический словарь галлицизмов русского языка

РЕГИСТР — (от ср. век. лат. registrum список перечень),1) список, перечень, учетный документ, имеющий правовое значение.2) Название органа, осуществляющего функции надзора в какой либо специальной области управления (напр., в Великобритании Ллойда регистр) … Большой Энциклопедический словарь

РЕГИСТР — в музыке 1) участок диапазона певческого голоса или музыкального инструмента, характеризующийся единым тембром. У певческого голоса различают грудной, головной и смешанный регистр. Мужские голоса извлекают и звуки т. н. фальцетного регистра (см.… … Большой Энциклопедический словарь

РЕГИСТР — систематизированный документ учета материальных ценностей, служащий одновременно и средством отчетности. Словарь финансовых терминов … Финансовый словарь

регистр — номенклатура, список, перечень, реестр; указатель, фальцет, медиум, бурдон, авиарегистр, престант Словарь русских синонимов. регистр сущ., кол во синонимов: 14 • авиарегистр (1) • … Словарь синонимов

РЕГИСТР — (от лат. registrum список, перечень) 1) список, указатель, книга записей, учетный документ, имеющий правовое значение; 2) особый орган, осуществляющий функции надзора в специальной области управления. Например, Регистр Ллойда в Великобритании… … Экономический словарь

Источник

Языковые регистры

Что такое регистры в языке. Смотреть фото Что такое регистры в языке. Смотреть картинку Что такое регистры в языке. Картинка про Что такое регистры в языке. Фото Что такое регистры в языке Что такое регистры в языке. Смотреть фото Что такое регистры в языке. Смотреть картинку Что такое регистры в языке. Картинка про Что такое регистры в языке. Фото Что такое регистры в языке Что такое регистры в языке. Смотреть фото Что такое регистры в языке. Смотреть картинку Что такое регистры в языке. Картинка про Что такое регистры в языке. Фото Что такое регистры в языке Что такое регистры в языке. Смотреть фото Что такое регистры в языке. Смотреть картинку Что такое регистры в языке. Картинка про Что такое регистры в языке. Фото Что такое регистры в языке

Что такое регистры в языке. Смотреть фото Что такое регистры в языке. Смотреть картинку Что такое регистры в языке. Картинка про Что такое регистры в языке. Фото Что такое регистры в языке

Что такое регистры в языке. Смотреть фото Что такое регистры в языке. Смотреть картинку Что такое регистры в языке. Картинка про Что такое регистры в языке. Фото Что такое регистры в языке

Выделяются 3 основных языковых регистра (подъязыка):

· высокий (формальный, официальный, книжный, полный),

· просторечный (сниженный, неформальный, разговорный)

· литературный (нейтральный, общий).

Они наиболее различимы в лексике. Литературная норма понятна всем и всегда, объединяя оба крайних регистра. При этом, несмотря на взаимообусловленность, не следует путать языковые регистры с видами, так как речь бывает формализована, а письмо просторечно. Внедрение лексики в инородный регистр делается ради забавы.

просторечиенормаофициоз
kidchildinfant
daddyfatherparent
go aheadbegincommence

Разрыв между живой разговорной речью и письменным (литературно-книжным) типом речи более всего, на всех этапах развития, проявлялся в словарном составе. Общая литературно-книжная лексика современного английского языка характеризуется значительным количеством слов латинского и французского происхождения (книжного заимствования). Их семантические границы значительно более четко очерчены, чем соответствующие синонимы живой разговорной речи, и, поэтому, они обеспечивают более точное выражение мысли.

Контрастность общей литературно-книжной лексики и разговорной лексики часто используется для достижения желаемого стилистического эффекта. Так в рассказе

О. Генри «By Courier» противопоставление общей литературно-книжной лексики разговорной (значительно приправленной нелитературными формами речи и усиленной образными выражениями) приобретает особую стилистическую функцию — подчеркнуть различие в социальном положении героев рассказа:

«Tell her I am on my way to the station, to leave for San Francisco, where I shall join that Alaska moose-hunting expedition. Tell her that, since she has commanded me neither to speak nor to write to her I take this means of making one last appeal to her sense of justice, for the sake of what has been. Tell her that to condemn and discard one who has not deserved such treatment, without giving him her reason or a chance to explain is contrary to her nature as I believe it to be.»

«He told me to tell yer he’s got his collars and cuffs in dat grip for a scoot clean out to ‘Frisco. Den he’s goin’ to shoot snowbirds in de Klondike. He says yer told him not to send ’round no more pink notes nor come hangin’ over de garden gate, and he takes dis mean (sending the boy to speak for him — И. Г.) of putting yer wise. He says yer referred him like a has-been, and never give him no chance to kick at de decision. He says yer swiped him, and never said why.»

Аналогичный пример можно привести из пьесы Б. Шоу «Fanny’s First Play», где живая разговорная речь противопоставлена строгой, точной, литературно-книжной речи. Здесь контрастность достигается только лексическими средствами:

Dora: Oh Ive let it out. Have I! (Contemplating Juggins approvingly as he places a chair for her between the table and the sideboard) But hes the right sort: Ican see that. (Buttonholing him). You won’t let on downstairs, old man, will you?

Juggins: The Family can rely on my absolute discretion.

Дора употребляет слова разговорного слоя лексики. В речи Джагинса выбор слов характеризуется нейтральной и литературно-книжной окраской.

Вот пример, в котором сопоставление разговорных слов и литературно-книжных в сочетании с другими особенностями двух типов речи, показывает как письменная речь служит уточнению выраженной мысли:

A grin twitched George’s pallid lips.

The words came with a hoarse relish. «My three screws to young Val Dartie, because he’s the only Forsyte that knows a horse from a donkey.» A throaty chuckle sounded ghastly in the ears of Soames.

«What have you said?»

Soames read: «I hereby leave my three racehorses to my kinsman Valerius Dartie, of Wansdon, Sussex, because he has special knowledge of horses.»

(J. Galsworthy. The White Monkey )

К книжно-литературной лексике относится также и значительное количество фразеологических сочетаний. Так, например, явно книжными являются следующие фразеологические единицы: to pass the Rubicon; with regard, by virtue of, to lose an opportunity, to speak at great length, to lend assistance, to draw a lesson, responsibility rests и др.

Многие из слов и фразеологических единиц, относящихся к литературно-книжной лексике, могут употребляться и в живом непосредственном общении. От этого они не перестают быть литературно-книжными словами. Это — проникновение литературно-книжной лексики в сферу живой разговорной речи. Если такое проникновение приобретает систематический характер, то литературно-книжная лексика постепенно «нейтрализуется».

Что такое регистры в языке. Смотреть фото Что такое регистры в языке. Смотреть картинку Что такое регистры в языке. Картинка про Что такое регистры в языке. Фото Что такое регистры в языке

Неумеренное пользование литературно-книжной лексикой в живой разговорной речи ощущается как диссонанс и используется в особых стилистических заданиях. (См. речь Микобера, приведенную на стр. 55)

Источник

Языковой регистр

Что такое регистры в языке. Смотреть фото Что такое регистры в языке. Смотреть картинку Что такое регистры в языке. Картинка про Что такое регистры в языке. Фото Что такое регистры в языке

В социолингвистике термин языковой регистр обозначает тип разнообразия языков, для которых мы знаем различные интерпретации и для которых мы также находим другие названия в зависимости от лингвистической школы или лингвиста.

Точно так же в традиционной венгерской лингвистике различают две категории стилей «литературного языка»: его письменное разнообразие с научным, административно-правовым стилем, стилями печати и художественной литературы и его устное разнообразие с ораторским и разговорным стилями.

Во французской лингвистике некоторые авторы используют термины «языковой регистр» и «языковой уровень» как синонимы. Другие используют эти два понятия по отношению к одной и той же реальности, но они различают их, чтобы назвать два аспекта, которые они обнаруживают в ней. Тем не менее другие авторы не различают уровни регистров и используют термин «уровень» или термин «регистр».

У некоторых других лингвистов уровни соответствуют степени знания стандартной разновидности языка, то есть их использование будет зависеть от уровня образования носителей. В этом видении мы можем выделить интеллектуальный уровень, средний уровень и популярный уровень. С другой стороны, регистры будут связаны с ситуациями общения и могут быть освоены одним и тем же говорящим, который может использовать их в соответствии с ними.

В другой концепции также вводится понятие «стиль», языковые уровни считаются письменным языком, поддерживаемым языком, текущим языком и разговорным языком, которые будут иметь в качестве подкатегорий регистры или стили, включая знакомый регистр, литературный стиль, поэтический стиль и т. д.

Резюме

Регистры языков

Между регистрами нет резких границ. Они представляют собой континуум, в котором влияние оказывается между соседними регистрами. В лингвистической литературе мы находим шкалы регистров от наиболее спонтанных ( инстинктивных ) до наиболее сложных (во французской лингвистике) или от наиболее неформальных до наиболее формальных (в англоязычной лингвистике):

Во французской лингвистике

Во французской лингвистике мы обычно выделяем три основных регистра (знакомые, текущие и устойчивые) и другие, кроме них, которые могут отличаться от одного автора к другому.

Колетт Стурдзе предложила шкалу регистров ниже (разновидности, которые она называет «языками»):

Источник

Правда о регистре символов, которую должны знать программисты

На конференции North Bay Python в 2018 году я делал доклад об именах пользователей. Информация из доклада по большей части была собрана мною за 12 лет поддержки django-registration. Этот опыт дал мне гораздо больше знаний, чем я планировал получить, о том, насколько сложными могут быть «простые» вещи.

В начале доклада я, правда, упомянул, что это не будет очередное разоблачение из серии «заблуждения по поводу Х, в которые верят программисты». Таких разоблачений можно найти сколько угодно. Однако мне подобные статьи не нравятся. В них перечисляются разные вещи, якобы являющиеся ложными, однако очень редко объясняется – почему это так, и что нужно делать вместо этого. Подозреваю, что люди просто прочтут такие статьи, поздравят себя с этим достижением, и потом пойдут находить новые интересные способы делать ошибки, не упомянутые в этих статьях. Всё потому, что они на самом деле не поняли проблем, порождающих этих ошибки.

Поэтому в своём докладе я постарался как можно лучше объяснить некоторые проблемы и пояснить, как их решать – такой подход мне нравится гораздо больше. Одна из тем, которой я коснулся лишь вскользь (это был всего один слайд и пара упоминаний на других слайдах) – это сложности, которые могут быть связаны с регистром символов. Для задачи, которую я обсуждал – сравнение идентификаторов без учёта регистра – есть официальный Правильный Ответ™, и в докладе я дал лучшее из известных мне решений, использующее только стандартную библиотеку Python.

Однако я кратко упомянул о более глубоких сложностях с регистром символов в Unicode, и хочу посвятить некоторое время описанию подробностей. Это интересно, и понимание этого может помочь вам принимать решения при проектировании и написании кода, обрабатывающего текст. Поэтому предлагаю вам нечто противоположное статьям «заблуждения по поводу Х, в которые верят программисты» – «правда, которую должны знать программисты».

И ещё одно: в Unicode полно терминологии. В данной статье я буду использовать в основном определения «верхний регистр» и «нижний регистр», поскольку стандарт Unicode использует эти термины. Если вам нравятся другие термины, вроде строчная/прописная буквы – всё нормально. Также я часто буду использовать термин «символ», который некоторые могут счесть некорректным. Да, в Unicode концепция «символа» не всегда совпадает с ожиданиями людей, поэтому часто лучше избегать её, используя другие термины. Однако в данной статье я буду использовать этот термин так, как он используется в Unicode – для описания абстрактной сущности, о которой можно делать заявления. Когда это важно, для уточнения я буду использовать более конкретные термины типа «кодовой позиции» [code point].

Регистров бывает больше двух

Носители европейских языков привыкли к тому, что в их языках регистр символов используется для обозначения конкретных вещей. К примеру, в английском [и русском] языках мы обычно начинаем предложения с буквы в верхнем регистре, а продолжаем чаще всего буквами в нижнем регистре. Также имена собственные начинаются с букв в верхнем регистре, и многие акронимы и аббревиатуры записываются в верхнем регистре.

И мы обычно считаем, что регистров существует всего два. Есть буква «А», и есть буква «а». Одна в верхнем, другая в нижнем регистре – не правда ли?

Однако в Unicode есть три регистра. Есть верхний, есть нижний, и есть титульный регистр [titlecase]. В английском языке так записываются названия. Например, «Avengers: Infinity War». Обычно для этого первая буква каждого слова просто пишется в верхнем регистре (и в зависимости от разных правил и стилей, некоторые слова, например, артикли, не пишутся с заглавных букв).

В стандарте Unicode дан такой пример символа в титульном регистре: U+01F2 LATIN CAPITAL LETTER D WITH SMALL Z. Выглядит он так: Dz.

Подобные символы иногда требуются для обработки негативных последствий одного из ранних решений разработки стандарта Unicode: совместимости с существующими текстовыми кодировками в обе стороны. Для Unicode было бы удобнее составлять последовательности при помощи имеющихся у стандарта возможностей по комбинированию символов. Однако во многих уже существующих системах уже были отведены места для готовых последовательностей. К примеру, в стандарте ISO-8859-1 («latin-1») у символа «é» есть готовая форма, имеющая номер 0xe9. В Unicode предпочтительнее было бы писать эту букву при помощи отдельной «е» и знака ударения. Но для обеспечения полной совместимости в обе стороны с такими существующими кодировками, как latin-1, в Unicode также назначены кодовые позиции для готовых символов. К примеру, U+00E9 LATIN SMALL LETTER E WITH ACUTE.

Хотя кодовая позиция этого символа совпадает с его байтовым значением из latin-1, полагаться на это не стоит. Вряд ли кодирование символов в Unicode сохранит эти позиции. К примеру, в UTF-8 кодовая позиция U+00E9 записана в виде байтовой последовательности 0xc3 0xa9.

И, конечно, в уже существующих кодировках есть символы, которым требовалось особое обхождение при использовании титульного регистра, из-за чего они были включены в Unicode «как есть». Если хотите посмотреть на них, поищите в своей любимой базе Unicode символы из категории Lt («Letter, titlecase»).

Есть несколько способов определить регистр

Если вы работаете с ограниченным подмножеством символов (конкретно, с буквами), то вам может хватить и 1-го определения. Если ваш репертуар шире – в него входят похожие на буквы символы, не являющиеся буквами, вам может подойти 2-е определение. Его рекомендует и стандарт Unicode, §4.2:

Программистам, манипулирующим строками в Unicode, стоит работать с такими строковыми функциями, как isLowerCase (и её функциональным родственником toLowerCase), если они не работают со свойствами символов напрямую.

Упомянутая здесь функция определяется в §3.13 стандарта Unicode. Формально в 3-м определении используются функции isLowerCase и isUpperCase из §3.13, определяемые в терминах фиксированных позиций в toLowerCase и toUpperCase соответственно.

Если в вашем языке программирования есть функции для проверки или преобразования регистра строк или отдельных символов, стоит изучить, какие из упомянутых определений используются в реализации. Если вам интересно, то методы isupper() и islower() в Python используют 2-е определение.

Нельзя понять регистр символа по его внешнему виду или названию

По внешнему виду многих символов можно понять, в каком они регистре. К примеру, «А» находится в верхнем регистре. Это понятно и по названию символа: «LATIN CAPITAL LETTER A». Однако иногда такой метод не работает. Возьмём кодовую позицию U+1D34. Выглядит она так: ᴴ. В Unicode ей назначено имя: MODIFIER LETTER CAPITAL H. Значит, она в верхнем регистре, так?

На самом же деле она наследует свойство Lowercase, поэтому по определению №2 она находится в нижнем регистре, несмотря на то, что визуально напоминает заглавную Н, а в названии есть слово «CAPITAL».

У некоторых символов вообще нет регистра

Символ С имеет регистр тогда и только тогда, когда у С есть свойство Lowercase или Uppercase, или значение параметра General_Category равно Titlecase_Letter.

Значит, очень много символов из Unicode – на самом деле, большая их часть – регистра не имеет. Не имеют смысла вопросы об их регистре, а изменения регистра на них не действуют. Однако мы можем получить ответ на этот вопрос по определению №3.

Некоторые символы ведут себя так, будто у них несколько регистров

Из этого следует, что если вы используете определение №3, и задаёте вопрос, находится ли символ без регистра в верхнем или нижнем регистре, вы получите ответ «да».

В стандарте Unicode даётся пример (таблица 4-1, строка 7) символа U+02BD MODIFIER LETTER REVERSED COMMA (который выглядит так: ʽ). У него нет унаследованных свойств Lowercase или Uppercase, он не принадлежит к категории Lt, поэтому регистра у него нет. При этом преобразование в верхний регистр его не меняет, и преобразование в нижний регистр его не меняет, поэтому по 3-му определению он отвечает «да» на оба вопроса: «принадлежишь ли ты к верхнему регистру?» и «принадлежишь ли ты к нижнему регистру?»

Кажется, что из-за этого может возникнуть никому не нужная путаница, однако смысл в том, что определение №3 работает с любой последовательностью символов Unicode, и позволяет упростить алгоритмы преобразования регистра (символы без регистра просто превращаются сами в себя).

Регистр зависит от контекста

Можно подумать, что если таблицы преобразования регистра в Unicode покрывают все символы, то это преобразование заключается просто в поиске нужного места в таблице. К примеру, в базе данных Unicode записано, что для символа U+0041 LATIN CAPITAL LETTER A нижним регистром будет U+0061 LATIN SMALL LETTER A. Просто, не так ли?

Один из примеров, в котором этот подход не работает – греческий язык. Символ Σ — то есть, U+03A3 GREEK CAPITAL LETTER SIGMA — сопоставлен двум разным символам при преобразовании в нижний регистр, в зависимости от того, где он находится в слове. Если он стоит на конце слова, тогда в нижнем регистре он будет ς (U+03C2 GREEK SMALL LETTER FINAL SIGMA). В любом другом месте это будет σ (U+03C3 GREEK SMALL LETTER SIGMA).

Регистр зависит от локали

В разных языках правила преобразования регистра разные. Самый популярный пример: i (U+0069 LATIN SMALL LETTER I) и I (U+0049 LATIN CAPITAL LETTER I) в большинстве локалей преобразовываются друг в друга – в большинстве, но не во всех. В локалях az и tr (тюркские языки), i в верхнем регистре будет İ (U+0130 LATIN CAPITAL LETTER I WITH DOT ABOVE), а I в нижнем регистре будет ı (U+0131 LATIN SMALL LETTER DOTLESS I). Иногда правильная запись реально означает разницу между жизнью и смертью.

Сам Unicode не обрабатывает все возможные правила преобразования регистра для всех локалей. В базе данных Unicode есть только общие правила преобразования всех символов, не зависящие от локали. Также там есть особые правила для некоторых языков и составных форм – литовского языка, тюркских языков, некоторых особенностей греческого. Всего остального там нет. §3.13 стандарта упоминает это и рекомендует при необходимости вводить правила преобразования, зависящие от локали.

Один пример будет знаком англоговорящим – это титульный регистр определённых имён. «o’brian» нужно преобразовывать в «O’Brian» (а не в «O’brian»). Однако при этом «it’s» нужно преобразовывать в «It’s», а не в «It’S». Ещё один пример, который не обрабатывается в Unicode – это голландское буквосочетание «ij», которое при преобразовании в титульный регистр должно переходить в верхний регистр целиком, если стоит в начале слова. Таким образом, большой залив в Нидерландах в титульном регистре будет «IJsselmeer», а не «Ijsselmeer». В Unicode есть символы IJ U+0132 LATIN CAPITAL LIGATURE IJ и ij U+0133 LATIN SMALL LIGATURE IJ, если они вам нужны. По умолчанию преобразование регистра преобразует их друг в друга (хотя формы нормализации Unicode, использующие эквивалентность совместимости, разделят их на два отдельных символа).

Сравнение без учёта регистра требует приведения к сложенному регистру

Возвращаясь к материалу, представленному в докладе. Сложность работы с регистром в Unicode означает, что регистронезависимое сравнение нельзя проводить при помощи стандартных функций приведения к нижнему или верхнему регистру, имеющихся во многих языках программирования. Для таких сравнений в Unicode есть концепция приведения к сложенному регистру [case folding], а в §3.13 стандарта определяются функции toCaseFold и isCaseFolded.

Можно решить, что приведение к сложенному регистру похоже на приведение к нижнему регистру – но это не так. Стандарт Unicode предупреждает, что строка в сложенном регистре не обязательно будет находиться в нижнем регистре. В качестве примера приводится язык чероки – там в строке, находящейся в сложенном регистре, будут попадаться и символы в верхнем регистре.

На одном из слайдов моего доклада рекомендации Unicode Technical Report #36 реализуются на Python настолько полно, насколько это возможно. Проводится нормализация NFKC и потом для полученной строки вызывается метод casefold() (доступный только в Python 3+). И даже при этом некоторые крайние случаи выпадают, и это не совсем то, что рекомендуется для сравнения идентификаторов. Сначала плохие новости: Python не выдаёт наружу достаточно свойств Unicode для того, чтобы отфильтровать символы, которых нет в XID_Start или XID_Continue или символы, имеющие свойство Default_Ignorable_Code_Point. Насколько мне известно, он не поддерживает отображение NFKC_Casefold. Также в нём нет простого способа использовать модифицированный NFKC UAX #31§5.1.

Хорошие новости: большинство этих крайних случаев не связано с какими-либо реальными рисками безопасности, создаваемыми рассматриваемыми символами. И складывание регистра в принципе не определяется как операция, сохраняющая нормализацию (отсюда и отображение NFKC_Casefold, которое повторно нормализуется до NFC после складывания регистра). Как правило, при сравнении вас не волнует, будут ли обе строки нормализованы после предварительной обработки. Вас заботит, не противоречива ли предварительная обработка, и гарантирует ли она, что только строки, которые «должны» отличаться впоследствии, будут отличаться впоследствии. Если вас это беспокоит, вы можете вручную выполнить повторную нормализацию после сложения регистра.

Пока достаточно

Эта статья, как и предыдущий доклад, не является исчерпывающей, и вряд ли можно уложить весь этот материал в единственный пост. Надеюсь, что это был полезный обзор сложностей, связанных с этой темой, и вы найдёте в нём достаточно отправных точек для того, чтобы искать дальнейшую информацию. Поэтому в принципе, можно остановиться и тут.

Не будет ли наивной моя надежда на то, что другие люди перестанут писать разоблачения из серии «заблуждения по поводу Х, в которые верят программисты», и начнут уже писать статьи типа «правда, которую должны знать программисты»?

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *