Старый 05.06.2007, 13:15   #1   
.
 
Аватар для Avanturistka
 
Сообщений: 22,321
Регистрация: 13.10.2003
Записей в дневнике: 73

Avanturistka вне форума Не в сети
Статистика слов в русском языке.

Знаете ли вы, что ...
* Средняя длина русского слова составляет 5.28 символа.
* Средняя длина предложения в русском языке составляет 10.38 слов.

Был взят 1 000 000 слов из разных текстов, и проведён анализ. В презультате были отобраны 5 000 самых часто встречающихся слов. К примеру, "почему" встречается чаще, чем "потому". Если бы иностранец знал эти 5000 слов, он бы смог понять более 80% текста на русском языке. Вот список самых употребляемых прилагательных в русском языке (тут не только прилагательные):
маленький
больший
большой
огромный
высокий
великий
небольшой
глубокий
крупный
мелкий
низкий
большинство
глубоко
высоко
громадный
низко
крошечный
маленько
мелко
крупнейший
крупно
низкорослый
глубокомысленный
высокомерный
высокопоставленный
высокомерно
высокопревосходительство
высокомерие
высокоблагородие
крупнокалиберный
большеголовый
высокопарный
большущий
высокогорный
мелководье
большеглазый
глубокоуважаемый
мелкота
высокоразвитый
глубоководный
мелковатый
  Ответить с цитированием
Старый 05.06.2007, 13:18   #2   
Forza!
 
Аватар для лесоруб
 
Сообщений: 2,492
Регистрация: 28.08.2004
Возраст: 34

лесоруб вне форума Не в сети
Цитата:
Сообщение от Avanturistka
высокопревосходительство
Ну да...За какой же год статисктика?
  Ответить с цитированием
Старый 05.06.2007, 13:23   #3   
.
 
Аватар для Avanturistka
 
Сообщений: 22,321
Регистрация: 13.10.2003
Записей в дневнике: 73

Avanturistka вне форума Не в сети
лесоруб, 2003 г.
  Ответить с цитированием
Старый 05.06.2007, 17:51   #4   
Алтнкарсакал
 
Аватар для LesNick Saul
 
Сообщений: 7,066
Регистрация: 20.03.2007
Записей в дневнике: 4

LesNick Saul вне форума Не в сети
хотелось бы узнать, по какому принципу формировалась выборка текстов для статистики
  Ответить с цитированием
Старый 05.06.2007, 21:09   #5   
.
 
Аватар для Avanturistka
 
Сообщений: 22,321
Регистрация: 13.10.2003
Записей в дневнике: 73

Avanturistka вне форума Не в сети
LesNick Saul,
Цитата:
Был взят 1 000 000 слов из разных текстов, и проведён анализ.
  Ответить с цитированием
Старый 05.06.2007, 21:17   #6   
Алтнкарсакал
 
Аватар для LesNick Saul
 
Сообщений: 7,066
Регистрация: 20.03.2007
Записей в дневнике: 4

LesNick Saul вне форума Не в сети
Avanturistka, я это прочитал. Мне интересен состав этих
Цитата:
Сообщение от Avanturistka
разных текстов
беллетристика, документы, письма и т.д. Ну и количественное соотношение по типам этих текстов
  Ответить с цитированием
Старый 05.06.2007, 21:23   #7   
.
 
Аватар для Avanturistka
 
Сообщений: 22,321
Регистрация: 13.10.2003
Записей в дневнике: 73

Avanturistka вне форума Не в сети
LesNick Saul, не в курсе.
  Ответить с цитированием
Старый 05.06.2007, 21:31   #8   
Алтнкарсакал
 
Аватар для LesNick Saul
 
Сообщений: 7,066
Регистрация: 20.03.2007
Записей в дневнике: 4

LesNick Saul вне форума Не в сети
Avanturistka, жаль
  Ответить с цитированием
Старый 05.06.2007, 21:35   #9   
.
 
Аватар для Avanturistka
 
Сообщений: 22,321
Регистрация: 13.10.2003
Записей в дневнике: 73

Avanturistka вне форума Не в сети
LesNick Saul, зачем вам?
  Ответить с цитированием
Старый 05.06.2007, 21:40   #10   
Алтнкарсакал
 
Аватар для LesNick Saul
 
Сообщений: 7,066
Регистрация: 20.03.2007
Записей в дневнике: 4

LesNick Saul вне форума Не в сети
Avanturistka, для расширения кругозора. Просто, используя статистику в другой предметной области, убедился, что от формирования выборки очень сильно зависит конечный результат стат. обработки
  Ответить с цитированием
Старый 05.06.2007, 21:44   #11   
.
 
Аватар для Avanturistka
 
Сообщений: 22,321
Регистрация: 13.10.2003
Записей в дневнике: 73

Avanturistka вне форума Не в сети
LesNick Saul, удачи в поисках.)
  Ответить с цитированием
Старый 05.06.2007, 21:47   #12   
мегапиксель
 
Аватар для DeeP
 
Сообщений: 8,282
Регистрация: 24.10.2003
Возраст: 44
Записей в дневнике: 8

DeeP вне форума Не в сети
Цитата:
Сообщение от Avanturistka
лесоруб, 2003 г.
Света, будь лингвистом. И не лезь в анализ. Читала б ты классиков, знала бы, что одна из трех вариантов лжи - статистика. Тем паче за 2003 год.
  Ответить с цитированием
Старый 05.06.2007, 22:15   #13   
.
 
Аватар для Avanturistka
 
Сообщений: 22,321
Регистрация: 13.10.2003
Записей в дневнике: 73

Avanturistka вне форума Не в сети
DeeP, иногда статистика оказывается права.
  Ответить с цитированием
Старый 05.06.2007, 22:23   #14   
мегапиксель
 
Аватар для DeeP
 
Сообщений: 8,282
Регистрация: 24.10.2003
Возраст: 44
Записей в дневнике: 8

DeeP вне форума Не в сети
Avanturistka, после вот этих выборок применяют различные методы (а далее и методики) анализа. Такое поверхностное вываливание копипастов - вода водой.
и вопрос: каких текстов? если брать пушкина-лермонтова и иже с ними, то да. "высокопревосходительство" встречается огого как часто, а если ты возьмешь Духлесс Минаева и подобные фолианты - получишь другой результат.
  Ответить с цитированием
Старый 05.06.2007, 22:26   #15   
Алтнкарсакал
 
Аватар для LesNick Saul
 
Сообщений: 7,066
Регистрация: 20.03.2007
Записей в дневнике: 4

LesNick Saul вне форума Не в сети
Цитата:
Сообщение от Avanturistka
иногда статистика оказывается права.
Чтобы в этом убедиться, надо знать правила организации выборки. Поэтому сабж и вызывает скепсис...
  Ответить с цитированием
Старый 05.06.2007, 22:38   #16   
.
 
Аватар для Avanturistka
 
Сообщений: 22,321
Регистрация: 13.10.2003
Записей в дневнике: 73

Avanturistka вне форума Не в сети
LesNick Saul, ну пусть так и будет.)
  Ответить с цитированием
Поиск в теме: 



Быстрый переход:

  Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения
BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.


Powered by vBulletin® Version 3.8.7
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd. Перевод: zCarot
Support by DrIQ & Netwind