profpr: (Default)
[personal profile] profpr
Статья относится к модному сейчас исследованию big data.
Авторы использовали google trends для того, чтобы найти число запросов, содержащих года с 2007-го по 2013-й и затем посчитали "индекс будущего" (ИБ) для 45 стран. Для каждого года i, ИБ равен числу запросов, содержащих номер следующего года i+1, к числу запросов, содержащих номер предыдущего года i-1. Tаким образом, ИБ измеряет большую заинтересованность населения страны в прошлых или в будущих событиях.

Как оказалось, ИБ сильно коррелирует с GDP per cap. На картинке - ИБ vs. GDP/cap для 2010-го года (r=0.78, p<0.001)

FireShot Pro Screen Capture


via [livejournal.com profile] jnuk

Date: 2013-02-12 08:17 am (UTC)
From: [identity profile] jnuk.livejournal.com
Как я уже у себя отметил у меня есть некоторые сомнения. В России и например в Китае вроде бы достаточно широко распространены свои собственные поисковики. Низкий индекс может быть связан с таким региональным эффектом.

Вот тут говорят следующее:



Тут тоже похожие цифры.
Интуитивно кажется, что разницы большой быть не должно и все , что справедливо для Google будет справедливым для другой системы, но для частоты нужно было бы проверить. Подозрение у меня возникает из-за например Бразилии входящей в десятку.
Edited Date: 2013-02-12 08:26 am (UTC)

Date: 2013-02-12 09:21 am (UTC)
From: [identity profile] misha-b.livejournal.com
Но ведь отношение частоты разных терминов в поиске не должно сильно зависить от "market share" поисковика? Возможно, какой-то "bias" тут есть, т.к. разные группы используют разные посиковики, но общий эффект это не объясняет, по-моему.

Date: 2013-02-12 10:22 am (UTC)
From: [identity profile] jnuk.livejournal.com
Интуитивно кажется, что действительно отношение частот не должно зависеть от поисковика, но данных подтверждающих это я не нашел пока.
Результаты исследования наводят на мысль о зависимости между частотой пользования Google и распространенностью английского языка среди населения страны.

Date: 2013-02-12 01:05 pm (UTC)
From: [identity profile] misha-b.livejournal.com
Было бы полезно иметь аналоги Google trends для других поисковиков. Вот тогда можно было бы копать :)

Date: 2013-02-12 02:54 pm (UTC)
From: [identity profile] profpr.livejournal.com
http://profpr.livejournal.com/361754.html?thread=2756378#t2756378

Date: 2013-02-12 02:54 pm (UTC)
From: [identity profile] profpr.livejournal.com
Занимает десять минут (http://wordstat.yandex.ru/?cmd=months&scmd=abs&t=2010&geo=225&text_geo=%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D1%8F) посчитать ИБ с помощью Яндекса. Для 2011 г. ИБ2011=0.604 (4721318 запросов "2012" и 71518557 запросов "2010". Для 2012 г. ИБ2012=0.636. Оба числа вполне сопоставимы с приведенным на графике индексом для России ИБ2010 (порядка 0.6-0.7), однако на Вашем графике для ИБ2012=0.47. Тем не менее, похоже.
Edited Date: 2013-02-12 02:57 pm (UTC)

Date: 2013-02-12 03:12 pm (UTC)
From: [identity profile] misha-b.livejournal.com

Вот как можно пользоваться яндексом, оказывается.

Date: 2013-02-12 04:40 pm (UTC)
From: [identity profile] profpr.livejournal.com
K sozhaleniю, у них только два года данных.

Date: 2013-02-12 03:27 pm (UTC)
From: [identity profile] jnuk.livejournal.com
Отлично.

Подозреваю, что мой граффик для 2011-2013, а вы считаете для предыдущего периода. Разница между 0.47 и 0.7 давольно значительная - так как место страны поднимается с 30-х до 20-х.

Но в общем интересно, что хотя разница между поисковиками и есть, но не так значительна. Нет скачка с 0.4...0.5 до 1.

Очень любопытно.

Date: 2013-02-12 04:39 pm (UTC)
From: [identity profile] profpr.livejournal.com
Я считаю ИБ2012=2011/2013 | year = 2012 и ИБ2011=2010/2012 | year = 2011

Думаю, для выводов о корреляции разница между поисковиками малосущественна.

Date: 2013-02-12 07:17 pm (UTC)
From: [identity profile] jnuk.livejournal.com
Получается, что действительно для России разницы нет. Картина похожа.

March 2024

S M T W T F S
     12
3456789
10111213141516
171819202122 23
24252627282930
31      

Most Popular Tags

Expand Cut Tags

No cut tags