Используя 5,2 миллиона отсканированных изданий из библиотеки интернет-гиганта, ученые разработали инструмент для обширных лингвистических исследований.
Летом компания Google объявила о том, что будет оказывать [2] финансовую поддержку специалистам, планирующим использовать в своей исследовательской работе оцифрованные в рамках Google Books издания. Результаты одного из подобных исследований, которым занимались сотрудники Гарвардского университета, были представлены в середине декабря. Подробности описаны в статье, опубликованной в журнале Science, а сервис Ngram Viewer предложен [3] для использования всем желающим.
Как сообщают исследователи, базой для разработки нового сервиса стали 5,2 миллиона книг, написанных на английском, французском, испанском, немецком, китайском и русском языках и изданных начиная с 1500 до 2008 года. Это примерно треть всей электронной библиотеки Google и около 4% из когда-либо опубликованных книг. Ученые составили подборку всех использованных в этих изданиях слов (около 500 миллиардов) и доработали алгоритм анализа этого материала на основе поисковой системы Google.
Теперь с помощью Ngram Viewer любой желающий может выяснить популярность различных слов и фраз, которые встречались в книгах за последние 500 с лишним лет. Информация будет представлена в виде графиков, а издания, в которых встретилось искомое слово, в хронологическом порядке отслеживаются непосредственно по базе книг Google Books. Фрагменты в текстах будут выделены, как и при традиционном поиске по этой электронной библиотеке. Область поиска можно ограничить определенным историческим периодом и конкретным языком.
Авторы и их коллеги полагают, что новый инструмент станет хорошим подспорьем для серьезных лингвистических исследований. Однако широкую интернет-аудиторию новая «игрушка», как водится, тоже весьма заинтересовала.
Ссылки:
[1] http://pro-books.ru/sites/default/files/googhach_0.jpg
[2] http://pro-books.ru/sitearticles/4762
[3] http://ngrams.googlelabs.com/