Язык R - операторы
2+2 |
сумма |
5-3 |
вычитание |
2*4 |
умножение |
5/3 |
деление |
(5-3)*2 |
последовательность действий работает как ожидается |
Переменные
|
запись значения 2 в переменную x |
|
то же самое |
|
все в кавычках интерпретируется как последовательность символов (string) |
|
c()
создает вектор (упорядоченный набор значений) |
|
[ ]
используются для индексации переменных. x[1]
достает первый элемент из вектора x
|
|
двумерные объекты (матрицы, таблицы) индексируются через [индекс строки.индекс столбца] |
|
данные столбцов в таблицах (data frame) можно получать по названию столбца через $. В этом случае столбец возвращается как вектор значений. $ также используется, чтобы индексировать любые названные переменные из сложных объектов (таблицы, листы, листы с листами и пр.) |
Функции
sum(1,2,3) |
сумма |
sqrt(16) |
квадратный корень |
c(1,2,3) |
совмещение трех значений в вектор |
paste("Hello","world",sep=" ") |
совмещение нескольких текстов в одно значение |
unique(c(1,1,2)) |
функции в функциях. unique()
возвращает только уникальные значения из вектора |
Общая структура функции: function(x, arg1=0, arg2=TRUE)
. Где x
- это вводные данные, а arg1, arg2
- это аргументы, контролирующие поведение функции. Иногда ввод не требуется и задан автоматически: stylo(gui=FALSE)
|
|
Язык R - рабочие директории
|
показывает путь к папке, которую R считает рабочей в данный момент |
|
setwd("path/to/folder")
задает рабочую директорию по указанному пути |
Рабочая директория - это папка, которую работающий R использует для референции. Файлы с кодом и внешние файлы, которые будут нужны в работе лучше держать внутри рабочей директории, чтобы к ним легко было получить доступ. Новые файлы также сохраняются туда
RStudio
File -> New Project создает новую папку с проектом, которую автоматически делает рабочей.
File -> Open Project открывает существующий проект и переключает рабочую папку.
Рабочую папку можно изменить вручную из RStudio из панели Files, которая находится снизу справа и используется для навигации по файловой системе (отображает файлы в рабочей папке по умолчанию). Переместитесь в нужную папку и нажмите More -> Set As Working Directory |
R - библиотеки
|
устанавливает библиотеку из репозитория CRAN |
library() |
загружает библиотеку в память R |
install.packages("stylo")
скачает и установит пакет stylo() на компьютер
library(stylo)
загрузит существующую библиотеку в память R и позволит работать с ее функциями.
R - помощь
help(stylo) |
вызывает документацию |
?stylo() |
--//-- |
Любая функция в R снабжена документацией.
Пакет stylo
|
дистанции |
|
машинное обучение |
|
МО скользящее по тексту |
|
ключевые слова |
|
верификация авторства |
Основные функции пакета stylo
Функции и директории
stylo() ищет тексты в папке corpus, которая должна находиться в рабочей директории
classify() ищет тренировочный корпус в папке primary_set, а проверочный в secondary_set
rolling.classify() ищет тренировочный корпус в папке
reference_set, а текст для скользящей классификации - в test_set
oppose() сравнивает тексты из двух папок primary_set и secondary_set
imposters() работает напрямую с таблицами частот и поэтому требует отдельной подготовки данных |
NB. oppose() по умолчанию считает язык корпуса английским, поэтому эту функцию надо запускать с аргументом: oppose(corpus.lang="Other")
Классы
Все функции в stylo считывают классы из названий файлов. Символы перед первой нижней чертой задают класс текста (Dostoevsky_1846.txt и Dostoevsky_1864.txt, будут отнесены к одному классу Dostoevsky).
Классы нужны для цветового кодирования результатов (все тексты из класса Dostoevsky будут раскрашены одним цветом) и проверки результатов машинной классификации. |
Запуск функции "вручную"
stylo(gui = FALSE,
corpus.lang="Other",
analyzed.features = "c",
ngram.size = 4,
mfw.min=400,
mfw.max=400,
analysis.type = "CA")
|
|