Show Menu
Cheatography

stylo/R (rus) Cheat Sheet (DRAFT) by

Основы R и пакета stylo() на одной странице

This is a draft cheat sheet. It is a work in progress and is not finished yet.

Язык R - операторы

2+2
сумма
5-3
вычитание
2*4
умножение
5/3
деление
(5-3)*2
послед­ова­тел­ьность действий работает как ожидается

Переменные

x <- 2
запись значения 2 в переменную x
x = 2
то же самое
x = "­пер­еме­нна­я"
все в кавычках интерп­рет­ируется как послед­ова­тел­ьность символов (string)
x=c(1,2,3)
c()
создает вектор (упоря­доч­енный набор значений)
x[1]
[ ]
исполь­зуются для индексации переме­нных.
x[1]
достает первый элемент из вектора
x
x[1,1]
двумерные объекты (матрицы, таблицы) индекс­ируются через [индекс строки.индекс столбца]
x$column1
данные столбцов в таблицах (data frame) можно получать по названию столбца через $. В этом случае столбец возвра­щается как вектор значений. $ также исполь­зуется, чтобы индекс­ировать любые названные переменные из сложных объектов (таблицы, листы, листы с листами и пр.)

Функции

sum(1,2,3)
сумма
sqrt(16)
квадратный корень
c(1,2,3)
совмещение трех значений в вектор
paste(­"­Hel­lo",­"­wor­ld",­sep­=" ")
совмещение нескольких текстов в одно значение
unique­(c(­1,1,2))
функции в функциях.
unique()
возвращает только уникальные значения из вектора
Общая структура функции:
functi­on(x, arg1=0, arg2=TRUE)
. Где
x
- это вводные данные, а
arg1, arg2
- это аргументы, контро­лир­ующие поведение функции. Иногда ввод не требуется и задан автома­тич­ески:
stylo(­gui­=FALSE)
 

Язык R - рабочие директории

getwd()
показывает путь к папке, которую R считает рабочей в данный момент
setwd()
setwd(­"­pat­h/t­o/f­old­er")
задает рабочую директорию по указанному пути
Рабочая директория - это папка, которую работающий R использует для рефере­нции. Файлы с кодом и внешние файлы, которые будут нужны в работе лучше держать внутри рабочей директ­ории, чтобы к ним легко было получить доступ. Новые файлы также сохран­яются туда

RStudio

File -> New Project создает новую папку с проектом, которую автома­тически делает рабочей.

File -> Open Project открывает сущест­вующий проект и перекл­ючает рабочую папку.

Рабочую папку можно изменить вручную из RStudio из панели Files, которая находится снизу справа и исполь­зуется для навигации по файловой системе (отобр­ажает файлы в рабочей папке по умолча­нию). Переме­ститесь в нужную папку и нажмите More -> Set As Working Directory

R - библиотеки

instal­l.p­ack­ages()
устана­вливает библиотеку из репози­тория CRAN
library()
загружает библиотеку в память R
instal­l.p­ack­age­s("s­tyl­o")
скачает и установит пакет stylo() на компьютер

librar­y(s­tylo)
загрузит сущест­вующую библиотеку в память R и позволит работать с ее функциями.

R - помощь

help(s­tylo)
вызывает докуме­нтацию
?stylo()
--//--
Любая функция в R снабжена докуме­нта­цией.

Пакет stylo

stylo()
дистанции
classify()
машинное обучение
rollin­g.c­las­sify()
МО скользящее по тексту
oppose()
ключевые слова
impost­ers()
верифи­кация авторства
Основные функции пакета stylo

Функции и директории

stylo() ищет тексты в папке corpus, которая должна находиться в рабочей директории

classify() ищет тренир­овочный корпус в папке primar­y_set, а провер­очный в second­ary_set

rollin­g.c­las­sify() ищет тренир­овочный корпус в папке
refere­nce_set, а текст для скользящей класси­фикации - в test_set

oppose() сравнивает тексты из двух папок primar­y_set и second­ary_set

impost­ers() работает напрямую с таблицами частот и поэтому требует отдельной подготовки данных
NB. oppose() по умолчанию считает язык корпуса англий­ским, поэтому эту функцию надо запускать с аргуме­нтом:
oppose­(co­rpu­s.l­ang­="Ot­her­")

Классы

Все функции в stylo считывают классы из названий файлов. Символы перед первой нижней чертой задают класс текста (Dostoe­vsk­y_1­846.txt и Dostoe­vsk­y_1­864.txt, будут отнесены к одному классу Dostoevsky).

Классы нужны для цветового кодиро­вания резуль­татов (все тексты из класса Dostoevsky будут раскрашены одним цветом) и проверки резуль­татов машинной класси­фик­ации.

Запуск функции "­вру­чну­ю"

stylo(gui = FALSE,
      corpus.lang="Other",
      analyzed.features = "c",
      ngram.size = 4,
      mfw.min=400,
      mfw.max=400,
      analysis.type = "CA")