ЭКОНОМИКА И УПРАВЛЕНИЕ
П.К. Куценогий, кандидат физико-математических наук
Т.А. Лужных, В.С. Риксен
Сибирский федеральный научный центр агробиотехнологий РАН
РФ, 633501, Новосибирская область, п. Краснообск, ул. Центральная, Президиум
E-mail: peter@kutsenogiy.ru
УДК 631.153
DOI: 10.30850/vrsn/2020/6/10-13
ОПТИМИЗАЦИЯ СТАНДАРТОВ СБОРА ДАННЫХ
О СЕЛЬСКОХОЗЯЙСТВЕННОЙ ДЕЯТЕЛЬНОСТИ В АНАЛИТИЧЕСКИХ ЦЕЛЯХ
В статье рассмотрены важность и ценность использования больших данных (Big data) в сфере сельского хозяйства. Техноло-
гии «больших данных» предполагают обработку огромного объема разнообразных структурированных и неструктурирован-
ных данных, а также использование различных инструментов, подходов, методов их обработки, позволяющих анализиро-
вать информацию, необходимую для решения конкретных целей и задач. Извлечение информации из таких массивов данных
и дальнейший ее интеллектуальный анализ открывают возможность сельхозпроизводителям улучшить качество прини-
маемых решений и определить своевременные, более эффективные методы ведения сельского хозяйства. Представлены раз-
работанные шаблоны баз данных, максимально полно учитывающих особенности собираемой и анализируемой информации
в интересах сельхозпроизводителей и отраслевых экспертов. В работе была поставлена задача - создать гибкую структу-
ру, которую можно оперативно дополнить новой значимой информацией. Проведено тестовое наполнение разработанных
шаблонов первичной информацией для проверки работоспособности создаваемой структуры базы данных. Часто стати-
стика ведется не с целью получения объективной информации, а с некими «политическими» или рыночными манипуляциями.
Дополнительно возникает проблема «прерывности» данных, собираемых в период очередных кампаний, которые через не-
которое время сходят на нет. Использование стандартов для обеспечения взаимодействия между системами - ключевое
требование эффективной интеграции информации. Учитывая опыт заполнения создаваемой базы данных, а также тести-
руемых возможностей использования, сформулированы требования к стандартам сбора данных сельхозпроизводителей.
Ключевые слова: большие данные (Big data), машинное обучение, база данных, сбор данных, стандарты.
P.K. Kutsenogiy, PhD in Physico-mathematical sciences
T.A. Luzhnyh, V.S. Riksen
Siberian Federal Scientific Center for Agrobiotechnology RAS
RF, 633501, Novosibirskaya oblast’, p. Krasnoobsk, ul. Central’naya, Prezidium
Email: peter@kutsenogiy.ru
OPTIMIZING STANDARDS FOR COLLECTING AGRICULTURAL DATA FOR
ANALYTICAL PURPOSES
The article discusses the importance of using big data in agriculture. Technologies of “big” imply the processing of a huge amount
of data of various structured and unstructured data, as well as the use of various tools, methods of their processing, which allowing
to analyze information, special solutions for specific goals and objectives. Extracting data from such data sets and improving its intellectual
analysis, open up the opportunity for agricultural producers to improve the quality of decisions made and timely, more efficient methods
of farming. The developed database templates are presented, they which fully take into account the features of the collected and analyzed
information in the interests of agricultural producers and industry experts. The task was set in the work to create a flexible structure that
can be quickly supplemented with new relevant information. A test filling of the developed templates with primary information to check
the performance of the created database structure was carried out. Often statistics is undertaken not for the purpose for obtaining objective
information, but for some kind of “political” or market manipulation. Additionally, there is a problem of “discontinuity” of data collected
during the period of another campaigns, which after a while they’re gone. Using standards to ensure interoperability between systems
is a key requirement for effective information integration. Taking into account the experience of filling in the creating database as well
as the tested possibilities of using, the requirements for the data collection standards of agricultural producers were formulated.
Ключевые слова: big data, machine learning, database, data collection, standards.
Технологии «больших данных» (Big data, BD)
Необходимо учесть важность полноты и досто-
предполагают обработку огромного объема разно-
верности исходных данных для методов анализа
образных структурированных и неструктуриро-
Big data. Например, в процессе «машинного об-
ванных данных, а также использование различных
учения без учителя» сами данные могут выступать
инструментов, подходов, методов их обработки,
источником алгоритмов, генерирующих результат
позволяющих анализировать информацию для
интерпретации этих же данных. В этих условиях
решения конкретных целей и задач. [4, 10] Извле-
становится понятно, что ошибки будут автомати-
чение информации из таких массивов данных и
чески вести к систематическим проблемам в их
дальнейший ее интеллектуальный анализ открыва-
интерпретации. Следует отметить традиционные
ют возможность сельхозпроизводителям улучшить
проблемы сбора сельскохозяйственных данных.
качество принимаемых решений и определить сво-
Часто статистика ведется не с целью получения объ-
евременные, более эффективные методы ведения
ективной информации, а с некими «политическим»
сельского хозяйства. [9]
или рыночными манипуляциями. Дополнительно
ВЕСТНИК РОССИЙСКОЙ СЕЛЬСКОХОЗЯЙСТВЕННОЙ НАУКИ • № 6-2020
10
ЭКОНОМИКА И УПРАВЛЕНИЕ
возникает проблема «прерывности», собираемых в
- языки, сервисы и протоколы для постоянного
период очередных кампаний данных, которые через
хранения, одновременного доступа и обновления,
некоторое время сходят на нет. [3]
обмена данными;
Использование стандартов для обеспечения вза-
- методы, языки, сервисы и протоколы для струк-
имодействия между системами - ключевое требова-
турирования, организации и регистрации метадан-
ние эффективной интеграции информации.
ных и других информационных ресурсов, связанных
Основная трудность в достижении совмести-
с совместным использованием и совместимостью,
мости между несколькими хранилищами BD за-
включая электронную торговлю.
ключается в различиях метаданных, используемых
При разработке шаблонов БД мы следовали тре-
в одном хранилище, относительно других. Без
бованиям стандарта:
стандартов для этих метаданных интеграция дан-
1. Разрабатываемая нами БД хранится и обраба-
ных, генерируемых в проектах BD, будет еще более
тывается в вычислительной системе.
сложной задачей. [5]
2. Данные логически структурированы (систе-
Интеграция BD осуществляется посредством
матизированы) с целью их эффективного поиска
Extract, Transform, Load (ETL) - одним из основных
и обработки. Структурированность подразумевает
процессов в управлении хранилищами данных, ко-
явное выделение составных частей, связей между
торый включает в себя три важные функции (рис. 1),
ними, а также типизацию элементов и связей, при
необходимые для получения данных из одной среды
которой с типом связи соотносится определенная
и помещения их в другую. [8]
семантика и допустимые операции.
Первый шаг - извлечение. На этом этапе дан-
3. БД включает схему, или метаданные, описы-
ные из исходных систем передаются в область под-
вающие логическую структуру БД в формальном
готовки, которые могут быть в разных форматах,
виде (некоторая метамодель).
таких как реляционные базы (БД). Важно эти дан-
В соответствии со стандартом, схема включает
ные сохранить в промежуточной области, а не в
описания содержания, структуры и ограничений
хранилище, поскольку извлеченные данные имеют
целостности, используемые для создания и поддерж-
различные форматы и могут быть повреждены. Сле-
ки БД. В базе находится набор постоянных данных,
довательно, загрузка непосредственно в хранилище
определенных с помощью схемы. Система управле-
данных может повредить его, и откат будет намного
ния использует определения данных в схеме для обе-
сложнее. Поэтому это один из важнейших этапов
спечения доступа и управления доступом в БД. [8]
процесса ETL.
Для стандартов применяют методы оптимизации
Второй шаг - преобразование. К извлеченным
параметров объектов стандартизации (ПОС): уста-
данным применяется набор правил или функ-
новление значений, количественно характеризую-
ций для преобразования их в единый стандартный
щих свойства объектов стандартизации (параметры
формат; последний - загрузка. Преобразованные
или данные), при которых достигается максималь-
данные загружаются в хранилище. Чаще всего они
но возможная, в определенных условиях, эффек-
обновляются путем загрузки, а иногда через более
тивность использования (максимальный эффект
длительные, но регулярные интервалы. Скорость
на единицу затрат). Значения ПОС, которым соот-
и период загрузки зависят исключительно от требо-
ветствует максимально возможная эффективность,
ваний и варьируются от системы к системе. [13]
называют оптимальными; аналогично называют
Для интеграции BD используют инструменты:
и уровень требований стандартов.
MapReduce, Spak, Powercenter, SQL Server Integra-
При сборе данных о сельскохозяйственной де-
tion Services и другие. Взаимодействие локальных
ятельности необходимо учитывать ее специфику -
баз данных будет осуществляться посредством за-
непрерывность и повторяемость, то есть годовой
проса SQL. [8]
сельскохозяйственный цикл. Кроме того, следует
Международной организацией по стандарти-
учитывать особенности работы хозяйств, сельхоз-
зации (ISO) и Международной электротехниче-
производителей, как источников данных, а также
ской комиссией (IEC) в сфере BD разрабатыва-
планируемые методы анализа. В нашем случае, мы
ются стандарты для управления данными внутри
ориентируемся на возможность анализа BD совре-
и между локальными и распределенными средами
менными вычислительными методами.
информационных систем. Один из таких стандар-
Описание создаваемых шаблонов базы данных
тов - ISO / IEC TR 10032: 2003. Он имеет следую-
Для построения шаблона БД использован Micro-
щую область применения [7]:
soft Office Access. Разнообразный спектр функций про-
- эталонные модели и структуры для координа-
дукта включает связь с внешними таблицами и БД.
ции существующих и новых стандартов;
Шаблон БД сельскохозяйственного производ-
- определение областей данных, типов данных
ства разработан в аналитических целях с учетом
и структур данных и связанных с ними семантик;
использования технологий BD и машинного обуче-
ния. При поступлении достаточного объема данных
в соответствии с разработанным шаблоном, будут
применены алгоритмы машинного обучения гради-
ентного бустинга и бэггинга, которые решают зада-
чи классификации, регрессии и кластеризации с по-
мощью методов построения моделей XGBClassifier
и Random Forest Classifier. [6, 11]
В создаваемой БД систематизируется и концен-
Рис. 1. Процесс ETL.
трируется информация о выращивании сельско-
11
ЭКОНОМИКА И УПРАВЛЕНИЕ
хозяйственных культур в разных почвенно-клима-
тических зонах России. Разработанные шаблоны
заполнили данными реального сельскохозяйствен-
ного предприятия для определения практических
требований к стандартам подобных данных. При
взаимодействии с другими информационными си-
стемами и повторном использовании метаданных
важное значение имеет стандартизация средств их
представления. В настоящее время созданы много-
численные стандарты описания метаданных верти-
кальной и горизонтальной сферы. Активно исполь-
зуют стандарты платформы ХМL (ISO 20022-4),
Дублинское ядро, дескриптивное множество языка
SQL (ISO 9075). [2, 3]
БД имеет иерархически организованную реля-
ционную структуру (совокупность таблиц «сущ-
ность - связь») с перекрестными ссылками, исполь-
зующими уникальные ключи записей ID (рис. 2).
Верхний уровень иерархии включает две таблицы
Рис. 2. Упрощенная концептуальная схема БД.
сельхозпредприятий и метеостанций. Оболочка си-
стемы определяет ближайшую метеостанцию, затем
В процессе заполнения описанной БД были вы-
погодные данные перекачиваются в БД и преобра-
явлены обязательные требования к структуре, пол-
зуются в вид, представленный на рис. 3.
ноте и виду данных для того, чтобы их можно было
Полевой опыт - следующий уровень иерархии
использовать для обработки методами машинного
БД. Ссылка на таблицу несколько условна: если
обучения. Пробелы в данных не дают возможности
в расчете необходимо использовать данные с про-
сформировать необходимое количество «обучаю-
изводственных посевов, то вместо имени полевого
щих примеров», а структура формирует данные, от-
опыта следует записывать - «производственные
носящиеся к задаче, которую мы пытаемся решить.
посевы». В графу год начала опыта заносится дата
Информация зачастую формируется из различ-
начала наблюдений.
ных источников. Среди них могут оказаться нере-
Таблица годовой ротации поля - следующая по
левантные или ненужные значения, которые по-
уровню иерархии - соответствующие записи объ-
требуется удалить, а каких-то может не хватать, и их
единяют ссылки на год, культуру и поле.
необходимо добавить. От правильной подготовки
Справочник культур содержит перечень сортов
базы данных зависит и пригодность к использова-
сельскохозяйственных культур, возделываемых на
нию, и достоверность результатов.
территории Российской Федерации, входящих в ре-
Сформулируем требования к стандартам сбора
естр селекционных достижений.
данных.
В справочник типов почв, входит информация
Для каждой единицы данных (ячейка) необходи-
о возможных в данной зоне типах почвы с соответ-
ма привязка к месту (географические координаты) и
ствующим ID номером. Ее можно пополнять при
ко времени, где и когда осуществлялся сбор данных.
расширении на другие регионы.
Последовательные временные ряды данных
Перечень технологий (таблица), используемых
должны быть без пробелов и пропусков.
в каждом варианте опыта, это фактически только
В дальнейшей работе необходимо выявить воз-
ссылка на идентификатор технологии для опреде-
можные избыточные требования к стандартам
ленного года в конкретном севообороте.
сбора данных, которые не увеличивают объем ин-
Все последующие таблицы включают расшиф-
формации, содержащийся в данных, а усложняют
ровку применяемой технологии. В них содержат-
их получение и накопление. Следует учесть, что
ся данные о севе, механической обработке почвы,
внесении удобрений и режиме их применения. Все
таблицы построены однотипно. Каждая операция
сопровождается описанием технологии, которая
может применяться неоднократно.
Таблица урожаев содержит данные о сроках
уборки и валовом сборе, для трав включаются по-
казатели по укосам.
Вся содержательная информация, хранящаяся
в БД, может быть разделена на два основных клас-
са - постоянная (условно) и оперативная (наблю-
дения и измерения). Данные первого класса вводят-
ся в БД либо однократно, либо с периодичностью
в несколько лет. К таким показателям относятся,
например, агрохимические характеристики почвы,
измеряемые один раз в пять лет. Оперативные дан-
ные вводят в БД по мере их поступления в каждом
сезоне вегетации.
Рис. 3. Таблица погодных данных.
ВЕСТНИК РОССИЙСКОЙ СЕЛЬСКОХОЗЯЙСТВЕННОЙ НАУКИ • № 6-2020
12
ЭКОНОМИКА И УПРАВЛЕНИЕ
важными источниками в перспективе будут сель-
6. Hastie, T. Chapter 15. Random Forests / Т. Hastie, R. Tib-
скохозяйственные производители - пользователи
shirani, J. Friedman // The Elements of Statistical Learn-
экспертного ресурса. Хозяйства могут быть совер-
ing: Data Mining, Inference, and Prediction. - 2nd ed. -
шенно разного экономического масштаба: от мел-
Springer-Verlag, 2009. - 746 p.
ких фермерских до вертикально интегрированных
7. ISO/IEC 2003 Information technology - Reference Mod-
агрохолдингов. Понятно, что в кадровом соста-
el of Data Management // [electronic resource]. 2003.
ве небольших предприятий может и не быть IT-
https://www.iso.org/files/live/sites/isoorg/files/develor-
специалистов, ответственных за внесение данных
ing_stanards/docs/en/big_data_report-jtc1.pdf.
в сложных аналитических системах. Поэтому, воз-
8. Jamack, P. Hive as a tool for ETL or ELT / Р. Jamack //
никает еще два требования к стандартам сбора:
IBM. - 2014. - Р. 4-8.
- данные могут вноситься в любом цифровом
9. Park, H. Recent advancements in the Internet-of-Things relat-
формате, понятном для пользователя и совмести-
ed standards / Н. Park, H. Kim, H. Joo, J. Song // A oneM2M
мом с наиболее распространенными цифровыми
perspective. ICT Express, vol. 2, no. 3. - 2016. - Р. 126-129.
стандартами, позволяющими экспортировать дан-
10. Ribarics, P. Big data and its impact on agriculture /Р. Riba-
ные для дальнейшей обработки;
rics // Ecocycles 2 (1). - 2016. - Р. 31-35.
- при формировании списка параметров, подле-
11. Tseng, G. Gradient Boosting and XGBoost / G. Tseng //
жащих регулярному мониторингу, следует избегать
[electronic resource]. 2018. https://medium.com/@gabri-
данных, для сбора которых необходимы приобре-
eltseng/gradient-boosting-and-xgboost-c306c1bcfaf5.
тение и эксплуатация дорогостоящего и сложного
12. Vasileios, T. Frequent patterns in ETL workflows: an em-
оборудования.
pirical approach / Т. Vasileios // Data and knowledge engi-
Заключение. На данном этапе мы разработали
neering. - 2017. - Р. 1-16.
структуру БД. Информация, вносимая пользова-
телем, будет способствовать наиболее полному
LIST OF SOURCES
и объективному анализу в интеллектуальной систе-
1. Kogalovskij, M.R. Metadannye v komp’yuternyh sistemah /
ме. Предлагаемая структура БД позволяет встро-
M.R. Kogalovskij // Nauka «Interperiodika». - 2013. -
ить ее в комплексный вычислительный процесс,
T. 39 - № 4. - S. 28-46.
используя стандартные модули преобразования
2. Nafikova, A.R. Prakticheskoe rukovodstvo po Microsoft
входных и выходных данных, широко применяе-
SQL Server / Uchebnoe posobie // A.R. Nafikova - Sterli-
мые стандарты, быстро переформатировать данные
tamak: Sterlitamakskij filial BashGU. - 2014. - 124 s.
под нужную задачу. БД также будет наполняться
3. Chubukova, I.A. Data Mining: uchebnoe posobie /2-e izd.,
архивной и актуальной информацией, которая мо-
ispr. //I.A. CHubukova - M.: Internet-Universitet Infor-
жет быть использована в ином формате. Сформу-
macionnyh Tekhnologij; BINOM. Laboratoriya znanij. -
лированы основные требования, предъявляемые
2008. - 382 s.
к собираемым данным, а также отмечены возмож-
4. Coble, K. Big data in agriculture: a challenge for the future /
ные, которых следует избегать в целях оптимиза-
K. Coble, A. Misra, S. Ferrell, T. Griffin // Applied Eco-
ции данных стандартов. В дальнейшем планируется
nomic Perspectives and Politics. - 2018. - R. 79-96.
расширить продукт с дружеским пользовательским
5. Hammer, C. Big Data: Potential, Challenges, and Statisti-
интерфейсом, цель которого - сбор статистических
cal Implications / S. Hammer, D. Kostroch //CUSSION
данных агропредприятия. Второй планируемый мо-
NOTE. - 2017. - R. 11-15.
дуль - модуль загрузки данных со сторонних ресур-
6. Hastie, T. Chapter 15. Random Forests / T. Hastie, R. Tib-
сов, таких как серверы, содержащих данные стати-
shirani, J. Friedman // The Elements of Statistical Learn-
стики, погодные условия и др.
ing: Data Mining, Inference, and Prediction. - 2nd ed. -
Springer-Verlag, 2009. - 746 p.
СПИСОК ИСТОЧНИКОВ
7. ISO/IEC 2003 Information technology - Reference Mod-
1. Когаловский, М.Р. Метаданные в компьютерных си-
el of Data Management // [electronic resource]. 2003.
стемах / М.Р. Когаловский // Наука «Интерпериоди-
https://www.iso.org/files/live/sites/isoorg/files/develor-
ка». - 2013. - Т. 39 - № 4. - С. 28-46.
ing_stanards/docs/en/big_data_report-jtc1.pdf.
2. Нафикова, А.Р. Практическое руководство по Micro-
8. Jamack, P. Hive as a tool for ETL or ELT / R. Jamack //
soft SQL Server / Учебное пособие // А.Р. Нафикова -
IBM. - 2014. - R. 4-8.
Стерлитамак: Стерлитамакский филиал БашГУ. -
9. Park, H. Recent advancements in the Internet-of-Things
2014. - 124 с.
related standards / N. Park, H. Kim, H. Joo, J. Song // A
3. Чубукова, И.А. Data Mining: учебное пособие /2-е изд.,
oneM2M perspective. ICT Express, vol. 2, no. 3. - 2016. -
испр. //И.А. Чубукова - М.: Интернет-Университет
R. 126-129.
Информационных Технологий; БИНОМ. Лаборато-
10. Ribarics, P. Big data and its impact on agriculture /R. Riba-
рия знаний. - 2008. - 382 с.
rics // Ecocycles 2 (1). - 2016. - R. 31-35.
4. Coble, K. Big data in agriculture: a challenge for the future /
11. Tseng, G. Gradient Boosting and XGBoost / G. Tseng //
К. Coble, A. Misra, S. Ferrell, T. Griffin // Applied Eco-
[electronic resource]. 2018. https://medium.com/@gabri-
nomic Perspectives and Politics. - 2018. - Р. 79-96.
eltseng/gradient-boosting-and-xgboost-c306c1bcfaf5.
5. Hammer, C. Big Data: Potential, Challenges, and Statisti-
12. Vasileios, T. Frequent patterns in ETL workflows: an em-
cal Implications / С. Hammer, D. Kostroch //CUSSION
pirical approach / T. Vasileios // Data and knowledge engi-
NOTE. - 2017. - Р. 11-15.
neering. - 2017. - R. 1-16.
13