Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 514, № 2, стр. 395-416

НЕ БЫВАЕТ ДВУХ ОДИНАКОВЫХ ПОЛЬЗОВАТЕЛЕЙ: НЕЙРОСЕТЕВАЯ КЛАСТЕРИЗАЦИЯ НА ОСНОВЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ СОБЫТИЙ ДЛЯ ГЕНЕРАЦИИ АУДИТОРИЙ

В. Жужель^1, *, В. Грабарь¹, Н. Каплоухая⁴, Р. Ривера-Кастро^2, 3, 4, Л. Миронова¹, А. Зайцев¹, Е. Бурнаев¹

¹ Сколковский институт науки и технологий
121205 Москва, Россия

² Choco Communications
10967 Берлин, Hasenheide 54, Германия

³ Центр цифровых технологий и управления
80333 Мюнхен, Arcisstr. 21, Германия

⁴ Исследования, проведенные в период работы в Сколковском институте науки и техники
121205 Москва, Россия

^* E-mail: vladislav.zhuzhel@skoltech.ru

Поступила в редакцию 01.09.2023
После доработки 15.09.2023
Принята к публикации 18.10.2023

EDN: CWIIDI
DOI: 10.31857/S2686954323601859

Полные тексты статей выпуска доступны в ознакомительном режиме только авторизованным пользователям.

Аннотация

Определение нужного пользователя для таргетинга является общей задачей для различных интернет-платформ. Хотя многие системы решают ее, они в значительной степени адаптированы к конкретным особенностям. Из-за этого на практике становится непросто применить данные задачи. Причина в том, что большинство систем предназначены для работы с миллионами активных пользователей и с личной информацией, как в случае с социальными сетями или другими сервисами с высокой виральностью. В литературе мало представлены решения, которые предназначены для обработки данных среднего размера, где единственными доступными данными являются последовательности событий пользователя. Это мотивирует нас представить Look-A-Liker (LAL) как систему глубокой кластеризации. Он использует временные точечные процессы для идентификации похожих пользователей для решения задач таргетинга. Для экспериментов мы используем данные ведущего интернет-маркетплейса гастрономического сектора. LAL обобщает не только закрытые данные. Используя последовательности событий пользователей, можно получить результаты мирового уровня, сравнимые с результатами, получаемыми с использованием новых методов, таких как трансформеры и мультимодальное обучение. Наш подход позволяет повысить оценку по метрике ROC AUC до 20% на реальных наборах данных с 0.803 до 0.959. Хотя LAL фокусируется на сотнях тысяч последовательностей, мы показываем, что его можно применить и в задачах с миллионами пользовательских последовательностей. Мы предоставляем полностью воспроизводимую реализацию с кодом и наборами данных в https://github.com/adasegroup/sequence_clusterers.

Ключевые слова: приложения, кластеризация, неконтролируемое обучение, временные точечные процессы

Полные тексты статей выпуска доступны в ознакомительном режиме только авторизованным пользователям.

Список литературы

Mathilde Caron et al. “Unsupervised learning of visual features by contrasting cluster assignments”. B: Advances in Neural Information Processing Systems. 2020. V. 33. P. 9912–9924.
Gromit Yeuk-Yin Chan et al. “Interactive Audience Expansion On Large Scale Online Visitor Data”. B: Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. New York, NY, USA: Association for Computing Machinery, aвг. 2021. P. 2621–2631.
Daley D., Vere-Jones D. “An introduction to the theory of point processes. Vol. I: Elementary theory and methods. 2nd ed”. B: Vol. 1 (янв. 2003). https://doi.org/10.1007/b97277
Arthur P. Dempster, NanMLaird, Donald B. Rubin. “Maximum likelihood from incomplete data via the EM algorithm”. B: Journal of the Royal Statistical Society: Series B (Methodological). 1977. V. 39.1. P. 1–22.
Stephanie deWet, Jiafan Ou. “Finding Users Who Act Alike: Transfer Learning for Expanding Advertiser Audiences”. B: Proceedings of the 25^th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. KDD ’19. Anchorage, AK, USA: Association for Computing Machinery, июль 2019. P. 2251–2259.
Dixin Luo et al. “You Are What You Watch and When You Watch: Inferring Household Structures From IPTV Viewing Data”. B: IEEE Transactions on Broadcasting, vol. 60, no. 1, pp. 61–72, March 2014. 2014.
Khoa D. Doan, Pranjul Yadav, Chandan K Reddy. “Adversarial Factorization Autoencoder for Look-alike Modeling”. B: Proceedings of the 28th ACM International Conference on Information and Knowledge Management. CIKM ’19. Beijing, China: Association for Computing Machinery, нoяб. 2019. P. 2803–2812.
Faraone M.F. et al. “Using context to improve the effectiveness of segmentation and targeting in e-commerce”. B: Expert Systems with Applications. 2012. V. 39.9. P. 8439–8451. issn: 0957-4174. https://doi.org/10.1016/j.eswa.2012.01.174. url: https://www.sciencedirect.com/science/article/pii/S0957417412002023.
Fursov I. et al. “Gradient-based adversarial attacks on categorical sequence models via traversing an embedded world”. B: AIST. 2020.
Fursov Ivan et al. “Sequence Embeddings Help Detect Insurance Fraud”. B: IEEE Access. 2022. V. 10. P. 32060–32074.
Felix A. Gers, Jürgen Schmidhuber, Fred Cummins. “Learning to forget: Continual prediction with LSTM”. B. 1999.
Jean-Bastien Grill et al. “Bootstrap your own latent-a new approach to self-supervised learning”. B: Advances in Neural Information Processing Systems. 2020. V. 33. P. 21271–21284.
Luo Haiyan et al. Methods and systems for near real-time lookalike audience expansion in ads targeting. en. https://patents.justia.com/patent/10853847. Accessed: 2022-2-7.
Alan G. Hawkes. “Spectra of some self-exciting and mutually exciting point processes”. B: Biometrika. 1971. V. 58.1. P. 83–90.
Kaiming He et al. “Masked autoencoders are scalable vision learners”. B: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. P. 16000–16009.
Sergey Ioffe, Christian Szegedy. “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”. B: (фeвp. 2015).
Ashish Jaiswal et al. “A survey on contrastive self-supervised learning”. B: Technologies. 2020. V. 9.1. P. 2.
Jinling Jiang et al. Comprehensive audience expansion based on end-toend neural prediction. http://ceur-ws.org/Vol-2410/paper12.pdf. Accessed: 2022-2-8.
Yoon Kim. “Convolutional Neural Networks for Sentence Classification”. B: EMNLP. 2014.
Dennis Koehn, Stefan Lessmann, Markus Schaal. “Predicting online shopping behaviour from clickstream data using deep learning”. B: Expert Systems with Applications. 2020. V. 150. P. 113342. issn: 0957-4174. https://doi.org/10.1016/j.eswa.2020.113342. url: https://www.sciencedirect.com/science/article/pii/S0957417420301676.
Haishan Liu et al. “Audience Expansion for Online Social Network Advertising”. B: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016.
Haishan Liu et al. “Audience Expansion for Online Social Network Advertising”. B: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. KDD ’16. San Francisco, California, USA: Association for Computing Machinery, aвг. 2016. P. 165–174.
Yudan Liu et al. “Real-time Attention Based Look-alike Model for Recommender System”. B: (июнь 2019). arXiv: 1906.05022 [cs.IR].
Zhining Liu et al. “Two-Stage Audience Expansion for Financial Targeting in Marketing”. B: Proceedings of the 29th ACM International Conference on Information & Knowledge Management. CIKM ’20. Virtual Event, Ireland: Association for Computing Machinery, oкт. 2020. P. 2629–2636.
Qiang Ma, Musen Wen, Datong Chen. A sub-linear, massive-scale lookalike audience extension system. http://proceedings.mlr.press/v53/ma16.pdf. Accessed: 2022-2-7.
Qiang Ma et al. “Score Look-alike Audiences”. B: ().
Ashish Mangalampalli et al. “A feature-pair-based associative classification approach to look-alike modeling for conversion-oriented user-targeting in tail campaigns”. B: Proceedings of the 20th international conference companion on World wide web.WWW’11. Hyderabad, India: Association for Computing Machinery, мapт 2011. P. 85–86.
Ashish Mangalampalli et al. “A feature-pair-based associative classification approach to look-alike modeling for conversion-oriented user-targeting in tail campaigns”. B: Proceedings of the 20th international conference companion on World wide web – WWW ’11. Hyderabad, India: ACM Press, 2011.
Hongyuan Mei, Jason Eisner. “The Neural Hawkes Process: A Neurally Self-Modulating Multivariate Point Process”. B: NeurIPS. 2017.
Lin Miao, Mark Last, Marina Litvak. “Tracking social media during the COVID-19 pandemic: The case study of lockdown in New York State”. B: Expert Systems with Applications. 2022. V. 187. P. 115797. issn: 0957-4174. https://doi.org/10.1016/j.eswa.2021.115797. url: https://www.sciencedirect.com/science/article/pii/S0957417421011659.
Du Nan et al. “Recurrent Marked Temporal Point Processes: Embedding Event History to Vector”. B: KDD’16. 2016.
Aaron van den Oord et al. “WaveNet: A Generative Model for Raw Audio”. B: 9th ISCA Speech Synthesis Workshop.
Sandeep Pandey et al. “Learning to target: what works for behavioral targeting”. B: Proceedings of the 20th ACM international conference on Information and knowledge management. CIKM ’11. Glasgow, Scotland, UK: Association for Computing Machinery, oкт. 2011. P. 1805–1814.
Perlich C. et al. “Machine learning for targeted display advertising: Transfer learning in action”. B: ().
Yan Qu et al. “Systems and methods for generating expanded user segments”. 8655695. Фeвp. 2014.
Ernest Kirubakaran Selvaraj. Multigraph-Lookalike. en.
Ernest Kirubakaran Selvaraj et al. “Multigraph Approach Towards a Scalable, Robust look-alike Audience Extension System”. B. 2021.
Oleksandr Shchur et al. “Neural temporal point processes: A review”. B: arXiv preprint arXiv:2104.03528. 2021.
Jianqiang Shen, Sahin Cem Geyik, Ali Dasdan. “Effective Audience Extension in Online Advertising”. B: Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. KDD ’15. Sydney, NSW, Australia: Association for Computing Machinery, aвг. 2015. P. 2099–2108.
Hui Shi et al. “Continuous CNN for nonuniform time series”. B: ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. 2021. P. 3550–3554.
Victoria Snorovikhina, Alexey Zaytsev. “Unsupervised anomaly detection for discrete sequence healthcare data”. B: International Conference on Analysis of Images, Social Networks and Texts. Springer. 2020. P. 391–403.
Yi Tay et al. “Efficient transformers: A survey”. B: ACM Computing Surveys. 2022. V. 55.6. P. 1–28.
Yi Tay et al. “Long range arena: A benchmark for efficient transformers”. B: arXiv preprint arXiv:2011.04006. 2020.
Nikolaos Tziortziotis et al. “Audience expansion based on user browsing history”. B: 2021 International Joint Conference on Neural Networks (IJCNN). 2021. P. 1–8. https://doi.org/10.1109/IJCNN52387.2021.9533392.
Yansong Wang et al. “CasSeqGCN: Combining network structure and temporal sequence to predict information cascades”. B: Expert Systems with Applications. 2022. V. 206. P. 117693. issn: 0957-4174. https://doi.org/10.1016/j.eswa.2022.117693. url: https://www.sciencedirect.com/science/article/pii/S095741742200985X.
Hongteng Xu, Hongyuan Zha. “A Dirichlet mixture model of Hawkes processes for event sequence clustering”. B: Advances in Neural Information Processing Systems. 2017. P. 1354–1363.
Junchi Yan. “Recent advance in temporal point process: from machine learning perspective”. B: SJTU Technical Report. 2019.
Carl Yang et al. “I Know You’ll Be Back: Interpretable New User Clustering and Churn Prediction on a Mobile Social Application”. B: Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. KDD ’18. London, United Kingdom: Association for Computing Machinery, июль 2018. P. 914–922.
Wang Yaqing et al. “EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection”. B: KDD. 2018.
James Zhang et al. “Dynamic time warp-based clustering: Application of machine learning algorithms to simulation input modelling”. B: Expert Systems with Applications. 2021. V. 186. P. 115684. issn: 0957-4174. https://doi.org/10.1016/j.eswa.2021.115684. url: https://www.sciencedirect.com/science/article/pii/S0957417421010691.
Yunhao Zhang et al. “Learning mixture of neural temporal point processes for multi-dimensional event sequence clustering”. B: Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence, Vienna, Austria. 2022. P. 23–29.
Zhihua Zhang et al. “Learning a Multivariate Gaussian Mixture Model with the Reversible Jump MCMC Algorithm”. B: Statistics and Computing 14 (aпp. 2004). https://doi.org/10.1023/B:STCO.0000039484.36470.41
Yongchun Zhu et al. “Learning to Expand Audience via Meta Hybrid Experts and Critics for Recommendation and Advertising”. B: Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. New York, NY, USA: Association for Computing Machinery, aвг. 2021. P. 4005–4013.
Chenyi Zhuang et al. “Hubble: An Industrial System for Audience Expansion in Mobile Marketing”. B: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. KDD ’20. Virtual Event, CA, USA: Association for Computing Machinery, 2020. P. 2455–2463. isbn: 9781450379984. https://doi.org/10.1145/3394486.3403295. url: 10.1145/3394486.3403295
Chenyi Zhuang et al. “Hubble: An Industrial System for Audience Expansion in Mobile Marketing”. B: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York, NY, USA: Association for Computing Machinery, aвг. 2020. P. 2455–2463.
Jinfeng Zhuang et al. “PinText 2: Attentive bag of annotations embedding”. B: ().
Simiao Zuo et al. “Transformer Hawkes process”. B: International conference on machine learning. PMLR. 2020. P. 11692–11702.

Дополнительные материалы отсутствуют.

Инструменты

следующая статья выпуска предыдущая статья выпуска содержание выпуска

Доклады Российской академии наук. Математика, информатика, процессы управления

Архивы выпусков Информация о журнале Отправить рукопись в журнал

Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 514, № 2, стр. 395-416

НЕ БЫВАЕТ ДВУХ ОДИНАКОВЫХ ПОЛЬЗОВАТЕЛЕЙ: НЕЙРОСЕТЕВАЯ КЛАСТЕРИЗАЦИЯ НА ОСНОВЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ СОБЫТИЙ ДЛЯ ГЕНЕРАЦИИ АУДИТОРИЙ

Свяжитесь с нами

Время работы