AI-ассистент для изучения научных статей
AI-ассистент предназначен для ответов на вопросы пользователя, основанные на статьях из arXiv. Это позволяет исследователям не тратить время на полное чтение материалов, а сосредоточиться на конкретны
В эпоху информационного перенасыщения исследователям становится всё сложнее оставаться в курсе последних научных достижений. Решением этой проблемы стал новаторский проект - AI-ассистент, реализованный в виде Telegram-бота. Этот инструмент предназначен для ускорения процесса изучения новых научных статей, позволяя пользователям задавать конкретные вопросы и получать быстрые и точные ответы.
Описание Проекта
AI-ассистент предназначен для ответов на вопросы пользователя, основанные на статьях из arXiv. Это позволяет исследователям не тратить время на полное чтение материалов, а сосредоточиться на конкретных вопросах. Реализация в виде Telegram-бота делает его доступным и удобным в использовании.
Бизнес-Задача
Основной целью AI-ассистента является оптимизация рабочего времени исследователей. Проект направлен на ускорение процесса изучения новых научных статей, упрощение поиска информации и улучшение качества ответов. Пользователи не обязаны читать материал полностью, а могут задать интересующие их вопросы непосредственно боту.
Цель проекта - оптимизация рабочего времени исследователей:
- Ускорение процесса изучения новых статей.
- Упрощение поиска специфической информации.
- Повышение качества ответов.
Постановка ML Задачи
- Подготовка датасета с текстами статей.
- Создание базы данных для RAG.
- Выбор подходящей языковой модели.
- Разработка пайплайнов для инференса модели с RAG и без него.
Работа с Данными и RAG
Данные включают статьи из arXiv о LLM. Разбиение документов на блоки происходит либо по количеству слов, либо на смысловые блоки (абзацы, подпункты, заголовки).
ML Цели
- Автоматизация выдачи релевантных и понятных ответов с использованием LLM (Large Language Models).
- Интеграция RAG (Retrieval-Augmented Generation) для улучшения качества ответов.
- Сравнение эффективности модели с RAG и без его использования.
Исследование ML-задачи
Для осуществления проекта был проведен выбор подходящей LLM. Использовалась модель llama2-13-b в качестве open source baseline решения. Кроме того, рассматриваются и другие языковые модели, такие как saiga для русского языка и mistral-7b, которая является текущим SOTA решением в open source.
Оценка Качества
Ответы, сгенерированные моделью с использованием RAG и без него, были оценены экспертами.
Реализация
AI-ассистент реализован в форме Telegram-бота, обеспечивая легкий доступ и удобство использования. Этот бот способен анализировать статьи с arXiv, предоставляя пользователям максимально релевантные и понятные ответы на их вопросы.
Архитектура Решения
Диаграмма Контекста (C1)
Пользователь задает вопросы через Telegram-бота, который генерирует ответы.
Диаграмма Контейнера (C2)
Решение разбито на контейнеры, каждый из которых выполняет определенную функцию в обработке запросов.
Идеальная Диаграмма Контейнера (C2 Ideal)
Представлена оптимизированная архитектура для наилучшей реализации бота.
Демонстрация Решения
Демонстрация включает в себя реальные примеры использования бота, показывающие его эффективность и удобство в работе с научными статьями.
Авторы проекта
Гаптулхаков Р.Р. - исследование МЛ модели, подготовка пайплайна для инференса
Моисеенков И.П. - создание бота для работы с моделью, проработка архитектуры проекта
Группа М8О-114М-23
No comments yet. Login to start a new discussion Start a new discussion