AI-ассистент для изучения научных статей

AI-ассистент предназначен для ответов на вопросы пользователя, основанные на статьях из arXiv. Это позволяет исследователям не тратить время на полное чтение материалов, а сосредоточиться на конкретны

 · 2 min read

В эпоху информационного перенасыщения исследователям становится всё сложнее оставаться в курсе последних научных достижений. Решением этой проблемы стал новаторский проект - AI-ассистент, реализованный в виде Telegram-бота. Этот инструмент предназначен для ускорения процесса изучения новых научных статей, позволяя пользователям задавать конкретные вопросы и получать быстрые и точные ответы.

Описание Проекта

AI-ассистент предназначен для ответов на вопросы пользователя, основанные на статьях из arXiv. Это позволяет исследователям не тратить время на полное чтение материалов, а сосредоточиться на конкретных вопросах. Реализация в виде Telegram-бота делает его доступным и удобным в использовании.

Бизнес-Задача

Основной целью AI-ассистента является оптимизация рабочего времени исследователей. Проект направлен на ускорение процесса изучения новых научных статей, упрощение поиска информации и улучшение качества ответов. Пользователи не обязаны читать материал полностью, а могут задать интересующие их вопросы непосредственно боту.

Цель проекта - оптимизация рабочего времени исследователей:

  • Ускорение процесса изучения новых статей.
  • Упрощение поиска специфической информации.
  • Повышение качества ответов.

Постановка ML Задачи

  1. Подготовка датасета с текстами статей.
  2. Создание базы данных для RAG.
  3. Выбор подходящей языковой модели.
  4. Разработка пайплайнов для инференса модели с RAG и без него.

Работа с Данными и RAG

Данные включают статьи из arXiv о LLM. Разбиение документов на блоки происходит либо по количеству слов, либо на смысловые блоки (абзацы, подпункты, заголовки).

ML Цели

  • Автоматизация выдачи релевантных и понятных ответов с использованием LLM (Large Language Models).
  • Интеграция RAG (Retrieval-Augmented Generation) для улучшения качества ответов.
  • Сравнение эффективности модели с RAG и без его использования.

Исследование ML-задачи

Для осуществления проекта был проведен выбор подходящей LLM. Использовалась модель llama2-13-b в качестве open source baseline решения. Кроме того, рассматриваются и другие языковые модели, такие как saiga для русского языка и mistral-7b, которая является текущим SOTA решением в open source.

Оценка Качества

Ответы, сгенерированные моделью с использованием RAG и без него, были оценены экспертами.

Реализация

AI-ассистент реализован в форме Telegram-бота, обеспечивая легкий доступ и удобство использования. Этот бот способен анализировать статьи с arXiv, предоставляя пользователям максимально релевантные и понятные ответы на их вопросы.

Архитектура Решения

Диаграмма Контекста (C1)

Пользователь задает вопросы через Telegram-бота, который генерирует ответы.

Диаграмма Контейнера (C2)

Решение разбито на контейнеры, каждый из которых выполняет определенную функцию в обработке запросов.

Идеальная Диаграмма Контейнера (C2 Ideal)

Представлена оптимизированная архитектура для наилучшей реализации бота.

Демонстрация Решения

Демонстрация включает в себя реальные примеры использования бота, показывающие его эффективность и удобство в работе с научными статьями.

Авторы проекта

Гаптулхаков Р.Р. - исследование МЛ модели, подготовка пайплайна для инференса

Моисеенков И.П. - создание бота для работы с моделью, проработка архитектуры проекта

Группа М8О-114М-23

Реализация

GitHub


No comments yet.

Добавить комментарий
Ctrl+Enter, чтобы добавить комментарий