Система анализа тональности отзывов с Wildberries на основе scikit-learn.
Классифицирует отзывы как позитивные или негативные с указанием уверенности модели.
- Python 3.10+
- scikit-learn — обучение модели (TF-IDF + Logistic Regression)
- HuggingFace Datasets — загрузка датасетов
- joblib — сохранение и загрузка модели
| Назначение | Ссылка |
|---|---|
| Обучение | nyuuzyou/wb-feedbacks |
| Тестирование | Roaoch/urfu_ecom_wb |
src/
├── main.py — точка входа
├── train.py — загрузка данных и обучение модели
├── predict.py — загрузка модели и предсказания
├── cli.py — интерактивный интерфейс в терминале
└── config.py — константы (пути, параметры датасета)
git clone <repo-url>
cd Feedback-Sorting-System
pip install scikit-learn datasets joblibcd src
python main.pyПри первом запуске система автоматически загрузит датасет и обучит модель.
При повторных запусках предложит использовать сохранённую модель или переобучить.
отзыв → TfidfVectorizer → LogisticRegression → позитивный / негативный
Обучающий датасет содержит отзывы с оценками 1–5. Оценки конвертируются в метки:
4–5→positive1–2→negative3→ пропускается (неоднозначно)
Модель обучается на 100 000 примерах с разбивкой 80/20 на train/test.
Введите отзыв (или 'выход' для завершения):
Отзыв: Отличный товар, очень доволен покупкой!
→ Позитивный (уверенность: 94.3%)
Отзыв: Пришёл бракованный, требую возврата
→ Негативный (уверенность: 88.7%)