Инструмент для поиска параллельных текстов

Представляем вам parallel_finder — клёвый инструмент для тех, кто работает с языками! Че в нем такого, спросите вы? Да все просто: он автоматом ищет парные куски текста на разных языках. Прикиньте, как это круто для изучения языков или для классных проектов по машинному переводу!
Плюшки проекта
Первое что стоит отметить — скорость и масштаб. Этот инструмент, благодаря многопоточным вычислениям (да, именно поэтому он parallel), ловко и быстро прорабатывает большие объемы текстов. Для тех, кто любит легкие решения, он поддерживает пару простых текстовых файлов в качестве входных данных — строки идут подряд, все просто.
*Что по технологиям: *представьте, что в каждой строке файл превращает текст в векторные представления — это называется эмбеддинги. Используется он с мощным фреймворком SentenceTransformer, который переводит ваши текстики в векторные модели. Потом происходит магия: косинусная близость определяет, насколько пара предложений подходит друг другу. Вуаля, и вы получаете полное соответствие на выходе!
Как запустить? Да как два пальца!
Поехали:
- Клонируем репу:
git clone https://github.com/NoteDance/parallel_finder.gitи переходим в нееcd parallel_finder - Устанавливаем, что нужно:
pip install -r requirements.txt - Запускаем на своих данных:
python run_parallel_finder.py --source_file data/source.txt --target_file data/target.txt --output_file output/parallel.txt
Основные настройки просты:
source_file— файл с вашим первым языкомtarget_file— файл с цельюoutput_file— куда все сложится
Почему это нужно?
parallel_finder — это must-have для тех, кто автоматизирует бизнес процессы, связанные с переводом и лингвистикой. Хотите внедрять искусственный интеллект в продажи? Или автоматизация ваших бизнес процессов компании — ваша страсть? Это отличный пример, как технологии делают жизнь проще.
Нам особенно дорог этот инструмент, потому что он улучшает работу нейросетей и подгоняет автоматизацию бизнеса до идеала.