Парсер текстов: parallel_finder
Представляем вам parallel_finder — клёвый инструмент для тех, кто работает с языками! Че в нем такого, спросите вы? Да все просто: он автоматом ищет парные куски текста на разных языках. Прикиньте, как это круто для изучения языков или для классных проектов по машинному переводу!
Плюшки проекта
Первое что стоит отметить — скорость и масштаб. Этот инструмент, благодаря многопоточным вычислениям (да, именно поэтому он parallel), ловко и быстро прорабатывает большие объемы текстов. Для тех, кто любит легкие решения, он поддерживает пару простых текстовых файлов в качестве входных данных — строки идут подряд, все просто.
Что по технологиям: представьте, что в каждой строке файл превращает текст в векторные представления — это называется эмбеддинги. Используется он с мощным фреймворком SentenceTransformer, который переводит ваши текстики в векторные модели. Потом происходит магия: косинусная близость определяет, насколько пара предложений подходит друг другу. Вуаля, и вы получаете полное соответствие на выходе!
Как запустить? Да как два пальца!
Поехали:
- Клонируем репу:
git clone https://github.com/NoteDance/parallel_finder.git
и переходим в нееcd parallel_finder
- Устанавливаем, что нужно:
pip install -r requirements.txt
- Запускаем на своих данных:
python run_parallel_finder.py --source_file data/source.txt --target_file data/target.txt --output_file output/parallel.txt
Основные настройки просты:
source_file
— файл с вашим первым языкомtarget_file
— файл с цельюoutput_file
— куда все сложится
Почему это нужно?
parallel_finder — это must-have для тех, кто автоматизирует бизнес процессы, связанные с переводом и лингвистикой. Хотите внедрять искусственный интеллект в продажи? Или автоматизация ваших бизнес процессов компании — ваша страсть? Это отличный пример, как технологии делают жизнь проще.
Нам особенно дорог этот инструмент, потому что он улучшает работу нейросетей и подгоняет автоматизацию бизнеса до идеала.
Больше подобного контента в моем блоге
#АвтоматизацияБизнеса #ИскусственныйИнтеллект #МашинныйПеревод