Инструмент для поиска параллельных текстов

Парсер текстов: parallel_finder

Представляем вам parallel_finder — клёвый инструмент для тех, кто работает с языками! Че в нем такого, спросите вы? Да все просто: он автоматом ищет парные куски текста на разных языках. Прикиньте, как это круто для изучения языков или для классных проектов по машинному переводу!

Плюшки проекта

Первое что стоит отметить — скорость и масштаб. Этот инструмент, благодаря многопоточным вычислениям (да, именно поэтому он parallel), ловко и быстро прорабатывает большие объемы текстов. Для тех, кто любит легкие решения, он поддерживает пару простых текстовых файлов в качестве входных данных — строки идут подряд, все просто.

Что по технологиям: представьте, что в каждой строке файл превращает текст в векторные представления — это называется эмбеддинги. Используется он с мощным фреймворком SentenceTransformer, который переводит ваши текстики в векторные модели. Потом происходит магия: косинусная близость определяет, насколько пара предложений подходит друг другу. Вуаля, и вы получаете полное соответствие на выходе!

Как запустить? Да как два пальца!

Поехали:

  1. Клонируем репу: git clone https://github.com/NoteDance/parallel_finder.git и переходим в нее cd parallel_finder
  2. Устанавливаем, что нужно: pip install -r requirements.txt
  3. Запускаем на своих данных: python run_parallel_finder.py --source_file data/source.txt --target_file data/target.txt --output_file output/parallel.txt

Основные настройки просты:

  • source_file — файл с вашим первым языком
  • target_file — файл с целью
  • output_file — куда все сложится

Почему это нужно?

parallel_finder — это must-have для тех, кто автоматизирует бизнес процессы, связанные с переводом и лингвистикой. Хотите внедрять искусственный интеллект в продажи? Или автоматизация ваших бизнес процессов компании — ваша страсть? Это отличный пример, как технологии делают жизнь проще.

Нам особенно дорог этот инструмент, потому что он улучшает работу нейросетей и подгоняет автоматизацию бизнеса до идеала.

Больше подобного контента в моем блоге

#АвтоматизацияБизнеса #ИскусственныйИнтеллект #МашинныйПеревод