python langid识别一段字符串是哪国语言

news/2024/12/25 23:07:49 标签: python

分析:

        在利用爬虫抓取亚马逊网站的数据时,有时会出现所抓页面的语言类型发生错误的情况(如抓取沙特站数据时想要英文页面,抓到的确是阿拉伯语页面)。在数据量大的时候人工排查这类异常情况是非常麻烦的,这时候就可以用到langid模块。

        但langid模块的识别结果并不完全正确,但是用作参考还是够用的。

代码:

安装langid

pip install langid

识别语言

python">import langid


# langid能识别90多种语言,且欧洲许多语言都非常相似,所以最好设置下语言类型
langid.set_languages(['en', 'fr', 'de', 'es', 'sv', 'ja', 'pt', 'it', 'nl'])

print(langid.classify('Compatible Devices'))  # 英文
print(langid.classify('フォームの形式'))  # 日语
print(langid.classify('Varumärke'))  # 瑞典语
print(langid.classify('Caractéristique spéciale'))  # 法语

运行结果


http://www.niftyadmin.cn/n/5799571.html

相关文章

组相联映射 set-associative mapping

简单理解:主存储器与高速缓存之间的一种地址映射关系 主存储器和高速缓存按同样大小分组 组内再分成同样大小的块 组间采用直接映射 组内的块之间采用全相联映射 associative 英 [əˈsəʊʃiətɪv] 美 [əˈsoʊʃiətɪv] adj.联合的,联想的&…

LeetCode100之二叉树中的最大路径和(124)--Java

1.问题描述 二叉树中的 路径 被定义为一条节点序列,序列中每对相邻节点之间都存在一条边。同一个节点在一条路径序列中 至多出现一次 。该路径 至少包含一个 节点,且不一定经过根节点。路径和 是路径中各节点值的总和。 给你一个二叉树的根节点 root &am…

【Linux】ChatGLM-4-9B模型之All Tools

一、摘要 最近在研究GLM4模型,发现自带的All Tools比较感兴趣,它具有完整工具调用能力的对话模式,原生支持网页浏览、代码执行、图表生成、图片生成,并支持自定义工具。它能够满足大模型私有化部署的个性定制,因此记录…

【es6复习笔记】Symbol 类型及其应用(9)

一、Symbol 简介 Symbol 是 JavaScript 中的一种基本数据类型,它表示唯一的标识符。Symbol 的主要目的是防止属性名冲突,尤其是在多个代码库或模块中共享对象时。Symbol 值可以用作对象的属性名,这样可以确保属性名是唯一的,不会…

职业技能赛赛后心得

这是一位粉丝所要求的,也感谢这位粉丝对我的支持。 那么本篇文章我也是分成四个部分,来总结一下这次赛后心得。 赛中问题 那么这里的赛中问题不会只包含我所遇到的问题,也会包含赛中其他选手出现的问题。 那么首先我先说一下我在赛中遇到的…

解决 Docker 中 DataLoader 多进程错误:共享内存不足

一、问题描述: 在容器化环境(如 Docker)中使用深度学习框架进行训练时,通常会使用 PyTorch 的 DataLoader 来加载数据。在使用 DataLoader 的多进程数据加载时,当 num_workers > 0,即启用多个工作进程并…

【Unity3D】Particle粒子特效或3D物体显示在UGUI上的方案

目录 一、RawImage Camera RenderTexture方式 (1)扩展知识:实现射线检测RawImage内的3D物体 (2)扩展知识:实现粒子特效显示RawImage上 二、UI摄像机 Canvas(Screen Space - Camera模式)方式 &#…

Scala_【1】概述

第一章 语言特点环境搭建(Windows)idea编写scalaHelloWorld注意事项 Scala是一门以Java虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言 语言特点 Scala是一门多范式的编程语言,Scala支持面向对象和函…