Unicode 対応ライブラリ


多様な文字コードのデータを Unicode に変換して一括処理したい、外字人名漢字もきちんと表示したいなどの場合にお勧めのツール

製品概要

ソフトウェアやインターネットアプリケーションを国際市場に対応させるには、言語にかかわる事項、特に文字コードが大きな課題となります。先進的なRosette® Unicode 対応ライブラリ (RCLU: Rosette Core Library for Unicode) は多言語対応の際に直面する文字コード処理の課題を解決します。

各国固有の文字コードを世界共通のUnicode に変換することにより、どのような文字コードのテキストデータも処理できるようになります。またデータ出力などでUnicode 以外の文字コードのサポートが必要な場合には、その文字コードへ変換して処理できます。

製品の特長

  • 12の言語ペアをサポート
  • シンプルなAPI
  • 高い拡張性と処理能力
  • 業務仕様のサポート
  • 簡単なインストール
  • 柔軟でカスタマイズ可能

機能

簡単なテキスト操作

データのソート、正規化、文字列の一致等の機能を容易に実現するため、さまざまな文字変換及び文字属性分類の機能を備えています。

テキストの正規化(一例):

大文字 ↔ 小文字
例:Unicode TEXT ↔ unicode text
半角 ↔ 全角(日本語のみ)
例:ABCカンパニー ↔ ABCカンパニー
ひらがな ↔ カタカナ(日本語のみ)

日本語対応

ISO-2022-JP (JIS)、Shift‑JIS、EUC‑JP などといった日本固有の文字コードでのデータ処理が必要となる場合、これら日本語固有の文字コードからUnicode への変換、あるいはその逆をおこなうためのツールとしてもご利用いただけます。JIS X0213 (JIS 第1~第4水準)にも対応しています。

文字コード変換

Unicode 5.0 と160種類以上の旧来の文字コードとの間の変換をサポートしています。
例:Shift-JIS ↔ Unicode, GB18030 ↔ Unicode

Unicode 文字の分類と変換

176種類の文字属性および文字種によってUnicode 文字の分類と置き換えを行います。

高い実行性能

  • 高速かつ効率的で、スレッド・セーフ。
  • 文字コードテーブルのダイナミック・ロード
  • メモリー必要量を最小限に抑えます。

仕様

  • 160種類以上の旧来の文字コードに対応
  • Unicode 対応エンコーディング
  • Unicode標準 1.2、2.X、3.X、4.X、5.X
  • UCS-2 (big-endian または little-endian)
  • UTF-7、UTF-8 フォーマット
  • バイトオーダーマーク(BOM)有/無
  • Java及びSGMLの文字参照
  • 30種類の文字変換
  • コンパクトなライブラリサイズ – 別に500KB – 10MB の変換テーブル

スペック

ご利用可能なプラットフォーム

Deployment availability:
プラグイン:
プログラミング:
  • C++

Unicode 文字コード

文字コード 別名 発行者 Rosetteでの別名
BMP Unicode BMP, Unicode20:big-endian
Java (way of representing Unicode chars in ASCII) Sun Java, Unicode20:BOM:Java, Unicode11:Java, Unicode11:BOM:Java
UCS2 ISO-10646-UCS2, UTF16 Unicode Unicode
Unicode Big-endian Unicode big-endian, Unicode20:big-endian, Unicode11:big-endian, Unicode11:BOM:big-endian
Unicode Little-endian Unicode little-endian, Unicode20:little-endian, Unicode11:little-endian, Unicode11:BOM:little-endian
Unicode11-UCS2 Unicode Unicode11-UCS2, Unicode11:UCS2, Unicode11:BOM:UCS2
Unicode11-UTF7 Unicode Unicode11-UTF7, Unicode11:UTF7, Unicode11:BOM:UTF7
Unicode11-UTF8 Unicode Unicode11-UTF8, Unicode11:UTF8, Unicode11:BOM:UTF8
UTF7 Unicode UTF7, Unicode20:BOM:UTF7
UTF8 Unicode UTF8, Unicode20:BOM:UTF8
UTF32 Unicode UTF32
UTF8 Unicode UTF8, Unicode20:BOM:UTF8
UTF-EBCDIC Unicode UTF8-EBCDIC, UTF-8-EBCDIC

日本語文字コード

文字コード 別名 発行者 Rosetteでの別名
CCSID 1027 EBCDIK Microsoft & IBM CCSID-1027, CCSID1027
CCSID 290 EBCDIK Microsoft & IBM CCSID-290, CCSID290
CCSID 930 IBM CCSID-930, CCSID930
CCSID 939 IBM CCSID-939, CCSID939
CCSID 942 Microsoft & IBM CCSID-942, CCSID942
CP10001 Macintosh Japanese Microsoft & IBM CP10001
CP20290 (full/half width Latin & halfwidth katakana) Microsoft & IBM CP20290
CP21027 (halfwidth Latin, halfwidth katakana & private use) Microsoft & IBM CP21027
EUC-JP Unix EUC-JP, EUC-J
EUC-JP-JISROMAN Unix EUC-JP-JISROMAN
ISO 2022-JP International or National Standard ISO-2022-JP
JapaneseAutoDetect For encodings, see JapaneseAutodetect Rosette Autodetect JapaneseAutoDetect
JIS_X_0201 HalfWidthKatakana International or National Standard JIS_X_0201, IBM897
JIS_X_0208 International or National Standard JIS_X_0208
MacJapanese Macintosh MacJapanese
Shift-JISMS MS_Kanji, CP932 Microsoft & IBM Shift-JIS, SJIS
Shift_JIS-2004 ShiftJISX0213 Microsoft & IBM Shift_JISX0213, Shift-X
Shift-JIS78 Shift-JIS without MS/IBM extensions Unix/Macintosh Shift-JIS78, SJIS78

中国語文字コード

文字コード 別名 発行者 Rosetteでの別名
ChineseAutoDetect For encodings, see ChineseAutodetect Rosette Autodetect ChineseAutoDetect
HKSCS International or National Standard HKSCS
ISO 2022-CN International or National Standard ISO-2022-CN
GB 18030 International or National Standard GB18030
Chinese, Simplified
CCSID 935 IBM CCSID-935, CCSID935
EUC-CN GB2312, EUC-SC Unix GB2312
GB2312 EUC-CN, EUC-SC International or National Standard GB2312
HZ-GB-2312 HZ-GB-2312 International or National Standard HZ, HZ-GB-2312
CP936 GBK Microsoft & IBM CP936, GBK
MacChineseSimplified Macintosh MacChineseSimplified
Chinese, Traditional
CCSID 937 IBM CCSID-937, CCSID937
CNS-11643-1986 EUC-TW International or National Standard CNS-11643-1986
CNS-11643-1992 EUC-TW International or National Standard CNS-11643, CNS-11643-1992
EUC-TW CNS-11643-1986, CNS-11643-1992 Unix CNS-11643, CNS-11643-1992
GB12345 International or National Standard GB12345
Big5 International or National Standard Big5
Big5+ International or National Standard Big5+, Big5Plus
CP10002 Macintosh Traditional Chinese Microsoft & IBM CP10002
CP950 Microsoft & IBM CP950
MacChineseTraditional Macintosh MacChineseTraditional

朝鮮語文字コード

文字コード 別名 発行者 Rosetteでの別名
CP10003 Macintosh Korean Microsoft & IBM CP10003
CP1361 Korean Johab (based on KSC 5861-1992) Microsoft & IBM CP1361
CP949 Microsoft & IBM CP949
EUC-KR KS_C_5861-1992 Unix EUC-KR, EUC-K
ISO 2022-KR KS_C_5601-1987 International or National Standard ISO-2022-KR
Johab International or National Standard Johab
KoreanAutoDetect See KoreanAutodetect Rosette Autodetect KoreanAutoDetect
KoreanAutoDetect See KoreanAutodetect Rosette Autodetect KoreanAutoDetect
KS_C_5601-1987 ISO-2022-KR International or National Standard ISO-2022-KR
KS_C_5861-1992 EUC-KR International or National Standard KS_C_5861-1992
MacKorean Macintosh MacKorean

ラテン語文字コード

文字コード 別名 発行者 Rosetteでの別名
CP10000 Macintosh Roman Microsoft & IBM CP10000
CP10029 Macintosh Latin2 Microsoft & IBM CP10029
CP10082 (with mathematical symbols) Microsoft & IBM CP10082
CCSID 1047 EBCDIC (for IBM Open Systems platform) Microsoft & IBM CCSID1047
CP20261 (with private use characters) Microsoft & IBM CP20261
CP20269 Microsoft & IBM CP20269
CP20273 (with fullwidth Latin & punctuation) Microsoft & IBM CP20273
CP20277 (with fullwidth Latin & punctuation) Microsoft & IBM CP20277
CP20278 (with fullwidth Latin & punctuation) Microsoft & IBM CP20278
CP20280 (with fullwidth Latin & punctuation) Microsoft & IBM CP20280
CP20284 (with fullwidth Latin & punctuation) Microsoft & IBM CP20284
CP20285 (with fullwidth Latin & punctuation) Microsoft & IBM CP20285
CP20297 (with fullwidth Latin & punctuation) Microsoft & IBM CP20297
CP20833 (with fullwidth Latin & punctuation) Microsoft & IBM CP20833
CP20871 (with fullwidth Latin & punctuation) Microsoft & IBM CP20871
CP28591 ASCII + Latin accented vowels Microsoft & IBM CP28591
CP28593 Latin 3 Alphabet (ISO) Microsoft & IBM CP28593
CP850 MS DOS Multilingual, MS-DOS Latin1 Microsoft & IBM CP850
CP870 (with fullwidth punctuation) Microsoft & IBM CP870
ISO 8859-1 Latin1 International or National Standard ISO-8859-1, Latin1, IBM819, iso-ir-100
ISO 8859-15 Latin1 + Euro symbol & accented characters International or National Standard ISO-8859-15, Latin9
ISO 8859-2 ISO_8859-2, Latin2, iso-ir-101 International or National Standard Latin2, ISO-8859-2
MacRoman Macintosh MacRoman
NextStep Apple/Next NextStep
Adobe-Standard-Encoding (used in PS printers) Other Corporate Adobe-Standard-Encoding
Adobe-Standard-Encoding (used in PS printers) Other Corporate Adobe-Standard-Encoding
Latin, Canadian French
CP863 MS DOS Canadian French Microsoft & IBM CP863
Latin, Central European
CP28592 Central European Alphabet (ISO) Microsoft & IBM CP28592
MacCentralEuropean Macintosh MacCentralEuropean
Latin, Eastern European
CP1250 Microsoft & IBM CP1250
Latin, Esperanto
CP20905 (with fullwidth Latin & punctuation) Microsoft & IBM CP20905
Latin, Portugese
CP860 MS DOS Portugese Microsoft & IBM CP860
Latin, Southeast European
ISO 8859-3 Latin3 International or National Standard Latin3, ISO-8859-3
Latin, US English
ASCII US-ASCII, CP367 International or National Standard ASCII
CP037 EBCDIC Microsoft & IBM CP037
CP1026 EBCDIC Microsoft & IBM CP1026
CP1252 MS Windows Latin1 (ANSI) Microsoft & IBM CP1252
CP20105 US ASCII Microsoft & IBM CP20105
CP437 MS-DOS Latin US Microsoft & IBM CP437
CP500 EBCDIC Microsoft & IBM CP500
CP875 EBCDIC Microsoft & IBM CP875

アラビア語文字コード

文字コード 別名 発行者 Rosetteでの別名
CP10004 Macintosh Arabic Microsoft & IBM CP10004
CP1256 Microsoft & IBM CP1256
CP20420 (with fullwidth Latin & punctuation) Microsoft & IBM CP20420
CP28596 Arabic Alphabet (ISO) Microsoft & IBM CP28596
CP708 ASMO708 Microsoft & IBM CP708
CP720 Transparent ASMO Microsoft & IBM CP720
CP864 Microsoft & IBM CP864
ISO 8859-6 ISOLatinArabic International or National Standard ISO_8859-6, Arabic, iso-ir-127, ECMA-114, ASMO-708

アイスランド語文字コード

文字コード 別名 発行者 Rosetteでの別名
CP10079 Macintosh Icelandic Microsoft & IBM CP10079
CP861 MS DOS Icelandic Microsoft & IBM CP861
MacIcelandic Macintosh MacIcelandic

ウクライナ語文字コード

文字コード 別名 発行者 Rosetteでの別名
MacUkrainian Macintosh MacUkrainian

ギリシャ語文字コード

文字コード 別名 発行者 Rosetteでの別名
CP10006 Macintosh Greek 1 Microsoft & IBM CP10006
CP1253 Microsoft & IBM CP1253
CP20423 (with fullwidth Latin & punctuation) Microsoft & IBM CP20423
CP28597 Greek Alphabet (ISO) Microsoft & IBM CP28597
CP737 Microsoft & IBM CP737
CP869 IBM Modern Greek Microsoft & IBM CP869
ISO 8859-7 ISOLatinGreek International or National Standard ISO-8859-7, Greek
MacGreek Macintosh MacGreek

キリル語文字コード

文字コード 別名 発行者 Rosetteでの別名
CP10007 Macintosh Cyrillic Microsoft & IBM CP10007
CP1251 MS Windows Cyrillic (Slavic) Microsoft & IBM CP1251
CP20866 Cyrillic Alphabet, KOI8-R Microsoft & IBM CP20866
CP20880 (with fullwidth Latin & punctuation) Microsoft & IBM CP20880
CP21025 (with fullwidth Latin & punctuation) Microsoft & IBM CP21025
CP21866 Ukrainian KOI8-RU Microsoft & IBM CP21866
CP28595 Cyrillic Alphabet (ISO) Microsoft & IBM CP28595
CP855 IBM Cyrillic Microsoft & IBM CP855
CP866 MS DOS Russian Microsoft & IBM CP866
ISO 8859-5 ISOLatinCyrillic International or National Standard ISOLatinCyrillic
MacCyrillic Macintosh MacCyrillic

クジャラーティ語文字コード

文字コード 別名 発行者 Rosetteでの別名
MacGujarati Macintosh MacGujarati
ISCII-Gujarati Indian Standards x-iscii-gu, windows-57010

グルムキー語文字コード

文字コード 別名 発行者 Rosetteでの別名
CP10010 Macintosh Gurmukhi Microsoft & IBM CP10010
MacGurmukhi Macintosh MacGurmukhi

クロアチア語文字コード

文字コード 別名 発行者 Rosetteでの別名
MacCroatian Macintosh MacCroatian

ケルト語文字コード

文字コード 別名 発行者 Rosetteでの別名
ISO 8859-14 Latin8 International or National Standard ISO-8859-14, Latin8, iso-ir-199

スラブ語文字コード

文字コード 別名 発行者 Rosetteでの別名
CP852 MS DOS Slavic Microsoft & IBM CP852

タイ語文字コード

文字コード 別名 発行者 Rosetteでの別名
CP20838 (with fullwidth Latin & punctuation) Microsoft & IBM CP20838
CP874 IBMThai Microsoft & IBM CP874
ISO 8859-11 (draft) ISOLatinThai International or National Standard Thai
MacThai Macintosh MacThai

デーヴァナーガリー語文字コード

文字コード 別名 発行者 Rosetteでの別名
MacDevanagari Macintosh MacDevanagari
ISCII-Devanagari Indian Standards x-iscii-de, windows-57002

トルコ語文字コード

文字コード 別名 発行者 Rosetteでの別名
CP10081 Macintosh Turkish Microsoft & IBM CP10081
CP1254 Microsoft & IBM CP1254
CP28599 Turkish (ISO) Microsoft & IBM CP28599
CP857 IBM Turkish Microsoft & IBM CP857
ISO 8859-9 Latin5 International or National Standard ISO-8859-9, Latin5, iso-ir-148
MacTurkish Macintosh MacTurkish

ノルディック語文字コード

文字コード 別名 発行者 Rosetteでの別名
CP865 MS DOS Nordic Microsoft & IBM CP865
ISO 8859-10 Latin6 International or National Standard Latin6, ISO-8859-10, iso-ir-157

バルト語文字コード

文字コード 別名 発行者 Rosetteでの別名
CP28594 Baltic Alphabet (ISO) Microsoft & IBM CP28594
CP775 Microsoft & IBM CP775
ISO 8859-4 Latin4 International or National Standard ISO-8859-4, Latin4, iso-ir-110
ISO 8859-13 Latin7 International or National Standard ISO-8859-13, Latin7

ベトナム語文字コード

文字コード 別名 発行者 Rosetteでの別名
CP1258 Microsoft & IBM CP1258

ヘブライ語文字コード

文字コード 別名 発行者 Rosetteでの別名
CP10005 Macintosh Hebrew Microsoft & IBM CP10005
CP1255 Microsoft & IBM CP1255
CP28598 Hebrew Alphabet (ISO) Microsoft & IBM CP28598
CP38598 ASCII + Hebrew and private use characters Microsoft & IBM CP38598
CP862 Microsoft & IBM CP862
ISO 8859-8 ISOLatinHebrew International or National Standard Hebrew

マラーヤラム語文字コード

文字コード 別名 発行者 Rosetteでの別名
CP10017 Macintosh Malayalam Microsoft & IBM CP10017
ISCII-Malayalam Indian Standards x-iscii-ma, windows-57009

ルーマニア語文字コード

文字コード 別名 発行者 Rosetteでの別名
MacRomanian Macintosh MacRomanian

記号文字コード

文字コード 別名 発行者 Rosetteでの別名
Adobe-Symbol-Encoding (used in PS printers) Adobe Adobe-Symbol-Encoding
Adobe-Zapf-Dingbats-Encoding (used in PS printers) Adobe Adobe-Zapf-Dingbats-Encoding
CP10008 Macintosh RSymbol (Right-left symbol) Microsoft & IBM CP10008
MacDingbats Macintosh MacDingbats
MacSymbol Macintosh MacSymbol

お問い合わせ

お問い合わせ

弊社製品に関するお問い合わせおよび製品評価版のご利用をご希望の方は、こちらのフォームよりお問い合わせください。

製品評価版をご希望の際は、ご使用のOSおよび開発言語の種類を必ずご記載ください。

EMAIL:
info@basistech.jp

電話:
03-3551-2947

本モジュール利用顧客