VBA正規表現抽出クラス

Excel, Access, Outlookでの文字列抽出効率化に向けたVBAの正規表現文字列抽出クラス ClassExtractor の紹介ページです。

概要

項目本文
呼称正規表現抽出クラス
URLhttps://it.sifr.me/product/vba-extractor-class/
最終更新日2023年03月25日
クラス名ClassExtractor
目的Excel, Access, Outlookでの文字列抽出効率化
前提:
 利用環境Excel, Access, Outlook 2016
 参照ライブラリMicrosoft VBScript Regular Expressions 5.5
(要VBA参照設定追加)
 構成クラスとして配置。外部からインスタンス化して利用
方針:
 処理速度バッチ的利用が出来れば問題なし
※がっつり速度チューニングする気なし
 処理方式初期処理→{設定→抽出→}*n→終了処理 の流れ
途中過程を保持しないシーケンシャルなフローでの利用
 キャッシュしない ※直前の判定結果のみ
表1.概要

機能

機能名関数名概要
設定初期化Configure正規表現パターン、
大文字小文字の区別(True:する)、
複数行対応(True:する)の設定を初期化
一致確認Test一致するか確認
一致件数確認Count一致件数確認
単数抽出Matchパターン初回ヒット文字列を取得
MatchPartialパターン初回ヒット文字列の最初のグループを取得
UnmatchHeadパターン初回ヒット文字列不一致の文字列頭部分を取得
UnmatchTailパターン初回ヒット文字列不一致の文字列尻尾部分を取得
複数抽出Matchesパターンヒット文字列を配列として取得
MatchesPartialパターンヒット文字列の最初のグループを配列として取得
単数置換ReplacePartialパターン初回ヒット文字列を置換した文字列を取得
複数置換ReplaceAllパターンヒット文字列を置換した文字列を取得
表2.機能

利用

典型的な使い方

  • 1.Microsoft VBScript Regular Expressions 5.5を参照設定に加える
  • 2.ClassExtractorを配置
  • 3.以下サンプルのように利用
    Dim InputValue As String, OutputValue As String
    InputValue = "あいうえおかきくけこさしすせそたちつてと"
    Dim TheInstance As New ClassExtractor
    With TheInstance
        Call .Configure("かき(く[^そ]+)", True, True)
        OutputValue = .MatchPartial(InputValue)
        Debug.Print OutputValue
    End With

上記で『くけこさしすせ』を出力出来ます。他の機能はマクロ付きエクセルをダウンロードするとModuleTest内のRunサブプロシージャに記載してあります。

注意事項

  • このソフトウェアを使用したことによって如何なる不利益を被っても、作者には一切の責任を負いません。自己責任でご利用下さい。
  • 作者はこのソフトウェアに不具合が生じた際に修正する義務を負いません。

ダウンロード

VBA正規表現抽出ツール(暫定版)

ノーマライズ(Normalize)とカノニカライズ(Canonicalize)の違い

ノーマライズ(Normalize)とカノニカライズ(Canonicalize)の違いをまとめた。両方とも数学・コンピュータサイエンスの世界では正規化と翻訳され、構造の標準化・簡易化を意味するが、概念・処理内容は異なる。

※音楽に対するNormalizeは音の大きさを合わせること。これは毛色が異なる処理のため対象外とする

結論

Normalizeのゴールは項目内部での冗長削減である。

対して、Canonicalizeのゴールは項目間での横断的な比較体制の確立である。項目間に相違ないか確認できるよう表記を統一すると言っても良い。Normalizeにある冗長削減は必須でないが、Normalizeにない項目間比較のためのユニーク制約を含む文脈的な対応となる。

シンプルな例でイメージを掴む

数式の例:

  • Y = 32 + 2X + 8a + 4
  • 32 -2x + y = 8b+4

これら二つの数式をNormalize(冗長削減)すると、それぞれ『Y=36+2X+8a』、『28-2x+y=8b』に出来る。「同類項はまとめられるし、半角スペースは表現の無駄だから消して冗長を削減しよう」という話である。

Canonicalizeは目的によって実施事項が揺れる。

同じ表記にして、項目間に違いがあるか、同じ項目のことを表しているかを明らかにするのがCanonicalizeのゴールだから、式の目的により『同じ項目』の定義が変わってくる。

字ずらが違ったら別のもの扱いしたい:

両方の式がCanonicalize済みの状態。完全一致しないから、二つの式を比較出来て両者に相違ありと機械的に判断できる。

項目を維持した状態で比較したい:

『変数を昇順、定数を昇順(a, bは数値よりも先に記載)、末尾は = 0 で終える』と表記のルールを決めれば『-2X + Y -8a – 32 – 4 = 0』、『-2x + y – 8b + 32 – 4 = 0』にCanonicalize出来る。統一した表記方法になっているから二つの式を比較出来て大文字X, 小文字xの差により両者に相違ありと機械的に判断出来る。

簡素化した式に相違ないか比較したい:

大文字小文字に意味がなく、定数のa, b, c もただの表記ゆれというなら二つの式は『-2x + y -8a – 36 = 0』、『-2x + y – 8a + 28 = 0』にCanonicalize出来る。統一した表記方法になっているから二つの式を比較出来て-36と28の差により両者に相違ありと機械的に判断出来る。

URLの例:

  • /home/canonical/shortcut/test/url/
  • /hoge/../test/url/
  • /test/url/index.html
  • /test/url/
  • /test/url

※shortcut は /test へのシンボリックリンクとする、index.html はDirectoryIndex設定済みする。

Normalizeすると、二つ目は『/test/url/』にNormalize(冗長削減)出来る

対して、末尾スラッシュありのURLにCanonicalizeすると5項目ともすべて /test/url/ に置き換えられ、同一の基準でURLを比較できる。

※例では静的URLのみを取り扱ったが、#での見出し有の場合や?でのクエリありの場合、更にそのヴァリエーションとして ?hoge=a&fuga=b、?fuga=b&hoge=a、?hoge=a&hoge=aa&fuga=bなんかも取り扱ってみるとよりCanonicalURLの学びになる

※一つのサーバー上でのURLを取り扱ったが、複数サーバーの存在を考慮してURLをCanonicaizeするならドメイン名/ホスト名も含めて考えることとなる

XMLの例:

  • <record data1=”x” data2=”y” />
  • <record data2=”y” data1=”x1″></record>

Normalizeすると二つ目は<record data2=”y” data1=”x” />に出来る。

『要素(data1, data2)を昇順に並べる』とルール化してCanonicalizeすると二つ目は<record data1=”x1” data2=”y” />となり、表記を統一したので内容が同じか比較しやすくなった。data1の値に相違があるため異なる内容を表すと比較出来る状態となった。

歴史

数学世界ではCanonicalizeは1900年代(1900~1910年)には存在した話。コンピューターを利用するようになり、データの表記揺れ対応や冗長削減対応が増えたから大きく注目を浴びるようになったようだ。

Google geocoding APIを試し結果を得る

Google geocoding API でキーワードをもとに緯度経度・住所を取得できる。事前準備・手続きから試用して結果XMLを取得するまでを解説した。

無料枠で使ってみるまでに必要な手続き

  • Googleアカウントを作っておく
  • https://console.cloud.google.com/getting-started にアクセスし、『有効なAPIとサービス』メニューからGeocoding APIを探し有効化
  • https://console.cloud.google.com/billing で請求先アカウントを追加しておく
  • https://console.cloud.google.com/apis/credentials でAPIキーを作成しておく(XXXXとする)

アクセスを試す

以下URLにアクセスし、結果に示すような画面出力を得られるのを確認する

https://www.google.co.jp/maps/api/geocode/xml?address=skytree&sensor=true&key=XXXX

※addressの値は検索キーワード、keyの値は作成したAPIキーに適宜変更すること

結果

<GeocodeResponse>
	<status>OK</status>
	<result>
		<type>establishment</type>
		<type>point_of_interest</type>
		<type>tourist_attraction</type>
		<formatted_address>日本、〒131-0045 東京都墨田区押上1丁目1−2</formatted_address>
		<address_component>
			<long_name>2</long_name>
			<short_name>2</short_name>
			<type>premise</type>
		</address_component>
		<address_component>
			<long_name>1</long_name>
			<short_name>1</short_name>
			<type>political</type>
			<type>sublocality</type>
			<type>sublocality_level_4</type>
		</address_component>
		<address_component>
			<long_name>1丁目</long_name>
			<short_name>1丁目</short_name>
			<type>political</type>
			<type>sublocality</type>
			<type>sublocality_level_3</type>
		</address_component>
		<address_component>
			<long_name>押上</long_name>
			<short_name>押上</short_name>
			<type>political</type>
			<type>sublocality</type>
			<type>sublocality_level_2</type>
		</address_component>
		<address_component>
			<long_name>墨田区</long_name>
			<short_name>墨田区</short_name>
			<type>locality</type>
			<type>political</type>
		</address_component>
		<address_component>
			<long_name>東京都</long_name>
			<short_name>東京都</short_name>
			<type>administrative_area_level_1</type>
			<type>political</type>
		</address_component>
		<address_component>
			<long_name>日本</long_name>
			<short_name>JP</short_name>
			<type>country</type>
			<type>political</type>
		</address_component>
		<address_component>
			<long_name>131-0045</long_name>
			<short_name>131-0045</short_name>
			<type>postal_code</type>
		</address_component>
		<geometry>
			<location>
				<lat>35.7100627</lat>
				<lng>139.8107004</lng>
			</location>
			<location_type>ROOFTOP</location_type>
			<viewport>
				<southwest>
					<lat>35.7089225</lat>
					<lng>139.8084778</lng>
				</southwest>
				<northeast>
					<lat>35.7116204</lat>
					<lng>139.8132971</lng>
				</northeast>
			</viewport>
		</geometry>
		<partial_match>true</partial_match>
		<place_id>ChIJ35ov0dCOGGARKvdDH7NPHX0</place_id>
		<plus_code>
			<global_code>8Q7XPR66+27</global_code>
			<compound_code>PR66+27 東京都墨田区</compound_code>
		</plus_code>
	</result>
</GeocodeResponse>

所感

知らない人が試すには手続きで時間がかかる。けれど、ブラウザのGETメソッドで簡単にデータを取得できるから物凄く手軽。

無料枠でもいろいろ試せる&楽しめたから、いろんな人に試してほしい機能だ。